支持向量機(jī)在 R 語(yǔ)言中的實(shí)現(xiàn)和使用
來源:易賢網(wǎng) 閱讀:1253 次 日期:2015-04-02 13:50:43
溫馨提示:易賢網(wǎng)小編為您整理了“支持向量機(jī)在 R 語(yǔ)言中的實(shí)現(xiàn)和使用”,方便廣大網(wǎng)友查閱!

支持向量機(jī)是一個(gè)相對(duì)較新和較先進(jìn)的機(jī)器學(xué)習(xí)技術(shù),最初提出是為了解決二類分類問題,現(xiàn)在被廣泛用于解決多類非線性分類問題和回歸問題。繼續(xù)閱讀本文,你將學(xué)習(xí)到支持向量機(jī)如何工作,以及如何利用R語(yǔ)言實(shí)現(xiàn)支持向量機(jī)。

支持向量機(jī)如何工作?

簡(jiǎn)單介紹下支持向量機(jī)是做什么的:

假設(shè)你的數(shù)據(jù)點(diǎn)分為兩類,支持向量機(jī)試圖尋找最優(yōu)的一條線(超平面),使得離這條線最近的點(diǎn)與其他類中的點(diǎn)的距離最大。有些時(shí)候,一個(gè)類的邊界上的點(diǎn)可能越過超平面落在了錯(cuò)誤的一邊,或者和超平面重合,這種情況下,需要將這些點(diǎn)的權(quán)重降低,以減小它們的重要性。

這種情況下,“支持向量”就是那些落在分離超平面邊緣的數(shù)據(jù)點(diǎn)形成的線。

無法確定分類線(線性超平面)時(shí)該怎么辦?

此時(shí)可以將數(shù)據(jù)點(diǎn)投影到一個(gè)高維空間,在高維空間中它們可能就變得線性可分了。它會(huì)將問題作為一個(gè)帶約束的最優(yōu)化問題來定義和解決,其目的是為了最大化兩個(gè)類的邊界之間的距離。

我的數(shù)據(jù)點(diǎn)多于兩個(gè)類時(shí)該怎么辦?

此時(shí)支持向量機(jī)仍將問題看做一個(gè)二元分類問題,但這次會(huì)有多個(gè)支持向量機(jī)用來兩兩區(qū)分每一個(gè)類,直到所有的類之間都有區(qū)別。

工程實(shí)例

讓我們看一下如何使用支持向量機(jī)實(shí)現(xiàn)二元分類器,使用的數(shù)據(jù)是來自MASS包的cats數(shù)據(jù)集。在本例中你將嘗試使用體重和心臟重量來預(yù)測(cè)一只貓的性別。我們拿數(shù)據(jù)集中20%的數(shù)據(jù)點(diǎn),用于測(cè)試模型的準(zhǔn)確性(在其余的80%的數(shù)據(jù)上建立模型)。

# Setup

library(e1071)

data(cats, package="MASS")

inputData <- data.frame(cats[, c (2,3)], response = as.factor(cats$Sex)) # response as factor

線性支持向量機(jī)

傳遞給函數(shù)svm()的關(guān)鍵參數(shù)是kernel、cost和gamma。Kernel指的是支持向量機(jī)的類型,它可能是線性SVM、多項(xiàng)式SVM、徑向SVM或Sigmoid SVM。Cost是違反約束時(shí)的成本函數(shù),gamma是除線性SVM外其余所有SVM都使用的一個(gè)參數(shù)。還有一個(gè)類型參數(shù),用于指定該模型是用于回歸、分類還是異常檢測(cè)。但是這個(gè)參數(shù)不需要顯式地設(shè)置,因?yàn)橹С窒蛄繖C(jī)會(huì)基于響應(yīng)變量的類別自動(dòng)檢測(cè)這個(gè)參數(shù),響應(yīng)變量的類別可能是一個(gè)因子或一個(gè)連續(xù)變量。所以對(duì)于分類問題,一定要把你的響應(yīng)變量作為一個(gè)因子。

# linear SVM

svmfit <- svm(response ~ ., data = inputData, kernel = "linear", cost = 10, scale = FALSE) # linear svm, scaling turned OFF

print(svmfit)

plot(svmfit, inputData)

compareTable <- table (inputData$response, predict(svmfit)) # tabulate

mean(inputData$response != predict(svmfit)) # 19.44% misclassification error

徑向支持向量機(jī)

徑向基函數(shù)作為一個(gè)受歡迎的內(nèi)核函數(shù),可以通過設(shè)置內(nèi)核參數(shù)作為“radial”來使用。當(dāng)使用一個(gè)帶有“radial”的內(nèi)核時(shí),結(jié)果中的超平面就不需要是一個(gè)線性的了。通常定義一個(gè)彎曲的區(qū)域來界定類別之間的分隔,這也往往導(dǎo)致相同的訓(xùn)練數(shù)據(jù),更高的準(zhǔn)確度。

# radial SVM

svmfit <- svm(response ~ ., data = inputData, kernel = "radial", cost = 10, scale = FALSE) # radial svm, scaling turned OFF

print(svmfit)

plot(svmfit, inputData)

compareTable <- table (inputData$response, predict(svmfit)) # tabulate

mean(inputData$response != predict(svmfit)) # 18.75% misclassification error

尋找最優(yōu)參數(shù)

你可以使用tune.svm()函數(shù),來尋找svm()函數(shù)的最優(yōu)參數(shù)。

### Tuning

# Prepare training and test data

set.seed(100) # for reproducing results

rowIndices <- 1 : nrow(inputData) # prepare row indices

sampleSize <- 0.8 * length(rowIndices) # training sample size

trainingRows <- sample (rowIndices, sampleSize) # random sampling

trainingData <- inputData[trainingRows, ] # training data

testData <- inputData[-trainingRows, ] # test data

tuned <- tune.svm(response ~., data = trainingData, gamma = 10^(-6:-1), cost = 10^(1:2)) # tune

summary (tuned) # to select best gamma and cost

# Parameter tuning of 'svm':

# - sampling method: 10-fold cross validation

#

# - best parameters:

# gamma cost

# 0.001 100

#

# - best performance: 0.26

#

# - Detailed performance results:

# gamma cost error dispersion

# 1 1e-06 10 0.36 0.09660918

# 2 1e-05 10 0.36 0.09660918

# 3 1e-04 10 0.36 0.09660918

# 4 1e-03 10 0.36 0.09660918

# 5 1e-02 10 0.27 0.20027759

# 6 1e-01 10 0.27 0.14944341

# 7 1e-06 100 0.36 0.09660918

# 8 1e-05 100 0.36 0.09660918

# 9 1e-04 100 0.36 0.09660918

# 10 1e-03 100 0.26 0.18378732

# 11 1e-02 100 0.26 0.17763883

# 12 1e-01 100 0.26 0.15055453

結(jié)果證明,當(dāng)cost為100,gamma為0.001時(shí)產(chǎn)生最小的錯(cuò)誤率。利用這些參數(shù)訓(xùn)練徑向支持向量機(jī)。

svmfit <- svm (response ~ ., data = trainingData, kernel = "radial", cost = 100, gamma=0.001, scale = FALSE) # radial svm, scaling turned OFF

print(svmfit)

plot(svmfit, trainingData)

compareTable <- table (testData$response, predict(svmfit, testData)) # comparison table

mean(testData$response != predict(svmfit, testData)) # 13.79% misclassification error

F M

F 6 3

M 1 19

網(wǎng)格圖

一個(gè)2-色的網(wǎng)格圖,能讓結(jié)果看起來更清楚,它將圖的區(qū)域指定為利用SVM分類器得到的結(jié)果的類別。在下邊的例子中,這樣的網(wǎng)格圖中有很多數(shù)據(jù)點(diǎn),并且通過數(shù)據(jù)點(diǎn)上的傾斜的方格來標(biāo)記支持向量上的點(diǎn)。很明顯,在這種情況下,有很多越過邊界違反約束的點(diǎn),但在SVM內(nèi)部它們的權(quán)重都被降低了。

# Grid Plot

n_points_in_grid = 60 # num grid points in a line

x_axis_range &lt;- range (inputData[, 2]) # range of X axis

y_axis_range &lt;- range (inputData[, 1]) # range of Y axis

X_grid_points &lt;- seq (from=x_axis_range[1], to=x_axis_range[2], length=n_points_in_grid) # grid points along x-axis

Y_grid_points &lt;- seq (from=y_axis_range[1], to=y_axis_range[2], length=n_points_in_grid) # grid points along y-axis

all_grid_points &lt;- expand.grid (X_grid_points, Y_grid_points) # generate all grid points

names (all_grid_points) &lt;- c("Hwt", "Bwt") # rename

all_points_predited &lt;- predict(svmfit, all_grid_points) # predict for all points in grid

color_array &lt;- c("red", "blue")[as.numeric(all_points_predited)] # colors for all points based on predictions

plot (all_grid_points, col=color_array, pch=20, cex=0.25) # plot all grid points

points (x=trainingData$Hwt, y=trainingData$Bwt, col=c("red", "blue")[as.numeric(trainingData$response)], pch=19) # plot data points

points (trainingData[svmfit$index, c (2, 1)], pch=5, cex=2) # plot support vectors

更多信息請(qǐng)查看IT技術(shù)專欄

更多信息請(qǐng)查看技術(shù)文章
易賢網(wǎng)手機(jī)網(wǎng)站地址:支持向量機(jī)在 R 語(yǔ)言中的實(shí)現(xiàn)和使用
由于各方面情況的不斷調(diào)整與變化,易賢網(wǎng)提供的所有考試信息和咨詢回復(fù)僅供參考,敬請(qǐng)考生以權(quán)威部門公布的正式信息和咨詢?yōu)闇?zhǔn)!

2025國(guó)考·省考課程試聽報(bào)名

  • 報(bào)班類型
  • 姓名
  • 手機(jī)號(hào)
  • 驗(yàn)證碼
關(guān)于我們 | 聯(lián)系我們 | 人才招聘 | 網(wǎng)站聲明 | 網(wǎng)站幫助 | 非正式的簡(jiǎn)要咨詢 | 簡(jiǎn)要咨詢須知 | 加入群交流 | 手機(jī)站點(diǎn) | 投訴建議
工業(yè)和信息化部備案號(hào):滇ICP備2023014141號(hào)-1 云南省教育廳備案號(hào):云教ICP備0901021 滇公網(wǎng)安備53010202001879號(hào) 人力資源服務(wù)許可證:(云)人服證字(2023)第0102001523號(hào)
云南網(wǎng)警備案專用圖標(biāo)
聯(lián)系電話:0871-65099533/13759567129 獲取招聘考試信息及咨詢關(guān)注公眾號(hào):hfpxwx
咨詢QQ:526150442(9:00—18:00)版權(quán)所有:易賢網(wǎng)
云南網(wǎng)警報(bào)警專用圖標(biāo)