# 서포트 벡터 머신(Support Vector Machine = SVM)
- 회귀, 분류, 이상치 검출에 사용할 수 있는 지도학습 모델
- 분류를 위한 기준선을 정의하는 모델
- 분류를 위한 기준선 = 결정 경계


---
- 결정경계는 속성에 따라 변화
  - 속성 2개 = 2차원 형태 -> 선 형태
  - 속성 3개 = 3차원 형태 -> 평면 형태

- N개 속성일 때 결정경계 = "초평면"(Hyperplane)
- (단순한 평면이 아닌 고차원일 때)


---
- 좋은 결정 경계란?
  - 각 클래스의 데이터와 결정경계 사이의 거리가 가장 멀때 이상적인 집합 범위
  - 데이터와 결정경계 사이의 거리 = 마진(Margin)


---
- 마진 구하기
  - 가장 가까운 데이터들 사이에 위치하도록 결정경계를 긋고, 마진을 구함
  - 결정 경계와 가까이 있는 데이터를 Support Vector라고 함
- Outlier(이상치)
  - 특정 지정된 그룹으로 분류되지 못하는 데이터
  - 마진의 크기 결정에 따라서 데이터의 이상치를 얼마나 허용할지 결정됨 -> 소프트마진과 하드마진


---
- Soft Margin
  - 이상치 많이 허용, 마진이 큼
    - 이상치를 허용하여 Support Vector와 결정 경계가 멀어져 마진이 커짐
    - 과소적합의 가능성 증가
    - 학습을 위해 충분한 데이터를 활용하지 못함

- Hard Margin
  - 이상치 허용 X, 마진이 작음
    - 이상치를 허용하지 않아 Support Vector와 결정 경계가 가까워져 마진이 작아짐
    - 과대적합의 가능성 증가
    - 모든 데이터를 활용하여 그대로 학습


---

- 하이퍼파라미터(Hyperparameter)
  - 사이킷런의 SVM 알고리즘에서 이상치를 얼마나 허용할지 지정가능(기본값은 C=1)
  - C값이 클수록 하드마진, C값이 작을수록 소프트마진



---

SVM의 커널 방법
- 비선형 데이터 다루기
  - 커널 방법
    - 현재 차원의 데이터들을 더 높은 차원으로 변환

---
- 커널함수
  1. Poly
    - 2차원 데이터를 3차원 데이터 공간으로 변형한 후, 선형 분류
  2. RBF
    - 2차원 데이터를 무한한 차원의 공간상으로 변형한 후 분류
    - Gamma 파라미터 : 결정경계를 얼마나 유연하게 그릴지 결정




In [1]:
#[SVM 간단한 예제] : SVM을 사용하여 2차원 데이터를 학습하고 예측하는 예제
# linear : 2차원 데이터

from sklearn.svm import SVC

# SVC 클래스의 인스턴스를 생성하고, 커널을 'linear'로 설정합니다.
# linear : 선형분류
classifier = SVC(kernel='linear')

# 학습에 사용할 데이터를 리스트 형태로 정의합니다.
# 각 데이터 포인트는 2차원 좌표로 표현되며, '[x,y]'형태이다.
training_points = [[2,1],[4,7],[2,8],[7,1],[3,3],[0,9]]

#학습 데이터의 레이블을 리스트 형태로 정의
labels = [1,2,6,4,4,2] # 데이터가 6개의 클래스(1,2,4,6)으로 구성됨.


classifier.fit(training_points, labels)

In [2]:
#학습된 모델을 이용하여 새로운 데이터 [[4,2]]의 예측값을 출력
#모델이 학습한 데이터 중에서 [[4,2]]와 가장 유사한 클래스를 찾아 해당 클래스의 레이블을 반환
#해당 모델은 [[4,2]]를 클래스 4로 분류했다고 판단하기 때문에 '[4]'출력

print(classifier.predict([[4,2]]))

[4]


In [3]:
#모델의 서포트 벡터를 출력
classifier.support_vectors_

'''
결과를 보면, 각 데이터 포인트는 2차원 공간에서 x와 y좌표로 표현된다.
이는 해당 모델이 2차원 데이터를 학습했다는 것을 의미한다.
각 데이터 포인트는 모델의 결정 경계를 정의하는데 중요한 역할을 한다.


[2., 1.]: 이 점은 학습된 SVM 모델이 정의한 결정 경계를 생성하는 데 중요한 역할을 한 데이터 포인트입니다.
SVM은 이 점을 포함하여 결정 경계를 찾아가는 방식으로 분류를 수행합니다.

[4., 7.], [0., 9.], [3., 3.], [2., 8.]: 이들 점들도 마찬가지로 SVM 모델이 결정 경계를 정의하는 데 필요한 데이터 포인트입니다.
이들은 모델이 데이터를 어떻게 분리할지 결정하는 데 기여하는 서포트 벡터들입니다.
'''

array([[2., 1.],
       [4., 7.],
       [0., 9.],
       [3., 3.],
       [2., 8.]])

In [56]:
#[SVC응용]
#[1] 데이터 준비 및 전처리
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

In [57]:
weather_data = pd.read_csv('/content/drive/MyDrive/머신러닝_오유수/weatherHistory.csv')
weather_data.info() #데이터의 기본 정보를 출력
# 열의 수, 데이터 타입 및 null 값 여부 등을 확인가능

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 96453 entries, 0 to 96452
Data columns (total 12 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   Formatted Date            96453 non-null  object 
 1   Summary                   96453 non-null  object 
 2   Precip Type               95936 non-null  object 
 3   Temperature (C)           96453 non-null  float64
 4   Apparent Temperature (C)  96453 non-null  float64
 5   Humidity                  96453 non-null  float64
 6   Wind Speed (km/h)         96453 non-null  float64
 7   Wind Bearing (degrees)    96453 non-null  float64
 8   Visibility (km)           96453 non-null  float64
 9   Loud Cover                96453 non-null  float64
 10  Pressure (millibars)      96453 non-null  float64
 11  Daily Summary             96453 non-null  object 
dtypes: float64(8), object(4)
memory usage: 8.8+ MB


In [58]:
weather_data.isnull().sum()  #각 열의 null 값의 개수를 확인

Unnamed: 0,0
Formatted Date,0
Summary,0
Precip Type,517
Temperature (C),0
Apparent Temperature (C),0
Humidity,0
Wind Speed (km/h),0
Wind Bearing (degrees),0
Visibility (km),0
Loud Cover,0


In [59]:
#'Precip Type' 열에서 null 값을 'rain'으로 채웁니다. 그리고 다시 null 값의 개수를 확인합니다.
weather_data['Precip Type'].fillna(value='rain', inplace=True)
weather_data.isnull().sum()

Unnamed: 0,0
Formatted Date,0
Summary,0
Precip Type,0
Temperature (C),0
Apparent Temperature (C),0
Humidity,0
Wind Speed (km/h),0
Wind Bearing (degrees),0
Visibility (km),0
Loud Cover,0


In [60]:
weather_data['Precip Type'] = weather_data['Precip Type'].map({'rain':1, 'snow':0}).astype(int)

In [61]:
#분석에 사용할 데이터(data)와 예측할 타겟 변수(target)를 설정합니다.
#여기서는 온도와 습도를 입력 데이터로 사용하고, 'Precip Type'을 예측할 목표 변수로 설정합니다.
data = weather_data[['Temperature (C)','Humidity']]
target = weather_data['Precip Type']

In [62]:
print(data)

       Temperature (C)  Humidity
0             9.472222      0.89
1             9.355556      0.86
2             9.377778      0.89
3             8.288889      0.83
4             8.755556      0.83
...                ...       ...
96448        26.016667      0.43
96449        24.583333      0.48
96450        22.038889      0.56
96451        21.522222      0.60
96452        20.438889      0.61

[96453 rows x 2 columns]


In [63]:
#[2] 데이터 분할 및 스케일
from sklearn.model_selection import train_test_split

#데이터를 학습용(train_data, train_target)과 테스트용(test_data, test_target)으로 분할합니다.
#여기서는 데이터의 80%를 학습에 사용하고 20%를 테스트에 사용하며, shuffle=False로 설정하여 데이터를 섞지 않습니다.
train_data, test_data, train_target, test_target = train_test_split(data, target, test_size=0.2, shuffle = False)

In [64]:
#데이터를 표준화하기 위해 StandardScaler를 사용하여 학습 데이터와 테스트 데이터를 변환합니다.
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
train_data = scaler.fit_transform(train_data)
test_data = scaler.transform(test_data)

In [65]:
#[3] SVM 모델 학습 및 평가
'''
선형 커널 SVM('kernel='linear'')
선형 커널을 사용하는 SVM 모델을 생성하고 학습합니다.
C=1.0은 오차 허용 마진의 강도를 설정하는 매개변수로, 클수록 오차에 대해 엄격해지고 작을수록 오차에 대해 덜 엄격해집니다.
'''
from sklearn import svm
clf_kl = svm.SVC(kernel='linear', C=1.0)
clf_kl.fit(train_data, train_target)

print("SVC Kernel_linear")
print("train data accurary")
print(clf_kl.score(train_data, train_target))
print("test data accurary")
print(clf_kl.score(test_data, test_target))
# -> 학습 데이터와 테스트 데이터의 정확도가 비슷하면 모델이 과적합되지 않았음을 의미함.

# 선형 커널 SVM에서는 각 특성의 가중치를 나타내는 속성이다.
# 이 값은 특성들이 예측에 얼마나 중요한지를 알려준다.
print("clf coef")
print(clf_kl.coef_)

'''
C=1.0은 오차 허용 마진의 강도를 설정하는 매개변수입니다.
score() 메서드를 사용하여 학습 데이터와 테스트 데이터에서의 정확도를 출력합니다.
coef_ 속성은 각 특성의 가중치를 나타냅니다
'''
# 혼동 행렬(confusion matrix)을 출력한다.
# 이 분류 모델의 성능을 평가하는 중요한 지표 중 하나이다.
# 행렬의 각 요소는 실제 클래스와 예측 클래스의 조합에 따른 샘플의 개수를 나타낸다.
from sklearn.metrics import confusion_matrix

y_pred = clf_kl.predict(train_data)
confusion_matrix(train_target, y_pred)

'''
#결과 해석
- 학습 데이터 정확도
: 학습 데이터에서 모델이 얼마나 정확하게 예측하는지 나타냅니다.
: 현재 정확도는 99.18%로 학습 데이터에서 대부분의 샘플이 정확하게 분류했음을 나타냄.

- 테스트 데이터 정확도
: 테스트 데이터에서 모델이 얼마나 정확하게 예측하는지 나타냅니다.
: 현재 정확도는 99.18%로 학습 데이터와 테스트 데이터 간의 정확도 차이가 거의 없으므로 모델이 데이터에 잘 일반화되었다고 할 수 있다.

- coef
: 선형 커널 sym 모델에서 온도와 습도 특성의 가중치는 각각 약 25.88과 0.27이다.
: 이는 각 특성이 예측에 얼마나 중요한 역할을 하는지 나타낸다.

- 혼동행렬
: 실제값과 예측값을 기준으로 계산한 혼동 행렬을 다음과 같다.
: 실제 '0'인 데이터는 9379건으로 모두 올바르게 예측했습니다.
: 실제 '1'인 데이터는 629건 중 67154건을 올바르게 예측했습니다.

이를 통해 모델의 분류 성능이 매우 우수함을 확인할 수 있습니다.
'''

SVC Kernel_linear
train data accurary
0.9918483191208107
test data accurary
0.9939868332382976
clf coef
[[25.88317282  0.27106152]]


array([[ 9379,     0],
       [  629, 67154]])

In [66]:
'''
다항 커널 SVM('kernel='poly'')
: 다항 커널을 사용하는 SVM 모델을 생성하고 학습합니다.
: 다항 커널은 비선형 문제를 다룰 수 있다.
'''
clf_poly = svm.SVC(kernel='poly', C=1.0)
clf_poly.fit(train_data, train_target)

print("SVC Kernel_poly")
print("train data accurary")
print(clf_poly.score(train_data, train_target))
print("test data accurary")
print(clf_poly.score(test_data, test_target))

y_pred = clf_poly.predict(train_data)
confusion_matrix(train_target, y_pred)

SVC Kernel_poly
train data accurary
0.9921075140613255
test data accurary
0.99414234617179


array([[ 9379,     0],
       [  609, 67174]])

In [67]:
'''
RBF커널 SVM('kernel='rbf'')
: RBF커널을 사용하는 SVM 모델을 생성하고 학습한다.
: 'gamma'매개변수는 결정 경계의 곡률을 조절한다.
'''
clf_rbf = svm.SVC(kernel='rbf', C=1.0, gamma = 1)
clf_rbf.fit(train_data, train_target)

print("SVC Kernel_rbf")
print("train data accurary")
print(clf_rbf.score(train_data, train_target))
print("test data accurary")
print(clf_rbf.score(test_data, test_target))

y_pred = clf_rbf.predict(train_data)
confusion_matrix(train_target, y_pred)

KeyboardInterrupt: 

In [None]:
'''
선형SVM('LinearSVC')
: 선형SVM을 사용하는 LinearSVC 모델을 생성하고 학습한다.
: 반복횟수를 제한하는 'max_iter'매개변수 설정함
'''
clf_linearSVC = svm.LinearSVC(C=1.0, max_iter=10000)
clf_linearSVC.fit(train_data, train_target)
print("SVC linearSVC")
print("train data accurary")
print(clf_linearSVC.score(train_data, train_target))
print("test data accurary")
print(clf_linearSVC.score(test_data, test_target))

y_pred = clf_linearSVC.predict(train_data)
confusion_matrix(train_target, y_pred)

In [None]:
'''
NuSVC SVM('NuSVC')
: Nu값을 설정하여 NuSVC모델을 생성하고 학습한다.
: 'nu', 'kernel', 'gamma' 매개변수를 조정하여 SVM모델의 특성을 설정할 수 있다.
'''
clf_NuSVC = svm.NuSVC(nu=0.2, kernel='rbf', gamma='scale')
clf_NuSVC.fit(train_data, train_target)
print("SVC NuSVC")
print("train data accurary")
print(clf_NuSVC.score(train_data, train_target))
print("test data accurary")
print(clf_NuSVC.score(test_data, test_target))

y_pred = clf_NuSVC.predict(train_data)
confusion_matrix(train_target, y_pred)

In [None]:
# [4] 예측 및 결과 해석
# : 마지막으로, 각 SVM 모델을 사용하여 새로운 데이터('exe')에 대해 예측을 수행하고 출력한다.
# : 예측 결과는 각 모델에서 출력한다.
exe = np.array([[20, 0.8]], dtype=np.int32)
print("20도 습도가 0.8일때 눈이올까 비가올까\n")
print("SVC_linear_kernel일 때 예측값")
print(clf_kl.predict(exe))

print("SVC_poly_kernel일 때 예측값")
print(clf_poly.predict(exe))

print("SVC_rbf_kernel일 때 예측값")
print(clf_rbf.predict(exe))

print("SVC_linearSVC일 때 예측값")
print(clf_linearSVC.predict(exe))

print("SVC_NuSVC일 때 예측값")
print(clf_NuSVC.predict(exe))

'''
"결과설명"
각 SVM 모델의 score() 메서드를 통해 학습 데이터와 테스트 데이터에서의 정확도를 확인할 수 있습니다.
정확도는 0에서 1 사이의 값을 가지며, 1에 가까울수록 예측이 정확합니다.
confusion_matrix 함수를 사용하여 각 모델의 학습 데이터에 대한 혼동 행렬을 출력하고, 예측의 정확성과 오차 패턴을 분석할 수 있습니다.
predict() 메서드를 사용하여 새로운 데이터 포인트에 대해 각 모델이 예측하는 클래스를 출력합니다.
이를 통해 주어진 온도와 습도에서 눈이 올 가능성이나 비가 올 가능성을 예측할 수 있습니다.
'''

# 사이킷런의 SVR(Support Vector Regression)
- SVR
  - SVM 회귀를 위한 사이킷런의 알고리즘
  - SVR의 손실함수는 실제값과 추정값의 차이를 작게하는 선을 찾기 위해 사용
  - SVR, NuSVR, LinearSVR

In [37]:
#[SVR응용]
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

w_data = pd.read_csv('/content/drive/MyDrive/머신러닝_오유수/weatherHistory.csv')

In [38]:
w_data['Precip Type'].fillna(value='rain', inplace=True)
w_data['Precip Type'] = w_data['Precip Type'].map({'rain':0, 'snow':1}).astype(int)
w_data = w_data[:10000]

In [45]:
data = w_data[['Temperature (C)']]
target = w_data['Humidity']

from sklearn.model_selection import train_test_split
train_data, test_data, train_target, test_target = train_test_split(data, target, test_size=0.2, shuffle = False)

from sklearn.preprocessing import StandardScaler
st = StandardScaler()
train_data_scale = st.fit_transform(train_data)
test_data_scale = st.transform(test_data)

In [46]:
# [선형 커널 SVR]
from sklearn import svm
clf_svr_linear = svm.SVR(kernel='linear', C=1.0)
clf_svr_linear.fit(train_data_scale, train_target)

r_linear = clf_svr_linear.predict(test_data_scale[:5])
print(r_linear)
print(test_target[:5])
print(test_data[:5])

[0.77365865 0.7558779  0.72448026 0.71333916 0.70709339]
8000    0.87
8001    0.89
8002    0.78
8003    0.71
8004    0.70
Name: Humidity, dtype: float64
      Temperature (C)
8000        11.138889
8001        12.894444
8002        15.994444
8003        17.094444
8004        17.711111


In [47]:
#온도가 11.138889도일 때 원래 타겟 값 0.87
print(clf_svr_linear.predict(st.transform([[11.138889]])))

#온도가 11도일 때 예측
print(clf_svr_linear.predict(st.transform([[11]])))

[0.77365865]
[0.77506535]




In [49]:
# [다항 커널 SVR]
clf_svr_poly = svm.SVR(kernel='poly', C=1.0)
clf_svr_poly.fit(train_data_scale, train_target)
r_poly = clf_svr_poly.predict(test_data_scale[:5])
print(r_poly)

[0.79457562 0.79408726 0.78825777 0.7835707  0.78014036]


In [50]:
clf_svr_rbf = svm.SVR(kernel='rbf', C=1.0, gamma=1)
clf_svr_rbf.fit(train_data_scale, train_target)
r_rbf = clf_svr_rbf.predict(test_data_scale[:5])
print(r_rbf)

[0.82384789 0.80523191 0.7745498  0.7640461  0.75720422]


In [51]:
print(clf_svr_linear.predict(st.transform([[11]])))
print(clf_svr_poly.predict(st.transform([[11]])))
print(clf_svr_rbf.predict(st.transform([[11]])))

[0.77506535]
[0.79457968]
[0.82518888]




In [53]:
print('x_data 0~4번까지 온도별 습도 예측값')
results_lin = clf_svr_linear.predict(test_data_scale[:5])
results_poly = clf_svr_poly.predict(test_data_scale[:5])
results_rbf = clf_svr_rbf.predict(test_data_scale[:5])
print(results_lin)
print(results_poly)
print(results_rbf)

print('x_data 0~4번까지 온도별 습도 라벨값')
print(test_target[0:5])

x_data 0~4번까지 온도별 습도 예측값
[0.77365865 0.7558779  0.72448026 0.71333916 0.70709339]
[0.79457562 0.79408726 0.78825777 0.7835707  0.78014036]
[0.82384789 0.80523191 0.7745498  0.7640461  0.75720422]
x_data 0~4번까지 온도별 습도 라벨값
8000    0.87
8001    0.89
8002    0.78
8003    0.71
8004    0.70
Name: Humidity, dtype: float64


In [54]:
print(clf_svr_linear.predict(st.transform([[11]])))
print(clf_svr_poly.predict(st.transform([[11]])))
print(clf_svr_rbf.predict(st.transform([[11]])))

print("177 2006-04-16 07:00:00.000 +0200 Mostly Cloudy rain 11.13333333 11.13333333 0.77 15.4882 150 9.982 0 1013.27 Mostly cloudy throughout the day")

print(target[176])

[0.77506535]
[0.79457968]
[0.82518888]
177 2006-04-16 07:00:00.000 +0200 Mostly Cloudy rain 11.13333333 11.13333333 0.77 15.4882 150 9.982 0 1013.27 Mostly cloudy throughout the day
0.77


