<center><img src='https://raw.githubusercontent.com/Jangrae/img/master/ml_python.png' width=600/></center>

# 실습 내용

- Boston 데이터로 모델링합니다.
- SVM 알고리즘으로 모델링합니다.

# 1.환경 준비

- 기본 라이브러리와 대상 데이터를 가져와 이후 과정을 준비합니다.

In [None]:
# 라이브러리 불러오기
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

%config InlineBackend.figure_format='retina'

In [None]:
# 데이터 읽어오기
path = 'https://raw.githubusercontent.com/jangrae/csv/master/boston.csv'
data = pd.read_csv(path)

# 2.데이터 이해

- 분석할 데이터를 충분히 이해할 수 있도록 다양한 탐색 과정을 수행합니다.

In [None]:
# 상위 몇 개 행 확인
data.head()

In [None]:
# 기초통계량 확인
data.describe()

In [None]:
# NaN 값 확인
data.isnull().sum()

In [None]:
# 상관관계 확인
data.corr()

# 3.데이터 준비

- 전처리 과정을 통해 머신러닝 알고리즘에 사용할 수 있는 형태의 데이터를 준비합니다.

**1) x, y 분리**

In [None]:
# target 확인
target = 'medv'

# 데이터 분리
x = data.drop(target, axis=1)
y = data[target]

**2) 정규화**

In [None]:
# 정규화
x = (x - x.min()) / (x.max() - x.min())

# 확인
x.head()

**3) 학습용, 평가용 데이터 분리**

In [None]:
# 모듈 불러오기
from sklearn.model_selection import train_test_split

# 데이터 분리
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.3, random_state=2022)

# 4.모델링

- 본격적으로 모델을 **선언**하고 **학습**하고 **평가**하는 과정을 진행합니다.

In [None]:
# 1단계: 불러오기
from sklearn.svm import SVR
from sklearn.metrics import mean_absolute_error, r2_score

# 2단계: 선언하기
model = SVR(kernel='linear', epsilon=0.1)

# 3단계: 학습하기
model.fit(x_train, y_train)

# 4단계: 예측하기
y_pred = model.predict(x_test)

# 5단계: 평가하기
print(mean_absolute_error(y_test, y_pred))
print(r2_score(y_test, y_pred))

# 5.Epsilon과 C에 대한 이해

## 5.1.epsilon에 따른 성능 확인

- SVR 알고리즘에서 epsilon은 마진의 폭을 조절하는 역할을 합니다.
- 데이터셋의 특성에 따라 이 값이 영향을 주지 못하는 경우도 많이 있습니다.

In [None]:
# 비교할 Epsilon 값
chk_ep = [0.0001, 0.001, 0.01, 0.1, 1, 10]

# 시각화
for n in chk_ep:
    model = SVR(kernel='linear', epsilon=n)
    model.fit(x_train, y_train)

    plt.figure(figsize=(15, 3))
    
    # 가중치 시각화      
    plt.subplot(1, 3, 1)
    plt.title('Epsilon=' + str(model.epsilon))
    plt.barh(y=list(x), width=model.coef_.reshape(-1))
    
    # 학습 성능 시각화
    plt.subplot(1, 3, 2)
    plt.title('Train R2=' + str(model.score(x_train, y_train).round(3)))
    plt.plot(y_train.values)
    plt.plot(model.predict(x_train))  
    
    # 평가 성능 시각화
    plt.subplot(1, 3, 3)
    plt.title('Test R2=' + str(model.score(x_test, y_test).round(3)))
    plt.plot(y_test.values)
    plt.plot(model.predict(x_test))  
    
    plt.show()

## 5.2.C 값 변화에 따른 성능

- SVR에서 C 값은 규제(Regulization)에 사용됩니다.
- 규제는 과대적합을 방지하기 위해 강제로 가중치를 조정하는 역할입니다.
- SVR의 규제는 전체 가중치를 조절하는 L2 규제입니다.

In [None]:
# 비교할 C 값
chk_c = [0.001, 0.01, 0.1, 1, 10, 100]

# 시각화
for n in chk_c:
    model = SVR(kernel='linear', C=n)
    model.fit(x_train, y_train)

    plt.figure(figsize=(15, 3))
    
    # 가중치 시각화     
    plt.subplot(1, 3, 1)
    plt.title('C=' + str(model.C))
    plt.barh(y=list(x), width=model.coef_.reshape(-1))
    
    # 학습 성능 시각화
    plt.subplot(1, 3, 2)
    plt.title('Train R2=' + str(model.score(x_train, y_train).round(3)))
    plt.plot(y_train.values)
    plt.plot(model.predict(x_train))  
    
    # 평가 성능 시각화
    plt.subplot(1, 3, 3)
    plt.title('Test R2=' + str(model.score(x_test, y_test).round(3)))
    plt.plot(y_test.values)
    plt.plot(model.predict(x_test))  
    
    plt.show()