<center><img src='https://raw.githubusercontent.com/Jangrae/img/master/ml_python.png' width=600/></center>

<img src = "https://github.com/Jangrae/img/blob/master/admission.png?raw=true" width=800 align="left"/>

# 실습 내용

- Admission 데이터로 모델링합니다.
- SVM 알고리즘으로 모델링합니다.


# 1.환경 준비

- 기본 라이브러리와 대상 데이터를 가져와 이후 과정을 준비합니다.

In [None]:
# 라이브러리 불러오기
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import warnings

warnings.filterwarnings(action='ignore')
%config InlineBackend.figure_format='retina'

In [None]:
# 데이터 읽어오기
path = 'https://raw.githubusercontent.com/jangrae/csv/master/admission_simple.csv'
data = pd.read_csv(path)

# 2.데이터 이해

- 분석할 데이터를 충분히 이해할 수 있도록 다양한 탐색 과정을 수행합니다.

In [None]:
# 상위 몇 개 행 확인
data.head()

In [None]:
# 기술통계 확인
data.describe()

In [None]:
# 범주값 개수 확인
data['ADMIT'].value_counts()

In [None]:
# 변수 정보 확인
data.info()

In [None]:
# 상관관계 확인
data.corr()

# 3.데이터 준비

- 전처리 과정을 통해 머신러닝 알고리즘에 사용할 수 있는 형태의 데이터를 준비합니다.

**1) x, y 분리**

- target 변수를 명확히 지정합니다.
- target을 제외한 변수를 x 데이터프레임으로 선언합니다.
- y 데이터프레임은 target 변수만을 가집니다.

In [None]:
# target 확인
target = 'ADMIT'

# 데이터 분리
# x = data.drop(target, axis=1)
# 'GRE', 'GPA' 열만 x 변수로 설정
x = data[['GRE', 'GPA']]
y = data[target]

**2) 학습용, 평가용 데이터 분리**

- 학습용, 평가용 데이터를 적절한 비율로 분리합니다.
- 반복 실행 시 동일한 결과를 얻기 위해 random_state 옵션을 지정합니다.

In [None]:
# 모듈 불러오기
from sklearn.model_selection import train_test_split

# 7:3으로 분리
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.3, random_state=1)  

**3) 정규화**

- SVM 알고리즘을 사용하기 위해 정규화를 진행합니다.

In [None]:
# 모듈 불러오기
from sklearn.preprocessing import MinMaxScaler

# 정규화
scaler = MinMaxScaler()
scaler.fit(x_train)
x_train = scaler.transform(x_train)
x_test = scaler.transform(x_test)

# 4.모델링

- 본격적으로 모델을 선언하고 학습하고 평가하는 과정을 진행합니다.

In [None]:
# 1단계: 불러오기
from sklearn.svm import SVC
from sklearn.metrics import confusion_matrix, classification_report

In [None]:
# 2단계: 선언하기
model = SVC(kernel='linear', C=1, random_state=1)

In [None]:
# 3단계: 학습하기
model.fit(x_train, y_train)

In [None]:
# 4단계: 예측하기
y_pred = model.predict(x_test)

In [None]:
# 5단계 평가하기
print(confusion_matrix(y_test, y_pred))
print(classification_report(y_test, y_pred))

# 5.기타

- 기타 필요한 내용이 있으면 진행합니다.

In [None]:
#  시각화
xx = np.linspace(0, 1, 30)
yy = np.linspace(0, 1, 30)
yy, xx = np.meshgrid(yy, xx)
xy = np.vstack([xx.ravel(), yy.ravel()]).T
z = model.decision_function(xy).reshape(xx.shape)

plt.figure(figsize=(8, 5))
sns.scatterplot(x=x_train[:,0], y=x_train[:, 1], hue=y_train, s=20)
# plt.scatter(model.support_vectors_[:, 0], 
#             model.support_vectors_[:, 1], 
#             s=50,
#             linewidth=0.5,
#             facecolors='none', 
#             color='r')
plt.contour(xx, yy, z, 
            levels=[-1, 0, 1], 
            alpha=0.5,
            colors=['gray', 'red', 'gray'],
            linestyles=['--', '-', '--'])

plt.xlabel('GRE')
plt.ylabel('GPA')
plt.show()