<center><img src='https://raw.githubusercontent.com/Jangrae/img/master/ml_python.png' width=600/></center>

# 실습 내용

- 다양한 알고리즘으로 모델을 만들고 성능을 비교합니다.

# 1.환경 준비

- 기본 라이브러리와 대상 데이터를 가져와 이후 과정을 준비합니다.

In [None]:
# 라이브러리 불러오기
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import warnings

warnings.filterwarnings(action='ignore')
%config InlineBackend.figure_format = 'retina'

In [None]:
# 데이터 불러오기
path = 'https://raw.githubusercontent.com/jangrae/csv/master/admission_simple.csv'
data = pd.read_csv(path)

# 2.데이터 이해

- 분석할 데이터를 충분히 이해할 수 있도록 다양한 탐색 과정을 수행합니다.

In [None]:
# 데이터 살펴보기
data.head()

In [None]:
# 기술통계 확인
data.describe()

# 3.데이터 준비

- 전처리 과정을 통해 머신러닝 알고리즘에 사용할 수 있는 형태의 데이터를 준비합니다.

**1) x, y 분리**

In [None]:
# target 확인
target = 'ADMIT'

# 데이터 분리
x = data.drop(target, axis=1)
y = data.loc[:, target] 

**2) 학습용, 평가용 데이터 분리**

In [None]:
# 모듈 불러오기
from sklearn.model_selection import train_test_split

# 7:3으로 분리
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.3, random_state=1)

**3) 정규화**

In [None]:
# 모듈 불러오기
from sklearn.preprocessing import MinMaxScaler

# 정규화
scaler = MinMaxScaler()
scaler.fit(x_train)
x_train_s = scaler.transform(x_train)
x_test_s = scaler.transform(x_test)

# 4.모델링

- 본격적으로 모델을 선언하고 학습하고 평가하는 과정을 진행합니다.
- 다양한 알고리즘으로 모델을 만들고 성능을 확입니다.
- 성능 평가는 confusion_matrix, classification_report를 사용합니다.
- 사용할 알고리즘을 모두 불러옵니다.

In [None]:
# xgboost 설치
#!pip install xgboost

In [None]:
# lightgbm 설치
#!pip install lightgbm

In [None]:
# 라이브러리 불러오기
from sklearn.neighbors import KNeighborsClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC
from sklearn.ensemble import RandomForestClassifier
from xgboost import XGBClassifier
from lightgbm import LGBMClassifier

from sklearn.metrics import *

**1) KNN**

- KNN 알고리즘으로 모델링하고 성능을 확인합니다.

In [None]:
# 선언하기
model = KNeighborsClassifier(n_neighbors=5)

In [None]:
# 학습하기
model.fit(x_train_s, y_train)

In [None]:
# 예측하기
y_pred = model.predict(x_test_s)

In [None]:
# 평가하기
print(confusion_matrix(y_test, y_pred))
print(classification_report(y_test, y_pred))

**2) Decision Tree**

- Decision Tree 알고리즘으로 모델링하고 성능을 확인합니다.

In [None]:
# 선언하기
model = DecisionTreeClassifier(max_depth=5, random_state=1)

In [None]:
# 학습하기
model.fit(x_train, y_train)

In [None]:
# 예측하기
y_pred = model.predict(x_test)

In [None]:
# 5단계: 평가하기
print(confusion_matrix(y_test, y_pred))
print(classification_report(y_test, y_pred))

**3) Logistic Regression**

- Logistic Regression 알고리즘으로 모델링하고 성능을 확인합니다.

In [None]:
# 선언하기
model = LogisticRegression()

In [None]:
# 학습하기
model.fit(x_train, y_train)

In [None]:
# 예측하기
y_pred = model.predict(x_test)

In [None]:
# 5단계: 평가하기
print(confusion_matrix(y_test, y_pred))
print(classification_report(y_test, y_pred))

**4) SVM**

- SVM 알고리즘으로 모델링하고 성능을 확인합니다.

In [None]:
# 선언하기
model = SVC(kernel='linear', C=1, random_state=1)

In [None]:
# 학습하기
model.fit(x_train_s, y_train)

In [None]:
# 예측하기
y_pred = model.predict(x_test_s)

In [None]:
# 평가하기
print(confusion_matrix(y_test, y_pred))
print(classification_report(y_test, y_pred))

**5) Random Forest**

- Random Forest 알고리즘으로 모델링하고 성능을 확인합니다.

In [None]:
# 선언하기
model = RandomForestClassifier(max_depth=5, random_state=1)

In [None]:
# 학습하기
model.fit(x_train, y_train)

In [None]:
# 예측하기
y_pred = model.predict(x_test)

In [None]:
# 5단계: 평가하기
print(confusion_matrix(y_test, y_pred))
print(classification_report(y_test, y_pred))

In [None]:
# Feature 중요도 확인
plt.figure(figsize=(5, 5))
plt.barh(list(x), model.feature_importances_)
plt.show()

**6) XGBoost**

- XGBoost 알고리즘으로 모델링하고 성능을 확인합니다.

In [None]:
# 선언하기
model = XGBClassifier(max_depth=5, random_state=1)

In [None]:
# 학습하기
model.fit(x_train, y_train)

In [None]:
# 예측하기
y_pred = model.predict(x_test)

In [None]:
# 평가하기
print(confusion_matrix(y_test, y_pred))
print(classification_report(y_test, y_pred))

In [None]:
# Feature 중요도 확인
plt.figure(figsize=(5, 5))
plt.barh(list(x), model.feature_importances_)
plt.show()

**7) LightGBM**

- LightGBM 알고리즘으로 모델링하고 성능을 확인합니다.

In [None]:
# 선언하기
model = LGBMClassifier(max_depth=5, random_state=1)

In [None]:
# 학습하기
model.fit(x_train, y_train)

In [None]:
# 예측하기
y_pred = model.predict(x_test)

In [None]:
# 평가하기
print(confusion_matrix(y_test, y_pred))
print(classification_report(y_test, y_pred))

In [None]:
# Feature 중요도 확인
plt.figure(figsize=(5, 5))
plt.barh(list(x), model.feature_importances_)
plt.show()