# 파이썬으로 데이터마이닝 시작하기
## 제 6 장 - 회귀와 분류를 이용한 예측
### Copyright: Nathan Greeneltch, PhD 2019

In [None]:
import numpy as np
import pandas as pd
import seaborn as sns
sns.set_context("paper", font_scale=1.5)
sns.set_style("white")

# 회귀

## 회귀 예제 데이터

In [None]:
# 모듈 임포트
from sklearn.datasets import fetch_california_housing
from sklearn.model_selection import train_test_split

In [None]:
ds = fetch_california_housing(as_frame=True)
ds_df = pd.DataFrame(ds.data, columns=ds.feature_names)
print(ds.frame.columns)
print(ds.data.columns)
print(ds_df.columns)
print(ds_df.shape)

In [None]:
ds.frame.head()

In [None]:
ds.data.head()

In [None]:
ds_df.head()

In [None]:
ds.target.head()

In [None]:
ds.frame.info()

In [None]:
# 훈련/테스트 데이터로 나눠진 california_housing 데이터를 구하는 함수
def get_california_housing():
    # california_housing 데이터셋 불러오기
    dataset = fetch_california_housing()
    df = pd.DataFrame(dataset.data, columns=dataset.feature_names)
    df['MedHouseVal'] = dataset.target
    df.index.name = 'record'
           
    # 훈련 데이터셋과 테스트 데이터셋으로 나누기
    X_train, X_test, y_train, y_test = \
        train_test_split(df.loc[:, df.columns != 'MedHouseVal'], 
                         df['MedHouseVal'], test_size=.33, random_state=42)

    return [X_train, X_test, y_train, y_test]

## 선형 회귀

In [None]:
### 선형 회귀 ###
# 모듈 임포트
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score

# 훈련 데이터셋과 테스트 데이터셋으로 나누기
X_train, X_test, y_train, y_test = get_california_housing()

# 회귀 객체 초기화와 훈련 데이터에 대한 적합
clf = LinearRegression()
clf.fit(X_train, y_train)

# 테스트 데이터에서의 예측과 y_test에 대한 예측의 점수화
y_pred = clf.predict(X_test)
r2 = r2_score(y_test, y_pred) 
print('r2 score is = ' + str(r2))

## 패널티 회귀를 활용한 규제화(Regularization)

In [None]:
### 라쏘(Lasso) 회귀 ###
# 모듈 임포트
from sklearn.linear_model import Lasso
from sklearn.metrics import r2_score

# 훈련 데이터셋과 테스트 데이터셋으로 나누기
X_train, X_test, y_train, y_test = get_california_housing()

# 분류기 객체 초기화와 훈련 데이터에 대한 적합
clf = Lasso(alpha=0.3)
clf.fit(X_train, y_train)

# 테스트 데이터 상에서의 예측과 y_test에 대한 예측 점수화
y_pred = clf.predict(X_test)
r2 = r2_score(y_test, y_pred) 
print('r2 score is = ' + str(r2))

In [None]:
### 릿지(Ridge) 회귀 ###
# 모듈 임포트
from sklearn.linear_model import Ridge
from sklearn.metrics import r2_score

# 훈련 데이터셋과 테스트 데이터셋으로 나누기
X_train, X_test, y_train, y_test = get_california_housing()

# 분류기 객체 초기화와 훈련 데이터에 대한 적합
clf = Ridge(alpha=0.3)
clf.fit(X_train, y_train)

# 테스트 데이터 상에서의 예측과 y_test에 대한 예측 점수화
y_pred = clf.predict(X_test)
r2 = r2_score(y_test, y_pred) 
print('r2 score is = ' + str(r2))

# 분류(Classification)

## 직관을 얻기 위한 분류기 예제 공부

이 장의 나머지 부분에서는 예측에 사용되는 흔한 기법들을 다룰 것이다. 아래 그림은 다른 예측 기법들에 사용되는 여러 플롯들을 제시하고, 어떻게 그 플롯들이 입력 데이터를 타깃 변수에 매핑하는지를 보여준다.

In [None]:
from IPython.display import Image
Image("compare_prediction_methods.jpg")

## 분류 예제 데이터

In [None]:
# 모듈 임포트
from sklearn.datasets import make_moons
from sklearn.model_selection import train_test_split

# 모의 moon 데이터를 얻기 위한 함수
def get_moon_data():
    # 데이터 모음을 생성하고 훈련 데이터와 테스트 데이터로 나누기
    X, y = make_moons(n_samples=150, noise=0.4, random_state=42)
    X_train, X_test, y_train, y_test = \
        train_test_split(X, y, test_size=.33, random_state=42)
    
    return [X_train, X_test, y_train, y_test]

## 로지스틱 회귀(Logistic Regression)

In [None]:
### 로지스틱 회귀 분류 ###
# 모듈 임포트
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import f1_score

# moon 데이터 얻기
X_train, X_test, y_train, y_test = get_moon_data()

# 분류 객체 초기화와 훈련 데이터에 대한 적합
clf = LogisticRegression(solver='lbfgs')
clf.fit(X_train, y_train)

# 테스트 데이터 상에서의 예측과 y_test에 대한 예측 점수화
y_pred = clf.predict(X_test)
f1 = f1_score(y_test, y_pred) 
print('f1 score is = ' + str(f1))

In [None]:
### confusion matrix ###
from sklearn.metrics import confusion_matrix
import matplotlib.pyplot as plt
from matplotlib.colors import ListedColormap

# confusion matrix 생성
cm = confusion_matrix(y_pred, y_test) 

# 데이터프레임 생성과 클래스명 부여
labels = ['top crescent', 'bottom cresent']
df_cm = pd.DataFrame(cm,
                     index = labels, 
                     columns = labels)

# 플롯 규격 지정
plt.figure(figsize=(5.5,4))
sns.heatmap(df_cm, cmap="GnBu", annot=True)

# 제목과 축에 대한 레이블 부여
plt.title('Logistic Regression \nF1 Score:{0:.3f}'.format(f1_score(y_test, y_pred)))
plt.ylabel('Prediction')
plt.xlabel('Actual Class')
plt.show()

### 규제화된 로지스틱 회귀(Regularized Logistic Regression)

In [None]:
### 규제화된 로지스틱 회귀(Regularized Logistic Regression) ###
clf = LogisticRegression(solver='lbfgs', penalty='l2', C=0.5)

## 서포트 벡터 머신(Support Vector Machines)

In [None]:
### 서포트 벡터 머신 분류(SVM Classification) ###
# 모듈 임포트
from sklearn.svm import SVC
from sklearn.metrics import f1_score

# moon 데이터 얻기
X_train, X_test, y_train, y_test = get_moon_data()

# 분류 객체 초기화와 훈련 데이터에 대한 적합
clf = SVC(kernel="linear", C=0.5)
clf.fit(X_train, y_train)

# 테스트 데이터 상에서의 예측과 y_test에 대한 예측 점수화
y_pred = clf.predict(X_test)
f1 = f1_score(y_test, y_pred) 
print('f1 score is = ' + str(f1))

### 가우시안 커널 분류를 사용한 서포트 벡터 머신

In [None]:
### 가우시안 커널 분류를 사용한 서포트 벡터 머신 ###
# 분류 객체 초기화와 훈련 데이터에 대한 적합
clf = SVC(gamma=2, C=1)
clf.fit(X_train, y_train)

# 테스트 데이터 상에서의 예측과 y_test에 대한 예측 점수화
y_pred = clf.predict(X_test)
f1 = f1_score(y_test, y_pred) 
print('f1 score is = ' + str(f1))

## 트리 기반 분류

### 의사결정 트리(Decision Tree Classification)

In [None]:
### 의사결정 트리 분류(Decision Tree Classification) ###
# 모듈 임포트
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import f1_score

# moon 데이터 얻기
X_train, X_test, y_train, y_test = get_moon_data()

# 분류 객체 초기화와 훈련 데이터에 대한 적합
clf = DecisionTreeClassifier(max_depth=4, random_state=42)
clf.fit(X_train, y_train)

# 테스트 데이터 상에서의 예측과 y_test에 대한 예측 점수화
y_pred = clf.predict(X_test)
f1 = f1_score(y_test, y_pred) 
print('f1 score is = ' + str(f1))

### 랜덤 포레스트(Random Forest)

In [None]:
### 랜덤 포레스트 분류(Random Forest Classification) ###
# 모듈 임포트
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import f1_score

# moon 데이터 얻기
X_train, X_test, y_train, y_test = get_moon_data()

# 분류 객체 초기화와 훈련 데이터에 대한 적합
clf = RandomForestClassifier(max_depth=4, n_estimators=4, 
                             max_features='sqrt', random_state=42)
clf.fit(X_train, y_train)

# 테스트 데이터 상에서의 예측과 y_test에 대한 예측 점수화
y_pred = clf.predict(X_test)
f1 = f1_score(y_test, y_pred) 
print('f1 score is = ' + str(f1))

#### 랜덤 포레스트 모델의 검증을 위해 OOB 점수 사용하기

In [None]:
### 검증 데이터를 위한 OOB 사용 ###
# 분류 객체 초기화와 훈련 데이터에 대한 적합
clf = RandomForestClassifier(max_depth=4, n_estimators=10, 
                             max_features='sqrt', random_state=42,
                             oob_score=True)
clf.fit(X_train, y_train)

# OOB를 사용한 예측 점수화
oob_score = clf.oob_score_
print('OOB score is = ' + str(oob_score))

## 교차 검증(Cross-validation)

### 검증 데이터셋 생성

In [None]:
### 교차 검증(Cross Validation) ###
# iris 데이터 로딩과 X, y 생성
from sklearn.datasets import load_iris
dataset = load_iris()
X,y = dataset.data, dataset.target

# 모듈 임포트
from sklearn.model_selection import train_test_split

# 훈련 및 테스트 데이터셋 생성
X_train, X_test, y_train, y_test = \
        train_test_split(X, y, test_size=.33)

# 훈련 데이터셋으로부터 검증 데이터셋 생성
X_train, X_val, y_train, y_val = \
        train_test_split(X, y, test_size=.33)

### k-폴드 교차 검증(k-fold Cross-validation)

##### Metrics and Scoring
* https://scikit-learn.org/stable/modules/model_evaluation.html

In [None]:
### k-폴드 교차 검증(k-fold Cross Validation) ###
# iris 데이터 로딩과 X, y 생성
from sklearn.datasets import load_iris
dataset = load_iris()
X,y = dataset.data, dataset.target

# 모듈 임포트
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import cross_val_score
from sklearn import metrics
from sklearn.model_selection import train_test_split

# 훈련 및 테스트 데이터셋 생성
X_train, X_test, y_train, y_test = \
        train_test_split(X, y, test_size=.33)

# 분류 객체 초기화 및 cross_val_score 함수에 전달
clf = LogisticRegression(solver='lbfgs', multi_class='ovr')   # ovr: one vs (the rest) 방식
scores = cross_val_score(clf, X_train, y_train, cv=5, scoring='f1_macro')
print(scores)

### 초매개변수 튜닝을 위한 그리드 검색(Grid Search for Hyperparamter Tuning)

In [None]:
### k-폴드 교차 검증을 통한 그리드 검색 ###
# iris 데이터 로딩과 X, y 생성
from sklearn.datasets import load_iris
dataset = load_iris()
X,y = dataset.data, dataset.target

# 모듈 임포트
from sklearn.svm import SVC
from sklearn.model_selection import GridSearchCV
from sklearn import metrics
from sklearn.model_selection import train_test_split

# 훈련 및 테스트 데이터셋 생성
X_train, X_test, y_train, y_test = \
        train_test_split(X, y, test_size=.33)

# svc 및 그리드 검색 객체의 초기화와 적합 
parameters = {'kernel':('linear', 'rbf'), 'C':[1, 5, 10]}
svc = SVC(gamma='auto')
clf = GridSearchCV(svc, parameters, cv=5, scoring='f1_macro')
clf.fit(X_train, y_train)

# 최상의 점수화 분류기 출력
print('Best score is = ' + str(clf.best_score_))
print('Best parameters are = ' + str(clf.best_params_))

In [None]:
# 결과 분류기를 새로운 데이터 상에서 예측하는데 사용
y_pred = clf.predict(X_test)
y_pred