## Part 04 머신러닝 - 1장 지도 학습 모형

### 6절: K-최근접이웃
- K-최근접이웃은 서브패키지 ```neighbors``` 내 클래스 ```KNeighborsClassifier()```, ```KNeighborsRegressor()``` 등을 통해 모형객체를 생성할 수 있음
- KNeighborsClassifier는 이진분류와 다지분류, KNeighborsRegressor는 연속형 타겟변수에 사용됨

<br>

#### **1) KNeighborsClassifier**

- 이진분류와 다지분류
- ```sklearn.neighbors.KNeighborsClassifier(n_neighbors = 5, weights = 'uniform')```  
   - **n_neighbors**: K(이웃의 수) (default = 5)
   - **weights**: 가중치 함수(default = 'uniform')
       - 'uniform': 균일가중치 (각 이웃의 모든 지점은 동일하게 가중치 부여)
       - 'distance': 거리역수 (더 가까운 이웃이 멀리 있는 이웃보다 영향을 더 많이 줌)

#### Q.
사이킷런 패키지 내 breast_cancer 데이터를 호출한 후 학습 데이터와 평가 데이터로 분할하고 클래스 KNeighborsClassifier()를 통해 이진분류 모형객체를 생성하고 학습한 후 평가 데이터로 목푯값을 예측하고 성능을 측정하는 코드 작성하기 (단, 학습과 평가 데이터의 비율은 8:2로 하고, target의 비율을 반영하고 평가지표는 AUC 사용하기)

In [1]:
# 클래스 함수 불러오기
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import train_test_split

In [2]:
# breast_cancer 데이터 가져오기
from sklearn.datasets import load_breast_cancer
breast_cancer = load_breast_cancer()
data = breast_cancer.data
target = breast_cancer.target

In [3]:
# 데이터 분할
X_train, X_test, y_train, y_test = train_test_split(data,
                                                    target,
                                                    test_size = 0.2,
                                                    stratify = target,
                                                    random_state = 2205)

In [4]:
# 모형객체 생성
knn_bin = KNeighborsClassifier(n_neighbors = 5, weights = 'distance')

In [5]:
# 모델학습
model_knn_bin = knn_bin.fit(X_train, y_train)
model_knn_bin

In [6]:
# ROC
from sklearn.metrics import roc_curve, auc
y_score = model_knn_bin.predict_proba(X_test)[:, 1]

In [7]:
fpr, tpr, thresholds = roc_curve(y_test, y_score)
print(fpr)
print(tpr)
print(thresholds)

[0.         0.         0.         0.02380952 0.02380952 0.14285714
 1.        ]
[0.         0.80555556 0.97222222 0.97222222 1.         1.
 1.        ]
[       inf 1.         0.66003574 0.42169843 0.3666545  0.15513117
 0.        ]


In [8]:
# AUC
AUC = auc(fpr, tpr)
AUC

0.9993386243386244

<br>

#### Q.
사이킷런 패키지 내 iris 데이터를 호출한 후 학습 데이터와 평가 데이터로 분할하고 클래스 KNeighborsClassifier()를 통해 다지분류 모형객체를 생성하고 학습한 후 평가 데이터로 목푯값을 예측하고 성능을 측정하는 코드 작성하기 (단, 학습과 평가 데이터의 비율은 8:2로 하고, target의 비율을 반영하고 평가지표는 macro f1-score를 사용하기)

In [9]:
# 클래스와 함수 불러오기
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import train_test_split

In [10]:
# iris 데이터셋 가져오기
from sklearn.datasets import load_iris
iris = load_iris()
data = iris.data
target = iris.target

In [11]:
# 데이터 분할
X_train, X_test, y_train, y_test = train_test_split(data,
                                                    target,
                                                    test_size = 0.2,
                                                    stratify = target,
                                                    random_state = 2205)

In [12]:
# 모형객체 생성
knn_multi = KNeighborsClassifier(n_neighbors = 10, weights = 'distance')

In [13]:
# 모델학습
model_knn_multi = knn_multi.fit(X_train, y_train)
model_knn_multi

In [16]:
# macro f1-score
from sklearn.metrics import f1_score
y_pred = model_knn_multi.predict(X_test)

In [17]:
macro_f1 = f1_score(y_test, y_pred, average='macro')
macro_f1

1.0

In [18]:
# metrics.classification_report(y_true, y_pred) 함수 테스트해보기
from sklearn.metrics import classification_report

In [19]:
report = classification_report(y_test, y_pred)
print(report)

              precision    recall  f1-score   support

           0       1.00      1.00      1.00        10
           1       1.00      1.00      1.00        10
           2       1.00      1.00      1.00        10

    accuracy                           1.00        30
   macro avg       1.00      1.00      1.00        30
weighted avg       1.00      1.00      1.00        30



<br>

#### **2) KNeighborsRegressor**

- 이진분류와 다지분류
- ```sklearn.neighbors.KNeighborsClassifier(n_neighbors = 5, weights = 'uniform')```  
   - **n_neighbors**: K(이웃의 수) (default = 5)
   - **weights**: 가중치 함수(default = 'uniform')
       - 'uniform': 균일가중치 (각 이웃의 모든 지점은 동일하게 가중치 부여)
       - 'distance': 거리역수 (더 가까운 이웃이 멀리 있는 이웃보다 영향을 더 많이 줌)

#### Q.
사이킷런 패키지 내 diabetes 데이터를 호출한 후 학습 데이터와 평가 데이터로 분할하고 클래스 KNeighborsRegressor()를 통해 연속형 예측 모형객체를 생성하고 학습한 후 평가 데이터로 목표값을 예측하고 성능을 측정하는 코드 작성하기 (단, 학습과 평가 데이터의 비율은 8:2로 하고 평가지표는 RMSE 사용하기)

In [20]:
# 클래스 함수 불러오기
from sklearn.neighbors import KNeighborsRegressor
from sklearn.model_selection import train_test_split

In [21]:
# diabetes 데이터 가져오기
from sklearn.datasets import load_diabetes
diabetes = load_diabetes()
data = diabetes.data
target = diabetes.target

In [22]:
# 데이터셋 분리
X_train, X_test, y_train, y_test = train_test_split(data,
                                                    target,
                                                    test_size = 0.2,
                                                    random_state = 2205)

In [25]:
# 모형객체 생성
knn_conti = KNeighborsRegressor(n_neighbors = 5, weights = 'distance')

In [26]:
# 모델학습
model_knn_conti = knn_conti.fit(X_train, y_train)
model_knn_conti

In [27]:
# RMSE
from sklearn.metrics import mean_squared_error
y_pred = model_knn_conti.predict(X_test)

In [29]:
rmse = mean_squared_error(y_test, y_pred, squared=False)
rmse

64.34103593204944

In [31]:
# +) MSE, MAE, MAPE도 계산해보기
from sklearn.metrics import mean_absolute_error, mean_absolute_percentage_error

In [33]:
mse = mean_squared_error(y_test, y_pred)
mae = mean_absolute_error(y_test, y_pred)
mape = mean_absolute_percentage_error(y_test, y_pred)

mse, mae, mape

(4139.768904809277, 49.6256659421684, 0.41267715793622395)

<br><br><br>
<hr>

### 7절: 인공신경망
- 인공신경망은 서브패키지 ```neural_network``` 내 클래스 ```MLPClassifier()```, ```MLPRegressor()``` 등을 통해 모형객체를 생성할 수 있음
- MLPClassifier는 이진분류와 다지분류, MLPRegressor는 연속형 타겟변수에 사용됨

<br>

#### **1) MLPClassifier**

- 이진분류와 다지분류
- ```sklearn.neural_network.MLPClassifier(hidden_layer_sizes = (100, ), activation = 'relu', solver = 'adam', alpha = 0.0001, batch_size = 'auto', learning_rate_init = 0.001, max_iter = 200, ...)```  
   - **hidden_layer_sizes** : 은닉층 크기로 튜플 (은닉층 수, 뉴런 수)의 형태로 입력 (default = (100, ))
   - **activation** : 은닉층의 활성함수 (default = 'relu')
      - 'identify' : f(x) = x
      - 'logistic' : sigmoid, f(x) = 1/(1+exp(-x))
      - 'tanh' : hyperbolic tangent, f(x) = tanh(x)
      - 'relu' : ReLU, f(x) = max(0, x)
   - **solver**: 가중치 최적화 방법으로 'lbfgs', 'sgd', 'adam'이 있음 (default = 'adam'
   - **alpha**: L2 규제항에 곱하는 상수 (default = 0.0001)
   - **batch_size**: 확률적 최적화를 위한 미니 배치 크기로, solver = 'lbgfs'일 땐 사용하지 않음 (default = 'auto'). 'auto'로 설정하면 min(200, 샘플 수)
   - **learning_rate_init**: 학습율 초깃값 (default = 0.001)
   - **max_iter**: 에폭 횟수(default = 200)

#### Q.
사이킷런 패키지 내 breast_cancer 데이터를 호출한 후 학습 데이터와 평가 데이터로 분할하고 클래스 MLPClassifier()를 통해 이진분류 모형객체를 생성하고 학습한 후 평가 데이터로 목표값을 예측하고 성능을 측정하는 코드 작성하기 (단, 학습과 평가 데이터의 비율은 8:2로 하고, target의 비율을 반영하고 평가지표는 AUC 사용하기)

In [34]:
# 클래스, 함수 불러오기
from sklearn.neural_network import MLPClassifier
from sklearn.model_selection import train_test_split

In [35]:
# breast_cancer 데이터 가져오기
from sklearn.datasets import load_breast_cancer
breast_cancer = load_breast_cancer()
data = breast_cancer.data
target = breast_cancer.target

In [36]:
# 데이터 분할하기
X_train, X_test, y_train, y_test = train_test_split(data,
                                                    target,
                                                    test_size = 0.2,
                                                    stratify = target,
                                                    random_state = 2205)

In [37]:
# 모형객체 생성
ann_bin = MLPClassifier(alpha = 0.5,
                        max_iter = 500,
                        random_state = 2022)

In [38]:
# 모델학습
model_ann_bin = ann_bin.fit(X_train, y_train)
model_ann_bin

In [39]:
# ROC
from sklearn.metrics import roc_curve, auc
y_score = model_ann_bin.predict_proba(X_test)[:, 1]

In [41]:
fpr, tpr, thresholds = roc_curve(y_test, y_score)
print(fpr)
print(tpr)
print(thresholds)

[0.         0.         0.         0.02380952 0.02380952 1.        ]
[0.         0.01388889 0.98611111 0.98611111 1.         1.        ]
[           inf 9.93145438e-01 8.10591147e-01 5.90893041e-01
 5.36734427e-01 1.79048852e-30]


In [42]:
# AUC
AUC = auc(fpr, tpr)
AUC

0.9996693121693121

<br><br>

#### Q.
사이킷런 패키지 내 iris 데이터를 호출한 후 학습 데이터와 평가 데이터로 분할하고 클래스 MLPClassifier()를 통해 다지분류 모형객체를 생성하고 학습한 후 평가 데이터로 목표값을 예측하고 성능을 측정하는 코드 작성하기 (단, 학습과 평가 데이터의 비율은 8:2로 하고, target의 비율을 반영하고 평가지표는 macro f1-score 사용하기)

In [44]:
# 클래스 함수 불러오기
from sklearn.neural_network import MLPClassifier
from sklearn.model_selection import train_test_split

In [45]:
# iris 데이터 가져오기
from sklearn.datasets import load_iris
iris = load_iris()
data = iris.data
target = iris.target

In [46]:
# 데이터 분할하기
X_train, X_test, y_train, y_test = train_test_split(data,
                                                    target,
                                                    test_size = 0.2,
                                                    stratify = target,
                                                    random_state = 2205)

In [47]:
# 모형객체 생성
ann_multi = MLPClassifier(random_state = 2022, max_iter = 600)

In [48]:
# 모델학습
model_ann_multi = ann_multi.fit(X_train, y_train)
model_ann_multi

In [49]:
# macro f1-score
from sklearn.metrics import f1_score
y_pred = model_ann_multi.predict(X_test)

In [50]:
macro_f1 = f1_score(y_test, y_pred, average = 'macro')
macro_f1

1.0

In [51]:
# metrics.classification_report(y_true, y_pred) 함수 테스트해보기
from sklearn.metrics import classification_report

In [52]:
report = classification_report(y_test, y_pred)
print(report)

              precision    recall  f1-score   support

           0       1.00      1.00      1.00        10
           1       1.00      1.00      1.00        10
           2       1.00      1.00      1.00        10

    accuracy                           1.00        30
   macro avg       1.00      1.00      1.00        30
weighted avg       1.00      1.00      1.00        30



<br><br>

#### **2) MLPRegressor**

- 연속형 타겟변수
- ```sklearn.neural_network.MLPRegressor(hidden_layer_sizes = (100, ), activation = 'relu', solver = 'adam', alpha = 0.0001, batch_size = 'auto', learning_rate_init = 0.001, max_iter = 200, ...)```  
   - **hidden_layer_sizes** : 은닉층 크기로 튜플 (은닉층 수, 뉴런 수)의 형태로 입력 (default = (100, ))
   - **activation** : 은닉층의 활성함수 (default = 'relu')
      - 'identify' : f(x) = x
      - 'logistic' : sigmoid, f(x) = 1/(1+exp(-x))
      - 'tanh' : hyperbolic tangent, f(x) = tanh(x)
      - 'relu' : ReLU, f(x) = max(0, x)
   - **solver**: 가중치 최적화 방법으로 'lbfgs', 'sgd', 'adam'이 있음 (default = 'adam')
   - **alpha**: L2 규제항에 곱하는 상수 (default = 0.0001)
   - **batch_size**: 확률적 최적화를 위한 미니 배치 크기로, solver = 'lbgfs'일 땐 사용하지 않음 (default = 'auto'). 'auto'로 설정하면 min(200, 샘플 수)
   - **learning_rate_init**: 학습율 초깃값 (default = 0.001)
   - **max_iter**: 에폭 횟수(default = 200)

#### Q.
사이킷런 패키지 내 diabetes 데이터를 호출한 후 학습 데이터와 평가 데이터로 분할하고 클래스 MLPRegressor()를 통해 연속형 예측 모형객체를 생성하고 학습한 후 평가 데이터로 목표값을 예측하고 성능을 측정하는 코드 작성하기 (단, 학습과 평가 데이터의 비율은 8:2로 하고, 평가지표는 RMSE 사용하기)

In [53]:
# 클래스 함수 불러오기
from sklearn.neural_network import MLPRegressor
from sklearn.model_selection import train_test_split

In [54]:
# diabetes 데이터 가져오기
from sklearn.datasets import load_diabetes
diabetes = load_diabetes()
data = diabetes.data
target = diabetes.target

In [55]:
# 데이터 분할하기
X_train, X_test, y_train, y_test = train_test_split(data, 
                                                    target,
                                                    test_size = 0.2, 
                                                    random_state = 2205)

In [56]:
# 모형객체
ann_conti = MLPRegressor(alpha = 0.5,
                         max_iter = 10000,
                         random_state = 2022)

In [58]:
# 모델학습
model_ann_conti = ann_conti.fit(X_train, y_train)
model_ann_conti

In [59]:
# RMSE (Root Mean Squared Error)
from sklearn.metrics import mean_squared_error
y_pred = model_ann_conti.predict(X_test)

In [60]:
rmse = mean_squared_error(y_test, y_pred, squared=False)
rmse

60.21701130984497

<br><br><br>
<hr>

### 8절: 의사결정나무
- 의사결정나무는 서브패키지 ```tree``` 내 클래스 ```DecisionTreeClassifier()```, ```DecisionTreeRegressor()``` 등을 통해 모형객체를 생성할 수 있음
- DecisionTreeClassifier는 이진분류와 다지분류, DecisionTreeRegressor는 연속형 타겟변수에 사용됨

<br>

#### **1) DecisionTreeClassifier**

- 이진분류와 다지분류
- ```sklearn.tree.DecisionTreeClassifier(criterion = 'gini', max_depth = None, min_samples_leaf = 1, ...)```  
   - **criterion** : 분할의 기준이 되는 지표
      - 'gini' (default)
      - 'entropy'
      - 'log_loss'
   - **max_depth**: 트리의 최대 깊이 (default = None)
   - **min_sample_leaf**: 리프 노드에 있어야 하는 최소 샘플 수 (default = 2)

#### Q.
사이킷런 패키지 내 breast_cancer 데이터를 호출한 후 학습 데이터와 평가 데이터로 분할하고 클래스 DecisionTreeClassifier()를 통해 이진분류 모형객체를 생성하고 학습한 후 평가 데이터로 목표값을 예측하고 성능을 측정하는 코드 작성하기 (단, 학습과 평가 데이터의 비율은 8:2로 하고, target 비율을 반영하고 평가지표는 AUC 사용하기)

In [61]:
# 클래스 함수 불러오기
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split

In [62]:
# breast_cancer 데이터 가져오기
from sklearn.datasets import load_breast_cancer
breast_cancer = load_breast_cancer()
data = breast_cancer.data
target = breast_cancer.target

In [63]:
# 데이터 분할
X_train, X_test, y_train, y_test = train_test_split(data,
                                                    target,
                                                    test_size = 0.2,
                                                    stratify = target,
                                                    random_state = 2205)

In [64]:
# 모형객체 생성
dtr_bin = DecisionTreeClassifier(max_depth = 3,
                                 min_samples_leaf = 10,
                                 random_state = 2022)

In [65]:
# 모델학습
model_dtr_bin = dtr_bin.fit(X_train, y_train)
model_dtr_bin

In [66]:
# ROC
from sklearn.metrics import roc_curve, auc
y_score = model_dtr_bin.predict_proba(X_test)[:, 1]

In [67]:
fpr, tpr, thresholds = roc_curve(y_test, y_score)
print(fpr)
print(tpr)
print(thresholds)

[0.         0.         0.         0.         0.02380952 0.21428571
 1.        ]
[0.         0.875      0.90277778 0.98611111 1.         1.
 1.        ]
[       inf 0.98148148 0.8        0.4        0.1        0.05555556
 0.        ]


In [68]:
# AUC
AUC = auc(fpr, tpr)
AUC

0.999834656084656

<br>

#### Q.
사이킷런 패키지 내 iris 데이터를 호출한 후 학습 데이터와 평가 데이터로 분할하고 클래스 DecisionTreeClassifier()를 통해 다지분류 모형객체를 생성하고 학습한 후 평가 데이터로 목표값을 예측하고 성능을 측정하는 코드 작성하기 (단, 학습과 평가 데이터의 비율은 8:2로 하고, target 비율을 반영하고 평가지표는 macro f1-score 사용하기)

In [69]:
# 클래스 함수 불러오기
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split

In [70]:
# iris 데이터 가져오기
from sklearn.datasets import load_iris
iris = load_iris()
data = iris.data
target = iris.target

In [71]:
# 데이터 분할
X_train, X_test, y_train, y_test = train_test_split(data,
                                                    target,
                                                    test_size = 0.2,
                                                    stratify = target,
                                                    random_state = 2205)

In [72]:
# 모형객체 생성
dtr_multi = DecisionTreeClassifier(max_depth = 3,
                                   min_samples_leaf = 10,
                                   random_state = 2022)

In [73]:
# 모델학습
model_dtr_multi = dtr_multi.fit(X_train, y_train)
model_dtr_multi

In [74]:
# macro f1-score
from sklearn.metrics import f1_score
y_pred = model_dtr_multi.predict(X_test)

In [75]:
# macro f1-score
macro_f1 = f1_score(y_test, y_pred, average='macro')
macro_f1

0.9665831244778613

In [76]:
# report 함수 사용해보기
from sklearn.metrics import classification_report

In [78]:
report = classification_report(y_test, y_pred)
print(report)

              precision    recall  f1-score   support

           0       1.00      1.00      1.00        10
           1       0.91      1.00      0.95        10
           2       1.00      0.90      0.95        10

    accuracy                           0.97        30
   macro avg       0.97      0.97      0.97        30
weighted avg       0.97      0.97      0.97        30



<br><br>

#### **2) DecisionTreeRegressor**

- 연속형 타겟변수
- ```sklearn.tree.DecisionTreeRegressor(criterion = 'squared_error', max_depth = None, min_samples_leaf = 1, ...)```  
   - **criterion** : 분할의 기준이 되는 지표
      - 'squared_error' : 분산 감소량과 같으며 L2 손실을 최소화하는 평균 제곱 오차 (default)
      - 'absolute_error' : L1 손실을 최소화하는 평균 절대 오차
   - **max_depth**: 트리의 최대 깊이 (default = None)
   - **min_sample_leaf**: 리프 노드에 있어야 하는 최소 샘플 수 (default = 2)

<br>

#### Q.
사이킷런 패키지 내 dibetes 데이터를 호출한 후 학습 데이터와 평가 데이터로 분할하고 클래스 DecisionTreeRegressor()를 통해 연속형 예측 모형객체를 생성하고 학습한 후 평가 데이터로 목표값을 예측하고 성능을 측정하는 코드 작성하기 (단, 학습과 평가 데이터의 비율은 8:2로 하고, 평가지표는 RMSE 사용하기)

In [80]:
# 클래스와 함수 불러오기
from sklearn.tree import DecisionTreeRegressor
from sklearn.model_selection import train_test_split

In [81]:
# diabetes 데이터 가져오기
from sklearn.datasets import load_diabetes
diabetes = load_diabetes()
data = diabetes.data
target = diabetes.target

In [82]:
# 데이터 분할
X_train, X_test, y_train, y_test = train_test_split(data, 
                                                    target,
                                                    test_size = 0.2,
                                                    random_state = 2205)

In [83]:
# 모형객체 생성
dtr_conti = DecisionTreeRegressor(max_depth = 3,
                                  min_samples_leaf = 10,
                                  random_state = 2022)

In [84]:
# 모델학습
model_dtr_conti = dtr_conti.fit(X_train, y_train)
model_dtr_conti

In [87]:
# RMSE
from sklearn.metrics import mean_squared_error
y_pred = model_dtr_conti.predict(X_test)

In [88]:
# RMSE
rmse = mean_squared_error(y_test, y_pred, squared = False)
rmse

68.43615007635243