# 14주차 : 머신러닝 알고리즘(Machine-Learning algorithm)

- <a href="#2.머신러닝알고리즘">2. 머신러닝 알고리즘</a>

---------------------------

# [실습] 붓꽃 종류 분류하기

### 목표
- **붓꽃 종류를 분류하는 모델을 구현하세요.** 

### 모델
- 로지스틱 회귀
- KNN

### 평가지표
- 정확도(accuracy_score)
- ROC정확도(roc_auc_score)

## [실습] Scikit-learn Logistic Regression으로 붓꽃 종류 분류하기

### 1. Scikit-learn으로 붓꽃 데이터 가져오기

In [2]:
from sklearn.datasets import load_iris
import pandas as pd
import numpy as np

# 붓꽃 데이터 셋트를 로딩
iris = load_iris()    #iris의 품종 : [0:'setosa',1:'versicolor',2:'virginica']
# print(iris)

# X 피쳐만 추출: Features
iris_data = iris.data   
print(type(iris.data))
print(iris.data.shape) # (150, 4)

# Y 답(label)만 추출: target_Value
iris_label = iris.target

# Data Frame 만들기
iris_df = pd.DataFrame(data=iris_data, columns=iris.feature_names)
iris_df['label'] = iris_label  # # 예측(predict) 수행       
iris_df.head()

<class 'numpy.ndarray'>
(150, 4)


Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),label
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0


### 2.학습데이터 분류하고 분류 알고리즘 적용하여 학습모델(예측모델) 만들기

#### 로지스틱 회귀 알고리즘 적용

In [3]:
from sklearn.model_selection import train_test_split  
from sklearn.linear_model import LogisticRegression

# 학습데이터/테스트테이터 분리
x_train,x_test,y_train,y_test = train_test_split(iris_data,iris_label,test_size=0.2,  # test_size:0.2(20%)
                                                  random_state=11) # random seed 고정

# 학습모델(분류) : 로지스틱 회귀
model_lr = LogisticRegression()

# 모델 훈련
model_lr.fit(x_train, y_train)
                      
# 예측(predict) 수행하기
y_pred_lr = model_lr.predict(x_test) 
print('예측:', y_pred_lr)
print('실제:', y_test)    # 예측된 결과와 테스트데이터 출력해서 비교하기 

예측: [2 2 1 1 2 0 1 0 0 1 1 1 1 2 2 0 2 1 2 2 1 0 0 1 0 0 2 1 0 1]
실제: [2 2 2 1 2 0 1 0 0 1 2 1 1 2 2 0 2 1 2 2 1 0 0 1 0 0 2 1 0 1]


#### K-NN알고리즘 적용

In [4]:
from sklearn.model_selection import train_test_split  
from sklearn.neighbors import KNeighborsClassifier

# 학습데이터/테스트테이터 분리
x_train,x_test,y_train,y_test = train_test_split(iris_data,iris_label,test_size=0.2,  # test_size:0.2(20%)
                                                  random_state=11) # random seed 고정

# 학습모델(분류) : KNN
model_knn = KNeighborsClassifier(n_neighbors=5)
model_knn.fit(x_train, y_train)
           
           
# 테스트테이터로 예측(predict) 수행하기
y_pred_knn = model_knn.predict(x_test) 
print('예측:', y_pred_knn)
print('실제:', y_test)    # 예측된 결과와 테스트데이터 출력해서 비교하기 

예측: [2 2 2 1 2 0 1 0 0 1 1 1 1 2 2 0 2 1 2 2 1 0 0 1 0 0 2 1 0 1]
실제: [2 2 2 1 2 0 1 0 0 1 2 1 1 2 2 0 2 1 2 2 1 0 0 1 0 0 2 1 0 1]


### 3. 모델 정확도 측정하기

In [5]:
# 정확도 측정 : accuracy
from sklearn.metrics import accuracy_score, roc_curve, auc, classification_report 

# 정확도 
print(f'정확도(LR): {accuracy_score(y_test, y_pred_lr):.4f}')
print(f'정확도(KNN): {accuracy_score(y_test, y_pred_knn):.4f}')

# roc_auc
fpr, tpr, thresholds =roc_curve(y_test, y_pred_lr , pos_label=2)
print(f'roc_auc(LR): {auc(fpr, tpr)}')
fpr, tpr, thresholds =roc_curve(y_test, y_pred_knn , pos_label=2)
print(f'roc_auc(knn): {auc(fpr, tpr)}')

정확도(LR): 0.9333
정확도(KNN): 0.9667
roc_auc(LR): 0.9521531100478469
roc_auc(knn): 0.9760765550239234


### 4. 교차 검증하기(cross validation)

In [7]:
# 테스트 데이터에만 과적합 될 수 있으므로 데이터를 여러개로 나누어 테스트를 여러번 수행하여 평균 정확도를 구함
from sklearn.model_selection import cross_val_score

cv_score_lr = cross_val_score(model_lr, iris.data, iris.target,  # Estimator,X,Y값
                           scoring='accuracy', cv = 3) # cv = 3, 3개로 쪼개어 검증(predict를 3회 수행)
cv_score_knn = cross_val_score(model_knn, iris.data, iris.target,  # Estimator,X,Y값
                           scoring='accuracy', cv = 3) # cv = 3, 3개로 쪼개어 검증(predict를 3회 수행)

# 내부적으로 Stratified K-Fold 사용됨, 평가지표를 한개만 구할 수 있어서 StatifiedKFold사용 권장
print('교차 검증 정확도(LR):',cv_score_lr)  
print('교차 검증 정확도(KNN):',cv_score_knn)  
print('교차 검증 평균 정확도(LR):',np.round(np.mean(cv_score_lr),4))    # 3회 예측 한 결과의 정확도들의 평균
print('교차 검증 평균 정확도(KNN):',np.round(np.mean(cv_score_knn),4)) 

교차 검증 정확도(LR): [0.98 0.96 0.98]
교차 검증 정확도(KNN): [0.98 0.98 0.98]
교차 검증 평균 정확도(LR): 0.9733
교차 검증 평균 정확도(KNN): 0.98


STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


### 5. 학습모델에 넣어  테스트데이터 예측하기

In [10]:
# 테스트 데이터 
X_test = np.array([[2.7, 2.4, 1.65, 0.67],
                   [5.84, 5.48, 3, 2.16],
                   [5.8, 2.7, 5.1, 1.9]]) 

# K-NN을 이용한 예측(predict) 수행
y_pred_lr = model_lr.predict(X_test)
y_pred_knn = model_knn.predict(X_test)
print(f'y_pred_lr : {y_pred_lr}')
print(f'y_pred_knn : {y_pred_knn}')

# 분류 결과 출력하기
print('붓꽃 데이터 분류 결과:')
names = {0:'setosa',1:'versicolor',2:'virginica'}
for i in y_pred_lr:
    print(f' {X_test[i]}: {i} -> {names[i]}')

y_pred_lr : [0 0 2]
y_pred_knn : [0 0 2]
붓꽃 데이터 분류 결과:
 [2.7  2.4  1.65 0.67]: 0 -> setosa
 [2.7  2.4  1.65 0.67]: 0 -> setosa
 [5.8 2.7 5.1 1.9]: 2 -> virginica


-------------------

끝