# [E2] scikit-learn의 학습 및 활용 

>학습과정 및 목표: Scikit-learn을 활용한 Iris의 세 가지 품종 분류모델을 학습하고, scikit-learn의 예제 데이터를 활용하여, 다음의 3가지 프로젝트를 수행하고자 한다. 
* 손글씨 분류 
* 와인 분류
* 유방암 분류

>[note] 응용프로그램에서는 Iris 분류기에서 사용한 '의사결정트리' 대신 '랜덤포레스트'를 이용하여 데이터를 분류하였습니다. 의사결정트리 모델보다 좀더 많은 경우의 수를 가늠해 볼 수 있는 랜덤 포레스트가 좀 더 좋은 학습 결과를 가져올 수 있을것이라고 생각했습니다.

---------------------------------------

## [E2-12] 프로젝트 (2) 와인 분류(load_wine)

### 1. 데이터 가져오기

In [7]:
# 사이킷런에 내장되어 있는 wine 데이터를 가져옵니다.
from sklearn.datasets import load_wine
wine = load_wine()

# 데이터를 변환해 줍니다.
import numpy as np
wine_data = wine.data
wine_label = wine.target

In [8]:
# 데이터 정보를 확인해 볼 수 있습니다.
wine.keys()

dict_keys(['data', 'target', 'target_names', 'DESCR', 'feature_names'])

In [17]:
# 데이터프레임을 사용해 데이터를 보기위해 판다스를 사용합니다.
import pandas as pd
wine_df = pd.DataFrame(data=wine_data)
wine_df["label"] = wine_label
wine_df

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,label
0,14.23,1.71,2.43,15.6,127.0,2.80,3.06,0.28,2.29,5.64,1.04,3.92,1065.0,0
1,13.20,1.78,2.14,11.2,100.0,2.65,2.76,0.26,1.28,4.38,1.05,3.40,1050.0,0
2,13.16,2.36,2.67,18.6,101.0,2.80,3.24,0.30,2.81,5.68,1.03,3.17,1185.0,0
3,14.37,1.95,2.50,16.8,113.0,3.85,3.49,0.24,2.18,7.80,0.86,3.45,1480.0,0
4,13.24,2.59,2.87,21.0,118.0,2.80,2.69,0.39,1.82,4.32,1.04,2.93,735.0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
173,13.71,5.65,2.45,20.5,95.0,1.68,0.61,0.52,1.06,7.70,0.64,1.74,740.0,2
174,13.40,3.91,2.48,23.0,102.0,1.80,0.75,0.43,1.41,7.30,0.70,1.56,750.0,2
175,13.27,4.28,2.26,20.0,120.0,1.59,0.69,0.43,1.35,10.20,0.59,1.56,835.0,2
176,13.17,2.59,2.37,20.0,120.0,1.65,0.68,0.53,1.46,9.30,0.60,1.62,840.0,2


### 2. 데이터 분리

In [10]:
# 데이터를 1) 훈련, 2) 테스트 데이터셋으로 분리합니다.
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(wine_data, wine_label, test_size=0.2, random_state=3)

print(len(X_train))
print(len(X_test))

142
36


### 3. 랜덤포레스트 모델 생성 및 학습

In [11]:
# 사이킷런의 랜덤포레스트 모델을 가져옵니다.
from sklearn.ensemble import RandomForestClassifier
random_forest = RandomForestClassifier (random_state=5)

# .fit() 함수를 통해 쉽게 모델을 학습시킬 수 있습니다.
random_forest.fit(X_train, y_train)

# predict() 함수를 통해 분류할 수 있습니다.
y_pred = random_forest.predict(X_test)

### 4. 모델 성능 평가

In [12]:
# 모델의 성능을 평가하기 위해 사용합니다.
from sklearn.metrics import accuracy_score
from sklearn.metrics  import classification_report


print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       1.00      1.00      1.00        15
           1       1.00      0.93      0.96        14
           2       0.88      1.00      0.93         7

    accuracy                           0.97        36
   macro avg       0.96      0.98      0.97        36
weighted avg       0.98      0.97      0.97        36



In [13]:
print("테스트 정확도: {0: .4f}".format(accuracy_score(y_test, y_pred)))

테스트 정확도:  0.9722


## 총평

##### 와인분류의 경우 총 178개의 데이터를 13개의 feature를 가지고 3개의 label로 분류하는 작업을 수행하였다. 비교적 높은 정확도가 나왔으나, digits 분류와 마찬가지로 3번째 항목에서 정밀도와 재현률의 차이가 다소 큰 차이를 가져왔다. 0번 라벨의 정밀도와 재현률이 높은것으로 보아 두 데이터의 feature 값을 비교하여 보면, 이유를 알 수 있지 않을까 생각해 보았다. 역시나 데이터의 수집과 분석 단계에서 조정이 될 것으로 예상되지만, 궁금한 부분이다.   