# 사이킷런으로 시작하는 머신러닝

> ### 1) 붓꽃 품종 예측하기

사이킷런 : 파이썬 머신러닝 라이브러리 중 가장 많이 사용되는 라이브러리.

- sklearn.datsets : 사이킷런에서 자체적으로 제공하는 데이터 세트 생성 모듈 모임.
- sklearn.tree : 트리 기반 ML 알고리즘을 구현한 클래스 모임.
- sklearn.model_selection : 학습 데이터와 검증 데이터, 예측 데이터로 데이터를 분리하거나 최적의 하이퍼 파라미터로 평가하기 위한 다양한 모듈 모임.

In [2]:
from sklearn.datasets import load_iris # 데이터 세트 생성 위함.
from sklearn.tree import DecisionTreeClassifier # 의사결정트리 알고리즘 사용 위함.
from sklearn.model_selection import train_test_split # 데이터 세트를 학습 데이터와 테스트 데이터로 분리하기 위함.

In [14]:
import pandas as pd

# 붓꽃 데이터 세트 로드.
iris = load_iris()

# iris _ 데이터 세트에서 피처만으로 된 데이터를 numpy로 가지고 있음.
iris_data = iris.data

iris_label = iris.target
iris_label

# 자세히 보기 위해 자료형을 DataFrame으로 변환.
iris_df = pd.DataFrame(data=iris_data, columns=iris.feature_names)
iris_df
iris_df['label'] = iris.target # 각 행을 구분하는 label 열 추가.
iris_df

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),label
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,2
146,6.3,2.5,5.0,1.9,2
147,6.5,3.0,5.2,2.0,2
148,6.2,3.4,5.4,2.3,2


* label : 0은 Setosa, 1은 Versicolor, 2는 Virginica로 구분.
* sepal은 꽃받침, petal은 꽃잎을 의미.

In [16]:
iris_df.groupby('label').describe()

Unnamed: 0_level_0,sepal length (cm),sepal length (cm),sepal length (cm),sepal length (cm),sepal length (cm),sepal length (cm),sepal length (cm),sepal length (cm),sepal width (cm),sepal width (cm),...,petal length (cm),petal length (cm),petal width (cm),petal width (cm),petal width (cm),petal width (cm),petal width (cm),petal width (cm),petal width (cm),petal width (cm)
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max,count,mean,...,75%,max,count,mean,std,min,25%,50%,75%,max
label,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2,Unnamed: 18_level_2,Unnamed: 19_level_2,Unnamed: 20_level_2,Unnamed: 21_level_2
0,50.0,5.006,0.35249,4.3,4.8,5.0,5.2,5.8,50.0,3.428,...,1.575,1.9,50.0,0.246,0.105386,0.1,0.2,0.2,0.3,0.6
1,50.0,5.936,0.516171,4.9,5.6,5.9,6.3,7.0,50.0,2.77,...,4.6,5.1,50.0,1.326,0.197753,1.0,1.2,1.3,1.5,1.8
2,50.0,6.588,0.63588,4.9,6.225,6.5,6.9,7.9,50.0,2.974,...,5.875,6.9,50.0,2.026,0.27465,1.4,1.8,2.0,2.3,2.5


* 품종마다 50개의 행이 존재하며, 수치상으로도 꽃받침과 꽃잎 넓이, 길이에서 분포의 차를 보임.

In [17]:
# 사이킷런의 train_test_split()를 이용하여 데이터를 학습 데이터와 테스트 데이터로 분리.
# test_size는 학습용 데이터와 테스트 데이터를 나누는 비율로, 0.2의 의미는 테스트 데이터를 20%로 설정하겠다는 의미.
# random_state는 seed와 같은 의미로, 일정한 random값을 얻기 위함.
X_train, X_test, y_train, y_test = train_test_split(iris_data, iris_label, test_size=0.2, random_state=11)

In [20]:
type(X_train) # 반환된 데이터의 형태는 numpy.

numpy.ndarray

In [21]:
# DecisionTreeClassifier 객체 생성.
# random_state를 설정해주는 이유는 코드를 수행할 때마다 동일한 결과를 얻기 위함.
df_clf = DecisionTreeClassifier(random_state=11)

In [22]:
# 생성한 의사결정트리 객체를 이용하여 학습 수행.
# 이때, 의사결정트리 객체의 fit() 메소드를 이용하여 학습을 수행할 수 있음.
df_clf.fit(X_train, y_train)

DecisionTreeClassifier(random_state=11)

* 의사결정트리 객체로 학습 데이터 학습.
* X_train은 학습 데이터에서 라벨은 제외한 값을, y_train은 학습 데이터에서 라벨값만을 의미.

In [24]:
# 학습이 완료된 DecisionTreeClassifier 객체에서 테스트 데이터 세트로 예측 수행.
# 이때, 의사결정트리 객체의 predict() 메소드로 테스트 데이터에 대한 예측값을 반환할 수 있음.
pred = df_clf.predict(X_test)

* 학습 데이터를 기반으로 만들어진 모델로 테스트 데이터를 이용해 예측값을 반환.
* 이 값에 대한 정확도는 기존의 y_test 값과 비교하여 확인할 수 있음.

In [26]:
# 사이킷런의 정확도 측정을 위한 accuracty_score() 함수를 이용하여 정확도 측정.
# 실제값을 앞에, 예측값을 뒤에 기입.
from sklearn.metrics import accuracy_score
accuracy_score(y_test, pred)

0.9333333333333333

* 학습 데이터를 기반으로 만든 의사결정트리 모델의 정확도는 약 93%로 확인됨.

#### 프로세스 정리
- 데이터 세트 분리
- 모델 학습
- 예측 수행
- 평가