사이킷런(Scikit-Learn)은 파이썬에서 머신 러닝 및 데이터 분석을 위한 강력한 오픈 소스 라이브러리로 회귀(Regression), 분류(Classification), 클러스터링(Clustering), 차원 축소(Dimensionality Reduction), 모델 선택(Model Selection), 모델 평가(Model Evaluation) 등 다양한 머신 러닝 작업을 수행할 수 있음
 - 사용자 친화적 (파이썬스러운 API를 제공)

### 사이킷런을 이용하여 붓꽃(Iris) 데이터 품종 예측하기
 - Classification, Supervised learning

In [17]:
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split

In [18]:
import pandas as pd
#붓꽃 데이터 세트를 로딩하고, 이를 판다스 데이터프레임으로 변환하여 데이터를 자세히 확인하는 예제

# 붓꽃 데이터 세트를 로딩합니다. 
iris = load_iris()

# iris.data는 Iris 데이터 세트에서 피처(feature)만으로 된 데이터를 numpy로 가지고 있습니다. 
iris_data = iris.data

# iris.target은 붓꽃 데이터 세트에서 레이블(결정 값) 데이터를 numpy로 가지고 있습니다. 
iris_label = iris.target
print('iris target값:', iris_label)
print('iris target명:', iris.target_names)

# 붓꽃 데이터 세트를 자세히 보기 위해 DataFrame으로 변환합니다. 
iris_df = pd.DataFrame(data=iris_data, columns=iris.feature_names)
iris_df['label'] = iris.target
iris_df.head(3)

iris target값: [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2]
iris target명: ['setosa' 'versicolor' 'virginica']


Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),label
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0


In [19]:
# train_test_split 함수를 사용하여 붓꽃 데이터 세트를 학습 데이터와 테스트 데이터로 분리
X_train, X_test, y_train, y_test = train_test_split(iris_data, iris_label, 
                                                    test_size=0.2, random_state=11)


In [20]:
# DecisionTreeClassifier 객체 생성 (의사 결정 트리(Decision Tree) 기반의 머신 러닝 모델)
dt_clf = DecisionTreeClassifier(random_state=11)

# 학습 수행 
dt_clf.fit(X_train, y_train)

#의사 결정 트리는 각 노드에서 특정 특성(Feature)의 값을 기준으로 데이터를 분할
 - 분할하기 위한 기준은 정보 이득(Information Gain)과 지니 계수(Gini coefficient) 중 하나를 사용
    - 정보 이득은 엔트로피(Entropy)라는 개념을 기반으로 하며, 엔트로피는 주어진 데이터 집합의 혼잡도를 의미
    - 지니 계수는 데이터의 불순도(impurity)를 나타내는 지표로 지니 계수가 낮을수록 데이터가 수누수하게 분류되어 있음을 의미
      - 지니 계수는 0과 1사이의 값을 가지며, 지니 계수가 0이라면 해당 분할에서 한 클래스로만 구성되어 있음을 의미
      - 지니 계수는 각 분할에서 해당 클래스에 속하는 데이터의 비율을 제곱하여 모두 합산한 값을 1에서 뺀 값으로 계산됩니다.

In [21]:
from sklearn.tree import export_graphviz # 의사 결정 트리를 DOT 형식의 파일로 내보내는 역할
import graphviz

# 의사 결정 트리 모델을 시각화합니다.
export_graphviz(dt_clf, out_file="tree.dot", 
                feature_names=iris.feature_names, 
                class_names=iris.target_names,
                filled=True, rounded=True, special_characters=True)

# dot 파일을 시각화합니다.
with open("tree.dot") as f:
    dot_graph = f.read()
graphviz.Source(dot_graph).view()

ModuleNotFoundError: No module named 'graphviz'

In [None]:
# 학습이 완료된 DecisionTreeClassifier 객체에서 테스트 데이터 세트로 예측 수행. 
pred = dt_clf.predict(X_test)

In [None]:
from sklearn.metrics import accuracy_score
print('예측 정확도: {0:.4f}'.format(accuracy_score(y_test,pred)))

예측 정확도: 0.9333
