# 1. IRIS classification

> 분류는 대표적인 Supervised Learning 방법

<br>

* `sklearn.tree` : 트리 기반 ML 알고리즘 구현한 클래스 모임
* `sklearn.model_selection` : 데이터 분리 / 최적 하이퍼파라미터 평가 모듈 모임




In [1]:
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split

## 1.1 Data load

iris dataset 불러오기

In [2]:
import pandas as pd

# 붓꽃 데이터 세트를 로딩
iris = load_iris()

# iris.data 는 dataset 에서 feature로만 된 데이터를 numpy로 가짐
iris_data = iris.data

# iris.target 는 label 데이터를 numpy로 가짐
iris_label = iris.target

print(f'iris_data : {iris_data}')
print(f'iris_label : {iris_label}')

iris_data : [[5.1 3.5 1.4 0.2]
 [4.9 3.  1.4 0.2]
 [4.7 3.2 1.3 0.2]
 [4.6 3.1 1.5 0.2]
 [5.  3.6 1.4 0.2]
 [5.4 3.9 1.7 0.4]
 [4.6 3.4 1.4 0.3]
 [5.  3.4 1.5 0.2]
 [4.4 2.9 1.4 0.2]
 [4.9 3.1 1.5 0.1]
 [5.4 3.7 1.5 0.2]
 [4.8 3.4 1.6 0.2]
 [4.8 3.  1.4 0.1]
 [4.3 3.  1.1 0.1]
 [5.8 4.  1.2 0.2]
 [5.7 4.4 1.5 0.4]
 [5.4 3.9 1.3 0.4]
 [5.1 3.5 1.4 0.3]
 [5.7 3.8 1.7 0.3]
 [5.1 3.8 1.5 0.3]
 [5.4 3.4 1.7 0.2]
 [5.1 3.7 1.5 0.4]
 [4.6 3.6 1.  0.2]
 [5.1 3.3 1.7 0.5]
 [4.8 3.4 1.9 0.2]
 [5.  3.  1.6 0.2]
 [5.  3.4 1.6 0.4]
 [5.2 3.5 1.5 0.2]
 [5.2 3.4 1.4 0.2]
 [4.7 3.2 1.6 0.2]
 [4.8 3.1 1.6 0.2]
 [5.4 3.4 1.5 0.4]
 [5.2 4.1 1.5 0.1]
 [5.5 4.2 1.4 0.2]
 [4.9 3.1 1.5 0.2]
 [5.  3.2 1.2 0.2]
 [5.5 3.5 1.3 0.2]
 [4.9 3.6 1.4 0.1]
 [4.4 3.  1.3 0.2]
 [5.1 3.4 1.5 0.2]
 [5.  3.5 1.3 0.3]
 [4.5 2.3 1.3 0.3]
 [4.4 3.2 1.3 0.2]
 [5.  3.5 1.6 0.6]
 [5.1 3.8 1.9 0.4]
 [4.8 3.  1.4 0.3]
 [5.1 3.8 1.6 0.2]
 [4.6 3.2 1.4 0.2]
 [5.3 3.7 1.5 0.2]
 [5.  3.3 1.4 0.2]
 [7.  3.2 4.7 1.4]
 [6.4 3.2 4.5 1.5]


iris data key 확인

In [12]:
iris.keys()

dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename', 'data_module'])

iris data size 확인

In [3]:
print(len(iris_data))

150


In [4]:
print(len(iris_label))

150


iris data로 dataframe 생성

In [5]:
iris_df = pd.DataFrame(data=iris_data, columns=iris.feature_names)
iris_df['label'] = iris_label
iris_df.head(3)

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),label
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0


## 1.2 train test split

In [6]:
# train_test_split 에 features 와 target 를 인자로 넣어준다.
X_train, X_test, y_train, y_test = train_test_split(iris_data, iris_label, 
                                                    test_size=0.2, random_state=11)

## 1.3 Train & Test

In [7]:
# DecisionTreeClassifier 객체 생성
dt_clf = DecisionTreeClassifier(random_state=11)

In [8]:
# 학습 수행
dt_clf.fit(X_train, y_train)

DecisionTreeClassifier(random_state=11)

In [9]:
# 학습 된 DecisionTreeClassifier 객체에 테스트 데이터 세트로 예측 수행
pred = dt_clf.predict(X_test)

In [10]:
from sklearn.metrics import accuracy_score
print(f'예측 정확도: {accuracy_score(y_test, pred)}')

예측 정확도: 0.9333333333333333


# 지도학습, 비지도학습 개념


Classification 과 Regression 를 합쳐서 Estimator 클래스라고 부름 <br>
➡️ 즉, 지도학습의 모든 알고리즘을 구현한 클래스를 Estimator 라고 통칭 <br>
➡️ fit(), predict() 메서드 대부분 적용 <br><br>

***

차원축소, 클러스터링, 피처 추출 등의 비지도학습 클래스<br>
➡️ fit(), transform() 적용
  * 여기서 fit은 학습이 x, input data에 맞춰 변환하기 위한 사전 구조를 맞춤 <br>
  * 차원변환, 클러스터링, 피처추출 등의 실제 작업은 transform() 이 수행 <br>

➡️ fit_transform() : fit과 transform 을 함께 적용

# ML 모델 구축 프로세스

>1. feature processing
  * 피처 가공, 변경, 추출
2. ML 알고리즘 학습/예측 수행
3. 모델 평가

-> 반복적으로 수행