# 파이썬 머신러닝 완벽가이드 리뷰

In [1]:
# sklearn 다운로드
pip install scikit-learn

Note: you may need to restart the kernel to use updated packages.


You should consider upgrading via the 'c:\python37\python.exe -m pip install --upgrade pip' command.


In [2]:
# sklearn 버전확인
import sklearn
print(sklearn.__version__)

0.24.2


# 머신러닝 기초

## 붓꽃 품종 예측하기

In [6]:
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
import pandas as pd

# 붓꽃 데이터 세트를 로딩합니다.
iris = load_iris()

# iris.data는 feature만으로 된 데이터를 numpy로 가지고 있습니다.
iris_data = iris.data

# iris.target은 데이터 세트의 label값을 numpy로 가지고 있습니다.
iris_label = iris.target
print(f'iris target값 : {iris_label}')
print(f'iris target명 : {iris.target_names}')

# 붓꽃 데이터 세트를 자세히 보기 위해  DataFrame으로 변환합니다.
iris_df = pd.DataFrame(data= iris_data, columns = iris.feature_names)
iris_df['label'] = iris.target
iris_df.head(3)

iris target값 : [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2]
iris target명 : ['setosa' 'versicolor' 'virginica']


Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),label
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0


setosa = 0, versicolor = 1, virginica = 2

In [8]:
# train, test 분리
X_train, X_test, y_train, y_test = train_test_split(iris_data, iris_label, test_size = 0.2, random_state = 11)

X_train.shape, X_test.shape, y_train.shape, y_test.shape

((120, 4), (30, 4), (120,), (30,))

In [10]:
# DecisionTreeClassifier 객체 생성
dt_clf = DecisionTreeClassifier(random_state = 11)

# 학습 수행
dt_clf.fit(X_train, y_train)

# 학습이 완료된 DecisionTreeClassifier 객체에서 테스트 데이터 세트로 예측 수행
pred = dt_clf.predict(X_test)

# 
from sklearn.metrics import accuracy_score
print('예측 정확도 : {0:.4f}'.format(accuracy_score(y_test, pred)))

예측 정확도 : 0.9333


**프로세스 정리**
1. 데이터 세트 분리 
2. 모델 학습
3. 예측 수행
4. 평가

## 사이킷런의 기반 프레임워크 익히기

**Estimator 이해 및 fit(), predict() 메서드**

- 사이킷런은 ML모델 학습을 위해서 fit()을, 학습된 모델의 예측을 위해서 predict() 메서드를 제공한다. 
- 사이킷런에는 많은 Classifier와 Regressor 를 제공하고 이 둘을 합쳐서 Estimator 클래스 라고 부른다.

**Model Selection 모듈 소개**

- model_selection 모듈은 학습 데이터와 테스트 데이터 세트를 분리하거나, 교차검증 분할 및 평가, 그리고 Estimator의 하이퍼 파라미터를 튜닝하기 위한 다양한 함수와 클래스를 제공한다. 

**train_test_split()**

- 학습데이터로만 사용을 하면 예측을 100%한다. 왜냐하면 이미 학습되어있었기 때문이다.

< 파라미터 설명 >
- test_size : 테스트 데이터의 크기를 얼마로 할것인가
- train_size : 학습데이터를 얼마로 할것인가
- shuffle : 데이터를 분리하기 전에 미리 섞을것인가, 디폴트는 True이다.(데이터를 분산시켜 좀 더 효율적인 학습 및 테스트 데이터 세트를 만드는데 사용된다.)
- random_state : 랜덤시드값이랑 같은 의미이다.

In [22]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

# 모델 객체 생성
dt_clf = DecisionTreeClassifier()

# 데이터셋 로드
iris_data = load_iris()

# 데이터셋 분리
X_train, X_test, y_train, y_test = train_test_split(iris_data.data, iris_data.target, test_size =0.3, random_state = 121)

# 모델 객체 학습
dt_clf.fit(X_train, y_train)
pred = dt_clf.predict(X_test)
print(f'예측 정확도 : {accuracy_score(y_test, pred):.4f}')

예측 정확도 : 0.9556


- 높은 정확도가 나왔지만 test데이터가 45개 정도 밖에 되지않기 때문에 적절하지는 않다.

**교차검증**