# __sklearn__
## 1. 사이킷런 소개, 특징
## 2. 붓꽃 품종 예측
## 3. 사이킷런 기반 프레임워크
## 4. model_selection
## 5. preprocessing
## 6. 타이타닉 생존자 예측

## 2. 붓꽃 품종 예측

In [41]:
import numpy as np
import pandas as pd
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split

In [42]:
# 예제 데이터 로드
iris = load_iris()

# 피쳐, 레이블 데이터 저장
iris_data = iris.data # 피쳐 데이터(nparray)
iris_label = iris.target # 레이블 데이터(nparray)

# DataFrame 만들기
iris_df = pd.DataFrame(iris_data, columns = iris.feature_names)
iris_df['label'] = iris_label
iris_df.head(3)

# train, test dataset 분리
X_train, X_test, y_train, y_test = train_test_split(iris_data, iris_label, test_size = 0.2,
                                                    random_state = 11)

# decision tree classifier 객체 생성하고 모델 적합, 예측
dt_clf = DecisionTreeClassifier(random_state=11)
dt_clf.fit(X_train, y_train) 
pred = dt_clf.predict(X_test)

# 예측 성능 평가 : 정확도 측정하기.
from sklearn.metrics import accuracy_score
print('예측 정확도 : {0:.4f}'.format(accuracy_score(y_test, pred)))

예측 정확도 : 0.9333


### 모델 적합, 예측 순서
1. 피쳐 데이터, 레이블 데이터 저장
2. DataFrame 저장
3. train, test set 분리
4. 모델 적합
5. 예측 및 성능 평가

## 3. 사이킷런 기반 프레임워크

- Estimator(분류, 회귀 모델들) - fit(), predict()
 - fit()을 통해 모델 적합, predict()를 통해 원하는 데이터 예측
 
- 비지도 학습 모델 - fit(), transform(), fit_transform()
 - fit()을 통해 데이터 변환방식 만들고, transform()을 통해 다른 데이터를 같은 방식으로 변환
 - fit_transform()을 test data에 사용하지 말 것!!
 
- 그 외, Estimator를 인자로 받는 cross_val_score(), GridSearchCV()에 대해서.

### sklearn 주요 모듈
#### 예제 데이터
- sklearn.datasets # 예시 파일들

#### 피처 처리(전처리)
- sklearn.preprocessing # 문자열 숫자형으로, 정규화, 스케일링 등 전처리 과정
- sklearn.feature_selection # 변수 선택(더 중요한 변수 선택하는 기법).
- sklearn.feature_extraction # 변수 추출.. 텍스트 데이터, 이미지 데이터 어쩌구 아직은 모름

#### 피처 처리(차원 축소)
- sklearn.decomposition # 차원 축소 관련 (PCA, NMF, Truncated SVD)

#### 데이터 분리, 검증, 파라미터 튜닝
- sklearn.model_selection # 학습용/테스트용 데이터 분리, 그리드 서치로 최적 하이퍼 파라미터 추출

#### 평가
- sklearn.metrics # 평가 기법(성능 측정 방법)

#### ML 알고리즘들
- sklearn.ensemble # 앙상블 알고리즘 (여러 개 묶어서 알고리즘 짜는거)
- sklearn.linear_model # 선형 회귀, 릿지, 라쏘, 로지스틱 회귀 등.
- sklearn.naive_bayes # 나이브 베이즈 알고리즘, 가우시안 NB, 다항 분포 NB
- sklearn.neighbors # 최근접 이웃 알고리즘 (kNN 등)
- sklearn.svm # 서포트 벡터 머신
- sklearn.tree # 결정트리
- sklearn.cluster # 비지도 클러스터링 알고리즘 (Kmeans, 계층형, DBSCAN..)

#### 유틸리티 ( 뭐에 써먹는것? 모름)
- sklearn.pipeline # 피처 처리 등. 변환과 ML알고리즘 학습, 예측 유틸리티 제공.





#### 우리는 이 중에서
- sklearn.datasets
- sklearn.preprocessing
 - encoder, scaler, standardizer
- sklearn.model_selection
 - train_test_split, GridSearchCV, KFold, Str.KFold, cross_val_score
- sklearn.metrics
 - accuracy_score
 
##### ML 클래스들
- sklearn.tree
- sklearn.ensemble
- sklearn.linear_model

from sklearn.datasets import load_iris
에 대해서.

In [43]:
from sklearn.datasets import load_iris

iris = load_iris()
print(iris.keys())

dict_keys(['data', 'target', 'target_names', 'DESCR', 'feature_names', 'filename'])


## 4. model_selection
- train_test_split()
- KFold(n_splits=3)
- StratifiedKFold(n_splits=3)
- GridSearchCV()
- cross_val_score()

### 1. train_test_split()

In [44]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

dt_clf = DecisionTreeClassifier()
iris = load_iris()

X_train, X_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size = 0.3,
                                                    random_state = 121)

dt_clf.fit(X_train, y_train)
pred = dt_clf.predict(X_test)

print("예측 정확도 :", np.round(accuracy_score(y_test, pred), 4))

예측 정확도 : 0.9556


### 2. KFold(n_splits = 3) : 교차 검증

In [48]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
from sklearn.model_selection import KFold
import numpy as np

# 피쳐, 레이블 저장
iris = load_iris()
features = iris.data
label = iris.target

# 모델 객체 생성
dt_clf = DecisionTreeClassifier()

# 5개 폴드 세트로 분리해서 교차검증하는 리스트 객체 생성
kfold = KFold(n_splits=5)
cv_accuracy = []


# for문을 이용해서, KFold 내에서 알아서 5개로 나눠준 index들을 가지고 알아서 교차검증...
for train_index, test_index in kfold.split(features):
    X_train, X_test = features[train_index], features[test_index]
    y_train, y_test = label[train_index], label[test_index]
    
    # 모델 적합 , 예측 , 성능 평가
    dt_clf.fit(X_train, y_train)
    pred = dt_clf.predict(X_test)
    accuracy = np.round(accuracy_score(y_test, pred), 4)
    cv_accuracy.append(accuracy)

print("5번 교차검증 ", cv_accuracy)
print("평균 정확도 ", np.round(np.mean(cv_accuracy), 4))

5번 교차검증  [1.0, 0.9667, 0.8667, 0.9333, 0.7667]
평균 정확도  0.9067


### 3. StratifiedKFold(n_splits =3)
- Kfold를 위해 나눠지는 n개의 데이터 서브셋의 label 데이터 비율이, 원래 label 데이터의 레이블 비율과 같게 되도록 서브셋을 나눔

In [18]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
from sklearn.model_selection import StratifiedKFold

# 피쳐, 레이블 데이터 저장
iris = load_iris()
features = iris.data
label = iris.target

# 모델 객체 생성
dt_clf = DecisionTreeClassifier(random_state=156)

# StKfold 객체 생성
skfold = StratifiedKFold(n_splits=3)
cv_accuracy = []

# for문 돌려서 직접 교차검증하기.. split()호출할때 str.kfold는 무조건 레이블 데이터도 넣어야 함!!
for train_index, test_index in skfold.split(features, label):
    X_train, X_test = features[train_index], features[test_index]
    y_train, y_test = label[train_index], label[test_index]
    
    # 모델 적합, 예측 및 성능 평가
    dt_clf.fit(X_train, y_train)
    pred = dt_clf.predict(X_test)
    accuracy = np.round(accuracy_score(y_test, pred), 4)
    cv_accuracy.append(accuracy)
    
print("3번 str-교차검증 ", cv_accuracy)
print("평균 정확도 ", np.round(np.mean(cv_accuracy), 4))

3번 str-교차검증  [0.9804, 0.9216, 0.9792]
평균 정확도  0.9604


#### 일반적으로 분류에서의 교차 검증은 StratifiedKFold로, 회귀는 그냥 KFold로 한다.
#### 회귀에서는 레이블의 비율을 측정하는 게 의미가 없기 때문

### 3. cross_val_score() : 교차검증
- for문 없이 알아서 해주는 거
- 분류의 경우 알아서 StratifiedKFold로 해준다.

In [23]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import cross_val_score, cross_validate
from sklearn.datasets import load_iris
# from sklearn.metrics import accuracy_score : cross_val_score에서 할꺼니까 필요 없음

# 피처, 레이블 데이터
iris = load_iris()
features = iris.data
label = iris.target

# 모델 객체 생성
dt_clf = DecisionTreeClassifier(random_state = 156)

# cross_val_score() 객체 생성.
# 성능지표 : 정확도(accuracy), 교차검증세트 : 3개
scores = cross_val_score(dt_clf, features, label, scoring='accuracy', cv=3)
print("3번 str-교차검증 ", np.round(scores, 4))
print("평균 정확도 ", np.round(np.mean(scores), 4))

# scores 객체는 각 시행에서의 성능 지표를 담은 리스트를 반환한다.

3번 str-교차검증  [0.9804 0.9216 0.9792]
평균 정확도  0.9604


### 4. GridSearchCV() : 교차 검증과 최적 하이퍼 파라미터 튜닝
- 하이퍼 파라미터 : 머신러닝 알고리즘에 매우 중요한 요소 중 하나.
- 우리가 직접 설정해야만 함, 그래서 최적의 하이퍼 파라미터를 설정하는 것도 중요하다고 함

In [24]:
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import GridSearchCV
from sklearn.model_selection import train_test_split
# from sklearn.metrics import accuracy_score : 필요 없음.


# 데이터 로딩, 학습/테스트 분리.
iris = load_iris()
X_train, X_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size = 0.2,
                                                    random_state = 121)

# 모델 객체 생성
dtree = DecisionTreeClassifier()

### 파라미터 조합 생성 : 딕셔너리 형태로. 
parameters = {'max_depth' : [1, 2, 3], 'min_samples_split' : [2, 3]}

# GridSearchCV 객체 생성
grid_dtree = GridSearchCV(dtree, param_grid = parameters, cv=3, refit = True)
# 3번의 교차검증, 3*2개의 파라미터 조합 => 총 18번 모델 적합 후 최적의 모델 찾아줌

# 하이퍼 파라미터 순차적으로 학습평가.
grid_dtree.fit(X_train, y_train)

# 결과를 데이터프레임 반환
scores_df = pd.DataFrame(grid_dtree.cv_results_)
scores_df[['params', 'mean_test_score', 'rank_test_score',
           'split0_test_score', 'split1_test_score', 'split2_test_score']]



Unnamed: 0,params,mean_test_score,rank_test_score,split0_test_score,split1_test_score,split2_test_score
0,"{'max_depth': 1, 'min_samples_split': 2}",0.7,5,0.7,0.7,0.7
1,"{'max_depth': 1, 'min_samples_split': 3}",0.7,5,0.7,0.7,0.7
2,"{'max_depth': 2, 'min_samples_split': 2}",0.958333,3,0.925,1.0,0.95
3,"{'max_depth': 2, 'min_samples_split': 3}",0.958333,3,0.925,1.0,0.95
4,"{'max_depth': 3, 'min_samples_split': 2}",0.975,1,0.975,1.0,0.95
5,"{'max_depth': 3, 'min_samples_split': 3}",0.975,1,0.975,1.0,0.95


In [25]:
# 최적의 파라미터
print(grid_dtree.best_params_)

# 최적 파라미터일 때의 정확도
print(grid_dtree.best_score_)

# 최적 파라미터로 학습된 모델을 반환, refit=True로 해놓아야 함.
estimator = grid_dtree.best_estimator_

# 예측하기.
pred = estimator.predict(X_test)
print("정확도 : {:.4f}".format(accuracy_score(y_test, pred)))

{'max_depth': 3, 'min_samples_split': 2}
0.975
정확도 : 0.9667


## 일반적으로 __학습 데이터를 GridSearchCV를 이용해 최적 하이퍼 파라미터 튜닝을 수행__하고 나서, __별도의 테스트 세트에서 이를 평가__한다.

## 4. preprocessing
- Null 값 : Column 다 버리기에는 너무 중요한 데이터인데, 그렇기엔 Null값이 좀 많은 경우 대체값을 확실하게 잘 찾아야 함. 애매해서 어려움
- 문자열 값 : Sklearn ML은 문자열을 입력값으로 허용하지 않는다. -> 인코딩을 통해 숫자형으로 변환되어야 함.
- 문자열 피처 : 카테고리형 피처(코드값), 텍스트형 피처(피처 벡터화, 또는 불필요한 피처를 삭제)를 의미
- 식별자 문자열 피처와 같은 경우는 인코딩하지 않고 삭제. 굳이 필요가 없음 예측에 중요하지 않으니까
------------------------------------------------------------------------------------
- 문자열 데이터 인코딩(LabelEncoder(), OneHotEncoder(), pd.get_dummies(df))
- 표준화, 정규화(StandardScaler(), MinMaxScaler())

### Encoding : LabelEncoder(), OneHotEncoder(), pd.get_dummies()

In [35]:
items = ['TV', '냉장고', '전자레인지', '컴퓨터', '선풍기', '선풍기', '믹서', '믹서']

# Label Encoding
from sklearn.preprocessing import LabelEncoder

# encoder 객체 생성
encoder = LabelEncoder()

# encoder fit
encoder.fit(items)

# 원하는 데이터에 적용
labels = encoder.transform(items)

print("변환값 :", labels)
print("인코딩 클래스 :", encoder.classes_) # 어떤 카테고리가 어떤 숫자로 치환됐는지
print("디코딩 원본값 :", encoder.inverse_transform(labels)) # 숫자를 주면 대응하는 카테고리 반환

변환값 : [0 1 4 5 3 3 2 2]
인코딩 클래스 : ['TV' '냉장고' '믹서' '선풍기' '전자레인지' '컴퓨터']
디코딩 원본값 : ['TV' '냉장고' '전자레인지' '컴퓨터' '선풍기' '선풍기' '믹서' '믹서']


In [22]:
items = ['TV', '냉장고', '전자레인지', '컴퓨터', '선풍기', '선풍기', '믹서', '믹서']

# One-Hot encoding
# 주의점 : 모든 변환하기 전 값이 문자열이 아닌 숫자로 되어 있어야 한다.
# 주의점 2 : 입력값은 항상 2차원 데이터여야 한다.
# 따라서 LabelEncoder를 먼저 적용한 후 적용해야 할 듯

# 숫자 값으로 먼저 변환
from sklearn.preprocessing import LabelEncoder
encoder = LabelEncoder()
encoder.fit(items)
labels = encoder.transform(items)

# 2차원 array로 만들어주기
labels = labels.reshape((-1, 1))

# One-Hot encoding 적용
from sklearn.preprocessing import OneHotEncoder
oh_encoder = OneHotEncoder()
oh_encoder.fit(labels)
oh_labels = oh_encoder.transform(labels)

# encode 결과
oh_labels.toarray() # oh_labels는 행렬 형태로 나오기 때문에, toarray() 해줘야 함

In case you used a LabelEncoder before this OneHotEncoder to convert the categories to integers, then you can now use the OneHotEncoder directly.


array([[1., 0., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0., 0.],
       [0., 0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 0., 1.],
       [0., 0., 0., 1., 0., 0.],
       [0., 0., 0., 1., 0., 0.],
       [0., 0., 1., 0., 0., 0.],
       [0., 0., 1., 0., 0., 0.]])

In [40]:
# pandas의 get_dummies(df) 사용하기

item_df = pd.DataFrame({'item' : items})
item_dummy_df = pd.get_dummies(item_df)
print(item_dummy_df)

# 데이터는 대부분 DataFrame 형태이므로 개꿀메소드라고 생각됨

   item_TV  item_냉장고  item_믹서  item_선풍기  item_전자레인지  item_컴퓨터
0        1         0        0         0           0         0
1        0         1        0         0           0         0
2        0         0        0         0           1         0
3        0         0        0         0           0         1
4        0         0        0         1           0         0
5        0         0        0         1           0         0
6        0         0        1         0           0         0
7        0         0        1         0           0         0


#### 정리 : Encoding 과정
1. Encoding 하고싶은, 카테고리 데이터가 있는 컬럼을 원본 df에서 빼낸다
2. 카테고리 데이터 컬럼을 LabelEncoder에 fit_transform
3. 2차원 만든 뒤 OneHotEncoder에 fit_transform
4. toarray() 등 사용해서, 원본 df에 다시 추가

 또는 빼낸 컬럼을 pd.get_dummies(df)로 원핫인코딩해서 추가

### 2. 피처 스케일링, 정규화

- 표준화(Standardization), 정규화(Normalization)
- 표준화는 표준정규분포를 따르게 변환하는 것.
- 정규화는 최소 0~ 최대 1의 값을 가지도록 min max 변화시켜주는 것.

- 사이킷런에서 Normalizer 모듈은 선형대수 정규화 개념으로, 개별 벡터의 크기를 맞추기 위해 변환하는 것을 의미함.
- 표준화 정규화는 한 개의 컬럼에 대해서, 사이킷런의 Normalizer는 동시에 여러 개의 컬럼에 대해서 진행하는 정규화라고 생각할수 있을듯

In [28]:
from sklearn.datasets import load_iris
import pandas as pd

# 피쳐데이터 DataFrame 변환하기.
iris = load_iris()
iris_df = pd.DataFrame(iris.data, columns = iris.feature_names)

In [29]:
# StandardScaler : 표준정규분포 형태로
from sklearn.preprocessing import StandardScaler

# scaler 객체 생성, fit_transform.
scaler = StandardScaler()
scaler.fit(iris_df) # 그냥 df 전체 넣어도 알아서 scale해줌, 개별 피쳐를 변환해준다.
iris_scaled = scaler.transform(iris_df) # 반환값은 array형태이다.

# array 형태의 scaled 데이터를 다시 DataFrame으로
iris_df_scaled = pd.DataFrame(iris_scaled, columns = iris.feature_names)
print(iris_df_scaled.mean())
print(iris_df_scaled.var())

sepal length (cm)   -1.690315e-15
sepal width (cm)    -1.842970e-15
petal length (cm)   -1.698641e-15
petal width (cm)    -1.409243e-15
dtype: float64
sepal length (cm)    1.006711
sepal width (cm)     1.006711
petal length (cm)    1.006711
petal width (cm)     1.006711
dtype: float64


In [33]:
# MinMaxScaler
from sklearn.preprocessing import MinMaxScaler

# scaler 객체 생성, fit_transform
scaler = MinMaxScaler()
scaler.fit(iris_df)
iris_scaled = scaler.transform(iris_df)

# array 형태를 df으로 만들기
iris_df_scaled = pd.DataFrame(iris_scaled, columns = iris.feature_names)
print(iris_df_scaled.max())
print(iris_df_scaled.min())

sepal length (cm)    1.0
sepal width (cm)     1.0
petal length (cm)    1.0
petal width (cm)     1.0
dtype: float64
sepal length (cm)    0.0
sepal width (cm)     0.0
petal length (cm)    0.0
petal width (cm)     0.0
dtype: float64


## 학습 데이터, 테스트 데이터의 스케일링 변환시 유의점

- fit(), transform(), fit_transform() 을 이용.
- fit() : 객체에 데이터 변환 기준 정보 설정.
- transform() : 설정된 정보를 이용해 데이터를 변환
- fit_transform() : 한번에 해줌

- 그러니까 처음에 학습 데이터 할때는 fit_transform() 해도 되는데, 테스트 데이터를 학습 데이터와 같은 식으로 데이터 변환하려면 fit_transform()이 아니라 transform()만 해야된다!!! fit_transform()하면 테스트 데이터에 맞춘 새로운 스케일링 정보가 저장되어서 그걸로 스케일링되기 때문에 모델이 달라진다.


##### 주의사항 정리
- __전체 데이터를 스케일링 변환한 뒤 학습-테스트 데이터로 분리할 것__
- __그게 안 되면 적어도 fit_transform()을 테스트 데이터에 사용하지 말 것.__