In [None]:
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
import pandas as pd

iris = load_iris()

iris_data = iris.data
iris_label = iris.target
print(iris_label)
print(iris.target_names)

iris_df = pd.DataFrame(data=iris_data, columns=iris.feature_names)
iris_df["label"] = iris.target
iris_df.head(3)

In [None]:
# 학습용 / 테스트용 데이터 분리

X_train, X_test, y_train, y_test = train_test_split(iris_data, iris_label, test_size=0.2, random_state=11)
'''
X_train
- 학습용 Feature Data Set
X_test
- 테스트용 Feature Data Set
y_train
- 학습용 Label Data Set
y_test
- 테스트용 Label Data Set

test_size
- 전체 중 테스트 데이터 세트의 비율

random_state
- 랜덤 seed
'''

In [None]:
# 분류
dt_clf = DecisionTreeClassifier(random_state=11)
# 학습 = fit
dt_clf.fit(X_train, y_train)
# 테스트 = predict
pred = dt_clf.predict(X_test)
print(pred)

In [None]:
# 예측 성능 평가
# 정확도 = accuracyt_score
from sklearn.metrics import accuracy_score
# accuracy_score(정답 레이블 데이터 세트, 예측 레이블 데이터 세트)
print(accuracy_score(y_test, pred))

In [None]:
print(y_test) # 정답
print(pred)   # 예측
# 전체 30개 데이터 중 28개 일치 -> 0.93333333333

In [None]:
'''
예제 데이터
- sklearn.datasets
    - 사이킷런에 내장되어 예제로 제공하는 데이터 세트

피처 처리
- sklearn.preprocessing
    - 데이터 전처리에 필요한 다양한 가공 기능을 제공한다.
    - 문자열을 숫자형 코드 값으로 인코딩, 정규화, 스케일링 등
- sklearn.feature_selection
    - 알고리즘에 큰 영향을 미치는 피처를 우선순위대로 선택 작업을 수행하는 다양한 기능을 제공한다.
- sklearn.feature_extraction
    - 텍스트 데이터나 이미지 데이터의 벡터화된 피처를 추출한다.

피처 처리 & 차원 축소
- sklearn.decomposition
    - 차원 축소와 관련된 알고리즘을 지원하는 모듈이다.

데이터 분리, 검증 및 파라미터 튜닝
- sklearn.model_selection
    - 교차 검증을 위한 학습용 / 테스트용 분리, 최적 파라미터 추출 등의 API를 제공한다.

평가
- sklearn.metrics
    - 다양한 성능 측정 방법을 제공한다.

머신러닝 알고리즘
- sklearn.ensemble
    - 앙상블 알고리즘 제공
- sklearn.linear_model
    - 회귀 관련 알고리즘 등을 지원한다.
- sklearn.naive_bayes
    - 나이브 베이즈 알고리즘을 제공한다.
- sklearn.neighbors
    - 최근접 이웃 알고리즘을 제공한다.
- sklearn.svm
    - 서포트 벡터 머신 알고리즘을 제공한다.
- sklearn.tree
    - 의사 결정 트리 알고리즘을 제공한다.
- sklearn.cluster
    - 클러스터링 알고리즘을 제공한다.

유틸리티
- sklearn.pipeline
    - 피처 처리 등의 변환과 머신 러닝 알고리즘 학습, 예측 등을 함께 묶어서 실행할 수 있는 유틸리티를 제공한다.
'''

In [None]:
'''
내장된 예제 데이터 세트
- 회귀 용도
    - datasets.load_boston()
        - 미국 보스턴 집 값 데이터 세트
    - datasets.load_diabetes()
        - 당뇨 데이터 세트
- 분류 용도
    - datsets.load_breast_cancer()
        - 위스콘신 유방암 데이터 세트
    - datasets.load_digits()
        - 0 ~ 9 숫자 이미지 데이터 세트
    - dataset.load_iris()
        - 붓꽃 데이터 세트

다운로드 예제 데이터 세트
- 인터넷에서 내려 받아 scikit_learn_data 폴더에 저장한다.
    - fetch_covtype()
        - 토지 조사 자료
    - fetch_20newsgroups()
        - 뉴스 그룹 텍스트 자료
    - fetch_olivetti_faces()
        - 얼굴 이미지 자료
    - fetch_lfw_people()
        - 얼굴 이미지 자료
    - fetch_lfw_pairs()
        - 얼굴 이미지 자료
    - fetch_rcv1()
        - 로이터 뉴스 말뭉치
    - fetch_mldata()
        - ML 웹사이트에서 다운로드
'''

In [None]:
'''
표본 데이터 생성기
- 분류와 클러스터링을 위한 표본 데이터 생성기
    - datasets.make_classifications()
        - 분류를 위한 데이터 세트를 무작위로 생성한다.
    - datasets.make_blobs()
        - 클러스터링을 위한 데이터 세트를 무작위로 생성한다.
'''

In [None]:
'''
예제 데이터의 구성
- 딕셔너리 형태로 저장된다.

키(Key)
- data
    - 피처의 데이터 세트(ndarray)
- target
    - 분류는 레이블 값, 회귀는 숫자 결과 값(ndarray)
- target_names
    - 레이블 이름(ndarray or list)
- feature_names
    - 피처 이름(ndarray or list)
- DESCR
    - 데이터 세트 및 각 피처에 대한 설명(string)
'''
# 키 종류
print(iris.keys())
# dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename', 'data_module'])

In [None]:
'''
Model Selection 모듈 소개
- 학습 / 테스트 데이터 세트 분리, 교차 검증 분할 및 평가, 하이퍼 파라미터 튜닝을 위한 다양한 함수와 클래스를 제공한다.
- 학습 / 테스트 데이터 세트 분리(train_test_split)
    - 파라미터들
        - test_size
            - 전체에서 테스트 데이터 세트의 비율(기본 값 = 0.25)
        - train_size
            - 전체에서 학습용 데이터 세트의 비율
            - 일반적으로 train_size 보다는 test_size를 지정한다.
        - shuffle
            - 데이터를 분리하기 전에 데이터를 미리 섞을지 결정한다.
            - 기본값은 True이다.
        - random_state
            - 랜덤 seed 역할이다.
            - 생략하면 무작위 데이터로 분리한다.
            - 일정한 값으로 지정하면, 매번 같은 데이터 세트로 분리한다.
    - 반환 값
        - 학습용 피처 데이터 세트
        - 테스트용 피처 데이터 세트
        - 학습용 레이블 데이터 세트
        - 테스트용 레이블 데이터 세트 순서의 튜플
'''

In [None]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

dt_clf = DecisionTreeClassifier()
iris = load_iris()
X_train, X_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.3, random_state=121)

dt_clf.fit(X_train, y_train)
pred = dt_clf.predict(X_test)
print(accuracy_score(y_test, pred))

In [None]:
'''
교차 검증
- 과적합(Overfitting)되지 않도록 다양한 학습과 평가를 수행한다.
- 데이터의 편중을 막기 위해 여러 세트로 구성된 학습 데이터 세트와 검증 데이터 세트로 학습과 평가를 수행한다.
- 데이터 세트
    - 학습 / 검증 / 테스트 데이터 세트로 분리한다.

|-------training--------------------------|-------test-------|
|-------training-------|----validation----|-------test-------|
실질적으로 test데이터는 학습이 모두 종료된 후 사용한다.
- 학습이 제데로 되었는지 확인하기 위해 validation 데이터셋을 사용한다.

K 폴드 교차 검증
- K개의 데이터 폴드 세트
- K = 5인 경우
- 첫 번째 학습 / 검증      |학습|학습|학습|학습|검증| -> 검증 평가 1
- 두 번째 학습 / 검증      |학습|학습|학습|검증|학습| -> 검증 평가 2
- 셋 번째 학습 / 검증      |학습|학습|검증|학습|학습| -> 검증 평가 3
- 네 번째 학습 / 검증      |학습|검증|학습|학습|학습| -> 검증 평가 4
- 다섯 번째 학습 / 검증    |검증|학습|학습|학습|학습| -> 검증 평가 5
                                                    - 교차 검증 최종 평가 => 평균(검증 평가 1 ~ 5)
'''

In [None]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
from sklearn.model_selection import KFold
import numpy as np

iris = load_iris()
iris_data = iris.data
iris_label = iris.target
dt_clf = DecisionTreeClassifier(random_state=156)

kflod = KFold(n_splits=5)
cv_accuracy= []
n_iter = 0

for train_index, test_index in kflod.split(iris_data):
    X_train, X_test = iris_data[train_index], iris_data[test_index]
    y_train, y_test = iris_label[train_index], iris_label[test_index]
    dt_clf.fit(X_train, y_train)
    pred = dt_clf.predict(X_test)
    n_iter += 1
    accuracy = np.round(accuracy_score(y_test, pred), 4)
    train_size = X_train.shape[0]
    test_size = X_test.shape[0]
    print(n_iter, accuracy, train_size, test_size)
    print(n_iter, test_index)
    cv_accuracy.append(accuracy)
print(np.mean(cv_accuracy))

In [None]:
'''
교차 검증
- Stratified K 폴드
- 불균형한 레이블 분포
- 특정 레이블이 특이하게 많거나, 적어서 분포가 치우쳐진다.
- 전체 레이블 분포대로 각 폴드의 레이블 분포를 유지한다.
'''
import pandas as pd

iris = load_iris()
iris_df = pd.DataFrame(data = iris.data, columns= iris.feature_names)
iris_df["label"] = iris.target
iris_df["label"].value_counts()


dt_clf = DecisionTreeClassifier(random_state=156)

kflod = KFold(n_splits=3)
iris_data = iris.data
iris_label = iris.target
cv_accuracy= []
n_iter = 0

for train_index, test_index in kflod.split(iris_data):
    X_train, X_test = iris_data[train_index], iris_data[test_index]
    y_train, y_test = iris_label[train_index], iris_label[test_index]
    dt_clf.fit(X_train, y_train)
    pred = dt_clf.predict(X_test)
    n_iter += 1
    accuracy = np.round(accuracy_score(y_test, pred), 4)
    train_size = X_train.shape[0]
    test_size = X_test.shape[0]
    print(n_iter, accuracy, train_size, test_size)
    print(n_iter, test_index)
    cv_accuracy.append(accuracy)
print(np.mean(cv_accuracy))

In [None]:
from sklearn.model_selection import StratifiedKFold
# StratifiedKFold => 원래 데이터의 비율을 유지하며 데이터 세트를 나눈다.
skf = StratifiedKFold(n_splits=3)
n_iter = 0

for train_index, test_index in skf.split(iris_df, iris_df["label"]):
    n_iter += 1
    label_train = iris_df["label"].iloc[train_index]
    label_test = iris_df["label"].iloc[test_index]
    print("iteration", n_iter)
    print(label_train.value_counts())
    print(label_test.value_counts())

In [None]:
'''
cross_val_score
- 교차 검증을 보다 간편하게 수행할 수 있다.
- cross_val_score(
    estimator,          => Classifier 또는 Regression
    X,                  => 피처 데이터 세트
    y=None,             => 레이블 데이터 세트
    scoring=None,       => 예측 성능 평가 지표
    cv=None,            => 교차 검증 폴드 수
    n_jobs=1,           
    verbose=0,
    fit_params=None,
    pre_dispatch=`2*n_jobs`
)
- 성능 지표(scoring) 측정 값을 배열로 반환한다.
- 분류의 경우 Stratified K 폴드 방식을 사용하는게 좋다.
- 회귀의 경우 K 폴드 방식을 사용하는게 좋다.
'''

In [None]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import cross_val_score, cross_validate
from sklearn.datasets import load_iris

iris = load_iris()
dt_clf = DecisionTreeClassifier(random_state=156)
iris_data = iris.data
iris_label = iris.target

scores = cross_val_score(dt_clf, iris_data, iris_label, scoring="accuracy", cv=3)
print(np.round(scores, 4))
print(np.round(np.mean(scores), 4))

In [None]:
'''
교차 검증
- 교차 검증과 최적 하이퍼 파라미터 튜닝을 한 번에 수행한다.
    - GridSearchCV
        - 여러 하이퍼 파라미터를 순차적으로 변경하면서 최고 성능을 내는 파라미터의 조합을 찾는다.
        - grid_parameters = {"max_depth":[1, 2, 3], "min_samples_split":[2, 3]}
    - GridSearchCV(
        estimator,              # classifier, regressor 등
        param_grid,             # key + 리스트 값의 딕셔너리, 튜닝을 위한 파라미터 이름과 값
        scoring,                # 성능 측정 평가 방법, accuracy 등
        cv,                     # 학습 / 테스트 세트의 개수
        refit,                  # 최적의 하이퍼 파라미터를 찾은 후, 해당 하이퍼 파라미터로 estimator를 재학습시킨다. 기본값은 True이다.
    )
'''
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import GridSearchCV

iris = load_iris()
X_train, X_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size = 0.2, random_state=121)
dtree = DecisionTreeClassifier()
parameters = {"max_depth" : [1, 2, 3], "min_samples_split" : [2, 3]}

grid_dtree = GridSearchCV(dtree, param_grid = parameters, cv=3, refit=True)
grid_dtree.fit(X_train, y_train)

scores_df = pd.DataFrame(grid_dtree.cv_results_)
scores_df[["params", "mean_test_score", "rank_test_score", "split0_test_score", "split1_test_score", "split2_test_score"]]

In [None]:
print(grid_dtree.best_params_)
print(grid_dtree.best_score_)

In [None]:
estimator = grid_dtree.best_estimator_
pred = estimator.predict(X_test)
print(accuracy_score(y_test, pred))

In [None]:
'''
데이터 전처리
- 결손값 처리(NaN, Null)
    - Null 값이 적으면 평균값 등으로 대체한다.
    - Null 값이 대부분이면 해당 피처를 드랍시킨다.
    - Null 값이 일정 수준 이상이면, 해당 피처가 높은 중요도, 단순히 평균값으로 대체하면 왜곡이 심한 경우 등
- 입력이 문자열인 경우
    - 인코딩하여 숫자로 변환해야 한다.
    - 카테고리형 피처 => 코드값으로(수박, 바나나, 딸기 분류 => 수박 = 0번, 바나나 = 1번, 딸기 = 2번)
    - 텍스트형 피처 => 피처 백터와
    - 불필요한 픽처 => 삭제
'''

In [None]:
'''
데이터 인코딩
- 레이블 인코딩(Label encoding)
    - 카테고리 피처를 코드형 숫자 값으로 변환한다.
        - ex) TV : 1, 냉장고 : 2, 전자레인지 : 3
'''
from sklearn.preprocessing import LabelEncoder

items = ["TV", "냉장고", "전자레인지", "컴퓨터", "선풍기", "선풍기", "믹서", "믹서"]

encoder = LabelEncoder()
encoder.fit(items) # TV는 몇번, 냉장고는 몇번 이런걸 만든다
print(encoder.transform(items)) # items를 encoder.fit()에서 변경한 숫자로 만들어준다.
print(encoder.classes_)
print(encoder.inverse_transform([4, 5, 2, 0, 1, 1, 3, 3])) # 숫자를 다시 text로 변경한다.
'''
숫자 값으로 변환되지만 숫자는 의미는 없다.
- 숫자의 특성이 반영되면 안된다.
- 회귀 등에는 레이블 인코딩을 적용하면 안된다.
    - 회귀는 숫자의 특성을 반영하기에 레이블 인코딩을 적용하면 안됨
- 의사 결정 트리는 숫자의 특성이 반영되지 않으므로 괜찮다.
'''

In [None]:
'''
데이터 인코딩
- 원-핫 인코딩(One Hot Encoding)
    - 고유 값에 해당하는 컬럼만 1이고 나머지는 0이다.
'''
from sklearn.preprocessing import OneHotEncoder
import numpy as np

items = ["TV", "냉장고", "전자레인지", "컴퓨터", "선풍기", "선풍기", "믹서", "믹서"]

encoder = LabelEncoder()
encoder.fit(items)
labels = encoder.transform(items)
labels = labels.reshape(-1, 1)

oh_encoder = OneHotEncoder()
oh_encoder.fit(labels)
oh_labels = oh_encoder.transform(labels)
print(oh_labels.toarray())
print(oh_labels.shape)

In [None]:
'''
판다스를 사용한 원 핫 인코딩
'''
import pandas as pd
df = pd.DataFrame({"item" : ["TV", "냉장고", "전자레인지", "컴퓨터", "선풍기", "선풍기", "믹서", "믹서"]})
pd.get_dummies(df)

In [None]:
'''
데이터 전처리
- 피처 스케일링(Feature Scaling)
    - 서로 다른 변수의 값 범위를 일정 수준으로 맞추는 작업이다.
    - 표준화(가우시안 정규 분포)
        - 피처 각각을 평균 0, 분산 1 가우시안 정규 분포로 변환한다.
    - 정규화
        - 각 피처의 크기를 통일하기 위해 크기를 변환한다.
        - 거리 0 ~ 100km
        - 금액 0 ~ 100,000,000,000원
            - 거리와 금액을 0 ~ 1로 변환한다.
'''

In [None]:
'''
데이터 전처리
StandardScaler
- 표준화를 지원하는 클래스이다.
- 사이킷런의 서포트 벡터 머신, 선형 회귀, 로지스틱 회귀는 데이터가 가우시안 분포라고 가정하고 구현되었다.
    - 즉, 사전에 데이터 표준화가 필요하다.
'''
from sklearn.datasets import load_iris
import pandas as pd
from sklearn.preprocessing import StandardScaler

iris = load_iris()
iris_df = pd.DataFrame(data=iris_data, columns=iris.feature_names)

print(iris_df.mean())
print(iris_df.var())

scaler = StandardScaler()
scaler.fit(iris_df)
iris_scaled = scaler.transform(iris_df)
iris_df_scaled = pd.DataFrame(data = iris_scaled, columns=iris.feature_names)
print(iris_df_scaled.mean())
print(iris_df_scaled.var())

In [None]:
'''
MinMaxScaler
- 데이터 값을 0 ~ 1 범위로 변환한다.
- 음수 값이 있으면 -1 ~ 1로 변환한다.
'''
from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler()
scaler.fit(iris_df)
iris_scaled = scaler.transform(iris_df)

iris_df_scaled = pd.DataFrame(data=iris_scaled, columns=iris.feature_names)
print(iris_df_scaled.min())
print(iris_df_scaled.max())



In [None]:
'''
StandardScaler, MinMaxScaler 적용 시 주의할 점
- 학습 데이터로 만든 스케일링 정보를 그대로 테스트 데이터에 적용해야 한다.
    - 안그러면, 학습 데이터와 테스트 데이터의 스케일링이 달라서 결과가 이상해진다.
        - 학습 데이터로 fit(), transform()
        - 테스트 데이터로 transform()
'''

In [None]:
'''
잘못된 전처리
'''
from sklearn.preprocessing import MinMaxScaler
import numpy as np

train_array = np.arange(0, 11).reshape(-1, 1) # train data는 1/10으로 스케일링
test_array = np.arange(0, 6).reshape(-1, 1)   # test data는 1/5로 스케일링

scaler = MinMaxScaler()
scaler.fit(train_array)
train_scaled = scaler.transform(train_array)
print(train_array.reshape(-1))
print(train_scaled.reshape(-1))

scaler.fit(test_array)
test_scaled = scaler.transform(test_array)
print(test_array.reshape(-1))
print(test_scaled.reshape(-1))
# 학습 데이터는 1/10으로 스케일링, 테스트 데이터는 1/5로 스케일링 되므로 이상하다.

In [1]:
'''
전체 데이터를 스케일링 변환한 후, 학습 / 테스트 데이터로 분리하는 것이 좋다.
'''

'\n전체 데이터를 스케일링 변환한 후, 학습 / 테스트 데이터로 분리하는 것이 좋다.\n'