In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# 한글처리
import matplotlib.font_manager as fm
font_name = fm.FontProperties(fname="C:\\Windows\\Fonts\\malgun.ttf").get_name()
plt.rc("font", family=font_name)

# 음수 - 표시 처리
import matplotlib as mlp
mlp.rcParams["axes.unicode_minus"] = False

In [53]:
from sklearn.datasets import load_breast_cancer, load_boston, load_iris

from sklearn.model_selection import train_test_split
from sklearn.model_selection import GridSearchCV

from sklearn.neighbors import KNeighborsClassifier

from sklearn.metrics import accuracy_score

from sklearn.preprocessing import LabelEncoder    # 전처리에 필요한
from sklearn.preprocessing import OneHotEncoder   # 전처리에 필요한
from sklearn.preprocessing import StandardScaler   # 전처리에 필요한
from sklearn.preprocessing import MinMaxScaler   # 전처리에 필요한

In [3]:
import mglearn

# 1. 검증(validation)

### (1) 훈련용(학습용) 데이터와 테스트용 데이터의 분리

In [4]:
iris = load_iris()

In [7]:
# 훈련용 데이터
X_train = iris.data[:-30]    # 150개 데이터 중에서 120개의 데이터를 뽑기 = 훈련용데이터
y_train = iris.target[:-30]    # 150개 데이터 중에서 120개의 데이터를 뽑기 = 훈련용데이터
print(X_train.shape, y_train.shape)

# 테스트용 데이터
X_test = iris.data[-30:]    # 150개 데이터 중에서 30개의 데이터를 뽑기 = 테스트용데이터
y_test = iris.target[-30:]    # 150개 데이터 중에서 30개의 데이터를 뽑기 = 테스트용데이터
print(X_test.shape, y_test.shape)

print(y_train)

(120, 4) (120,)
(30, 4) (30,)
[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2]


In [11]:
# train_test_split() 을 사용해서 위 훈련용/테스트용 데이터 나누기를 쉽게...여기서 test_size=0.3은 데이터중 30프로를 테스트용으로..
# 나머지 70프로는 훈련용으로 사용하겠다는 뜻,  random_state 를 지정하지 않으면 실행시마다 셔플 = 데이터 섞임

X_train, X_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.3, random_state=0)
print(X_train.shape, y_train.shape, X_test.shape, y_test.shape)

print(y_train)

(105, 4) (105,) (45, 4) (45,)
[1 2 2 2 2 1 2 1 1 2 2 2 2 1 2 1 0 2 1 1 1 1 2 0 0 2 1 0 0 1 0 2 1 0 1 2 1
 0 2 2 2 2 0 0 2 2 0 2 0 2 2 0 0 2 0 0 0 1 2 2 0 0 0 1 1 0 0 1 0 2 1 2 1 0
 2 0 2 0 0 2 0 2 1 1 1 2 2 1 1 0 1 2 2 0 1 1 1 1 0 0 0 2 1 2 0]


### (2) Cross Validation

+ K fold 방식

In [13]:
from sklearn.model_selection import KFold

X_train, X_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.3, random_state=0)

kfold = KFold(n_splits=5)
kfold.split(X_train)    # X_train 에 담겨있던 105개의 데이터를 5등분 = KFold(n_splits=5) 해놓은 것, 객체
list(kfold.split(X_train))  # 나타낸 숫자는 실제 값이 아닌 인덱스 값

[(array([ 21,  22,  23,  24,  25,  26,  27,  28,  29,  30,  31,  32,  33,
          34,  35,  36,  37,  38,  39,  40,  41,  42,  43,  44,  45,  46,
          47,  48,  49,  50,  51,  52,  53,  54,  55,  56,  57,  58,  59,
          60,  61,  62,  63,  64,  65,  66,  67,  68,  69,  70,  71,  72,
          73,  74,  75,  76,  77,  78,  79,  80,  81,  82,  83,  84,  85,
          86,  87,  88,  89,  90,  91,  92,  93,  94,  95,  96,  97,  98,
          99, 100, 101, 102, 103, 104]),
  array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
         17, 18, 19, 20])),
 (array([  0,   1,   2,   3,   4,   5,   6,   7,   8,   9,  10,  11,  12,
          13,  14,  15,  16,  17,  18,  19,  20,  42,  43,  44,  45,  46,
          47,  48,  49,  50,  51,  52,  53,  54,  55,  56,  57,  58,  59,
          60,  61,  62,  63,  64,  65,  66,  67,  68,  69,  70,  71,  72,
          73,  74,  75,  76,  77,  78,  79,  80,  81,  82,  83,  84,  85,
          86,  87,  88,  89,  90,  91,  

In [19]:
# KNN 알고리즘으로 테스트를 해보겠다 가정
# 위에서 데이터를 5등분 했으니 나뉘어진 데이터별로 각각 테스트해야하므로 총 5번을 테스트해야하고 이를 반복문으로 돌린다.

clf = KNeighborsClassifier(n_neighbors=3)

cv_accuracy = []
for train_index, test_index in kfold.split(X_train):
    x_train, x_test = X_train[train_index], X_train[test_index]
    train_y, test_y = y_train[train_index], y_train[test_index]
    
    clf.fit(x_train, train_y)
    pred = clf.predict(x_test)
    
    accuracy = np.round(accuracy_score(test_y, pred), 4)     # 정답 : test_y , 예측한 값 : pred
    
    print("\n정확도:{}, 훈련데이터 크기:{}, 검증데이터 크기:{}".format(accuracy, x_train.shape[0], x_test.shape[0]))
    
    cv_accuracy.append(accuracy)


정확도:0.8571, 훈련데이터 크기:84, 검증데이터 크기:21

정확도:1.0, 훈련데이터 크기:84, 검증데이터 크기:21

정확도:1.0, 훈련데이터 크기:84, 검증데이터 크기:21

정확도:1.0, 훈련데이터 크기:84, 검증데이터 크기:21

정확도:0.8571, 훈련데이터 크기:84, 검증데이터 크기:21


In [20]:
print("평균 정확도 : ", np.mean(cv_accuracy))

평균 정확도 :  0.94284


In [21]:
##### 최종 테스트
pred = clf.predict(X_test)     # 테스트 데이터값 예측
accuracy_score(y_test, pred)      # 정답 : test_y , 예측한 값 : pred   을 accuracy_score 로 테스트하고 결과

0.9777777777777777

+ Stratified K 폴드
    + 카테고리별로 데이터의 갯수가 불균형할때

In [28]:
iris_df = pd.DataFrame(data=iris.data, columns=iris.feature_names)
iris_df

iris_df["label"] = iris.target
iris_df

iris_df["label"].value_counts()

0    50
1    50
2    50
Name: label, dtype: int64

In [29]:
# K fold 방식을 사용할때 발생할 수 있는 문제점

kfold = KFold(n_splits=3)    # 3등분

for train_index, test_index in kfold.split(iris_df):
    label_train = iris_df["label"].iloc[train_index]
    label_test = iris_df["label"].iloc[test_index]
    
    print(label_train.value_counts())
    print(label_test.value_counts())
    print("---------------------------------------")

# 세등분으로 나뉜 데이터를 2개는 훈련용, 1개는 테스트용으로 사용하나 한가지 문제가 발생한다.
# 아래 결과와 같이 1번과 2번 데이터로 훈련을 했으나 0번으로 테스트를 하게되면 시험범위가 달라지는 오류가 발생한다.
# 0번 2번으로 훈련하고 1번으로 테스트보는 오류...훈련범위와 테스트 범위가 다른 경우가 발생

1    50
2    50
Name: label, dtype: int64
0    50
Name: label, dtype: int64
---------------------------------------
0    50
2    50
Name: label, dtype: int64
1    50
Name: label, dtype: int64
---------------------------------------
0    50
1    50
Name: label, dtype: int64
2    50
Name: label, dtype: int64
---------------------------------------


In [32]:
# K fold 방식을 보완한 Stratified K fold 방식

from sklearn.model_selection import StratifiedKFold

skfold = StratifiedKFold(n_splits=3)

for train_index, test_index in skfold.split(iris_df, iris_df["label"]):
    label_train = iris_df["label"].iloc[train_index]
    label_test = iris_df["label"].iloc[test_index]
    
    print(label_train.value_counts())
    print(label_test.value_counts())
    print("---------------------------------------")
    
# 아래 결과와 같이 비율에 맞춰 골고루 섞어서 훈련용과 테스트용으로 나눠 진행한다.

2    34
0    33
1    33
Name: label, dtype: int64
0    17
1    17
2    16
Name: label, dtype: int64
---------------------------------------
1    34
0    33
2    33
Name: label, dtype: int64
0    17
2    17
1    16
Name: label, dtype: int64
---------------------------------------
0    34
1    33
2    33
Name: label, dtype: int64
1    17
2    17
0    16
Name: label, dtype: int64
---------------------------------------


In [33]:
?train_test_split

### (3) 교차 검증을 훨씬 간단하게 구현

+ cross_val_score()
+ cross_validate()

In [34]:
from sklearn.model_selection import cross_val_score

clf = KNeighborsClassifier(n_neighbors=3)

# ()안 순서 ->  알고리즘, 훈련데이터, 정답, cv(몇개로 나눌건지), scoring(어떤방식으로 측정 - accuracy는 정확성))
scores = cross_val_score(clf, iris.data, iris.target, cv=5, scoring="accuracy")

In [37]:
print(scores)
print(np.mean(scores))    # 평균 96점

[0.96666667 0.96666667 0.93333333 0.96666667 1.        ]
0.9666666666666668


### (4) GridSearchCV

+ 교차 검증과 최적의 하이퍼 파라미터 튜닝을 한번에 처리
    - estimator : classifier, regressor, pipeline
    - param_grid : key + 리스트값을 갖는 dict
    - scoring = 평가지표
    - cv : 교차 검증을 위해 분할되는 학습/테스트셋의 갯수를 지정
    - refit : default True, 최적의 파라미터를 찾은 뒤 재학습 여부

In [39]:
? GridSearchCV

In [47]:
iris = load_iris()

X_train, X_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.2, random_state=121)

knn = KNeighborsClassifier()

In [48]:
params = {"n_neighbors":[n for n in range(1, 16)]}

grid_clf = GridSearchCV(knn, param_grid=params, cv=3)
grid_clf.fit(X_train, y_train)

GridSearchCV(cv=3, estimator=KNeighborsClassifier(),
             param_grid={'n_neighbors': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12,
                                         13, 14, 15]})

In [49]:
dir(grid_clf)
scores_df = pd.DataFrame(grid_clf.cv_results_)
scores_df
scores_df[["params", "mean_test_score"]]

Unnamed: 0,params,mean_test_score
0,{'n_neighbors': 1},0.966667
1,{'n_neighbors': 2},0.933333
2,{'n_neighbors': 3},0.966667
3,{'n_neighbors': 4},0.958333
4,{'n_neighbors': 5},0.975
5,{'n_neighbors': 6},0.958333
6,{'n_neighbors': 7},0.975
7,{'n_neighbors': 8},0.95
8,{'n_neighbors': 9},0.966667
9,{'n_neighbors': 10},0.958333


In [50]:
grid_clf.best_params_, grid_clf.best_score_      

({'n_neighbors': 5}, 0.975)

In [51]:
pred = grid_clf.predict(X_test)
print(accuracy_score(y_test, pred))

0.9666666666666667


---

# 2. 전처리

+ 결측치 허용 안됨
+ 문자열 허용 안됨

### (1) 문자열 해결을 위한 인코딩
+ 레이블 인코딩  ( 활용도는 떨어지나 문자를 숫자로 바꿔서 원-핫 인코딩을 사용가능하게끔 변환위해 사용 )
+ 원-핫 인코딩  ( 숫자를 0과 1로 바꿔주는것, 사전에 숫자로 바뀌어져 있어야 사용가능 )

#### 1) 레이블 인코딩

In [56]:
items = ["TV", "냉장고", "전자렌지", "컴퓨터", "선풍기", "선풍기", "믹서", "믹서"]

encoder = LabelEncoder()     # LabelEncoder 각각의 데이터를 숫자로 바꿔주는 기능
encoder.fit(items)
labels = encoder.transform(items)

print(labels)   # TV는 0으로, 냉장고는 1로, 전자렌지는 4로...
print(encoder.classes_)     # classes_  는 어떤 분류 값이 있는지 확인 = unique 랑 동일한 기능
print(encoder.inverse_transform([0, 1, 4, 5, 3, 3, 2, 2]))   # inverse_transform 는 숫자로 변환되었던 값을 다시 문자로 변환

[0 1 4 5 3 3 2 2]
['TV' '냉장고' '믹서' '선풍기' '전자렌지' '컴퓨터']
['TV' '냉장고' '전자렌지' '컴퓨터' '선풍기' '선풍기' '믹서' '믹서']


#### 2) One-Hot Encoding

- 새로운 feature를 추가해 고유 값에 해당하는 컬럼에만 1을 표시하고 나머지는 0으로 표시
- 사전에 반드시 숫자로 변환이 되어 있어야 한다.
- 입력값으로 2차원 데이터가 필요하다.

In [61]:
items = ["TV", "냉장고", "전자렌지", "컴퓨터", "선풍기", "선풍기", "믹서", "믹서"]

encoder = LabelEncoder()     # LabelEncoder 각각의 데이터를 숫자로 바꿔주는 기능
encoder.fit(items)
labels = encoder.transform(items)    # 1차원 배열 [0 1 4 5 3 3 2 2]

labels = labels.reshape(-1, 1)    # 행 전체와 열 1개로 2차원 배열로 만듬

one = OneHotEncoder()   # 객체 생성
one.fit(labels)    # fit 함수를 통해 labels 데이터를 넘겨줌, 매핑
oh = one.transform(labels)
print(oh.toarray())    # toarray() 를 통해 배열형식으로 확인하기
print(oh.shape)    # 8행 6열 -   열은 카테고리 갯수만큼 늘어났음 ( TV, 냉장고, 전자렌지, 컴퓨터, 선풍기, 믹서 = 6개)

[[1. 0. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0. 0.]
 [0. 0. 0. 0. 1. 0.]
 [0. 0. 0. 0. 0. 1.]
 [0. 0. 0. 1. 0. 0.]
 [0. 0. 0. 1. 0. 0.]
 [0. 0. 1. 0. 0. 0.]
 [0. 0. 1. 0. 0. 0.]]
(8, 6)


#### 3) get_dummies() : pandas

In [62]:
df = pd.DataFrame({"item":["TV", "냉장고", "전자렌지", "컴퓨터", "선풍기", "선풍기", "믹서", "믹서"]})
df

Unnamed: 0,item
0,TV
1,냉장고
2,전자렌지
3,컴퓨터
4,선풍기
5,선풍기
6,믹서
7,믹서


In [63]:
pd.get_dummies(df)

Unnamed: 0,item_TV,item_냉장고,item_믹서,item_선풍기,item_전자렌지,item_컴퓨터
0,1,0,0,0,0,0
1,0,1,0,0,0,0
2,0,0,0,0,1,0
3,0,0,0,0,0,1
4,0,0,0,1,0,0
5,0,0,0,1,0,0
6,0,0,1,0,0,0
7,0,0,1,0,0,0


### (2) Feature Scaling

+ 표준화 : (Xi - mean(X)) / sd(X)
+ 정규화 : (Xi - mean(X)) / max(X) - min(X)

#### 1) 표준화 : StandardScaler

In [65]:
iris = load_iris()

df = pd.DataFrame(data=iris.data, columns=iris.feature_names)
df

print(df.mean())               # 평균 ( 표준화 : 0에 가까워야하나 3, 5 같은 떨어진 값이 보임 )
print("-------------------")
print(df.var())               # 분산 ( 표준편차 : 1에 가까워야하나 3같은 떨어진 값이 보임 )

sepal length (cm)    5.843333
sepal width (cm)     3.057333
petal length (cm)    3.758000
petal width (cm)     1.199333
dtype: float64
-------------------
sepal length (cm)    0.685694
sepal width (cm)     0.189979
petal length (cm)    3.116278
petal width (cm)     0.581006
dtype: float64


In [66]:
scaler = StandardScaler()   # 객체 생성
scaler.fit(df)      # fit 함수를 통해 df 데이터를 넘겨줌, 매핑
iris_scaled = scaler.transform(df)

In [68]:
df_scaled = pd.DataFrame(data=iris_scaled, columns=iris.feature_names)
df_scaled

print(df_scaled.mean())               # 평균 ( 표준화 : 0에 가깝게 만들어줘야함 )
print("-------------------")
print(df_scaled.var())               # 분산 ( 표준편차 : 1에 가깝게 만들어줘야함 )

# 표준화는 0,  표준편차는 1에 가까움 - StandardScaler() 를 통해 가깝게 만들어줬고 결과확인

sepal length (cm)   -1.690315e-15
sepal width (cm)    -1.842970e-15
petal length (cm)   -1.698641e-15
petal width (cm)    -1.409243e-15
dtype: float64
-------------------
sepal length (cm)    1.006711
sepal width (cm)     1.006711
petal length (cm)    1.006711
petal width (cm)     1.006711
dtype: float64


#### 2) 정규화 : MinMaxScaler

In [69]:
scaler = MinMaxScaler()   # 객체 생성
scaler.fit(df)      # fit 함수를 통해 df 데이터를 넘겨줌, 매핑
iris_mms = scaler.transform(df)

In [71]:
df_mms = pd.DataFrame(data=iris_mms, columns=iris.feature_names)
df_mms

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,0.222222,0.625000,0.067797,0.041667
1,0.166667,0.416667,0.067797,0.041667
2,0.111111,0.500000,0.050847,0.041667
3,0.083333,0.458333,0.084746,0.041667
4,0.194444,0.666667,0.067797,0.041667
...,...,...,...,...
145,0.666667,0.416667,0.711864,0.916667
146,0.555556,0.208333,0.677966,0.750000
147,0.611111,0.416667,0.711864,0.791667
148,0.527778,0.583333,0.745763,0.916667


In [72]:
print(df_mms.mean())
print("-------------------")
print(df_mms.var())
print("-------------------")
print(df_mms.max()) 
print("-------------------")
print(df_mms.min()) 

sepal length (cm)    0.428704
sepal width (cm)     0.440556
petal length (cm)    0.467458
petal width (cm)     0.458056
dtype: float64
-------------------
sepal length (cm)    0.052908
sepal width (cm)     0.032983
petal length (cm)    0.089522
petal width (cm)     0.100869
dtype: float64
-------------------
sepal length (cm)    1.0
sepal width (cm)     1.0
petal length (cm)    1.0
petal width (cm)     1.0
dtype: float64
-------------------
sepal length (cm)    0.0
sepal width (cm)     0.0
petal length (cm)    0.0
petal width (cm)     0.0
dtype: float64


#### 3) 사용시 주의할 점

In [74]:
train_data = np.arange(0, 11).reshape(-1, 1)   # 가짜로 만든 훈련용 데이터
test_data = np.arange(0, 6).reshape(-1, 1)   # 가짜로 만든 테스트용 데이터

print(train_data)
print(test_data)

[[ 0]
 [ 1]
 [ 2]
 [ 3]
 [ 4]
 [ 5]
 [ 6]
 [ 7]
 [ 8]
 [ 9]
 [10]]
[[0]
 [1]
 [2]
 [3]
 [4]
 [5]]


In [76]:
scaler = MinMaxScaler()
scaler.fit(train_data)
train_scaled = scaler.transform(train_data)

print("원본 : ", train_data.reshape(-1))
print("스케일 : ", train_scaled.reshape(-1))

print("-------------------------------------------")

scaler.fit(test_data)
test_scaled = scaler.transform(test_data)

print("원본 : ", test_data.reshape(-1))
print("스케일 : ", test_scaled.reshape(-1))

# 훈련용과 테스트용은 같은 자료인데 각 결과를 보면 테스트용 스케일이 원본은 5까지인데 스케일이 0부터 1까지로 맞춰져있다.
# 이는 테스트용 데이터에 fit을 처리했기때문...훈련용과 테스트용은 원본이 같은 자료이므로 fit을 두번하면 안된다는점 잊지말자

원본 :  [ 0  1  2  3  4  5  6  7  8  9 10]
스케일 :  [0.  0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1. ]
-------------------------------------------
원본 :  [0 1 2 3 4 5]
스케일 :  [0.  0.2 0.4 0.6 0.8 1. ]


In [77]:
scaler = MinMaxScaler()
scaler.fit(train_data)
train_scaled = scaler.transform(train_data)

print("원본 : ", train_data.reshape(-1))
print("스케일 : ", train_scaled.reshape(-1))

print("-------------------------------------------")

# fit 을 다시 하면 안된다. -  scaler.fit(test_data) 부분 삭제
test_scaled = scaler.transform(test_data)

print("원본 : ", test_data.reshape(-1))
print("스케일 : ", test_scaled.reshape(-1))

원본 :  [ 0  1  2  3  4  5  6  7  8  9 10]
스케일 :  [0.  0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1. ]
-------------------------------------------
원본 :  [0 1 2 3 4 5]
스케일 :  [0.  0.1 0.2 0.3 0.4 0.5]
