In [None]:
# 주피터 노트북 환경설정
import warnings
warnings.filterwarnings('ignore')
warnings.simplefilter('ignore')

from IPython.display import set_matplotlib_formats
set_matplotlib_formats("retina")

from IPython.core.display import display, HTML
# display(HTML("<style>.container { font-weight: bold !important; font-family:'Malgun Gothic' !important;}</style>"))
display(HTML("<style>.container { font-weight: bold !important;}</style>"))
display(HTML("<style>.container { width: 98% !important; }</style>"))

In [None]:
import numpy as np
import pandas as pd
import os

import matplotlib
import matplotlib.pyplot as plt
import seaborn as sns

%matplotlib inline

# 관련 라이브러리 임포트 
import matplotlib.font_manager as fm

#  한글글꼴로 변경
# plt.rcParams['font.family'] = '한글글꼴명'
plt.rcParams['font.size'] = 11.0
# plt.rcParams['font.family'] = 'batang'
plt.rcParams['font.family'] = 'Malgun Gothic'

# 그래프에서 마이너스 폰트 깨지는 문제에 대한 대처
matplotlib.rcParams['axes.unicode_minus'] = False

# 그래프 기본 크기 설정 
plt.rcParams['figure.figsize'] = [10, 6]

# 피처 스케일링

- 두 특성(길이와 무게)의 값이 놓인 범위가 다르다. => 스케일(Scale)이 다르다 라고 한다. 
- 방의 넓이를 재는데 한사람은 cm, 다른사람은 incn로 재는것과 같다. 
- k-최근접 이웃 알고리즘은 샘플간의 거리에 영향을 많이 받는다. 반면 결정트리와 같은 알고리즘의 경우에는 스케일링에 그다지 많은 영향을 받지는 않는다
- 표준점수(Standard Score) 
    - z 점수는 각 특성값이 0에서 표준편차의 몇배만큼 떨어져 있는지 표시한다. 
    - 실제 특성값의 크기와 상관없이 동일한 조건으로 비교할 수 있다. 
    - 각 데이터가 원점에서 몇 표준편차만큼 떨어져 있는지 나타낸다.
- 분산 : 데이터에서 평균을 뺀 값을 모두 제곱한 다음 평균을 내어 구한다. 
- 표준편차 : 분산의 제곱근으로 데이터가 분산된 정도를 나타낸다. 

### 표준와와 정규화 
- 표준화는 데이타의 피처 각각이 평균이 0이고 분산이 1인 가우시안 정규 분포를 가진 값으로 변환하는 것을 의미한다. 
- 정규화란 서로 다른 피처의 크기를 통일하기 위해 크기를 변환해주는 개념이다. 

# 도미와 빙어 (스케일링 예시)

- 스케일링에 따른 모델의 성능 테스트 

#### 데이타수집
http://bit.ly/bream_smelt

In [None]:
fish_length = [25.4, 26.3, 26.5, 29.0, 29.0, 29.7, 29.7, 30.0, 30.0, 30.7, 31.0, 31.0, 
                31.5, 32.0, 32.0, 32.0, 33.0, 33.0, 33.5, 33.5, 34.0, 34.0, 34.5, 35.0, 
                35.0, 35.0, 35.0, 36.0, 36.0, 37.0, 38.5, 38.5, 39.5, 41.0, 41.0, 9.8, 
                10.5, 10.6, 11.0, 11.2, 11.3, 11.8, 11.8, 12.0, 12.2, 12.4, 13.0, 14.3, 15.0]

fish_weight = [242.0, 290.0, 340.0, 363.0, 430.0, 450.0, 500.0, 390.0, 450.0, 500.0, 475.0, 500.0, 
                500.0, 340.0, 600.0, 600.0, 700.0, 700.0, 610.0, 650.0, 575.0, 685.0, 620.0, 680.0, 
                700.0, 725.0, 720.0, 714.0, 850.0, 1000.0, 920.0, 955.0, 925.0, 975.0, 950.0, 6.7, 
                7.5, 7.0, 9.7, 9.8, 8.7, 10.0, 9.9, 9.8, 12.2, 13.4, 12.2, 19.7, 19.9]

In [None]:
len(fish_length), len(fish_weight)

In [None]:
fish_target = np.concatenate((np.ones(35), np.zeros(14)))
fish_target.shape

In [None]:
fish_data = pd.DataFrame(columns=['fish_length', 'fish_weight', 'label'])

fish_data['fish_length'] = fish_length
fish_data['fish_weight'] = fish_weight

fish_data['label'] = fish_target
fish_data.sample(5)

In [None]:
fish_data.columns

In [None]:
fish_data.iloc[:35, 0]

In [None]:

plt.scatter(fish_data.iloc[:35, 0], fish_data.iloc[:35, 1]) # 도미 
plt.scatter(fish_data.iloc[35:, 0], fish_data.iloc[35:, 1]) # 빙어 
plt.xlabel('length - cm')
plt.ylabel('weight - g')
plt.show()

In [None]:

from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(fish_data[['fish_length', 'fish_weight']] , fish_data['label'] , 
                                                    test_size=0.2, random_state=11, stratify=fish_data['label'])

In [None]:
print(X_train.shape, y_train.shape)
print(X_test.shape, y_test.shape)

In [None]:
from sklearn.neighbors import KNeighborsClassifier

model_kn = KNeighborsClassifier()
model_kn.fit(X_train, y_train)
model_kn.score(X_test, y_test)

### KNeighborsClassifier 의 주요 메서드 및 속성

In [None]:
print(dir(KNeighborsClassifier))

In [None]:
model_kn.get_params()

In [None]:
print(X_test)

print(model_kn.predict(X_test))

print(model_kn.predict([[9.8,6.7]]))

print(model_kn.predict_proba([[9.8,6.7]]))

In [None]:

print(model_kn.score(X_test, y_test))

In [None]:

model_kn.kneighbors([[26.3,290.0]])

distance, indexes = model_kn.kneighbors([[26.3,290.0]])
print(f'distance = {distance}')
print(f'indexes = {indexes}')

In [None]:

plt.scatter(X_train['fish_length'], X_train['fish_weight'])

plt.scatter(26.3,290.0, marker='^')

plt.scatter(X_train.iloc[indexes.flatten(), 0], X_train.iloc[indexes.flatten(), 1])

plt.xlabel('length - cm')
plt.ylabel('weight - g')
plt.show()

#### 테스트에 없는 새로운 데이타로 테스트 


In [None]:

print(model_kn.predict([[25, 150]]))
print(model_kn.predict([[23, 130]]))

In [None]:

plt.scatter(X_train['fish_length'], X_train['fish_weight'])

plt.scatter(25, 150, marker='^')

plt.xlabel('length - cm')
plt.ylabel('weight - g')
plt.show()

In [None]:

distances, indexes = model_kn.kneighbors([[25, 150]])
distances, indexes

In [None]:

print(X_train.iloc[[20, 37, 38, 33, 27]])

In [None]:

plt.scatter(X_train['fish_length'], X_train['fish_weight'])
plt.scatter(25, 150, marker='^')


plt.scatter(X_train.iloc[indexes.flatten(), 0], X_train.iloc[indexes.flatten(), 1])
# plt.scatter(X_train.iloc[20, 0], X_train.iloc[20, 1], marker='D', color='r')
# plt.scatter(X_train.iloc[37, 0], X_train.iloc[37, 1], marker='D', color='r')
# plt.scatter(X_train.iloc[38, 0], X_train.iloc[38, 1], marker='D', color='r')
# plt.scatter(X_train.iloc[33, 0], X_train.iloc[33, 1], marker='D', color='r')
# plt.scatter(X_train.iloc[27, 0], X_train.iloc[27, 1], marker='D', color='r')

plt.xlabel('length')
plt.ylabel('weight')
plt.show()



In [None]:
print(distances)

In [None]:
mean = np.mean(X_train, axis=0)
std = np.std(X_train, axis=0)
print(mean, '\n')
print(std)

In [None]:
X_train_scaled = (X_train - mean) / std
X_train_scaled.head(3)

## 전처리 데이터로 모델 훈련하기

In [None]:
new = ([25, 150] - mean) / std
new

In [None]:
model_kn.fit(X_train_scaled, y_train)

In [None]:
X_test_scaled = (X_test - mean) / std

In [None]:
X_test_scaled.sample(3)

In [None]:
model_kn.score(X_test_scaled, y_test)

In [None]:
print(model_kn.predict([new]))

In [None]:
distances, indexes = model_kn.kneighbors([new])
distances, indexes 

In [None]:
indexes.flatten()

In [None]:
X_train_scaled.iloc[indexes.flatten()]

In [None]:
plt.scatter(X_train_scaled['fish_length'], X_train_scaled['fish_weight'])
plt.scatter(new[0], new[1], marker='^')

plt.scatter(X_train_scaled.iloc[indexes.flatten(), 0], X_train_scaled.iloc[indexes.flatten(), 1], marker='D', color='r')

plt.xlabel('length')
plt.ylabel('weight')
plt.show()

In [None]:
print(y_train.iloc[indexes.flatten()])

In [None]:
c

# ** skitlearn의 이용 - 스케일링 **

### StandardScaler 
- 평균이 0이고 분산이 1인 정규분포 형태로 변환

```
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
scaler.fit(Data)
Data_scaled = scaler.transform(Data)
```

### MinMaxScaler

- 데이타값을 0과 1 사이의 범위값으로 변환한다. 음수값이 있으면 -1에서 1값으로 변환한다 

```
from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler()
scaler.fit(Data)
Data_scaled = scaler.transform(Data)
```



## iris 붓꽃 데이타셋으로 스케일링 실습

In [None]:
from sklearn.datasets import load_iris
import pandas as pd

iris = load_iris()
iris_data = iris.data
iris_df = pd.DataFrame(data=iris_data, columns=iris.feature_names)
iris_df.head()

In [None]:
from sklearn.preprocessing import StandardScaler


scaler = StandardScaler()


scaler.fit(iris_df)
iris_scaled = scaler.transform(iris_df)

# 아래는 에러 발생 => 넘파이 배열
# iris_scaled.head()

In [None]:

iris_df_scaled = pd.DataFrame(data=iris_scaled, columns=iris.feature_names)
# print('feature 들의 평균 값')
# print(iris_df_scaled.mean())
# print('\nfeature 들의 분산 값')
# print(iris_df_scaled.var())

iris_df_scaled.head(5)

In [None]:

iris_label = iris.target
print('iris target값:', iris_label)
print('iris target명:', iris.target_names)

In [None]:
X_train, X_test, y_train, y_test = train_test_split(iris_df_scaled, iris_label, 
                                                    test_size=0.2, random_state=11)

In [None]:
len(X_train), len(X_test)

In [None]:
X_train[:3]

In [None]:
model_kn = KNeighborsClassifier()

model_kn.fit(X_train, y_train)

In [None]:
model_kn.score(X_train, y_train), model_kn.score(X_test, y_test)

In [None]:
model_kn.predict(X_test)

In [None]:
from sklearn.metrics import accuracy_score
print('예측 정확도: {0:.4f}'.format(accuracy_score(y_test, model_kn.predict(X_test))))

## MinMaxScaler 적용하면 차이가 있을까?

데이타값을 0과 1 사이의 범위값으로 변환한다. 음수값이 있으면 -1에서 1값으로 변환한다 

In [None]:
from sklearn.preprocessing import MinMaxScaler

In [None]:
iris = load_iris()
iris_data = iris.data
iris_df = pd.DataFrame(data=iris_data, columns=iris.feature_names)

print('feature들의 최소 값')
print(iris_df.min())
print('\nfeature들의 최대 값')
print(iris_df.max())
print('\n'*2)

scaler = MinMaxScaler()
scaler.fit(iris_df)
iris_scaled2 = scaler.transform(iris_df)

iris_df_scaled2 = pd.DataFrame(data=iris_scaled2, columns=iris.feature_names)
print('feature들의 최소 값')
print(iris_df_scaled2.min())
print('\nfeature들의 최대 값')
print(iris_df_scaled2.max())


In [None]:
iris_df_scaled.head(5)

In [None]:
iris_df_scaled2.head(5)

In [None]:
iris_label = iris.target

X_train, X_test, y_train, y_test = train_test_split(iris_df_scaled2, iris_label, 
                                                    test_size=0.2, random_state=11)

In [None]:
model_kn = KNeighborsClassifier()

model_kn.fit(X_train, y_train)

In [None]:
# StandardScaler() 적용시 값 
# 0.9666666666666667, 0.9333333333333333

In [None]:
model_kn.score(X_train, y_train), model_kn.score(X_test, y_test)

## 스케일링 변환시 주의 사항 

- 가능하다면 전체 데이터의 스케일링 변환을 적용한 뒤 학습과 테스트 데이터로 분리한다. 
- 1이 여의치 않다면 테스트 데이터 변환시에는 fit(), fit_transform()을 적용하지 않고 
<br>학습 데이터로 이미 fit()된 Scaler 객체를 이용해 transform() 으로 변경한다. 

In [None]:
train_array = np.arange(0, 11).reshape(-1, 1)
test_array = np.arange(0, 6).reshape(-1, 1)

print(train_array)
print()
print(test_array)

In [None]:
scaler = MinMaxScaler()

scaler.fit(train_array)
train_scaled = scaler.transform(train_array)
print(train_scaled)
print('='*50)

scaler.fit(test_array)
test_scaled1 = scaler.transform(test_array)
print(test_scaled1)
print('='*50)

In [None]:
train_array = np.arange(0, 11).reshape(-1, 1)
test_array = np.arange(0, 6).reshape(-1, 1)

scaler = MinMaxScaler()

scaler.fit(train_array)
train_scaled = scaler.transform(train_array)
print(train_scaled)
print('='*50)

test_scaled2 = scaler.transform(test_array)
print(test_scaled2)
print('='*50)

# 퀴즈 : 도미와  빙어 분류 : 스케일링 활용

1) 아래의 데이타셋을 이용하여 사이킷런에서 제공되어지는 스케일러 StandardScaler() 를 이용하여 데이타 전처리 후 모델을 생성하여라 

  : 훈련데이타 세트와 테스트 데이타세트 분리시 test_size=0.2, random_state=11
  
  : 모델은 KNeighborsClassifier()를 이용한다

2) 새로운 데이타 (25, 150)와 (9.5 , 6.2)는 도미일까 빙어일까? (도미는 1, 빙어는 0)

In [None]:
fish_length = [25.4, 26.3, 26.5, 29.0, 29.0, 29.7, 29.7, 30.0, 30.0, 30.7, 31.0, 31.0, 
                31.5, 32.0, 32.0, 32.0, 33.0, 33.0, 33.5, 33.5, 34.0, 34.0, 34.5, 35.0, 
                35.0, 35.0, 35.0, 36.0, 36.0, 37.0, 38.5, 38.5, 39.5, 41.0, 41.0, 9.8, 
                10.5, 10.6, 11.0, 11.2, 11.3, 11.8, 11.8, 12.0, 12.2, 12.4, 13.0, 14.3, 15.0]

fish_weight = [242.0, 290.0, 340.0, 363.0, 430.0, 450.0, 500.0, 390.0, 450.0, 500.0, 475.0, 500.0, 
                500.0, 340.0, 600.0, 600.0, 700.0, 700.0, 610.0, 650.0, 575.0, 685.0, 620.0, 680.0, 
                700.0, 725.0, 720.0, 714.0, 850.0, 1000.0, 920.0, 955.0, 925.0, 975.0, 950.0, 6.7, 
                7.5, 7.0, 9.7, 9.8, 8.7, 10.0, 9.9, 9.8, 12.2, 13.4, 12.2, 19.7, 19.9]

fish_target = np.concatenate((np.ones(35), np.zeros(14)))


fish_data = pd.DataFrame(columns=['fish_length', 'fish_weight', 'label'])


fish_data['fish_length'] = fish_length
fish_data['fish_weight'] = fish_weight


fish_data['label'] = fish_target
fish_data.sample(5)