<a href="https://colab.research.google.com/github/yeseul515/sessac_test2/blob/self-study/231020(Fri)_%EB%B9%85%EB%B6%84%EA%B8%B0.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## scikit-learn 머신러닝 만들어보기
- 지도학습 : 학습을 위한 다양한 피처(feature) 데이터와 분류 결정값인 레이블(lable) 데이터로 모델을 학습한 뒤, 별도의 테스트 데이터 세트에서 미지의레이블을 예측하여 분류. 즉, 지도학습은 명확한 정답이 주어진 데이터를 먼저 학습한 뒤 미지의 정답을 예측하는 방식



In [None]:
import sklearn
from sklearn.datasets import load_iris
import pandas as pd

iris = load_iris()

iris_df = pd.DataFrame(data=iris.data, columns = iris.feature_names)
iris_df['label'] = iris.target
print(iris_df.head(3))

   sepal length (cm)  sepal width (cm)  petal length (cm)  petal width (cm)  \
0                5.1               3.5                1.4               0.2   
1                4.9               3.0                1.4               0.2   
2                4.7               3.2                1.3               0.2   

   label  
0      0  
1      0  
2      0  


In [None]:
from sklearn.model_selection import train_test_split

iris_data = iris.data #feature dataset
iris_label = iris.target #target dataset

x_train, x_test, y_train, y_test = train_test_split(iris_data, iris_label, test_size = 0.2, random_state=11) #random_state : 함수를 호출할 때마다 같은 학습/데이터 세트를 생성하기 위해 주어지는 난수 발생 값.
#  train_test_split은 호출 시 무작위로 데이터를 분리하므로 random_state를 지정하지 않으면 수행할 때마다 다른 학습/데이터 세트 생성

print('tarin dataset')
print('x_train dataset: ', len(x_train))
print('y_train dataset: ', len(y_train))
print('\ntest dataset')
print('x_test dataset: ', len(x_test))
print('y_test dataset: ', len(y_test))

tarin dataset
x_train dataset:  120
y_train dataset:  120

test dataset
x_test dataset:  30
y_test dataset:  30


### 의사결정 트리를 이용해 머신러닝 모델 학습과 예측 수행하기

#### 과정1
1. scikit-learn의 의사결정 트리 클래스인 DecisionTreeClassifier를 객체로 생성
2. 해당 객체의 fit 함수에 학습 피처 데이터 세트인 x_train과 학습 타겟 데이터 세트인 y_train을 입력해 호출
3. 학습 수행

In [None]:
from sklearn.tree import DecisionTreeClassifier

dt_clf = DecisionTreeClassifier(random_state=11)
dt_clf.fit(x_train, y_train)

#### 과정2. 분류 예측 수행
- 예측은 테스트 데이터 이용
- DecisionTreeClassifier 객체의 predict 함수에 테스트 피처 데이터 세트를 입력하여 호출
- 학습된 머신러닝 모델 기반에서 예측값 반환

In [None]:
from sklearn.metrics import accuracy_score

pred = dt_clf.predict(x_test)
ac_score = accuracy_score(y_test, pred)

print('예측 정확도: ', ac_score)

예측 정확도:  0.9333333333333333


#### scikit-learn 데이터 전처리

- 1. 결측치 처리

① scikit-learn의 머신러닝 알고리즘에서 결측치(Missing value)는 허용되지 않음. 따라서 결측치는 고정된 다른 상수로 변환 필요.

② 데이터 세트에서 결측치가 얼마 되지 않는다면 해당 데이터의 평균값 등으로 간단히 대체 가능

③ 결측치가 대부분이라면 해당 데이터는 삭제하는 것이 좋음

④ 결측치가 일정 수준 이상인 경우, 정해진 기준은 없으나 해당 변수의 중요도가 높고, 결측치를 단순히 평균값으로 대체할 경우 예측 왜곡이 심할 수 있다면 업무 로직 등을 상세히 검토해 더욱 정밀한 대체 값을 선정해야함

- 2. scikit-learn의 머신러닝 알고리즘은 문자열 값을 허용하지 않음

① 모든 문자열 값은 인코딩을 통해 숫자형으로 변환 필요

② 문자열 데이터는 일반적으로 명목형 변수와 텍스트형 변수가 존재
→ 명목형 변수는 코드 값으로 변환하여 처리가 가능하나, 텍스트형 변수는 불필요한 변수라고 판단되면 삭제하는 것이 좋음(ex. 단순 문자열 아이디)

##### ① 레이블 인코딩(Lable Encoding)
- 명목형 변수를 코드형 숫자 값으로 변환하는 것

- ex) 상품 데이터의 상품 구분이 TV, 냉장고, 전자레인지, 컴퓨터 등으로 되어있다면 TV:1, 냉장고:2, 전자레인지:3, 컴퓨터:4와 같은 숫자형 값으로 변환

- scikit-learn의 Label Encoding은 Label Encoder클래스로 구현. Label Encoder를 객체로 생성한 후 fit과 transform을 호출해 레이블 인코딩을 수행할 수 있음

- (단점) 레이블 인코딩이 일괄적인 숫자 값으로 변환되면서 몇몇 알고리즘에 적용할 경우 예측 성능이 떨어질 수 있음. 이는 숫자 값의 경우 크고 작음에 대한 특성이 작용하기 때문(즉, 냉장고가 1, 컴퓨터가 3으로 변환되면 1보다 3이 더 큰 값이므로 특정 머신러닝 알고리즘에서는 가중치가 더 부여되거나 중요하게 인식할 가능성 발생) → 선형 회귀와 같은 알고리즘에는 적합하지 않음(트리 계열의 머신러닝 알고리즘은 이러한 특성을 반영하지 않으므로 큰 영향이 없음) → 이러한 레이블 인코딩의 문제점을 해결하기 위한 인코딩 방식이 원-핫 인코딩


In [None]:
### 인코딩 encoder.transform()
from sklearn.preprocessing import LabelEncoder

items = ['TV', '냉장고', '전자레인지', '컴퓨터', 'TV', '냉장고', '컴퓨터', '컴퓨터']

encoder = LabelEncoder()
encoder.fit(items)
labels = encoder.transform(items)

print('인코딩 변환값: ', labels)
print('인코딩 클래스 ', encoder.classes_)

인코딩 변환값:  [0 1 2 3 0 1 3 3]
인코딩 클래스  ['TV' '냉장고' '전자레인지' '컴퓨터']


In [None]:
### 디코딩 encoder.inverse_transform()
origins = encoder.inverse_transform([0, 1, 2, 3, 0, 1, 3, 3])

print('디코딩 원본값: ', origins)

디코딩 원본값:  ['TV' '냉장고' '전자레인지' '컴퓨터' 'TV' '냉장고' '컴퓨터' '컴퓨터']


##### ② 원-핫 인코딩(One-Hot Encoding)
- 해당 고유값에 매칭되는 변수만 1이 되고, 나머지 변수는 0을 입력
- scikit-learn에서 OneHotEncoder 클래스로 쉽게 변환 가능
- 주의할 점: OneHotEncoder로 변환하기 전에 모든 문자열 값이 숫자형 값으로 변환되어야 함 / 입력 값으로 2차원 데이터가 필요함

In [None]:
from sklearn.preprocessing import OneHotEncoder
import numpy as np

labels = labels.reshape(-1, 1) # 앞서 수행한 레이블 인코딩 결과를 2차원 데이터로 변환

oh_encoder = OneHotEncoder()
oh_encoder.fit(labels)
oh_labels = oh_encoder.transform(labels)

print('원-핫 인코딩 데이터')
print(oh_labels.toarray())
print('원-핫 인코딩 데이터 차원')
print(oh_labels.shape)

원-핫 인코딩 데이터
[[1. 0. 0. 0.]
 [0. 1. 0. 0.]
 [0. 0. 1. 0.]
 [0. 0. 0. 1.]
 [1. 0. 0. 0.]
 [0. 1. 0. 0.]
 [0. 0. 0. 1.]
 [0. 0. 0. 1.]]
원-핫 인코딩 데이터 차원
(8, 4)


###### Pandas의 원-핫 인코딩
- pandas에서 get_dummies 함수를 이용하면 명목형 데이터를 숫자형으로 변환할 필요 없이 바로 2차원 데이터로 변환하여 인코딩 수행 가능

In [None]:
import pandas as pd

item_df = pd.DataFrame({'item':items})
pd.get_dummies(item_df)

Unnamed: 0,item_TV,item_냉장고,item_전자레인지,item_컴퓨터
0,1,0,0,0
1,0,1,0,0
2,0,0,1,0
3,0,0,0,1
4,1,0,0,0
5,0,1,0,0
6,0,0,0,1
7,0,0,0,1


##### ③ 스케일링(Scaling)
- 서로 다른 변수의 값 범위를 일정한 수준으로 맞추는 작업
- 대표적인 방법: 표준화(Standardization), 정규화(Normalization)
- 표준화: 원 데이터를 평균이 0이고 분산이 1인 정규 분포를 가진 값으로 변환(표준화를 통해 변환될 데이터는 원래 값에서 데이터 세트의 평균을 뺀 값을 데이터 세트의 표준편차로 나눈 값으로 계산, x-평균/표준편차)
- 정규화: 서로 다른 변수의 크기를 통일하기 위해 크기를 변환해주는 개념. 즉, 개별 데이터의 크기를 모두 똑같은 단위로 변경하는 것. 최대-최소 정규화를 통해 변환될 데이터는 원래 값에서 해당 데이터 세트의 최소값을 뺀 값을 데이터 세트의 최대값과 최소값의 차이로 나눈 값으로 계산 → (x-xmin)/(xmax-xmin)
- StandardScaler : 표준화를 쉽게 지원하기 위한 scikit-learn 클래스
- MinMaxScaler : 데이터 값을 0과 1사이의 범위 값으로 변환

In [None]:
# StandardScaler
from sklearn.datasets import load_iris
import pandas as pd

iris = load_iris()
iris_data = iris.data
iris_df = pd.DataFrame(data = iris_data, columns = iris.feature_names)

print('feature들의 평균 값: \n', iris_df.mean())
print('feature들의 분산 값: \n', iris_df.var())

feature들의 평균 값: 
 sepal length (cm)    5.843333
sepal width (cm)     3.057333
petal length (cm)    3.758000
petal width (cm)     1.199333
dtype: float64
feature들의 분산 값: 
 sepal length (cm)    0.685694
sepal width (cm)     0.189979
petal length (cm)    3.116278
petal width (cm)     0.581006
dtype: float64


In [None]:
# StandardScaler를 이용해 각 변수를 표준화하여 변환
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
scaler.fit(iris_df)
iris_scaled = scaler.transform(iris_df) #transform을 호출할 때 스케일 변환된 데이터 세트는 numpy배열
iris_df_scaled = pd.DataFrame(data = iris_scaled, columns = iris.feature_names) #numpy 배열을 데이터프레임으로 변환해 평균값과 분산값 확인

print('feature들의 평균값: \n', iris_df_scaled.mean()) #0에 아주 가까운 값으로 변환
print('feature들의 분산값: \n', iris_df_scaled.var()) #1에 아주 가까운 값으로 변환

(150, 4)
feature들의 평균값: 
 sepal length (cm)   -1.690315e-15
sepal width (cm)    -1.842970e-15
petal length (cm)   -1.698641e-15
petal width (cm)    -1.409243e-15
dtype: float64
feature들의 분산값: 
 sepal length (cm)    1.006711
sepal width (cm)     1.006711
petal length (cm)    1.006711
petal width (cm)     1.006711
dtype: float64


In [None]:
# MinMaxScaler
from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler()
scaler.fit(iris_df)
iris_scaled = scaler.transform(iris_df)
iris_df_scaled = pd.DataFrame(data = iris_scaled, columns = iris.feature_names)

print('feature들의 최소값: \n', iris_df_scaled.min())
print('feature들의 최대값: \n', iris_df_scaled.max())

feature들의 최소값: 
 sepal length (cm)    0.0
sepal width (cm)     0.0
petal length (cm)    0.0
petal width (cm)     0.0
dtype: float64
feature들의 최대값: 
 sepal length (cm)    1.0
sepal width (cm)     1.0
petal length (cm)    1.0
petal width (cm)     1.0
dtype: float64


##### 정리
- StandardScaler나 MinMaxScaler와 같은 객체를 이용해 데이터의 스케일링 변환 시 fit, transform, fit_transform 함수 이용
- fit은 데이터 변환을 위한기준 정보 설정 적용
- transform은 이렇게 설정된 정보를 이용해 데이터 변환
- fit_transform은 fit과 transform을 한 번에 적용하는 기능 수행

##### 주의할 점
- 스케일링 객체를 이용해 학습 데이터 세트로 fit과 transform을 적용하면 테스트 데이터 세트로는 다시 fit을 수행하지 않고 학습 데이터 세트로 fit을 수행한 결과를 이용해 transform 변환을 적용해야함(즉, 학습 데이터로 fit이 적용된 스케일링 기준 정보를 그대로 테스트 데이터에 적용해야함. 테스트 데이터로 다시 새로운 스케일링 기준 정보를 만들게 되면 학습 데이터와 테스트 데이터의 스케일링 기준 정보가 서로 달라지므로 올바른 예측 결과를 도출하지 못할 수 있음)


In [None]:
from sklearn.preprocessing import MinMaxScaler
import numpy as np

train_array = np.arange(0, 11).reshape(-1, 1)
test_array = np.arange(0, 6).reshape(-1, 1)

scaler = MinMaxScaler()
scaler.fit(train_array)
train_scaled = scaler.transform(train_array)

print('원본 train_array 데이터: ', np.round(train_array.reshape(-1), 2))
print('Scaled train_array 데이터: ', np.round(train_scaled.reshape(-1), 2))

#scaler.fit(test_array)
test_scaled = scaler.transform(test_array)

print('\n원본 test_array 데이터: ', np.round(test_array.reshape(-1), 2))
print('Scaled test_array 데이터: ', np.round(test_scaled.reshape(-1), 2))

원본 train_array 데이터:  [ 0  1  2  3  4  5  6  7  8  9 10]
Scaled train_array 데이터:  [0.  0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1. ]

원본 test_array 데이터:  [0 1 2 3 4 5]
Scaled test_array 데이터:  [0.  0.1 0.2 0.3 0.4 0.5]
