# 결측치 처리
- 결측치 (Not Available-NA, NaN, None, Null)
    - 수집하지 못한 값. 모르는 값.
- 머신러닝 알고리즘은 데이터셋에 결측치가 있으면 학습이나 추론을 하지 못하기 때문에 적절한 처리가 필요하다.
    - 결측치 처리는 데이터 전처리 단계에서 진행한다.
#### 결측치 처리방법
    1. 제거 (열단위, 행단위) 
        - 행단위를 기본으로 하는데 특정 열에 결측치가 너무 많을 경우 열을 제거한다.
    1. 다른 값으로 대체
        - 가장 가능성이 높은 값으로 대체
            - 수치형: 평균, 중앙값, 
            - 범주형: 최빈값(출연 빈도가 가장 많은 값)
            - 그 Feature의 결측치를 예측하는 머신러닝 알고리즘을 모델링해서 추론
        - 결측치 자체를 표현하는 값을 만들어서 대체 
            - 나이에 -1, 혈액형에 ? 같와 같이 그 Feature가 가질 수 없는 값으로 결측치를 표현하는 값을 정한 뒤 대체한다.

# 이상치(Outlier) 처리
- 의미 그대로 이상한 값, 튀는 값, 패턴을 벋어난 값으로 그 Feature를 가지는 대부분의 값들과는 동떨어진 값을 말한다.
- **오류값**
    - 잘못 수집 된 값.
    - 처리    
        - 결측치 처리한다.
- **극단치(분포에서 벋어난 값)**
    - 정상적이 값이지만 다른 값들과 다른 패턴을 가지는 값.
    - 일반적으로 극단적으로 크거나 작은 값
    - 처리
        1. 그 값을 그대로 유지한다.
        1. 결측치 처리를 한다.
        1. 다른 값으로 대체한다.
            - 보통 그 값이 가질 수 있는 Min/Max값을 설정한 뒤 그 값으로 변경한다.
    

# Feature 타입 별 전처리

## Feature(변수)의 타입
- **범주형(Categorical) 변수/이산형(Discrete) 변수**
    - 대상값들이 서로 떨어진 값을 가지는 변수. 대부분 몇 개의 범주 중 하나에 속하는 값들로 구성되어 어떤 분류에 대한 속성을 가진다.
    - **명목(Norminal) 변수/비서열(Unordered) 변수**
        - 범주에 속한 값간에 서열(순위)가 없는 변수
        - 성별, 혈액형
    - **순위(Ordinal) 변수/서열(Ordered) 변수**
        - 범주에 속한 값 간에 서열(순위)가 있는 변수
        - 성적, 직급
- **연속형(Continuous) 변수**
    -  대상값들이 서로 연속된 값을 가지는 변수를 말한다. 대상 값은 보통 정해진 범위 안의 모든 실수이다.
    - **등간(Interval) 변수**
        - 측정 대상의 순서와 측정 대상 간의 간격을 알 수 있는 변수로, 그 사이의 간격이 같은 변수를 말한다.
        - 0의 값이 특정의미로 사용되는 값으로 0이 절대적인 0의 값이 아닐 수 있다.
        - 예) 온도 : 온도에서 0은 절대적 0의 값이 아니라 얼음이 어는 빙결점의 온도를 의미한다. 
    - **비율(Ratio) 변수**
        - 측정 대상의 순서와 측정 대상 간의 간격을 알 수 있는 변수로, 그 사이의 간격이 같은 변수를 말한다. (등간변수와 동일)
        - 0이 절대적인 0의 값으로 사용된다.
        - 예) 나이, 무게, 거리, 소득        

# 범주형 데이터 전처리
- Scikit-learn의 머신러닝 API들은 Feature나 Label의 값들이 숫자(정수/실수)인 것만 처리할 수 있다.
- 문자열(str)일 경우 숫자 형으로 변환해야 한다. 
    - **범주형 변수의 경우** 전처리를 통해 정수값으로 변환한다.
    - 범주형이 아닌 **단순 문자열인** 경우 일반적으로 제거한다.

## 레이블 인코딩(Label encoding)


- 문자열(범주형) 값을 오름차순 정렬 후 0 부터 1씩 증가하는 값으로 변환
- **숫자의 차이가 모델에 영향을 주지 않는 트리 계열 모델(의사결정나무, 랜덤포레스트)에 적용한다.**
- **숫자의 차이가 모델에 영향을 미치는 선형 계열 모델(로지스틱회귀, SVM, 신경망)에는 사용하면 안된다.**

- **sklearn.preprocessing.LabelEncoder** 사용
    - fit(): 어떻게 변환할 지 학습
    - transform(): 문자열를 숫자로 변환
    - fit_transform(): 학습과 변환을 한번에 처리
    - inverse_transform():숫자를 문자열로 변환
    - classes_ : 인코딩한 클래스 조회

In [1]:
from sklearn.preprocessing import LabelEncoder
import numpy as np

items=['TV','냉장고','컴퓨터','컴퓨터','냉장고','에어컨','TV','TV']  #범주형 값들 (TV, 냉장고, 컴퓨터, 에어콘)

# 변환기(Transformer) 객체 생성 -> LabelEncoder()
encoder = LabelEncoder()
# 어떻게 변환할지 학습 - fit(학습할 대상)
encoder.fit(items)
# 변환 - transform(변환대상)
labels = encoder.transform(items)

print('인코딩 전 값', items)
print('인코딩 변환값:',labels)

인코딩 전 값 ['TV', '냉장고', '컴퓨터', '컴퓨터', '냉장고', '에어컨', 'TV', 'TV']
인코딩 변환값: [0 1 3 3 1 2 0 0]


In [2]:
print('인코딩 클래스:',encoder.classes_)
# ['TV' '냉장고' '에어컨' '컴퓨터']  - index가 encoding된 정수

인코딩 클래스: ['TV' '냉장고' '에어컨' '컴퓨터']


In [3]:
print('디코딩 원본 값:',encoder.inverse_transform([1, 0, 2, 0, 1, 1, 3, 3]))
print('디코딩', encoder.inverse_transform(labels))

디코딩 원본 값: ['냉장고' 'TV' '에어컨' 'TV' '냉장고' '냉장고' '컴퓨터' '컴퓨터']
디코딩 ['TV' '냉장고' '컴퓨터' '컴퓨터' '냉장고' '에어컨' 'TV' 'TV']


#### 변환할 대상 데이터셋이 2개 - 같은 범주값들을 가진다. 
- 하나의 데이터셋으로 학습시킨뒤 둘다 변환한다.

In [4]:
items1 = ['TV','냉장고','컴퓨터','컴퓨터','냉장고','에어컨','TV','TV']
items2 = ['TV',"TV",'냉장고']
le3 = LabelEncoder()
# items1로 학습 -> 변환
item_labels1 = le3.fit_transform(items1)
print(le3.classes_)
item_labels2 = le3.transform(items2)  # item1로 학습한 LabelEncoder를 이용해 변환만 한다.

print("item_labels1:", item_labels1)
print("item_labels2:", item_labels2)

['TV' '냉장고' '에어컨' '컴퓨터']
item_labels1: [0 1 3 3 1 2 0 0]
item_labels2: [0 0 1]


### adult data 에 label encoding 적용
- Adult 데이터셋은 1994년  인구조사 데이터 베이스에서 추출한 미국 성인의 소득 데이터셋이다.
- target 은 income 이며 수입이 $50,000 이하인지 초과인지 두개의 class를 가진다.
- https://archive.ics.uci.edu/ml/datasets/adult
- 범주형: 'workclass','education', 'education-num', 'marital-status', 'occupation','relationship', 'race', 'gender','native-country', 'income'
- 연속형: 'age', fnlwgt', 'capital-gain', 'capital-loss', 'hours-per-week'

##### 데이터 로딩

In [5]:
import pandas as pd

cols = ['age', 'workclass','fnlwgt','education', 'education-num', 'marital-status', 'occupation','relationship', 'race', 'gender','capital-gain','capital-loss', 'hours-per-week','native-country', 'income']
data  = pd.read_csv('data/adult.data', 
                    header=None,   # 첫줄부터 데이터
                    names=cols,    # 컬럼명 설정
                    na_values='?',   # 결측치로 사용된 문자열값 표시.
                    skipinitialspace=True) # 값이 공백으로 시작하면 그 공백을 제거  (abc, def, 가나다)
data.head()

Unnamed: 0,age,workclass,fnlwgt,education,education-num,marital-status,occupation,relationship,race,gender,capital-gain,capital-loss,hours-per-week,native-country,income
0,39,State-gov,77516,Bachelors,13,Never-married,Adm-clerical,Not-in-family,White,Male,2174,0,40,United-States,<=50K
1,50,Self-emp-not-inc,83311,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,13,United-States,<=50K
2,38,Private,215646,HS-grad,9,Divorced,Handlers-cleaners,Not-in-family,White,Male,0,0,40,United-States,<=50K
3,53,Private,234721,11th,7,Married-civ-spouse,Handlers-cleaners,Husband,Black,Male,0,0,40,United-States,<=50K
4,28,Private,338409,Bachelors,13,Married-civ-spouse,Prof-specialty,Wife,Black,Female,0,0,40,Cuba,<=50K


In [6]:
# 결측치 확인
data.isnull().sum()  #컬럼별 결측치 개수

age                  0
workclass         1836
fnlwgt               0
education            0
education-num        0
marital-status       0
occupation        1843
relationship         0
race                 0
gender               0
capital-gain         0
capital-loss         0
hours-per-week       0
native-country     583
income               0
dtype: int64

##### 결측치 처리 => 제거

In [7]:
data.dropna(inplace=True)  #행단위 제거
data.isnull().sum()

age               0
workclass         0
fnlwgt            0
education         0
education-num     0
marital-status    0
occupation        0
relationship      0
race              0
gender            0
capital-gain      0
capital-loss      0
hours-per-week    0
native-country    0
income            0
dtype: int64

In [8]:
encoding_columns = ['workclass','education','marital-status', 'occupation','relationship','race','gender','native-country', 'income']
not_encoding_columns = ['age','fnlwgt', 'education-num','capital-gain','capital-loss','hours-per-week']

In [9]:
from sklearn.preprocessing import LabelEncoder

adult_data = data.copy() # 원본데이터를 유지하기 위해서 copy()-deep copy

# 컬럼(Feature)별로 Label Encoding 할 때 사용할 LabelEncoder 객체를 컬럼명:LE객체 형태로 저장한다.
# 목적: 인코딩된 값들을 원복(decoding)시키거나 원본에 대한 정보를 확인하기 위해.
le_dict = {}

for col in encoding_columns:
    le = LabelEncoder()
    adult_data[col] = le.fit_transform(adult_data[col])
    le_dict[col] = le

In [10]:
adult_data.head()

Unnamed: 0,age,workclass,fnlwgt,education,education-num,marital-status,occupation,relationship,race,gender,capital-gain,capital-loss,hours-per-week,native-country,income
0,39,5,77516,9,13,4,0,1,4,1,2174,0,40,38,0
1,50,4,83311,9,13,2,3,0,4,1,0,0,13,38,0
2,38,2,215646,11,9,0,5,1,4,1,0,0,40,38,0
3,53,2,234721,1,7,2,5,0,2,1,0,0,40,38,0
4,28,2,338409,9,13,2,9,5,2,0,0,0,40,4,0


In [12]:
le_dict

{'workclass': LabelEncoder(),
 'education': LabelEncoder(),
 'marital-status': LabelEncoder(),
 'occupation': LabelEncoder(),
 'relationship': LabelEncoder(),
 'race': LabelEncoder(),
 'gender': LabelEncoder(),
 'native-country': LabelEncoder(),
 'income': LabelEncoder()}

## 원핫 인코딩(One-Hot encoding)
- N개의 클래스를 N 차원의 One-Hot 벡터로 표현되도록 변환
    - 고유값들을 피처(컬럼)로 만들고 정답에 해당하는 열은 1로 나머진 0으로 표시한다..
- **숫자의 차이가 모델에 영향을 미치는 선형 계열 모델(로지스틱회귀, SVM, 신경망)에서 범주형 데이터 변환시 Label Encoding보다 One Hot Encoding을 사용한다.**
- **DecisionTree 계열의 알고리즘은 Feature에 0이 많은 경우(Sparse Matrix라고 한다.) 성능이 떨어지기 때문에 Label Encoding을 한다.**

### One-Hot Encoding 변환 처리

- **Scikit-learn**
    - sklearn.preprocessing.OneHotEncoder 이용
        - fit(데이터셋): 데이터셋을 기준으로 어떻게 변환할 지 학습
        - transform(데이터셋): Argument로 받은 데이터셋을 원핫인코딩 처리
        - fit_transform(데이터셋): 학습과 변환을 한번에 처리
        - get_feature_names_out() : 원핫인코딩으로 변환된 컬럼의 이름을 반환
        - **데이터셋은 2차원 배열을 전달 하며 Feature별로 원핫인코딩 처리한다.**
            - DataFrame도 가능
            - 원핫인코딩 처리시 모든 타입의 값들을 다 변환한다. (연속형 값들도 변환) 그래서 변환려는 변수들만 모아서 처리해야 한다.

In [13]:
from sklearn.preprocessing import OneHotEncoder
import numpy as np
import pandas as pd

items=np.array(['TV','냉장고','전자렌지','컴퓨터','선풍기','선풍기','믹서','믹서'])
np.unique(items)

array(['TV', '냉장고', '믹서', '선풍기', '전자렌지', '컴퓨터'], dtype='<U4')

In [14]:
a = items[..., np.newaxis]
print(a.shape)
a

(8, 1)


array([['TV'],
       ['냉장고'],
       ['전자렌지'],
       ['컴퓨터'],
       ['선풍기'],
       ['선풍기'],
       ['믹서'],
       ['믹서']], dtype='<U4')

> sparse를 False로 주지 않으면 scipy의 csr_matrix(희소행렬 객체)로 반환.     
> 희소행렬은 대부분 0으로 구성된 행렬과 계산이나 메모리 효율을 이용해 0이 아닌 값의 index만 관리한다.   
> csr_matrix.toarray()로 ndarray로 바꿀수 있다.

#### sparse = True
- csr_matrix

In [16]:
# oh_encoder = OneHotEncoder()
oh_encoder = OneHotEncoder()  # ndarray로 변환결과를 반환.
oh_encoder.fit(items[...,np.newaxis])
r = oh_encoder.transform(items[...,np.newaxis])
print(type(r))
print(r)
# print(r.toarray())  #csr_matrix(배열의 정보)를  ndarray(실제값으로구성)로 변환

<class 'scipy.sparse._csr.csr_matrix'>
  (0, 0)	1.0
  (1, 1)	1.0
  (2, 4)	1.0
  (3, 5)	1.0
  (4, 3)	1.0
  (5, 3)	1.0
  (6, 2)	1.0
  (7, 2)	1.0


#### sparse = False

In [19]:
# oh_encoder = OneHotEncoder()
oh_encoder = OneHotEncoder(sparse=False)  # ndarray로 변환결과를 반환.
oh_encoder.fit(items[...,np.newaxis])
r = oh_encoder.transform(items[...,np.newaxis])
print(type(r))
print(r)
# print(r.toarray())  #csr_matrix(배열의 정보)를  ndarray(실제값으로구성)로 변환

<class 'numpy.ndarray'>
[[1. 0. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0. 0.]
 [0. 0. 0. 0. 1. 0.]
 [0. 0. 0. 0. 0. 1.]
 [0. 0. 0. 1. 0. 0.]
 [0. 0. 0. 1. 0. 0.]
 [0. 0. 1. 0. 0. 0.]
 [0. 0. 1. 0. 0. 0.]]


In [20]:
oh_encoder.get_feature_names_out()

array(['x0_TV', 'x0_냉장고', 'x0_믹서', 'x0_선풍기', 'x0_전자렌지', 'x0_컴퓨터'],
      dtype=object)

In [21]:
pd.DataFrame(r, columns=oh_encoder.get_feature_names_out())

Unnamed: 0,x0_TV,x0_냉장고,x0_믹서,x0_선풍기,x0_전자렌지,x0_컴퓨터
0,1.0,0.0,0.0,0.0,0.0,0.0
1,0.0,1.0,0.0,0.0,0.0,0.0
2,0.0,0.0,0.0,0.0,1.0,0.0
3,0.0,0.0,0.0,0.0,0.0,1.0
4,0.0,0.0,0.0,1.0,0.0,0.0
5,0.0,0.0,0.0,1.0,0.0,0.0
6,0.0,0.0,1.0,0.0,0.0,0.0
7,0.0,0.0,1.0,0.0,0.0,0.0


- **Pandas**
    - pandas.get_dummies(DataFrame [, columns=[변환할 컬럼명]]) 함수 이용
    - DataFrame에서 범주형(`object`, `category`) 변수만 변환한다.
    
> 범주형 변수의 값을 숫자 값을 가지는 경우가 있다. (ex: 별점)    
> 이런 경우 get_dummies() columns=['컬럼명','컬럼명'] 매개변수로 컬럼들을 명시한다.            

In [22]:
import pandas as pd
dic = {
    'Item':items, #범주형
    'Count':[10, 10, 20, 15, 13, 3, 12, 33], #연속형
    'Level':[1,1,1,2,3,3,1,1] #범주형
}
df = pd.DataFrame(dic)
df
# onehot encoding - 대상: Item, Level

Unnamed: 0,Item,Count,Level
0,TV,10,1
1,냉장고,10,1
2,전자렌지,20,1
3,컴퓨터,15,2
4,선풍기,13,3
5,선풍기,3,3
6,믹서,12,1
7,믹서,33,1


In [23]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8 entries, 0 to 7
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Item    8 non-null      object
 1   Count   8 non-null      int64 
 2   Level   8 non-null      int64 
dtypes: int64(2), object(1)
memory usage: 320.0+ bytes


In [24]:
pd.get_dummies(df)
# dataframe에서 object, categroy 타입의 Feature(컬럼) 들만 변환

Unnamed: 0,Count,Level,Item_TV,Item_냉장고,Item_믹서,Item_선풍기,Item_전자렌지,Item_컴퓨터
0,10,1,1,0,0,0,0,0
1,10,1,0,1,0,0,0,0
2,20,1,0,0,0,0,1,0
3,15,2,0,0,0,0,0,1
4,13,3,0,0,0,1,0,0
5,3,3,0,0,0,1,0,0
6,12,1,0,0,1,0,0,0
7,33,1,0,0,1,0,0,0


In [25]:
pd.get_dummies(df, columns=['Item', 'Level'])  
#변환할 컬럼들을 지정하면 지정된 컬럼들은 one hot encoding 되고 나머지 컬럼들은 값을 유지하는 dataframe을 반환한다.

Unnamed: 0,Count,Item_TV,Item_냉장고,Item_믹서,Item_선풍기,Item_전자렌지,Item_컴퓨터,Level_1,Level_2,Level_3
0,10,1,0,0,0,0,0,1,0,0
1,10,0,1,0,0,0,0,1,0,0
2,20,0,0,0,0,1,0,1,0,0
3,15,0,0,0,0,0,1,0,1,0
4,13,0,0,0,1,0,0,0,0,1
5,3,0,0,0,1,0,0,0,0,1
6,12,0,0,1,0,0,0,1,0,0
7,33,0,0,1,0,0,0,1,0,0


# TODO: adult dataset에 one-hot encoding 적용
- 범주형: 'workclass','education', 'education-num', 'marital-status', 'occupation','relationship', 'race', 'gender', 'native-country', 'income'
- 연속형: 'age', fnlwgt', 'capital-gain', 'capital-loss', 'hours-per-week'
- **위 Feature 중 'age', 'workclass','education', 'occupation', 'gender', 'hours-per-week' 만 사용한다.**
- 범주형 Feature중 **income은 출력 데이터이므로 Label Encoding 처리**를 한다.
- 나머지 범주형Feature들은 One-hot encoding 처리한다.

- X: 'age', 'workclass','education', 'occupation', 'gender', 'hours-per-week'     
    - 범주형: 'workclass','education', 'occupation', 'gender' ==> one hot encoding
    - 연속형: 'age', 'hours-per-week' ==> 유지
- y: 'income' ==> Label Encoding
    

1. DataSet 읽기

1. 읽은 데이터셋이서 필요한 Feature만 추출해서 새로운 DataFrame생성

1. 결측치 처리 (제거)

1. One hot encoding

1. 모델링
    - Train/validation/Test set 분리
    - 모델 생성
    - 학습
    - 검증
    - 최종평가

##### 데이터 로딩

In [26]:
cols = ['age', 'workclass','fnlwgt','education', 'education-num', 'marital-status', 'occupation','relationship', 'race', 'gender','capital-gain','capital-loss', 'hours-per-week','native-country', 'income']

data = pd.read_csv('data/adult.data', header=None, names=cols, skipinitialspace=True, na_values='?')
data.shape

(32561, 15)

In [29]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 32561 entries, 0 to 32560
Data columns (total 15 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   age             32561 non-null  int64 
 1   workclass       30725 non-null  object
 2   fnlwgt          32561 non-null  int64 
 3   education       32561 non-null  object
 4   education-num   32561 non-null  int64 
 5   marital-status  32561 non-null  object
 6   occupation      30718 non-null  object
 7   relationship    32561 non-null  object
 8   race            32561 non-null  object
 9   gender          32561 non-null  object
 10  capital-gain    32561 non-null  int64 
 11  capital-loss    32561 non-null  int64 
 12  hours-per-week  32561 non-null  int64 
 13  native-country  31978 non-null  object
 14  income          32561 non-null  object
dtypes: int64(6), object(9)
memory usage: 3.7+ MB


##### 필요한 Feature들만 추출

In [30]:
df = data[['age', 'workclass','education', 'occupation', 'gender', 'hours-per-week', 'income']]
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 32561 entries, 0 to 32560
Data columns (total 7 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   age             32561 non-null  int64 
 1   workclass       30725 non-null  object
 2   education       32561 non-null  object
 3   occupation      30718 non-null  object
 4   gender          32561 non-null  object
 5   hours-per-week  32561 non-null  int64 
 6   income          32561 non-null  object
dtypes: int64(2), object(5)
memory usage: 1.7+ MB


##### 결측치 제거 

In [31]:
# 결측치 확인
df.isnull().sum()

age                  0
workclass         1836
education            0
occupation        1843
gender               0
hours-per-week       0
income               0
dtype: int64

In [32]:
df.dropna(inplace=True)
df.shape

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df.dropna(inplace=True)


(30718, 7)

##### income(출력데이터): LabelEncoding

In [33]:
from sklearn.preprocessing import LabelEncoder

le = LabelEncoder()
y = le.fit_transform(df['income']) # Label y 변수에 대입
y.shape

(30718,)

In [34]:
np.unique(y, return_counts=True)

(array([0, 1]), array([23068,  7650], dtype=int64))

In [35]:
# df에서 income을 제거
df.drop(columns='income', inplace=True)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df.drop(columns='income', inplace=True)


##### 원핫인코딩

##### 1. pandas get_dummies() 사용해 변환

In [36]:
X = pd.get_dummies(df)
X.shape

(30718, 41)

##### 2. scikit-learn OneHotEncoder 사용

In [38]:
ohe = OneHotEncoder(sparse=False)
categorical_feature = ohe.fit_transform(df[['workclass','education', 'occupation', 'gender']])

In [58]:
X2 = np.concatenate([categorical_feature,df[['age','hours-per-week']].values],axis=1)

In [61]:
X2.shape

(30718, 41)

#### 모델 학습

##### train, validation, test set 나누기

In [62]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, stratify=y, random_state=0)
X_train, X_val, y_train, y_val = train_test_split(X_train, y_train, test_size=0.25, stratify=y_train, random_state=0)

##### 모델생성
- DecisionTreeClassifier 사용

In [63]:
from sklearn.tree import DecisionTreeClassifier

tree =  DecisionTreeClassifier(max_depth=7, random_state=0)
tree.fit(X_train, y_train)

##### 추론, 검증

In [64]:
pred_train = tree.predict(X_train)
pred_val = tree.predict(X_val)

In [66]:
from sklearn.metrics import accuracy_score

accuracy_score(y_train, pred_train), accuracy_score(y_val, pred_val)

(0.8116115029842648, 0.7985026041666666)

##### 평가

In [67]:
pred_test = tree.predict(X_test)
accuracy_score(y_test, pred_test)

0.79736328125

# 연속형(수치형) 데이터 전처리

- 연속형 데이터는 변수가 가지는 값들이 연속된 값인 경우로 보통 정해진 범위 안의 모든 실수가 값이 될 수 있다.


## Feature Scaling(정규화)
- 각 피처들간의 값의 범위(척도-Scale)가 다를 경우 이 값의 범위를 일정한 범위로 맞추는 작업
- 트리계열을 제외한 대부분의 머신러닝 알고리즘들이 Feature간의 서로 다른 척도(Scale)에 영향을 받는다.
    - 선형모델, SVM 모델, 신경망 모델
- **Scaling(정규화)은 train set으로 fitting 한다. test set이나 예측할 새로운 데이터는 train set으로 fitting한 것으로 변환한다.**

### 종류
- 표준화(Standardization)
- Min Max Scaling

### 함수
- fit(): 어떻게 변환할 지 학습
- transform(): 변환
- fit_transform(): 학습과 변환을 한번에 처리 
- inverse_transform(): 변환된 값을 원래값으로 복원

- Feature Scaling
    - 어떤 방식을 사용하나?
        - 둘다 해보고 더 좋은 성능을 내는 방식을 사용한다. (Data set에 따라 다르다.)
    - 언제 하는가?
        - Dataset을 Train/Validation/Test set으로 나눈뒤에 한다.
        - Train set으로 학습시킨 Scaler로 Train/Validation/Test set 모두 변환한다.

##  표준화(StandardScaler)
- 피쳐의 값들이 평균이 0이고 표준편차가 1인 범위에 있도록 변환한다.
    - 0을 기준으로 모든 데이터들이 모여있게 된다

$$
New\,x_i = \cfrac{X_i-\mu}{\sigma}\\
\mu-평균,\;  \sigma-표준편차
$$

- **sklearn.preprocessing.StandardScaler** 를 이용

In [68]:
import numpy as np
from sklearn.preprocessing import StandardScaler

# 변환할 데이터  (2차원)

data = np.array([10,2,30]).reshape(3,1)
print(data.shape)
print(data)

(3, 1)
[[10]
 [ 2]
 [30]]


In [69]:
print(f'평균: {np.mean(data)}, 표준편차: {np.std(data)}')

평균: 14.0, 표준편차: 11.775681155103795


In [70]:
# StandardScaler 객체 생성
stn_scaler = StandardScaler()
# 학습시키기 -> data의 평균과 표준편차 계산
stn_scaler.fit(data)
# 변환
result = stn_scaler.transform(data)
result

array([[-0.33968311],
       [-1.01904933],
       [ 1.35873244]])

#### iris

In [73]:
from sklearn.datasets import load_iris
import pandas as pd
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split

iris = load_iris()
iris_data = iris.data
iris_df = pd.DataFrame(data=iris_data,columns = iris.feature_names)

scaler = StandardScaler()

scaler.fit(iris_df)
iris_scaled = scaler.transform(iris_df)


iris_df_scaled = pd.DataFrame(data=iris_scaled, columns=iris.feature_names)
# iris_df_scaled.head()
print('feature 들의 평균 값')
print(iris_df_scaled.mean())
print('\nfeature 들의 표준편차 값')
print(iris_df_scaled.std())

feature 들의 평균 값
sepal length (cm)   -1.690315e-15
sepal width (cm)    -1.842970e-15
petal length (cm)   -1.698641e-15
petal width (cm)    -1.409243e-15
dtype: float64

feature 들의 표준편차 값
sepal length (cm)    1.00335
sepal width (cm)     1.00335
petal length (cm)    1.00335
petal width (cm)     1.00335
dtype: float64


## MinMaxScaler
- 데이터셋의 모든 값을 0(Min value)과 1(Max value) 사이의 값으로 변환한다.
$$
New\,x_i = \cfrac{x_i - min(X)}{max(X) - min(X)}
$$

In [75]:
from sklearn.preprocessing import MinMaxScaler

data

array([[10],
       [ 2],
       [30]])

In [76]:
print(f'최소값: {np.min(data)}, 최대값: {np.max(data)}')

최소값: 2, 최대값: 30


In [77]:
# 객체생성
mm_scaler = MinMaxScaler()
# 학습 - 최소/최대값을 계산
mm_scaler.fit(data)
# 변환
result = mm_scaler.transform(data)

result2 = mm_scaler.fit_transform(data) # 학습과 변환을 동시에 한다. 

In [78]:
result

array([[0.28571429],
       [0.        ],
       [1.        ]])

#### iris

In [79]:
from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler()

scaler.fit(iris_df)
iris_scaled = scaler.transform(iris_df) #ndarray반환

iris_df_scaled = pd.DataFrame(data=iris_scaled, columns=iris.feature_names)
print('feature들의 최소 값')
print(iris_df_scaled.min())
print('\nfeature들의 최대 값')
print(iris_df_scaled.max())


feature들의 최소 값
sepal length (cm)    0.0
sepal width (cm)     0.0
petal length (cm)    0.0
petal width (cm)     0.0
dtype: float64

feature들의 최대 값
sepal length (cm)    1.0
sepal width (cm)     1.0
petal length (cm)    1.0
petal width (cm)     1.0
dtype: float64


In [80]:
iris_df_scaled

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,0.222222,0.625000,0.067797,0.041667
1,0.166667,0.416667,0.067797,0.041667
2,0.111111,0.500000,0.050847,0.041667
3,0.083333,0.458333,0.084746,0.041667
4,0.194444,0.666667,0.067797,0.041667
...,...,...,...,...
145,0.666667,0.416667,0.711864,0.916667
146,0.555556,0.208333,0.677966,0.750000
147,0.611111,0.416667,0.711864,0.791667
148,0.527778,0.583333,0.745763,0.916667


### 위스콘신 유방암 데이터셋
- 위스콘신 대학교에서 제공한 유방암 진단결과 데이터
- Feature: 종양 측정값들
    - 모든 Feature들은 연속형(continous)이다.
- target: 악성, 양성 여부
- scikit-learn에서 toy dataset으로 제공한다. 
    - load_breast_cancer() 함수 이용

### StandardScaler 와 MinMaxScaler 비교

- StandardScaler와 MinMax Scaler를 이용해 Feature Scaling 위스콘신 유방암 데이터셋의 Feature들을 처리를 한다.
    - Scaler 학습은 Train set으로 만 하고 그 학습된 것을 이용해 Train/Validation/Test set을 변환한다.
- StandardScaler 로 변환한 결과를 저장할 변수
    - X_train_scaled1, X_val_scaled1, X_test_scaled1
- MinMaxScaler 로 변환한 결과를 저장할 변수
    - X_train_scaled2, X_val_scaled2, X_test_scaled2

##### 데이터 나누기
train/validation/test set으로 나눈다.

In [84]:
from sklearn.model_selection import train_test_split
from sklearn.datasets import load_breast_cancer 

data = load_breast_cancer()

X = data.data
y = data.target
# Test set 분리
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, stratify=y, random_state=0)
# Train/Val 분리
X_train, X_val, y_train, y_val = train_test_split(X_train, y_train, test_size=0.25, stratify=y_train, random_state=0)

X_train.shape, X_val.shape, X_test.shape

((341, 30), (114, 30), (114, 30))

#### scaling 처리
##### 표준화 (Standard Scaling)

In [85]:
from sklearn.preprocessing import StandardScaler

s_scaler = StandardScaler()
# train 학습->변환
X_train_scaled1 = s_scaler.fit_transform(X_train)
X_val_scaled1 = s_scaler.transform(X_val)
X_test_scaled1 = s_scaler.transform(X_test)

##### MinMax Scaling

In [86]:
from sklearn.preprocessing import MinMaxScaler

m_scaler = MinMaxScaler()
X_train_scaled2 = m_scaler.fit_transform(X_train)
X_val_scaled2 = m_scaler.transform(X_val)
X_test_scaled2 = m_scaler.transform(X_test)

### Modeling

##### Standard Scaling 데이터셋 이용

In [88]:
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score
# scaling 된 X_train_scaled 로 학습 및 평가
# StandardScaler로 전처리된 데이터셋
svc = SVC( random_state=0)
#학습
svc.fit(X_train_scaled1, y_train)
#평가
# 추론 -> 학습데이터셋(Train dataset)에 처리한 전처리를 똑같이 적용한 뒤 추론해야 한다. 
pred_train1 = svc.predict(X_train_scaled1)
pred_val1 = svc.predict(X_val_scaled1)
pred_test1 = svc.predict(X_test_scaled1)

print(accuracy_score(y_train, pred_train1), accuracy_score(y_val, pred_val1), accuracy_score(y_test, pred_test1))

0.9912023460410557 0.9824561403508771 0.956140350877193


##### MinMax Scaling 데이터셋 이용

In [89]:
# scaling 된 X_train_scaled 로 학습 및 평가
# StandardScaler로 전처리된 데이터셋
svc = SVC(random_state=0)
#학습
svc.fit(X_train_scaled2, y_train)
#평가
# 추론 -> 학습데이터셋(Train dataset)에 처리한 전처리를 똑같이 적용한 뒤 추론해야 한다. 
pred_train2 = svc.predict(X_train_scaled2)
pred_val2 = svc.predict(X_val_scaled2)
pred_test2 = svc.predict(X_test_scaled2)

print(accuracy_score(y_train, pred_train2), accuracy_score(y_val, pred_val2), accuracy_score(y_test, pred_test2))

0.9882697947214076 0.9824561403508771 0.956140350877193
