In [3]:
x = 10

In [4]:
del x

# 결측치 처리
- 결측치 (Not Available-NA, NaN, None, Null)
    - 수집하지 못한 값. 모르는 값.
- 머신러닝 알고리즘은 데이터셋에 결측치가 있으면 학습이나 추론을 하지 못하기 때문에 적절한 처리가 필요하다.
    - 결측치 처리는 데이터 전처리 단계에서 진행한다.

- 결측치 처리방법
    1. 제거 (열단위, 행단위) 
        - 행단위를 기본으로 하는데 특정 열에 결측치가 너무 많을 경우 열을 제거한다.
    1. 다른 값으로 대체
        - 가장 가능성이 높은 값으로 대체
            - 수치형: 평균, 중앙값, 
            - 범주형: 최빈값(출연 빈도가 가장 많은 값)
            - 그 Feature의 결측치를 예측하는 머신러닝 알고리즘을 모델링해서 추론
        - 결측치 자체를 표현하는 값을 만들어서 대체 
            - 나이에 -1, 혈액형에 ? 같와 같이 그 Feature가 가질 수 없는 값으로 결측치를 표현하는 값을 정한 뒤 대체한다.

# 이상치(Outlier) 처리
- 의미 그대로 이상한 값, 튀는 값, 패턴을 벋어난 값으로 그 Feature를 가지는 대부분의 값들과는 동떨어진 값을 말한다.

- **오류값**
    - 잘못 수집 된 값.
    - 처리    
        - 결측치 처리한다.

- **극단치(분포에서 벋어난 값)**
    - 정상적이 값이지만 다른 값들과 다른 패턴을 가지는 값.
    - 일반적으로 극단적으로 크거나 작은 값
    - 처리
        1. 그 값을 그대로 유지한다.
        1. 결측치 처리를 한다.
        1. 다른 값으로 대체한다.
            - 보통 그 값이 가질 수 있는 Min/Max값을 설정한 뒤 그 값으로 변경한다.
    

# Feature 타입 별 전처리

## Feature(변수)의 타입
- **범주형(Categorical) 변수/이산형(Discrete) 변수**
    - 대상값들이 서로 떨어진 값을 가지는 변수. 대부분 몇 개의 범주 중 하나에 속하는 값들로 구성되어 어떤 분류에 대한 속성을 가진다.
    - **명목(Norminal) 변수/비서열(Unordered) 변수**
        - 범주에 속한 값간에 서열(순위)가 없는 변수
        - 성별, 혈액형
    - **순위(Ordinal) 변수/서열(Ordered) 변수**
        - 범주에 속한 값 간에 서열(순위)가 있는 변수
        - 성적, 직급
    

- **연속형(Continuous) 변수**
    -  대상값들이 서로 연속된 값을 가지는 변수를 말한다. 대상 값은 보통 정해진 범위 안의 모든 실수이다.
    - **등간(Interval) 변수**
        - 측정 대상의 순서와 측정 대상 간의 간격을 알 수 있는 변수로, 그 사이의 간격이 같은 변수를 말한다.
        - 0의 값이 특정의미로 사용되는 값으로 0이 절대적인 0의 값이 아닐 수 있다.
        - 예) 온도 : 온도에서 0은 절대적 0의 값이 아니라 얼음이 어는 빙결점의 온도를 의미한다. 
    - **비율(Ratio) 변수**
        - 측정 대상의 순서와 측정 대상 간의 간격을 알 수 있는 변수로, 그 사이의 간격이 같은 변수를 말한다. (등간변수와 동일)
        - 0이 절대적인 0의 값으로 사용된다.
        - 예) 나이, 무게, 거리, 소득

# 범주형 데이터 전처리
- Scikit-learn의 머신러닝 API들은 Feature나 Label의 값들이 숫자(정수/실수)인 것만 처리할 수 있다.
- 문자열(str)일 경우 숫자 형으로 변환해야 한다. 
    - **범주형 변수의 경우** 전처리를 통해 정수값으로 변환한다.
    - 범주형이 아닌 **단순 문자열인** 경우 일반적으로 제거한다.

## 범주형 Feature의 처리
- Label Encoding
- One-Hot Encoding 

## 레이블 인코딩(Label encoding)


- 문자열(범주형) 값을 오름차순 정렬 후 0 부터 1씩 증가하는 값으로 변환
- **숫자의 차이가 모델에 영향을 주지 않는 트리 계열 모델(의사결정나무, 랜덤포레스트)에 적용한다.**
- **숫자의 차이가 모델에 영향을 미치는 선형 계열 모델(로지스틱회귀, SVM, 신경망)에는 사용하면 안된다.**

![image.png](attachment:image.png)

- **sklearn.preprocessing.LabelEncoder** 사용
    - fit(): 어떻게 변환할 지 학습
    - transform(): 문자열를 숫자로 변환
    - fit_transform(): 학습과 변환을 한번에 처리
    - inverse_transform():숫자를 문자열로 변환
    - classes_ : 인코딩한 클래스 조회

In [1]:
from sklearn.preprocessing import LabelEncoder
import numpy as np

items=['TV','냉장고','컴퓨터','컴퓨터','냉장고','에어컨','TV','TV']  #범주형 값들 (TV, 냉장고, 컴퓨터, 에어콘)

In [2]:
# 변환기(Transformer) 객체 생성 -> LabelEncoder()
encoder = LabelEncoder()
# 어떻게 변환할지 학습 - fit(학습할 대상)
encoder.fit(items)
# 변환 - transform(변환대상)
labels = encoder.transform(items)

In [4]:
print('인코딩 전 값', items)
print('인코딩 변환값:',labels)

인코딩 전 값 ['TV', '냉장고', '컴퓨터', '컴퓨터', '냉장고', '에어컨', 'TV', 'TV']
인코딩 변환값: [0 1 3 3 1 2 0 0]


In [5]:
print('인코딩 클래스:',encoder.classes_)
# ['TV' '냉장고' '에어컨' '컴퓨터']  - index가 encoding된 정수

인코딩 클래스: ['TV' '냉장고' '에어컨' '컴퓨터']


In [8]:
print('디코딩 원본 값:',encoder.inverse_transform([1, 0, 2, 0, 1, 1, 3, 3]))
print('디코딩', encoder.inverse_transform(labels))

디코딩 원본 값: ['냉장고' 'TV' '에어컨' 'TV' '냉장고' '냉장고' '컴퓨터' '컴퓨터']
디코딩 ['TV' '냉장고' '컴퓨터' '컴퓨터' '냉장고' '에어컨' 'TV' 'TV']


In [9]:
le2 = LabelEncoder()
# 학습할 대상과 변환할 대상이 같은 경우 - fit_transform()
item_labels = le2.fit_transform(items)
item_labels

array([0, 1, 3, 3, 1, 2, 0, 0], dtype=int64)

In [14]:
l2 = LabelEncoder()
# 변환할 대상 dataset에 모든 범주값들이 다 있지 않은 경우.
l2.fit(['TV', '냉장고','컴퓨터','에어컨', '노트북', '마우스', '모니터'])
print(l2.classes_)
l2.transform(items)

['TV' '냉장고' '노트북' '마우스' '모니터' '에어컨' '컴퓨터']


array([0, 1, 6, 6, 1, 5, 0, 0])

In [13]:
items

['TV', '냉장고', '컴퓨터', '컴퓨터', '냉장고', '에어컨', 'TV', 'TV']

In [16]:
# 변환할 대상 데이터셋이 2개 - 같은 범주값들을 가진다. ==> 하나의 데이터셋으로 학습시킨뒤 둘다 변환한다.
items1 = ['TV','냉장고','컴퓨터','컴퓨터','냉장고','에어컨','TV','TV']
items2 = ['TV',"TV",'냉장고']
le3 = LabelEncoder()
# items1로 학습 -> 변환
item_labels1 = le3.fit_transform(items1)
print(le3.classes_)
item_labels2 = le3.transform(items2)  # item1로 학습한 LabelEncoder를 이용해 변환만 한다.

print("item_labels1:", item_labels1)
print("item_labels2:", item_labels2)

['TV' '냉장고' '에어컨' '컴퓨터']
item_labels1: [0 1 3 3 1 2 0 0]
item_labels2: [0 0 1]


In [17]:
items3 = ['TV','핸드폰']  #학습할 때 없었던 class값이 있을 경우 Exception(KeyError) 발생
le3.transform(items3)

ValueError: y contains previously unseen labels: '핸드폰'

### adult data 에 label encoding 적용
- Adult 데이터셋은 1994년  인구조사 데이터 베이스에서 추출한 미국 성인의 소득 데이터셋이다.
- target 은 income 이며 수입이 $50,000 이하인지 초과인지 두개의 class를 가진다.
- https://archive.ics.uci.edu/ml/datasets/adult

##### 데이터 로딩

In [1]:
import pandas as pd

cols = ['age', 'workclass','fnlwgt','education', 'education-num', 'marital-status', 'occupation','relationship', 'race', 'gender','capital-gain','capital-loss', 'hours-per-week','native-country', 'income']
data  = pd.read_csv('data/adult.data', 
                    header=None,   # 첫줄부터 데이터
                    names=cols,    # 컬럼명 설정
                    na_values='?',   # 결측치로 사용된 문자열값 표시.
                    skipinitialspace=True) # 값이 공백으로 시작하면 그 공백을 제거  (abc, def, 가나다)
data.head()

Unnamed: 0,age,workclass,fnlwgt,education,education-num,marital-status,occupation,relationship,race,gender,capital-gain,capital-loss,hours-per-week,native-country,income
0,39,State-gov,77516,Bachelors,13,Never-married,Adm-clerical,Not-in-family,White,Male,2174,0,40,United-States,<=50K
1,50,Self-emp-not-inc,83311,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,13,United-States,<=50K
2,38,Private,215646,HS-grad,9,Divorced,Handlers-cleaners,Not-in-family,White,Male,0,0,40,United-States,<=50K
3,53,Private,234721,11th,7,Married-civ-spouse,Handlers-cleaners,Husband,Black,Male,0,0,40,United-States,<=50K
4,28,Private,338409,Bachelors,13,Married-civ-spouse,Prof-specialty,Wife,Black,Female,0,0,40,Cuba,<=50K


In [2]:
# 결측치 확인
data.isnull().sum()  #컬럼별 결측치 개수

age                  0
workclass         1836
fnlwgt               0
education            0
education-num        0
marital-status       0
occupation        1843
relationship         0
race                 0
gender               0
capital-gain         0
capital-loss         0
hours-per-week       0
native-country     583
income               0
dtype: int64

In [29]:
data.shape

(32561, 15)

##### 결측치 처리 => 제거

In [3]:
data.dropna(inplace=True)  #행단위 제거

In [4]:
data.isnull().sum()

age               0
workclass         0
fnlwgt            0
education         0
education-num     0
marital-status    0
occupation        0
relationship      0
race              0
gender            0
capital-gain      0
capital-loss      0
hours-per-week    0
native-country    0
income            0
dtype: int64

In [5]:
data.shape

(30162, 15)

# TODO: encoding_columns 레이블 인코딩 처리


- 범주형: 'workclass','education', 'education-num', 'marital-status', 'occupation','relationship', 'race', 'gender','native-country', 'income'
- 연속형: 'age', fnlwgt', 'capital-gain', 'capital-loss', 'hours-per-week'

**아래 encoding_columns 컬럼들은 Label Encoding 처리,**  
**not_encoding_columns 컬럼들의 값들은 그대로 유지.**

변환 결과 DataFrame의 encoding_columns의 값들은 LabelEncoding 된 값으로, not_encoding_columns의 값들은 원래값 그대로 구성되도록 한다.

In [6]:
data.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 30162 entries, 0 to 32560
Data columns (total 15 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   age             30162 non-null  int64 
 1   workclass       30162 non-null  object
 2   fnlwgt          30162 non-null  int64 
 3   education       30162 non-null  object
 4   education-num   30162 non-null  int64 
 5   marital-status  30162 non-null  object
 6   occupation      30162 non-null  object
 7   relationship    30162 non-null  object
 8   race            30162 non-null  object
 9   gender          30162 non-null  object
 10  capital-gain    30162 non-null  int64 
 11  capital-loss    30162 non-null  int64 
 12  hours-per-week  30162 non-null  int64 
 13  native-country  30162 non-null  object
 14  income          30162 non-null  object
dtypes: int64(6), object(9)
memory usage: 3.7+ MB


In [7]:
encoding_columns = ['workclass','education','marital-status', 'occupation','relationship','race','gender','native-country', 'income']
not_encoding_columns = ['age','fnlwgt', 'education-num','capital-gain','capital-loss','hours-per-week']

In [None]:
# LabelEncoding => 1차원 배열형식(ndarray, list, tuple, Series)/Feature 별로 변환한다.

In [None]:
# for문 이용

In [36]:
adult_data = data.copy() # 원본데이터를 유지하기 위해서 copy()-deep copy

In [37]:
from sklearn.preprocessing import LabelEncoder

# 컬럼(Feature)별로 Label Encoding 할 때 사용할 LabelEncoder 객체를 컬럼명:LE객체 형태로 저장한다.
# 목적: 인코딩된 값들을 원복(decoding)시키거나 원본에 대한 정보를 확인하기 위해.
le_dict = {}

for col in encoding_columns:
    le = LabelEncoder()
    adult_data[col] = le.fit_transform(adult_data[col])
    le_dict[col] = le

In [27]:
le_dict

{'workclass': LabelEncoder(),
 'education': LabelEncoder(),
 'marital-status': LabelEncoder(),
 'occupation': LabelEncoder(),
 'relationship': LabelEncoder(),
 'race': LabelEncoder(),
 'gender': LabelEncoder(),
 'native-country': LabelEncoder(),
 'income': LabelEncoder()}

In [28]:
le_dict['workclass'].classes_

array(['Federal-gov', 'Local-gov', 'Private', 'Self-emp-inc',
       'Self-emp-not-inc', 'State-gov', 'Without-pay'], dtype=object)

In [29]:
le_dict['education'].classes_

array(['10th', '11th', '12th', '1st-4th', '5th-6th', '7th-8th', '9th',
       'Assoc-acdm', 'Assoc-voc', 'Bachelors', 'Doctorate', 'HS-grad',
       'Masters', 'Preschool', 'Prof-school', 'Some-college'],
      dtype=object)

In [17]:
adult_data.head()

Unnamed: 0,age,workclass,fnlwgt,education,education-num,marital-status,occupation,relationship,race,gender,capital-gain,capital-loss,hours-per-week,native-country,income
0,39,5,77516,9,13,4,0,1,4,1,2174,0,40,38,0
1,50,4,83311,9,13,2,3,0,4,1,0,0,13,38,0
2,38,2,215646,11,9,0,5,1,4,1,0,0,40,38,0
3,53,2,234721,1,7,2,5,0,2,1,0,0,40,38,0
4,28,2,338409,9,13,2,9,5,2,0,0,0,40,4,0


In [42]:
# DataFrame.apply(함수)를 이용
def label_encoder(column):
    
    le = LabelEncoder()
    return le.fit_transform(column)
    
result_df = data[encoding_columns].apply(label_encoder)   
#result_df는 LabelEncoding 된 범주형 컬럼들로만 구성 
result = pd.concat([result_df, data[not_encoding_columns]], axis=1)
result

Unnamed: 0,workclass,education,marital-status,occupation,relationship,race,gender,native-country,income,age,fnlwgt,education-num,capital-gain,capital-loss,hours-per-week
0,5,9,4,0,1,4,1,38,0,39,77516,13,2174,0,40
1,4,9,2,3,0,4,1,38,0,50,83311,13,0,0,13
2,2,11,0,5,1,4,1,38,0,38,215646,9,0,0,40
3,2,1,2,5,0,2,1,38,0,53,234721,7,0,0,40
4,2,9,2,9,5,2,0,4,0,28,338409,13,0,0,40
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
32556,2,7,2,12,5,4,0,38,0,27,257302,12,0,0,38
32557,2,11,2,6,0,4,1,38,1,40,154374,9,0,0,40
32558,2,11,6,0,4,4,0,38,0,58,151910,9,0,0,40
32559,2,11,4,0,3,4,1,38,0,22,201490,9,0,0,20


## Adult datast의 income 추론 모델링

In [43]:
adult_data

Unnamed: 0,age,workclass,fnlwgt,education,education-num,marital-status,occupation,relationship,race,gender,capital-gain,capital-loss,hours-per-week,native-country,income
0,39,5,77516,9,13,4,0,1,4,1,2174,0,40,38,0
1,50,4,83311,9,13,2,3,0,4,1,0,0,13,38,0
2,38,2,215646,11,9,0,5,1,4,1,0,0,40,38,0
3,53,2,234721,1,7,2,5,0,2,1,0,0,40,38,0
4,28,2,338409,9,13,2,9,5,2,0,0,0,40,4,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
32556,27,2,257302,7,12,2,12,5,4,0,0,0,38,38,0
32557,40,2,154374,11,9,2,6,0,4,1,0,0,40,38,1
32558,58,2,151910,11,9,6,0,4,4,0,0,0,40,38,0
32559,22,2,201490,11,9,4,0,3,4,1,0,0,20,38,0


### 데이터 분할
- X, y 나누기
    - Feature, Label(income)을 분리
- train/validation/test set 나누기

In [45]:
# X, y 나누기
y = adult_data['income']
X = adult_data.drop(columns='income')
X.shape, y.shape

((30162, 14), (30162,))

In [47]:
le_dict['income'].classes_

array(['<=50K', '>50K'], dtype=object)

In [46]:
y.value_counts()

0    22654
1     7508
Name: income, dtype: int64

In [51]:
# Train/Validation/Test set 분리
# X, y (pandas의 DataFrame/Series는 scikit-learn과 호환된다. => 변환기의 입력으로 들어갈 경우 ndarray로 반환된다.)
from sklearn.model_selection import train_test_split
# Test set을 분리
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, stratify=y, random_state=0)
# Train/Validation set 분리
X_train, X_val, y_train, y_val = train_test_split(X_train, y_train, test_size=0.25, stratify=y_train, random_state=0)

print(X_train.shape, X_test.shape, X_val.shape)


(18096, 14) (6033, 14) (6033, 14)


In [52]:
y.value_counts(normalize=True)

0    0.751078
1    0.248922
Name: income, dtype: float64

In [53]:
y_test.value_counts(normalize=True)

0    0.751036
1    0.248964
Name: income, dtype: float64

In [54]:
y_val.value_counts(normalize=True)

0    0.751036
1    0.248964
Name: income, dtype: float64

### 모델생성, 학습
- DecisionTreeClassifier
- train set/validation set 이용

In [66]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
# model 생성
tree = DecisionTreeClassifier(max_depth=7, random_state=0)  
    # 하이퍼파라미터를 변경(하이퍼파라미터튜닝)->모델을 다시 학습 ->모델 검증을 다시한다. 
    # 모델 성능에 영향을 주는 것: 파라미터(학습을 통해 찾는 값들), 하이퍼파라미터(사람이 설정하는 값)
# 학습(train)
tree.fit(X_train, y_train)

# 검증 - 예측=>평가  (train/val set으로 둘 다 검증)
pred_train = tree.predict(X_train)
pred_val = tree.predict(X_val)

train_acc = accuracy_score(y_train, pred_train)
val_acc = accuracy_score(y_val, pred_val)

print(f"Train set 정확도: {train_acc}, Validation set 정확도: {val_acc}")

Train set 정확도: 0.8575928381962865, Validation set 정확도: 0.8556273827283275


- max_depth = 1 : Train set 정확도: 0.751105216622458, Validation set 정확도: 0.7510359688380573
- max_depth = 2 : Train set 정확도: 0.8211759504862953, Validation set 정확도: 0.8238024200232057
- max_depth = 3 : Train set 정확도: 0.8358200707338639, Validation set 정확도: 0.8390518813194099
- max_depth = 4 : Train set 정확도: 0.8451591511936339, Validation set 정확도: 0.849494447207028
- max_depth = 5 : Train set 정확도: 0.8499115826702034, Validation set 정확도: 0.854135587601525
- max_depth = 6 : Train set 정확도: 0.853945623342175, Validation set 정확도: 0.854135587601525
- max_depth = 7 : Train set 정확도: 0.8575928381962865,Validation set 정확도: 0.8556273827283275
<hr>
- max_depth = 8 : Train set 정확도: 0.860079575596817, Validation set 정확도: 0.8543013426156141
- max_depth = 9 : Train set 정확도: 0.8668213969938108, Validation set 정확도: 0.8543013426156141
- max_depth = 10 :  ain set 정확도: 0.8739500442086648, Validation set 정확도: 0.845682081882977

### 검증
- 평가지표: 정확도(accuracy)
- validation set 이용

### 최종평가
- test set으로 최종평가

In [67]:
pred_test = tree.predict(X_test)
accuracy_score(y_test, pred_test)

0.8511519973479198

## 원핫 인코딩(One-Hot encoding)
- N개의 클래스를 N 차원의 One-Hot 벡터로 표현되도록 변환
    - 고유값들을 피처(컬럼)로 만들고 정답에 해당하는 열은 1로 나머진 0으로 표시한다..
- **숫자의 차이가 모델에 영향을 미치는 선형 계열 모델(로지스틱회귀, SVM, 신경망)에서 범주형 데이터 변환시 Label Encoding보다 One Hot Encoding을 사용한다.**
- **DecisionTree 계열의 알고리즘은 Feature에 0이 많은 경우(Sparse Matrix라고 한다.) 성능이 떨어지기 때문에 Label Encoding을 한다.**
![image.png](attachment:image.png)

### One-Hot Encoding 변환 처리

- **Scikit-learn**
    - sklearn.preprocessing.OneHotEncoder 이용
        - fit(데이터셋): 데이터셋을 기준으로 어떻게 변환할 지 학습
        - transform(데이터셋): Argument로 받은 데이터셋을 원핫인코딩 처리
        - fit_transform(데이터셋): 학습과 변환을 한번에 처리
        - get_feature_names_out() : 원핫인코딩으로 변환된 컬럼의 이름을 반환
        - **데이터셋은 2차원 배열을 전달 하며 Feature별로 원핫인코딩 처리한다.**
            - DataFrame도 가능
            - 원핫인코딩 처리시 모든 타입의 값들을 다 변환한다. (연속형 값들도 변환) 그래서 변환려는 변수들만 모아서 처리해야 한다.

- **Pandas**
    - pandas.get_dummies(DataFrame [, columns=[변환할 컬럼명]]) 함수 이용
    - DataFrame에서 범주형(`object`, `category`) 변수만 변환한다.
    
> 범주형 변수의 값을 숫자 값을 가지는 경우가 있다. (ex: 별점)    
> 이런 경우 get_dummies() columns=['컬럼명','컬럼명'] 매개변수로 컬럼들을 명시한다.

##### scikit-learn 

In [68]:
from sklearn.preprocessing import OneHotEncoder
import numpy as np
import pandas as pd

items=np.array(['TV','냉장고','전자렌지','컴퓨터','선풍기','선풍기','믹서','믹서'])
np.unique(items)

array(['TV', '냉장고', '믹서', '선풍기', '전자렌지', '컴퓨터'], dtype='<U4')

In [71]:
print(items.shape)
items

(8,)


array(['TV', '냉장고', '전자렌지', '컴퓨터', '선풍기', '선풍기', '믹서', '믹서'], dtype='<U4')

In [72]:
a = items[..., np.newaxis]
print(a.shape)
a

(8, 1)


array([['TV'],
       ['냉장고'],
       ['전자렌지'],
       ['컴퓨터'],
       ['선풍기'],
       ['선풍기'],
       ['믹서'],
       ['믹서']], dtype='<U4')

In [80]:
# oh_encoder = OneHotEncoder()
oh_encoder = OneHotEncoder(sparse=False)  # ndarray로 변환결과를 반환.
oh_encoder.fit(items[...,np.newaxis])
r = oh_encoder.transform(items[...,np.newaxis])
print(type(r))
print(r)
# print(r.toarray())  #csr_matrix(배열의 정보)를  ndarray(실제값으로구성)로 변환

<class 'numpy.ndarray'>
[[1. 0. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0. 0.]
 [0. 0. 0. 0. 1. 0.]
 [0. 0. 0. 0. 0. 1.]
 [0. 0. 0. 1. 0. 0.]
 [0. 0. 0. 1. 0. 0.]
 [0. 0. 1. 0. 0. 0.]
 [0. 0. 1. 0. 0. 0.]]


> sparse를 False로 주지 않으면 scipy의 csr_matrix(희소행렬 객체)로 반환.     
> 희소행렬은 대부분 0으로 구성된 행렬과 계산이나 메모리 효율을 이용해 0이 아닌 값의 index만 관리한다.   
> csr_matrix.toarray()로 ndarray로 바꿀수 있다.

In [81]:
oh_encoder.get_feature_names_out()

array(['x0_TV', 'x0_냉장고', 'x0_믹서', 'x0_선풍기', 'x0_전자렌지', 'x0_컴퓨터'],
      dtype=object)

In [82]:
pd.DataFrame(r, columns=oh_encoder.get_feature_names_out())

Unnamed: 0,x0_TV,x0_냉장고,x0_믹서,x0_선풍기,x0_전자렌지,x0_컴퓨터
0,1.0,0.0,0.0,0.0,0.0,0.0
1,0.0,1.0,0.0,0.0,0.0,0.0
2,0.0,0.0,0.0,0.0,1.0,0.0
3,0.0,0.0,0.0,0.0,0.0,1.0
4,0.0,0.0,0.0,1.0,0.0,0.0
5,0.0,0.0,0.0,1.0,0.0,0.0
6,0.0,0.0,1.0,0.0,0.0,0.0
7,0.0,0.0,1.0,0.0,0.0,0.0


In [83]:
import pandas as pd
dic = {
    'Item':items, #범주형
    'Count':[10, 10, 20, 15, 13, 3, 12, 33], #연속형
    'Level':[1,1,1,2,3,3,1,1] #범주형
}
df = pd.DataFrame(dic)
df
# onehot encoding - 대상: Item, Level

Unnamed: 0,Item,Count,Level
0,TV,10,1
1,냉장고,10,1
2,전자렌지,20,1
3,컴퓨터,15,2
4,선풍기,13,3
5,선풍기,3,3
6,믹서,12,1
7,믹서,33,1


In [84]:
from sklearn.preprocessing import OneHotEncoder
ohe = OneHotEncoder(sparse=False)
ohe.fit(df)
r_ohe = ohe.transform(df)
print(ohe.get_feature_names_out())
r_ohe[:5,:]
#DataFrame, 2차원 배열을 넣어서 변환하면 그 안의 Feature들은 모두 변환한다.
#   변환할 컬럼(Feature)들만 조회해서 넣어줘야 한다.

['Item_TV' 'Item_냉장고' 'Item_믹서' 'Item_선풍기' 'Item_전자렌지' 'Item_컴퓨터'
 'Count_3' 'Count_10' 'Count_12' 'Count_13' 'Count_15' 'Count_20'
 'Count_33' 'Level_1' 'Level_2' 'Level_3']


array([[1., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 1., 0., 0.],
       [0., 1., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 1., 0., 0.],
       [0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 1., 0., 1., 0., 0.],
       [0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 1., 0., 0., 0., 1., 0.],
       [0., 0., 0., 1., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 1.]])

In [85]:
r_ohe.shape

(8, 16)

In [86]:
pd.DataFrame(r_ohe.astype(np.int32), columns=ohe.get_feature_names_out())

Unnamed: 0,Item_TV,Item_냉장고,Item_믹서,Item_선풍기,Item_전자렌지,Item_컴퓨터,Count_3,Count_10,Count_12,Count_13,Count_15,Count_20,Count_33,Level_1,Level_2,Level_3
0,1,0,0,0,0,0,0,1,0,0,0,0,0,1,0,0
1,0,1,0,0,0,0,0,1,0,0,0,0,0,1,0,0
2,0,0,0,0,1,0,0,0,0,0,0,1,0,1,0,0
3,0,0,0,0,0,1,0,0,0,0,1,0,0,0,1,0
4,0,0,0,1,0,0,0,0,0,1,0,0,0,0,0,1
5,0,0,0,1,0,0,1,0,0,0,0,0,0,0,0,1
6,0,0,1,0,0,0,0,0,1,0,0,0,0,1,0,0
7,0,0,1,0,0,0,0,0,0,0,0,0,1,1,0,0


In [87]:
ohe2 = OneHotEncoder(sparse=False)
ohe2.fit(df[['Item', 'Level']])
rv2 = ohe2.transform(df[['Item','Level']])
rv2

array([[1., 0., 0., 0., 0., 0., 1., 0., 0.],
       [0., 1., 0., 0., 0., 0., 1., 0., 0.],
       [0., 0., 0., 0., 1., 0., 1., 0., 0.],
       [0., 0., 0., 0., 0., 1., 0., 1., 0.],
       [0., 0., 0., 1., 0., 0., 0., 0., 1.],
       [0., 0., 0., 1., 0., 0., 0., 0., 1.],
       [0., 0., 1., 0., 0., 0., 1., 0., 0.],
       [0., 0., 1., 0., 0., 0., 1., 0., 0.]])

In [88]:
ohe2.get_feature_names_out()

array(['Item_TV', 'Item_냉장고', 'Item_믹서', 'Item_선풍기', 'Item_전자렌지',
       'Item_컴퓨터', 'Level_1', 'Level_2', 'Level_3'], dtype=object)

In [92]:
df['Count'].values[..., np.newaxis]

array([[10],
       [10],
       [20],
       [15],
       [13],
       [ 3],
       [12],
       [33]], dtype=int64)

In [89]:
# item, level one hot encoding 한 결과에 count 를 합침.
result = np.concatenate([rv2, df['Count'].values[..., np.newaxis]], axis=1)
result

array([[ 1.,  0.,  0.,  0.,  0.,  0.,  1.,  0.,  0., 10.],
       [ 0.,  1.,  0.,  0.,  0.,  0.,  1.,  0.,  0., 10.],
       [ 0.,  0.,  0.,  0.,  1.,  0.,  1.,  0.,  0., 20.],
       [ 0.,  0.,  0.,  0.,  0.,  1.,  0.,  1.,  0., 15.],
       [ 0.,  0.,  0.,  1.,  0.,  0.,  0.,  0.,  1., 13.],
       [ 0.,  0.,  0.,  1.,  0.,  0.,  0.,  0.,  1.,  3.],
       [ 0.,  0.,  1.,  0.,  0.,  0.,  1.,  0.,  0., 12.],
       [ 0.,  0.,  1.,  0.,  0.,  0.,  1.,  0.,  0., 33.]])

##### pandas의 get_dummies() 이용

In [93]:
df #대상: Item, Level

Unnamed: 0,Item,Count,Level
0,TV,10,1
1,냉장고,10,1
2,전자렌지,20,1
3,컴퓨터,15,2
4,선풍기,13,3
5,선풍기,3,3
6,믹서,12,1
7,믹서,33,1


In [95]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8 entries, 0 to 7
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Item    8 non-null      object
 1   Count   8 non-null      int64 
 2   Level   8 non-null      int64 
dtypes: int64(2), object(1)
memory usage: 320.0+ bytes


In [94]:
pd.get_dummies(df)
# dataframe에서 object, categroy 타입의 Feature(컬럼) 들만 변환

Unnamed: 0,Count,Level,Item_TV,Item_냉장고,Item_믹서,Item_선풍기,Item_전자렌지,Item_컴퓨터
0,10,1,1,0,0,0,0,0
1,10,1,0,1,0,0,0,0
2,20,1,0,0,0,0,1,0
3,15,2,0,0,0,0,0,1
4,13,3,0,0,0,1,0,0
5,3,3,0,0,0,1,0,0
6,12,1,0,0,1,0,0,0
7,33,1,0,0,1,0,0,0


In [96]:
pd.get_dummies(df, columns=['Item', 'Level'])  
#변환할 컬럼들을 지정하면 지정된 컬럼들은 one hot encoding 되고 나머지 컬럼들은 값을 유지하는 dataframe을 반환한다.

Unnamed: 0,Count,Item_TV,Item_냉장고,Item_믹서,Item_선풍기,Item_전자렌지,Item_컴퓨터,Level_1,Level_2,Level_3
0,10,1,0,0,0,0,0,1,0,0
1,10,0,1,0,0,0,0,1,0,0
2,20,0,0,0,0,1,0,1,0,0
3,15,0,0,0,0,0,1,0,1,0
4,13,0,0,0,1,0,0,0,0,1
5,3,0,0,0,1,0,0,0,0,1
6,12,0,0,1,0,0,0,1,0,0
7,33,0,0,1,0,0,0,1,0,0


# TODO: adult dataset에 one-hot encoding 적용
- 범주형: 'workclass','education', 'education-num', 'marital-status', 'occupation','relationship', 'race', 'gender', 'native-country', 'income'
- 연속형: 'age', fnlwgt', 'capital-gain', 'capital-loss', 'hours-per-week'
- **위 Feature 중 'age', 'workclass','education', 'occupation', 'gender', 'hours-per-week' 만 사용한다.**
- 범주형 Feature중 **income은 출력 데이터이므로 Label Encoding 처리**를 한다.
- 나머지 범주형Feature들은 One-hot encoding 처리한다.

- X: 'age', 'workclass','education', 'occupation', 'gender', 'hours-per-week'     
    - 범주형: 'workclass','education', 'occupation', 'gender' ==> one hot encoding
    - 연속형: 'age', 'hours-per-week' ==> 유지
- y: 'income' ==> Label Encoding
    

1. DataSet 읽기

1. 읽은 데이터셋이서 필요한 Feature만 추출해서 새로운 DataFrame생성

1. 결측치 처리 (제거)

1. One hot encoding

1. 모델링
    - Train/validation/Test set 분리
    - 모델 생성
    - 학습
    - 검증
    - 최종평가

##### 데이터 로딩

In [129]:
cols = ['age', 'workclass','fnlwgt','education', 'education-num', 'marital-status', 'occupation','relationship', 'race', 'gender','capital-gain','capital-loss', 'hours-per-week','native-country', 'income']

data = pd.read_csv('data/adult.data', header=None, names=cols, skipinitialspace=True, na_values='?')
data.shape

(32561, 15)

In [130]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 32561 entries, 0 to 32560
Data columns (total 15 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   age             32561 non-null  int64 
 1   workclass       30725 non-null  object
 2   fnlwgt          32561 non-null  int64 
 3   education       32561 non-null  object
 4   education-num   32561 non-null  int64 
 5   marital-status  32561 non-null  object
 6   occupation      30718 non-null  object
 7   relationship    32561 non-null  object
 8   race            32561 non-null  object
 9   gender          32561 non-null  object
 10  capital-gain    32561 non-null  int64 
 11  capital-loss    32561 non-null  int64 
 12  hours-per-week  32561 non-null  int64 
 13  native-country  31978 non-null  object
 14  income          32561 non-null  object
dtypes: int64(6), object(9)
memory usage: 3.7+ MB


##### 필요한 Feature들만 추출

In [131]:
df = data[['age', 'workclass','education', 'occupation', 'gender', 'hours-per-week', 'income']]
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 32561 entries, 0 to 32560
Data columns (total 7 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   age             32561 non-null  int64 
 1   workclass       30725 non-null  object
 2   education       32561 non-null  object
 3   occupation      30718 non-null  object
 4   gender          32561 non-null  object
 5   hours-per-week  32561 non-null  int64 
 6   income          32561 non-null  object
dtypes: int64(2), object(5)
memory usage: 1.7+ MB


In [132]:
df.head()

Unnamed: 0,age,workclass,education,occupation,gender,hours-per-week,income
0,39,State-gov,Bachelors,Adm-clerical,Male,40,<=50K
1,50,Self-emp-not-inc,Bachelors,Exec-managerial,Male,13,<=50K
2,38,Private,HS-grad,Handlers-cleaners,Male,40,<=50K
3,53,Private,11th,Handlers-cleaners,Male,40,<=50K
4,28,Private,Bachelors,Prof-specialty,Female,40,<=50K


##### 결측치 제거 

In [133]:
# 결측치 확인
df.isnull().sum()

age                  0
workclass         1836
education            0
occupation        1843
gender               0
hours-per-week       0
income               0
dtype: int64

In [134]:
df.dropna(inplace=True)
df.shape

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df.dropna(inplace=True)


(30718, 7)

In [135]:
df.isnull().sum()

age               0
workclass         0
education         0
occupation        0
gender            0
hours-per-week    0
income            0
dtype: int64

##### income(출력데이터): LabelEncoding

In [136]:
df['income'].shape

(30718,)

In [137]:
from sklearn.preprocessing import LabelEncoder

le = LabelEncoder()
y = le.fit_transform(df['income']) # Label y 변수에 대입
y.shape

(30718,)

In [138]:
np.unique(y, return_counts=True)

(array([0, 1]), array([23068,  7650], dtype=int64))

In [139]:
# df에서 income을 제거
df.drop(columns='income', inplace=True)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df.drop(columns='income', inplace=True)


In [140]:
df.head()

Unnamed: 0,age,workclass,education,occupation,gender,hours-per-week
0,39,State-gov,Bachelors,Adm-clerical,Male,40
1,50,Self-emp-not-inc,Bachelors,Exec-managerial,Male,13
2,38,Private,HS-grad,Handlers-cleaners,Male,40
3,53,Private,11th,Handlers-cleaners,Male,40
4,28,Private,Bachelors,Prof-specialty,Female,40


'workclass','education', 'occupation', 'gender' 원핫인코딩 처리

##### 1. pandas get_dummies() 사용해 변환

In [141]:
# object, category 타입의 변수(컬럼)만 원핫인코딩 처리. 숫자타입(int, float)은 변환하지 않는다.
X = pd.get_dummies(df)
X.shape

(30718, 41)

##### 2. scikit-learn OneHotEncoder 사용

In [114]:
from sklearn.preprocessing import OneHotEncoder
ohe = OneHotEncoder()
categorical_feature = ohe.fit_transform(df[['workclass','education', 'occupation', 'gender']])

In [115]:
ohe.get_feature_names_out()

array(['workclass_Federal-gov', 'workclass_Local-gov',
       'workclass_Private', 'workclass_Self-emp-inc',
       'workclass_Self-emp-not-inc', 'workclass_State-gov',
       'workclass_Without-pay', 'education_10th', 'education_11th',
       'education_12th', 'education_1st-4th', 'education_5th-6th',
       'education_7th-8th', 'education_9th', 'education_Assoc-acdm',
       'education_Assoc-voc', 'education_Bachelors',
       'education_Doctorate', 'education_HS-grad', 'education_Masters',
       'education_Preschool', 'education_Prof-school',
       'education_Some-college', 'occupation_Adm-clerical',
       'occupation_Armed-Forces', 'occupation_Craft-repair',
       'occupation_Exec-managerial', 'occupation_Farming-fishing',
       'occupation_Handlers-cleaners', 'occupation_Machine-op-inspct',
       'occupation_Other-service', 'occupation_Priv-house-serv',
       'occupation_Prof-specialty', 'occupation_Protective-serv',
       'occupation_Sales', 'occupation_Tech-support',
   

In [121]:
categorical_feature

<30718x39 sparse matrix of type '<class 'numpy.float64'>'
	with 122872 stored elements in Compressed Sparse Row format>

In [125]:
# 원핫인코딩한 배열과 df의 연속형값들을 조회해서 하나로 합친다.
X2 = np.concatenate([categorical_feature.toarray(), df[['age', 'hours-per-week']].values], axis=1)
X2.shape

(30718, 41)

In [127]:
y.shape

(30162,)

### 모델 학습

##### train, validation, test set 나누기

In [142]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, stratify=y, random_state=0)
X_train, X_val, y_train, y_val = train_test_split(X_train, y_train, test_size=0.25, stratify=y_train, random_state=0)

In [143]:
X_train.shape, X_test.shape, X_val.shape

((18430, 41), (6144, 41), (6144, 41))

##### 모델생성
- DecisionTreeClassifier 사용

In [158]:
from sklearn.tree import DecisionTreeClassifier

tree = DecisionTreeClassifier(max_depth=7, random_state=0)
tree.fit(X_train, y_train)

##### 추론, 검증

In [159]:
pred_train = tree.predict(X_train)
pred_val = tree.predict(X_val)

In [160]:
# 검증
from sklearn.metrics import accuracy_score

accuracy_score(y_train, pred_train), accuracy_score(y_val, pred_val)

(0.8266956049918611, 0.7936197916666666)

##### 평가

In [161]:
pred_test = tree.predict(X_test)
accuracy_score(y_test, pred_test)

0.8001302083333334

# 연속형(수치형) 데이터 전처리

- 연속형 데이터는 변수가 가지는 값들이 연속된 값인 경우로 보통 정해진 범위 안의 모든 실수가 값이 될 수 있다.


## Feature Scaling(정규화)
- 각 피처들간의 값의 범위(척도-Scale)가 다를 경우 이 값의 범위를 일정한 범위로 맞추는 작업
- 트리계열을 제외한 대부분의 머신러닝 알고리즘들이 Feature간의 서로 다른 척도(Scale)에 영향을 받는다.
    - 선형모델, SVM 모델, 신경망 모델
- **Scaling(정규화)은 train set으로 fitting 한다. test set이나 예측할 새로운 데이터는 train set으로 fitting한 것으로 변환한다.**

### 종류
- 표준화(Standardization)
- Min Max Scaling

### 함수
- fit(): 어떻게 변환할 지 학습
- transform(): 변환
- fit_transform(): 학습과 변환을 한번에 처리 
- inverse_transform(): 변환된 값을 원래값으로 복원

In [174]:
a = np.array([10,2,30])
m = np.mean(a)
s = np.std(a)
print(m, s)
r = (a - m)/s
np.mean(r), np.std(r)
r

14.0 11.775681155103795


array([-0.33968311, -1.01904933,  1.35873244])

##  표준화(StandardScaler)
- 피쳐의 값들이 평균이 0이고 표준편차가 1인 범위에 있도록 변환한다.
    - 0을 기준으로 모든 데이터들이 모여있게 된다

$$
New\,x_i = \cfrac{X_i-\mu}{\sigma}\\
\mu-평균,\;  \sigma-표준편차
$$

- **sklearn.preprocessing.StandardScaler** 를 이용

##### 예제

In [171]:
import numpy as np
from sklearn.preprocessing import StandardScaler

In [172]:
# 변환할 데이터  (2차원)

data = np.array([10,2,30]).reshape(3,1)
print(data.shape)
print(data)

(3, 1)
[[10]
 [ 2]
 [30]]


In [173]:
print(f'평균: {np.mean(data)}, 표준편차: {np.std(data)}')

평균: 14.0, 표준편차: 11.775681155103795


In [175]:
# StandardScaler 객체 생성
stn_scaler = StandardScaler()
# 학습시키기 -> data의 평균과 표준편차 계산
stn_scaler.fit(data)
# 변환
result = stn_scaler.transform(data)
result

array([[-0.33968311],
       [-1.01904933],
       [ 1.35873244]])

In [176]:
r

array([-0.33968311, -1.01904933,  1.35873244])

In [177]:
print(f'평균: {np.mean(result)}, 표준편차: {np.std(result)}')

평균: 0.0, 표준편차: 1.0


##### iris 변환 

In [179]:
from sklearn.datasets import load_iris
import pandas as pd

iris = load_iris()
iris_data = iris.data #input
iris_df = pd.DataFrame(data=iris_data, columns=iris.feature_names)
iris_df
print('feature 들의 평균 값')
print(iris_df.mean())
print('\nfeature 들의 표준편차 값')
print(iris_df.std())


feature 들의 평균 값
sepal length (cm)    5.843333
sepal width (cm)     3.057333
petal length (cm)    3.758000
petal width (cm)     1.199333
dtype: float64

feature 들의 표준편차 값
sepal length (cm)    0.828066
sepal width (cm)     0.435866
petal length (cm)    1.765298
petal width (cm)     0.762238
dtype: float64


In [181]:
iris_df.values

array([[5.1, 3.5, 1.4, 0.2],
       [4.9, 3. , 1.4, 0.2],
       [4.7, 3.2, 1.3, 0.2],
       [4.6, 3.1, 1.5, 0.2],
       [5. , 3.6, 1.4, 0.2],
       [5.4, 3.9, 1.7, 0.4],
       [4.6, 3.4, 1.4, 0.3],
       [5. , 3.4, 1.5, 0.2],
       [4.4, 2.9, 1.4, 0.2],
       [4.9, 3.1, 1.5, 0.1],
       [5.4, 3.7, 1.5, 0.2],
       [4.8, 3.4, 1.6, 0.2],
       [4.8, 3. , 1.4, 0.1],
       [4.3, 3. , 1.1, 0.1],
       [5.8, 4. , 1.2, 0.2],
       [5.7, 4.4, 1.5, 0.4],
       [5.4, 3.9, 1.3, 0.4],
       [5.1, 3.5, 1.4, 0.3],
       [5.7, 3.8, 1.7, 0.3],
       [5.1, 3.8, 1.5, 0.3],
       [5.4, 3.4, 1.7, 0.2],
       [5.1, 3.7, 1.5, 0.4],
       [4.6, 3.6, 1. , 0.2],
       [5.1, 3.3, 1.7, 0.5],
       [4.8, 3.4, 1.9, 0.2],
       [5. , 3. , 1.6, 0.2],
       [5. , 3.4, 1.6, 0.4],
       [5.2, 3.5, 1.5, 0.2],
       [5.2, 3.4, 1.4, 0.2],
       [4.7, 3.2, 1.6, 0.2],
       [4.8, 3.1, 1.6, 0.2],
       [5.4, 3.4, 1.5, 0.4],
       [5.2, 4.1, 1.5, 0.1],
       [5.5, 4.2, 1.4, 0.2],
       [4.9, 3

In [180]:
iris_df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


In [183]:
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split

scaler = StandardScaler()

scaler.fit(iris_df)
iris_scaled = scaler.transform(iris_df)


iris_df_scaled = pd.DataFrame(data=iris_scaled, columns=iris.feature_names)
# iris_df_scaled.head()
print('feature 들의 평균 값')
print(iris_df_scaled.mean())
print('\nfeature 들의 표준편차 값')
print(iris_df_scaled.std())

feature 들의 평균 값
sepal length (cm)   -1.690315e-15
sepal width (cm)    -1.842970e-15
petal length (cm)   -1.698641e-15
petal width (cm)    -1.409243e-15
dtype: float64

feature 들의 표준편차 값
sepal length (cm)    1.00335
sepal width (cm)     1.00335
petal length (cm)    1.00335
petal width (cm)     1.00335
dtype: float64


## MinMaxScaler
- 데이터셋의 모든 값을 0(Min value)과 1(Max value) 사이의 값으로 변환한다.
$$
New\,x_i = \cfrac{x_i - min(X)}{max(X) - min(X)}
$$

##### 예제

In [187]:
from sklearn.preprocessing import MinMaxScaler

In [184]:
data

array([[10],
       [ 2],
       [30]])

In [185]:
print(f'최소값: {np.min(data)}, 최대값: {np.max(data)}')

최소값: 2, 최대값: 30


In [192]:
# 객체생성
mm_scaler = MinMaxScaler()
# 학습 - 최소/최대값을 계산
mm_scaler.fit(data)
# 변환
result = mm_scaler.transform(data)

result2 = mm_scaler.fit_transform(data) # 학습과 변환을 동시에 한다. 

In [193]:
print(f'최소값: {np.min(result)}, 최대값: {np.max(result)}')

최소값: 0.0, 최대값: 1.0


In [194]:
print(data)

[[10]
 [ 2]
 [30]]


In [195]:
print(result)

[[0.28571429]
 [0.        ]
 [1.        ]]


In [196]:
 result2

array([[0.28571429],
       [0.        ],
       [1.        ]])

##### iris 데이터셋 적용

In [197]:
iris_df.agg(['min', 'max'])

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
min,4.3,2.0,1.0,0.1
max,7.9,4.4,6.9,2.5


In [198]:
from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler()

scaler.fit(iris_df)
iris_scaled = scaler.transform(iris_df) #ndarray반환

iris_df_scaled = pd.DataFrame(data=iris_scaled, columns=iris.feature_names)
print('feature들의 최소 값')
print(iris_df_scaled.min())
print('\nfeature들의 최대 값')
print(iris_df_scaled.max())


feature들의 최소 값
sepal length (cm)    0.0
sepal width (cm)     0.0
petal length (cm)    0.0
petal width (cm)     0.0
dtype: float64

feature들의 최대 값
sepal length (cm)    1.0
sepal width (cm)     1.0
petal length (cm)    1.0
petal width (cm)     1.0
dtype: float64


In [199]:
iris_df_scaled

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,0.222222,0.625000,0.067797,0.041667
1,0.166667,0.416667,0.067797,0.041667
2,0.111111,0.500000,0.050847,0.041667
3,0.083333,0.458333,0.084746,0.041667
4,0.194444,0.666667,0.067797,0.041667
...,...,...,...,...
145,0.666667,0.416667,0.711864,0.916667
146,0.555556,0.208333,0.677966,0.750000
147,0.611111,0.416667,0.711864,0.791667
148,0.527778,0.583333,0.745763,0.916667


- Feature Scaling
    - 어떤 방식을 사용하나?
        - 둘다 해보고 더 좋은 성능을 내는 방식을 사용한다. (Data set에 따라 다르다.)
    - 언제 하는가?
        - Dataset을 Train/Validation/Test set으로 나눈뒤에 한다.
        - Train set으로 학습시킨 Scaler로 Train/Validation/Test set 모두 변환한다.

### 위스콘신 유방암 데이터셋
- 위스콘신 대학교에서 제공한 유방암 진단결과 데이터
- Feature: 종양 측정값들
    - 모든 Feature들은 연속형(continous)이다.
- target: 악성, 양성 여부
- scikit-learn에서 toy dataset으로 제공한다. 
    - load_breast_cancer() 함수 이용

In [1]:
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
data = load_breast_cancer()
data.keys()

dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename', 'data_module'])

In [2]:
data.target_names  #0: 악성, 1:양성

array(['malignant', 'benign'], dtype='<U9')

In [9]:
cnt = np.unique(data.target, return_counts=True)
print(cnt)
cnt[1]/cnt[1].sum()

(array([0, 1]), array([212, 357], dtype=int64))


array([0.37258348, 0.62741652])

In [10]:
data.data.shape

(569, 30)

In [11]:
data.feature_names

array(['mean radius', 'mean texture', 'mean perimeter', 'mean area',
       'mean smoothness', 'mean compactness', 'mean concavity',
       'mean concave points', 'mean symmetry', 'mean fractal dimension',
       'radius error', 'texture error', 'perimeter error', 'area error',
       'smoothness error', 'compactness error', 'concavity error',
       'concave points error', 'symmetry error',
       'fractal dimension error', 'worst radius', 'worst texture',
       'worst perimeter', 'worst area', 'worst smoothness',
       'worst compactness', 'worst concavity', 'worst concave points',
       'worst symmetry', 'worst fractal dimension'], dtype='<U23')

In [13]:
data.data.dtype  #float64 -> 모든 feature들은  연속형

dtype('float64')

# TODO
- StandardScaler와 MinMax Scaler를 이용해 Feature Scaling 위스콘신 유방암 데이터셋의 Feature들을 처리를 한다.
    - Scaler 학습은 Train set으로 만 하고 그 학습된 것을 이용해 Train/Validation/Test set을 변환한다.
- StandardScaler 로 변환한 결과를 저장할 변수
    - X_train_scaled1, X_val_scaled1, X_test_scaled1
- MinMaxScaler 로 변환한 결과를 저장할 변수
    - X_train_scaled2, X_val_scaled2, X_test_scaled2

##### 데이터 나누기
train/validation/test set으로 나눈다.

In [14]:
from sklearn.model_selection import train_test_split
X = data.data
y = data.target
# Test set 분리
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, stratify=y, random_state=0)
# Train/Val 분리
X_train, X_val, y_train, y_val = train_test_split(X_train, y_train, test_size=0.25, stratify=y_train, random_state=0)

X_train.shape, X_val.shape, X_test.shape

((341, 30), (114, 30), (114, 30))

#### scaling 처리
##### 표준화 (Standard Scaling)

In [23]:
# 지수표기법(1.3e3)를 사용하지 않고 소수점 이하 5자리까지 다 출력하도록 설정.
np.set_printoptions(precision=5, suppress=True)

In [25]:
# X_train Feature별 평균, 표준편차
X_train.mean(axis=0)

array([ 14.10252,  19.16299,  91.83018, 654.38123,   0.09647,   0.10444,
         0.08889,   0.04886,   0.18068,   0.06277,   0.39857,   1.21972,
         2.83919,  39.56116,   0.00705,   0.02565,   0.03168,   0.01177,
         0.02049,   0.00375,  16.23079,  25.62918, 107.09865, 879.87302,
         0.13229,   0.25623,   0.27429,   0.11478,   0.28978,   0.08408])

In [26]:
X_train.std(axis=0)

array([  3.59538,   4.21587,  24.82972, 362.54458,   0.01426,   0.05343,
         0.07933,   0.03948,   0.02743,   0.0071 ,   0.26507,   0.56317,
         1.93376,  43.53848,   0.00306,   0.01789,   0.02808,   0.00607,
         0.00869,   0.00234,   4.93283,   6.1382 ,  34.47844, 592.03017,
         0.02304,   0.16056,   0.21263,   0.06767,   0.06392,   0.0182 ])

In [27]:
from sklearn.preprocessing import StandardScaler

s_scaler = StandardScaler()
# train 학습->변환
X_train_scaled1 = s_scaler.fit_transform(X_train)
X_val_scaled1 = s_scaler.transform(X_val)
X_test_scaled1 = s_scaler.transform(X_test)

##### 확인
- 평균, 표준편처 확인

In [31]:
X_train_scaled1.mean(axis=0)

array([-0., -0., -0., -0.,  0., -0.,  0.,  0.,  0., -0.,  0., -0., -0.,
        0., -0., -0.,  0., -0., -0.,  0., -0.,  0., -0., -0.,  0., -0.,
        0., -0., -0., -0.])

In [33]:
X_train_scaled1.std(axis=0)

array([1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.])

In [35]:
X_val_scaled1.mean(axis=0)

array([ 0.04238,  0.06229,  0.03523,  0.03609,  0.00325, -0.02418,
       -0.04863,  0.02442,  0.05666, -0.02689,  0.09429, -0.03897,
        0.07632,  0.10331,  0.0457 , -0.07367, -0.08315,  0.01933,
        0.02619, -0.01828,  0.03763, -0.02432,  0.03084,  0.02594,
        0.03012, -0.05078, -0.08403,  0.00858, -0.00107, -0.02806])

In [36]:
X_val_scaled1.std(axis=0)

array([1.001  , 1.12304, 0.99262, 1.00145, 0.88881, 0.89133, 0.87027,
       0.93762, 0.945  , 0.92786, 1.27126, 1.00896, 1.31138, 1.34019,
       1.02218, 0.81788, 0.62886, 0.97735, 0.82552, 0.88813, 0.98254,
       1.04947, 0.96531, 0.94795, 0.94456, 0.86467, 0.80881, 0.9335 ,
       0.77171, 0.8876 ])

##### MinMax Scaling

In [37]:
from sklearn.preprocessing import MinMaxScaler

m_scaler = MinMaxScaler()
X_train_scaled2 = m_scaler.fit_transform(X_train)
X_val_scaled2 = m_scaler.transform(X_val)
X_test_scaled2 = m_scaler.transform(X_test)

##### 확인
- min, max값 확인

In [38]:
X_train.min(axis=0)

array([  7.691  ,   9.71   ,  47.92   , 170.4    ,   0.05263,   0.01938,
         0.     ,   0.     ,   0.106  ,   0.04996,   0.1115 ,   0.3602 ,
         0.7714 ,   6.802  ,   0.00171,   0.00225,   0.     ,   0.     ,
         0.00788,   0.00089,   8.678  ,  12.02   ,  54.49   , 223.6    ,
         0.07117,   0.02729,   0.     ,   0.     ,   0.1565 ,   0.05504])

In [39]:
X_train.max(axis=0)

array([  27.42   ,   33.81   ,  186.9    , 2501.     ,    0.1425 ,
          0.3454 ,    0.3754 ,    0.1913 ,    0.304  ,    0.09744,
          2.547  ,    4.885  ,   18.65   ,  542.2    ,    0.03113,
          0.1354 ,    0.3038 ,    0.03927,    0.07895,    0.02193,
         36.04   ,   49.54   ,  251.2    , 4254.     ,    0.2226 ,
          0.9379 ,    1.252  ,    0.2903 ,    0.6638 ,    0.173  ])

In [41]:
X_train_scaled2.min(axis=0), X_train_scaled2.max(axis=0)

(array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.]),
 array([1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
        1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.]))

In [42]:
X_val_scaled2.min(axis=0), X_val_scaled2.max(axis=0)

(array([ 0.0446 ,  0.04896,  0.04619,  0.02184,  0.18026,  0.04463,
         0.     ,  0.     ,  0.08081,  0.01222,  0.00119,  0.00042,
        -0.00081,  0.00084,  0.03824,  0.01988,  0.     ,  0.     ,
         0.04627,  0.01356,  0.02905,  0.0581 ,  0.0275 ,  0.01273,
         0.13775,  0.02076,  0.     ,  0.     ,  0.01636,  0.00178]),
 array([1.03497, 1.22697, 1.01151, 0.99914, 0.89986, 0.7902 , 0.93607,
        0.83377, 0.85   , 0.96441, 1.13385, 0.70894, 1.18626, 0.969  ,
        0.68182, 0.60623, 0.29263, 1.04151, 0.56211, 0.56787, 0.81617,
        0.87553, 0.77022, 0.72434, 0.85472, 0.92335, 0.74976, 0.93042,
        0.5545 , 0.68973]))

### Modeling

##### scaling하지 않은 데이터셋 이용

In [47]:
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score

# scaling 하지 않은 X_train으로 학습 및 평가
# 모델 생성
svc = SVC( random_state=0) #C, gamma 성능과 관련된 파라미터(하이퍼 파라미터-hyper parameter)

# 학습
svc.fit(X_train, y_train)
# 평가
pred_train = svc.predict(X_train)
pred_val = svc.predict(X_val)
pred_test = svc.predict(X_test)

print(accuracy_score(y_train, pred_train), accuracy_score(y_val, pred_val), accuracy_score(y_test, pred_test))

0.9178885630498533 0.9210526315789473 0.9122807017543859


##### Standard Scaling 데이터셋 이용

In [51]:
# scaling 된 X_train_scaled 로 학습 및 평가
# StandardScaler로 전처리된 데이터셋
svc = SVC( random_state=0)
#학습
svc.fit(X_train_scaled1, y_train)
#평가
# 추론 -> 학습데이터셋(Train dataset)에 처리한 전처리를 똑같이 적용한 뒤 추론해야 한다. 
pred_train1 = svc.predict(X_train_scaled1)
pred_val1 = svc.predict(X_val_scaled1)
pred_test1 = svc.predict(X_test_scaled1)

print(accuracy_score(y_train, pred_train1), accuracy_score(y_val, pred_val1), accuracy_score(y_test, pred_test1))

0.9912023460410557 0.9824561403508771 0.956140350877193


##### MinMax Scaling 데이터셋 이용

In [49]:
# scaling 된 X_train_scaled 로 학습 및 평가
# StandardScaler로 전처리된 데이터셋
svc = SVC(random_state=0)
#학습
svc.fit(X_train_scaled2, y_train)
#평가
# 추론 -> 학습데이터셋(Train dataset)에 처리한 전처리를 똑같이 적용한 뒤 추론해야 한다. 
pred_train2 = svc.predict(X_train_scaled2)
pred_val2 = svc.predict(X_val_scaled2)
pred_test2 = svc.predict(X_test_scaled2)

print(accuracy_score(y_train, pred_train2), accuracy_score(y_val, pred_val2), accuracy_score(y_test, pred_test2))

0.9882697947214076 0.9824561403508771 0.956140350877193
