# Data 전처리(Data Preprocessing)란
- Garbage in, Garbage out.
    - 좋은 Train dataset으로 학습 해야 좋은 예측 결과를 만드는 모델을 학습할 수 있다.
    - 좋은 train dataset을 만드는 것은 모델의 성능에 가장 큰 영향을 준다.
- 목적
    1. 학습이 가능한 데이터셋을 만들기 위한 전처리
        - 머신러닝 알고리즘은 숫자만 처리할 수 있다. (수식이므로) 그래서 결측치, 문자열이 있으면 학습이나 추론을 할 수 없다.
    2. 학습이 더 잘되도록 만들기 위한 전처리
        - 공학적 전처리 (Feature Engineering)
        - 도메인 지식에 의한 전처리

# 결측치 처리
- 결측치 (Not Available-NA, NaN, None, Null)
    - 수집하지 못한 값. 모르는 값.
- 머신러닝 알고리즘은 데이터셋에 결측치가 있으면 학습이나 추론을 하지 못하기 때문에 적절한 처리가 필요하다.
    - 결측치 처리는 데이터 전처리 단계에서 진행한다.

- 결측치 처리방법
    1. 제거 (열단위, 행단위) 
        - 행단위를 기본으로 하는데 특정 열에 결측치가 너무 많을 경우 열을 제거할 수 있다.
    1. 다른 값으로 대체
        - 가장 가능성이 높은 값으로 대체
            - 수치형: 평균, 중앙값, 
            - 범주형: 최빈값(출연 빈도가 가장 많은 값)
            - 그 Feature의 결측치를 예측하는 머신러닝 알고리즘을 모델링해서 추론
        - 결측치 자체를 표현하는 값을 만들어서 대체 
            - 나이에 -1, 혈액형에 ? 같와 같이 그 Feature가 가질 수 없는 값으로 결측치를 표현하는 값을 정한 뒤 대체한다.

# 이상치(Outlier) 처리
- 의미 그대로 이상한 값, 튀는 값, 패턴을 벗어난 값으로 그 Feature를 가지는 대부분의 값들과는 동떨어진 값을 말한다.

- **오류값**
    - 잘못 수집 된 값.
    - 처리    
        - 결측치로 변환 후 처리를 한다.

- **극단치(분포에서 벋어난 값)**
    - 정상적인 값이지만 다른 값들과 다른 패턴을 가지는 값.
    - 일반적으로 극단적으로 크거나 작은 값
    - 처리
        1. 그 값을 그대로 유지한다.
        1. 결측치로 변환 후 처리를 한다.
        1. 다른 값으로 대체한다.
            - 보통 그 값이 가질 수 있는 Min/Max값을 설정한 뒤 그 값으로 변경한다.
    

# Feature 타입 별 전처리

## 통계에서의 데이터 타입 
- 어떤 종류의 값을 모았는지에 따라 크게 범주형과 수치형으로 나눈다.
> 통계적으로 데이터형식을 나누는 기준은 여러가지가 있다.

- **범주형(Categorical) 변수**
    - 개별값들이 이산적(Discrete)이며 값이 가질수 있는 대상값이 몇가지 범주(Category)로 정해져 있는 데이터 타입.
    - **명목(Norminal) 변수/비서열(Unordered) 변수**
        - 범주에 속한 값 사이에 서열(순위)가 없는 변수로 단순 분류가 목적인 타입.
        - 성별, 혈액형
    - **순위(Ordinal) 변수/서열(Ordered) 변수**
        - 범주에 속한 값들 사이에 서열(순위)가 있는 변수.
        - 성적, 직급, 만족도

> 이산적(Discrete): 대상 값이 연속적이지 않고 떨어져 있는 형태

- **수치형(Numerical) 변수**
    - 숫자 데이터 타입이다. 보통 중복된 값이 없거나 적고 값으로 올수 있는 대상이 정해져 있지 않다. 이산형과 연속형 변수로 구성된다.
    - 이산형(Discrete)
        - 수치적 의미를 가지나 **실수(소숫점형태)로 표현되지 않는** 값들을 의미한다.
        - 물건의 재고량, 가격(원), 사고발생 건수 
    - 연속형(Continuous)
        - 수치적 의미를 가지고 실수(소숫점)로 표현이 가능한 측정 할 수 있는 값들을 의미한다.
        - 키, 몸무게, 시간
        
- 동일한 데이터도 어떻게 표현하느냐에 따라 다양한 타입으로 표현가능하다.
    - 예를들어 몸무게는 그 자체가 **연속형**이지만 50kg대, 60kg대,.. 이렇게 묶어서 표현하면 범주형이 된다.

> - **파이썬 데이터 타입별**
>   - **실수형** 데이터로 구성된 Feature는 연속형 값이다.
>   - **문자열** 데이터로 구성된 Feature는 단순 문자열값이거나 범주형 값이다.
>   - **정수형** 데이터로 구성된 Feature는 범주형이거나 일반 수치형(이산형) 값이다.
>      - 몇개의 고유값으로 구성되었는지를 봐야 한다.

# 범주형 데이터 전처리
- Scikit-learn의 머신러닝 API들은 Feature나 Label의 값들이 숫자(정수/실수)인 것만 처리할 수 있다.
- 문자열(str)일 경우 숫자 형으로 변환해야 한다. 
    - **범주형 변수의 경우** 전처리를 통해 정수값으로 변환한다.
    - 범주형이 아닌 **단순 문자열인** 경우 일반적으로 제거한다.
    


## 범주형 Feature의 처리
- **Label Encoding**
- **One-Hot Encoding**

## 레이블 인코딩(Label encoding)


- 범주형 Feature의 고유값들 오름차순 정렬 후 0 부터 1씩 증가하는 값으로 변환
- **숫자의 크기의 차이가 모델에 영향을 주지 않는 트리 계열 모델(의사결정나무, 랜덤포레스트)에 적용한다.**
- **숫자의 크기의 차이가 모델에 영향을 미치는 선형 계열 모델(로지스틱회귀, SVM, 신경망)에는 사용하면 안된다.**

![image.png](attachment:image.png)

- **sklearn.preprocessing.LabelEncoder** 사용
    - fit(): 어떻게 변환할 지 학습
    - transform(): 문자열를 숫자로 변환 -> fit을 해야지만 transform 할 수 있다.
    - fit_transform(): 학습과 변환을 한번에 처리
    - inverse_transform():숫자를 문자열로 변환
    - classes_ : 인코딩한 클래스 조회

In [125]:
items = ['TV', '냉장고', '컴퓨터', '컴퓨터', '냉장고', '에어콘',  'TV', '에어콘']
# 변환 배열은 numpy도 되지만 무조건 1차원이여야한다


In [126]:
from sklearn.preprocessing import LabelEncoder

# Label Encoder -> ## 1차원 자료 구조를 받아서 변환 <--> feature(컬럼) 단위로 처리
le = LabelEncoder() 
# fit()
le.fit(items) # 받은 데이터 셋을 바탕으로 어떻게 바꿀지 학습
# 변환
#item_label =le.transform(items)
item_label

array([0, 1, 3, 3, 1, 2, 0, 2])

In [127]:
items

['TV', '냉장고', '컴퓨터', '컴퓨터', '냉장고', '에어콘', 'TV', '에어콘']

In [128]:
# 인코딩된 클래스를 확인 -> fit() 다음에 호출가능
le.classes_  # 각 클래스 name의 index가 class(인코딩된 정수)가 된다

array(['TV', '냉장고', '에어콘', '컴퓨터'], dtype='<U3')

In [129]:
#디코딩 (class(인코당된 정수) -> class name(원래 문자열))
le.inverse_transform([3,2,2,1,0,0])


array(['컴퓨터', '에어콘', '에어콘', '냉장고', 'TV', 'TV'], dtype='<U3')

In [130]:
##### fit() 과 transform()의 대상이 같은경우===>fit_transfom()
le2=LabelEncoder()
item_label2= le2.fit_transform(items)
print(item_label2)
print(le2.classes_)

[0 1 3 3 1 2 0 2]
['TV' '냉장고' '에어콘' '컴퓨터']


In [131]:
#### fit()대상과 transform() 대상이 다른경우
class_names=["냉장고","TV","에어콘","컴퓨터","노트북","스마트폰"]
le3= LabelEncoder()
le3.fit(class_names)
print(le3.classes_)

['TV' '냉장고' '노트북' '스마트폰' '에어콘' '컴퓨터']


In [132]:
item_label3= le3.transform(items)
print(item_label3)

[0 1 5 5 1 4 0 4]


In [133]:
le3.transform(["컴퓨터","집"]) #학습fit() 할때 없는 item 변환할 경우 Key Error 발생

ValueError: y contains previously unseen labels: '집'

### adult dataset 에 label encoding 적용
- Adult 데이터셋은 1994년  인구조사 데이터 베이스에서 추출한 미국 성인의 소득 데이터셋이다.
- target 은 income 이며 수입이 $50,000 이하인지 초과인지 두개의 class를 가진다.
- https://archive.ics.uci.edu/ml/datasets/adult

##### 데이터 로딩

In [134]:
cols = ['age', 'workclass','fnlwgt','education', 'education-num', 'marital-status', 'occupation','relationship', 'race', 'gender','capital-gain','capital-loss', 'hours-per-week','native-country', 'income']

In [135]:
import pandas as pd

data= pd.read_csv("data/adult.data",header=None, # 첫행이 데이터 -> header가 없는 파일임을 설정
                  # header=[0,1,2] 다중 header일때 이렇게 함 
                    names=cols,
                    skipinitialspace=True, # 값의 첫글자가 공백이면 제거.
                   na_values="?" # 결측치가 무엇인지 설정하여 읽어들이게하기!
                 )

In [136]:
data.shape

(32561, 15)

In [137]:
data.head()

Unnamed: 0,age,workclass,fnlwgt,education,education-num,marital-status,occupation,relationship,race,gender,capital-gain,capital-loss,hours-per-week,native-country,income
0,39,State-gov,77516,Bachelors,13,Never-married,Adm-clerical,Not-in-family,White,Male,2174,0,40,United-States,<=50K
1,50,Self-emp-not-inc,83311,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,13,United-States,<=50K
2,38,Private,215646,HS-grad,9,Divorced,Handlers-cleaners,Not-in-family,White,Male,0,0,40,United-States,<=50K
3,53,Private,234721,11th,7,Married-civ-spouse,Handlers-cleaners,Husband,Black,Male,0,0,40,United-States,<=50K
4,28,Private,338409,Bachelors,13,Married-civ-spouse,Prof-specialty,Wife,Black,Female,0,0,40,Cuba,<=50K


In [138]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 32561 entries, 0 to 32560
Data columns (total 15 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   age             32561 non-null  int64 
 1   workclass       30725 non-null  object
 2   fnlwgt          32561 non-null  int64 
 3   education       32561 non-null  object
 4   education-num   32561 non-null  int64 
 5   marital-status  32561 non-null  object
 6   occupation      30718 non-null  object
 7   relationship    32561 non-null  object
 8   race            32561 non-null  object
 9   gender          32561 non-null  object
 10  capital-gain    32561 non-null  int64 
 11  capital-loss    32561 non-null  int64 
 12  hours-per-week  32561 non-null  int64 
 13  native-country  31978 non-null  object
 14  income          32561 non-null  object
dtypes: int64(6), object(9)
memory usage: 3.7+ MB


In [139]:
data.isnull().sum() # 결측치 확인

age                  0
workclass         1836
fnlwgt               0
education            0
education-num        0
marital-status       0
occupation        1843
relationship         0
race                 0
gender               0
capital-gain         0
capital-loss         0
hours-per-week       0
native-country     583
income               0
dtype: int64

In [140]:
# 결측치 제거
df=data.dropna() # 결측치가 있는 행을 제거
data.shape ,df.shape

((32561, 15), (30162, 15))

In [141]:
data.dropna(axis=1).shape # 결측치가 있는 컬럼 제거

(32561, 12)

In [142]:
# 대체 - 컬럼 조회.fillna(대체할 값)

In [143]:
df.isnull().sum()

age               0
workclass         0
fnlwgt            0
education         0
education-num     0
marital-status    0
occupation        0
relationship      0
race              0
gender            0
capital-gain      0
capital-loss      0
hours-per-week    0
native-country    0
income            0
dtype: int64

In [144]:
df["income"].value_counts() # 값 확인하여 범주인지 아닌지 확인 
# 여기서는 불균형 데이터다 

income
<=50K    22654
>50K      7508
Name: count, dtype: int64

### TODO: adult dataset - 레이블 인코딩 처리

- 범주형: 'workclass','education', 'marital-status', 'occupation','relationship', 'race', 'gender','native-country', 'income'
- 연속형: 'age', fnlwgt', 'education-num', 'capital-gain', 'capital-loss', 'hours-per-week'

**encoding_columns 컬럼들은 Label Encoding 처리,**  
**not_encoding_columns 컬럼들의 값들은 그대로 유지.**

encoding_columns의 값들은 LabelEncoding 된 값으로 not_encoding_columns의 값들은 원래값 그대로 구성된 DataFrame을 생성해서 반환한다.

> 주의: LabelEncoding은 Feature(컬럼) 별로 처리해야 한다. 한번에 여러컬럼을 하나의 LabelEncoder로 처리할 수 없다.

In [145]:
encoding_columns = ['workclass','education','marital-status', 'occupation','relationship','race','gender','native-country', 'income'] # 범주형
not_encoding_columns = ['age','fnlwgt', 'education-num','capital-gain','capital-loss','hours-per-week']

In [146]:
adult_df= df.copy()

In [147]:
adult_df[encoding_columns]

Unnamed: 0,workclass,education,marital-status,occupation,relationship,race,gender,native-country,income
0,State-gov,Bachelors,Never-married,Adm-clerical,Not-in-family,White,Male,United-States,<=50K
1,Self-emp-not-inc,Bachelors,Married-civ-spouse,Exec-managerial,Husband,White,Male,United-States,<=50K
2,Private,HS-grad,Divorced,Handlers-cleaners,Not-in-family,White,Male,United-States,<=50K
3,Private,11th,Married-civ-spouse,Handlers-cleaners,Husband,Black,Male,United-States,<=50K
4,Private,Bachelors,Married-civ-spouse,Prof-specialty,Wife,Black,Female,Cuba,<=50K
...,...,...,...,...,...,...,...,...,...
32556,Private,Assoc-acdm,Married-civ-spouse,Tech-support,Wife,White,Female,United-States,<=50K
32557,Private,HS-grad,Married-civ-spouse,Machine-op-inspct,Husband,White,Male,United-States,>50K
32558,Private,HS-grad,Widowed,Adm-clerical,Unmarried,White,Female,United-States,<=50K
32559,Private,HS-grad,Never-married,Adm-clerical,Own-child,White,Male,United-States,<=50K


In [148]:
adult_df[not_encoding_columns]

Unnamed: 0,age,fnlwgt,education-num,capital-gain,capital-loss,hours-per-week
0,39,77516,13,2174,0,40
1,50,83311,13,0,0,13
2,38,215646,9,0,0,40
3,53,234721,7,0,0,40
4,28,338409,13,0,0,40
...,...,...,...,...,...,...
32556,27,257302,12,0,0,38
32557,40,154374,9,0,0,40
32558,58,151910,9,0,0,40
32559,22,201490,9,0,0,20


In [149]:
# 변경 처리
a_df=df.copy()

a_df['workclass'].value_counts()
le=LabelEncoder()

a_df['workclass']=le.fit_transform(a_df['workclass'])
a_df.head()

Unnamed: 0,age,workclass,fnlwgt,education,education-num,marital-status,occupation,relationship,race,gender,capital-gain,capital-loss,hours-per-week,native-country,income
0,39,5,77516,Bachelors,13,Never-married,Adm-clerical,Not-in-family,White,Male,2174,0,40,United-States,<=50K
1,50,4,83311,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,13,United-States,<=50K
2,38,2,215646,HS-grad,9,Divorced,Handlers-cleaners,Not-in-family,White,Male,0,0,40,United-States,<=50K
3,53,2,234721,11th,7,Married-civ-spouse,Handlers-cleaners,Husband,Black,Male,0,0,40,United-States,<=50K
4,28,2,338409,Bachelors,13,Married-civ-spouse,Prof-specialty,Wife,Black,Female,0,0,40,Cuba,<=50K


In [150]:
le2=LabelEncoder()
a_df['education']=le2.fit_transform(a_df['education'])
a_df.head()

Unnamed: 0,age,workclass,fnlwgt,education,education-num,marital-status,occupation,relationship,race,gender,capital-gain,capital-loss,hours-per-week,native-country,income
0,39,5,77516,9,13,Never-married,Adm-clerical,Not-in-family,White,Male,2174,0,40,United-States,<=50K
1,50,4,83311,9,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,13,United-States,<=50K
2,38,2,215646,11,9,Divorced,Handlers-cleaners,Not-in-family,White,Male,0,0,40,United-States,<=50K
3,53,2,234721,1,7,Married-civ-spouse,Handlers-cleaners,Husband,Black,Male,0,0,40,United-States,<=50K
4,28,2,338409,9,13,Married-civ-spouse,Prof-specialty,Wife,Black,Female,0,0,40,Cuba,<=50K


In [151]:
for col in encoding_columns:
    le=LabelEncoder()
    a_df[col]=le.fit_transform(a_df[col])
    print(a_df)

       age  workclass  fnlwgt  education  education-num      marital-status   
0       39          5   77516          9             13       Never-married  \
1       50          4   83311          9             13  Married-civ-spouse   
2       38          2  215646         11              9            Divorced   
3       53          2  234721          1              7  Married-civ-spouse   
4       28          2  338409          9             13  Married-civ-spouse   
...    ...        ...     ...        ...            ...                 ...   
32556   27          2  257302          7             12  Married-civ-spouse   
32557   40          2  154374         11              9  Married-civ-spouse   
32558   58          2  151910         11              9             Widowed   
32559   22          2  201490         11              9       Never-married   
32560   52          3  287927         11              9  Married-civ-spouse   

              occupation   relationship   race  gen

In [152]:
a_df['education'].iloc[:5]

0     9
1     9
2    11
3     1
4     9
Name: education, dtype: int64

In [153]:
le.classes_

array(['<=50K', '>50K'], dtype=object)

In [154]:
le_dict={}
for col in encoding_columns:
    le=LabelEncoder()
    adult_df[col]=le.fit_transform(adult_df[col])
    
    # le_dict dictionary에 학습한 LabelEncoder 객체를 저장
    le_dict[col]=le
adult_df.head()

Unnamed: 0,age,workclass,fnlwgt,education,education-num,marital-status,occupation,relationship,race,gender,capital-gain,capital-loss,hours-per-week,native-country,income
0,39,5,77516,9,13,4,0,1,4,1,2174,0,40,38,0
1,50,4,83311,9,13,2,3,0,4,1,0,0,13,38,0
2,38,2,215646,11,9,0,5,1,4,1,0,0,40,38,0
3,53,2,234721,1,7,2,5,0,2,1,0,0,40,38,0
4,28,2,338409,9,13,2,9,5,2,0,0,0,40,4,0


In [155]:
le_dict['education'].classes_

array(['10th', '11th', '12th', '1st-4th', '5th-6th', '7th-8th', '9th',
       'Assoc-acdm', 'Assoc-voc', 'Bachelors', 'Doctorate', 'HS-grad',
       'Masters', 'Preschool', 'Prof-school', 'Some-college'],
      dtype=object)

In [156]:
## inverse_transform 의미?
le_dict["education"].inverse_transform([3,2,2,1])


array(['1st-4th', '12th', '12th', '11th'], dtype=object)

In [157]:
le_dict['income'].classes_

array(['<=50K', '>50K'], dtype=object)

In [158]:
items = ['TV', '냉장고', '컴퓨터', '컴퓨터', '냉장고', '에어콘',  'TV', '에어콘']
# Label Encoder -> ## 1차원 자료 구조를 받아서 변환 <--> feature(컬럼) 단위로 처리
le = LabelEncoder() 
# fit()
le.fit(items) # 받은 데이터 셋을 바탕으로 어떻게 바꿀지 학습
# 변환
item_label =le.transform(items)
item_label

array([0, 1, 3, 3, 1, 2, 0, 2])

In [159]:
adult_df.head()# 했을때 전부 숫자가 되어야한다...

Unnamed: 0,age,workclass,fnlwgt,education,education-num,marital-status,occupation,relationship,race,gender,capital-gain,capital-loss,hours-per-week,native-country,income
0,39,5,77516,9,13,4,0,1,4,1,2174,0,40,38,0
1,50,4,83311,9,13,2,3,0,4,1,0,0,13,38,0
2,38,2,215646,11,9,0,5,1,4,1,0,0,40,38,0
3,53,2,234721,1,7,2,5,0,2,1,0,0,40,38,0
4,28,2,338409,9,13,2,9,5,2,0,0,0,40,4,0


### Adult dataset의 income 추론 모델링

In [160]:
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score

### 데이터 분할
- X, y 나누기
- train/validation/test set 나누기

In [161]:
# adult_df 에서 X,y 분리
X= adult_df.drop(columns='income')
y=adult_df['income']

In [162]:
# Train_set, Validation set, Test set 분리
X_tmp, X_test, y_tmp, y_test = train_test_split(X,y,test_size=0.2, stratify=y, random_state=0)
X_train,X_val, y_train,y_val= train_test_split(X_tmp,y_tmp,test_size=0.2,stratify=y_tmp,random_state=0)

print(X_train.shape, X_val.shape, X_test.shape)
print(y_train.shape, y_val.shape, y_test.shape)

(19303, 14) (4826, 14) (6033, 14)
(19303,) (4826,) (6033,)


In [163]:
y.value_counts(normalize=True)

income
0    0.751078
1    0.248922
Name: proportion, dtype: float64

In [164]:
y_train.value_counts(normalize=True)

income
0    0.751075
1    0.248925
Name: proportion, dtype: float64

### 모델링
- 모델: DecisionTreeClassifier 
- 평가지표: 정확도(accuracy)

In [183]:
# max_depth 최소값 1, integer
max_depth=3
tree = DecisionTreeClassifier(max_depth=max_depth,random_state=0)

# train
tree.fit(X_train,y_train)

# 검증
#추론
pred_train=tree.predict(X_train)
pred_val=tree.predict(X_val)

##정확도 검증
train_acc=accuracy_score(y_train,pred_train)
train_acc2=accuracy_score(pred_train,y_train)
val_acc=accuracy_score(y_val,pred_val)
val_acc2=accuracy_score(pred_val,y_val)

In [182]:
print(f"max_depth : {max_depth}")
print(f"train 정확도 : {train_acc,train_acc2}, validation 정확도 : {val_acc,val_acc2}")

max_depth : 1
train 정확도 : (0.7510749624410713, 0.7510749624410713), validation 정확도 : (0.7511396601740572, 0.7511396601740572)


In [184]:
print(f"max_depth : {max_depth}")
print(f"train 정확도 : {train_acc,train_acc2}, validation 정확도 : {val_acc,val_acc2}")

max_depth : 3
train 정확도 : (0.8356732114179143, 0.8356732114179143), validation 정확도 : (0.8404475756319933, 0.8404475756319933)


In [168]:
print(f"max_depth : {max_depth}")
print(f"train 정확도 : {train_acc,train_acc2}, validation 정확도 : {val_acc,val_acc2}")

max_depth : 5
train 정확도 : (0.8428223592187742, 0.8428223592187742), validation 정확도 : (0.8495648570244508, 0.8495648570244508)


 **max_depth=7 일때 validation test 결과가 제일 좋다**
그렇기 때문에 그에 대한 best_model 생성

In [169]:
best_model=DecisionTreeClassifier(max_depth=7,random_state=0)
best_model.fit(X_train,y_train)

### 최종평가
- test set으로 최종평가

In [170]:
pred_test=best_model.predict(X_test) # y_test 를 추정
accuracy_score(y_test,pred_test)

0.8488314271506713

In [171]:
## cross validation ==> train set/ test set 으로 나눠서 진행.
from sklearn.model_selection import cross_val_score
result_list=cross_val_score(DecisionTreeClassifier(max_depth=7,random_state=0),
                           X=X_train,
                           y=y_train,
                           scoring='accuracy',
                           cv=5)


In [172]:
result_list

array([0.85236985, 0.85236985, 0.84226884, 0.85647668, 0.84352332])

In [173]:
result_list.mean()

0.8494017094017094

In [174]:
best_model2=DecisionTreeClassifier(max_depth=7, random_state=0)
best_model2.fit(X_train,y_train)

In [175]:
accuracy_score(y_test,best_model2.predict(X_test))

0.8488314271506713

## 원핫 인코딩(One-Hot encoding)
- N개의 클래스를 N 차원의 One-Hot 벡터로 표현되도록 변환
    - 고유값들을 피처(컬럼)로 만들고 정답에 해당하는 열은 1로 나머진 0으로 표시한다..
- **숫자의 크기 차이가 모델에 영향을 미치는 선형 계열 모델(로지스틱회귀, SVM, 신경망)에서 범주형 데이터 변환시 Label Encoding보다 One Hot Encoding을 사용한다.**
- **DecisionTree 계열의 알고리즘은 Feature에 0이 많은 경우(Sparse Matrix라고 한다.) 성능이 떨어지기 때문에 Label Encoding을 한다.**
![image.png](attachment:image.png)

```
class 값이 column으로 변경 , 너무 많은 0이 생기고(sparse matrix), 0이 많아서 성능이 떨어진다. ==> 잘 쓰지 않는다
class 값이 column으로 변경되면 ndarry의 형태로 변환된 것이다.
```

In [176]:
df[['workclass','education','race','gender']]

Unnamed: 0,workclass,education,race,gender
0,State-gov,Bachelors,White,Male
1,Self-emp-not-inc,Bachelors,White,Male
2,Private,HS-grad,White,Male
3,Private,11th,Black,Male
4,Private,Bachelors,Black,Female
...,...,...,...,...
32556,Private,Assoc-acdm,White,Female
32557,Private,HS-grad,White,Male
32558,Private,HS-grad,White,Female
32559,Private,HS-grad,White,Male


### One-Hot Encoding 변환 처리

- **Scikit-learn**
    - sklearn.preprocessing.OneHotEncoder 이용
        - fit(데이터셋): 데이터셋을 기준으로 어떻게 변환할 지 학습
        - transform(데이터셋): Argument로 받은 데이터셋을 원핫인코딩 처리
        - fit_transform(데이터셋): 학습과 변환을 한번에 처리
        - get_feature_names_out() : 원핫인코딩으로 변환된 Feature(컬럼)들의 이름을 반환
        - **데이터셋은 2차원 배열을 전달 하며 Feature별로 원핫인코딩 처리한다.**
            - DataFrame도 가능
            - 원핫인코딩 처리시 모든 타입의 값들을 다 변환한다. (연속형 값들도 변환) 그래서 변환려는 변수들만 모아서 처리해야 한다.

- **Pandas**
    - pandas.get_dummies(DataFrame [, columns=[변환할 컬럼명]]) 함수 이용
    - DataFrame에서 범주형(`object`, `category`) 변수만 변환한다.
    
> 범주형 변수의 값을 숫자 값을 가지는 경우가 있다. (ex: 별점)    
> 이런 경우 get_dummies() columns=['컬럼명','컬럼명'] 매개변수로 컬럼들을 명시한다.

#### scikit-learn 이용

In [225]:
import numpy as np
items=np.array(['TV','냉장고','전자렌지','컴퓨터','선풍기','선풍기','믹서','믹서','냉장고'])
items.shape

(9,)

In [228]:
# items.reshape(3,3)
items = items.squeeze()
items=items[...,np.newaxis]
items

array([['TV'],
       ['냉장고'],
       ['전자렌지'],
       ['컴퓨터'],
       ['선풍기'],
       ['선풍기'],
       ['믹서'],
       ['믹서'],
       ['냉장고']], dtype='<U4')

In [229]:
from sklearn.preprocessing import OneHotEncoder

#객체 생성
ohe=OneHotEncoder()

#학습 ==> 어떻게 바꿀지 학습
ohe.fit(items)
result=ohe.transform(items)


In [230]:
result.shape

(9, 6)

In [231]:
# (9,1) -> (9,6) : axis 가 1에서 6으로 늘어남
ohe.get_feature_names_out()

array(['x0_TV', 'x0_냉장고', 'x0_믹서', 'x0_선풍기', 'x0_전자렌지', 'x0_컴퓨터'],
      dtype=object)

In [232]:
result

<9x6 sparse matrix of type '<class 'numpy.float64'>'
	with 9 stored elements in Compressed Sparse Row format>

In [234]:
type(result)

scipy.sparse._csr.csr_matrix

In [236]:
print(result)

  (0, 0)	1.0
  (1, 1)	1.0
  (2, 4)	1.0
  (3, 5)	1.0
  (4, 3)	1.0
  (5, 3)	1.0
  (6, 2)	1.0
  (7, 2)	1.0
  (8, 1)	1.0


In [237]:
# sparse matrix(csr_matrix) -> ndarray
result.toarray()

array([[1., 0., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0., 0.],
       [0., 0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 0., 1.],
       [0., 0., 0., 1., 0., 0.],
       [0., 0., 0., 1., 0., 0.],
       [0., 0., 1., 0., 0., 0.],
       [0., 0., 1., 0., 0., 0.],
       [0., 1., 0., 0., 0., 0.]])

In [239]:
pd.DataFrame(result.toarray(),columns=ohe.get_feature_names_out())

Unnamed: 0,x0_TV,x0_냉장고,x0_믹서,x0_선풍기,x0_전자렌지,x0_컴퓨터
0,1.0,0.0,0.0,0.0,0.0,0.0
1,0.0,1.0,0.0,0.0,0.0,0.0
2,0.0,0.0,0.0,0.0,1.0,0.0
3,0.0,0.0,0.0,0.0,0.0,1.0
4,0.0,0.0,0.0,1.0,0.0,0.0
5,0.0,0.0,0.0,1.0,0.0,0.0
6,0.0,0.0,1.0,0.0,0.0,0.0
7,0.0,0.0,1.0,0.0,0.0,0.0
8,0.0,1.0,0.0,0.0,0.0,0.0


> OneHotEncoder객체 생성시 sparse 매개변수의 값을 False로 설정하지 않으면 scipy의 csr_matrix(희소행렬 객체)로 반환.     
> 희소행렬은 대부분 0으로 구성된 행렬과 계산이나 메모리 효율을 이용해 0이 아닌 값의 index만 관리한다.   
> csr_matrix.toarray()로 ndarray로 바꿀수 있다.

##### pandas의 get_dummies() 이용

In [180]:
dic = {
    "item":items.flatten(),    # 범주형 - 문자열
    "count":[100,20,150, 20, 60, 100, 200,30],   # 연속형(일반 값)
    "level":[1, 2, 2, 2, 3, 3, 1, 1]  # 1 2, 3 을 8개 # 범주형 - 정수(수치형)
}
df = pd.DataFrame(dic)
df

Unnamed: 0,item,count,level
0,TV,100,1
1,냉장고,20,2
2,전자렌지,150,2
3,컴퓨터,20,2
4,선풍기,60,3
5,선풍기,100,3
6,믹서,200,1
7,믹서,30,1


In [240]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8 entries, 0 to 7
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   item    8 non-null      object
 1   count   8 non-null      int64 
 2   level   8 non-null      int64 
dtypes: int64(2), object(1)
memory usage: 320.0+ bytes


In [244]:
# pd.get_dummies(dataframe) -> one hot encoding

### object type 이랑 category type만 바꿔준다 ### => default
# result_df=pd.get_dummies(df)

# 특정 column들을 지정해서 변환하면
result_df=pd.get_dummies(df,columns=['item','level'])



In [245]:
result_df

Unnamed: 0,count,item_TV,item_냉장고,item_믹서,item_선풍기,item_전자렌지,item_컴퓨터,level_1,level_2,level_3
0,100,True,False,False,False,False,False,True,False,False
1,20,False,True,False,False,False,False,False,True,False
2,150,False,False,False,False,True,False,False,True,False
3,20,False,False,False,False,False,True,False,True,False
4,60,False,False,False,True,False,False,False,False,True
5,100,False,False,False,True,False,False,False,False,True
6,200,False,False,True,False,False,False,True,False,False
7,30,False,False,True,False,False,False,True,False,False


In [247]:
## OneHotEncoder를 이용해서 df를 변환
ohe = OneHotEncoder()
result=ohe.fit_transform(df)
result.toarray()

array([[1., 0., 0., 0., 0., 0., 0., 0., 0., 1., 0., 0., 1., 0., 0.],
       [0., 1., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 1., 0., 0., 1., 0.],
       [0., 0., 0., 0., 0., 1., 1., 0., 0., 0., 0., 0., 0., 1., 0.],
       [0., 0., 0., 1., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 1.],
       [0., 0., 0., 1., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 1.],
       [0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 1., 1., 0., 0.],
       [0., 0., 1., 0., 0., 0., 0., 1., 0., 0., 0., 0., 1., 0., 0.]])

In [248]:
ohe = OneHotEncoder(sparse_output=False) # ndarray로 바로 변환
result=ohe.fit_transform(df)
result ## 위와 같은 결과 나옴

array([[1., 0., 0., 0., 0., 0., 0., 0., 0., 1., 0., 0., 1., 0., 0.],
       [0., 1., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 1., 0., 0., 1., 0.],
       [0., 0., 0., 0., 0., 1., 1., 0., 0., 0., 0., 0., 0., 1., 0.],
       [0., 0., 0., 1., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 1.],
       [0., 0., 0., 1., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 1.],
       [0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 1., 1., 0., 0.],
       [0., 0., 1., 0., 0., 0., 0., 1., 0., 0., 0., 0., 1., 0., 0.]])

In [251]:
ohe.get_feature_names_out()

array(['item_TV', 'item_냉장고', 'item_믹서', 'item_선풍기', 'item_전자렌지',
       'item_컴퓨터', 'count_20', 'count_30', 'count_60', 'count_100',
       'count_150', 'count_200', 'level_1', 'level_2', 'level_3'],
      dtype=object)

In [254]:
ohe = OneHotEncoder(sparse_output=False) # ndarray로 바로 변환
result=ohe.fit_transform(df[['item','level']])
result

array([[1., 0., 0., 0., 0., 0., 1., 0., 0.],
       [0., 1., 0., 0., 0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 1., 0., 0., 1., 0.],
       [0., 0., 0., 0., 0., 1., 0., 1., 0.],
       [0., 0., 0., 1., 0., 0., 0., 0., 1.],
       [0., 0., 0., 1., 0., 0., 0., 0., 1.],
       [0., 0., 1., 0., 0., 0., 1., 0., 0.],
       [0., 0., 1., 0., 0., 0., 1., 0., 0.]])

In [255]:
ohe.get_feature_names_out() ## count가 빠진것을 볼 수 있다.

array(['item_TV', 'item_냉장고', 'item_믹서', 'item_선풍기', 'item_전자렌지',
       'item_컴퓨터', 'level_1', 'level_2', 'level_3'], dtype=object)

In [260]:
## result : item, level 컬럼의 값들만 (ohe 상태로) 저장. <- 추가 - count 컬럼(feature)
cnt=df['count'].to_frame().values
cnt


array([[100],
       [ 20],
       [150],
       [ 20],
       [ 60],
       [100],
       [200],
       [ 30]], dtype=int64)

In [263]:
result

array([[1., 0., 0., 0., 0., 0., 1., 0., 0.],
       [0., 1., 0., 0., 0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 1., 0., 0., 1., 0.],
       [0., 0., 0., 0., 0., 1., 0., 1., 0.],
       [0., 0., 0., 1., 0., 0., 0., 0., 1.],
       [0., 0., 0., 1., 0., 0., 0., 0., 1.],
       [0., 0., 1., 0., 0., 0., 1., 0., 0.],
       [0., 0., 1., 0., 0., 0., 1., 0., 0.]])

In [264]:
np.concatenate([result,cnt],axis=1) #default는 axis=0이라 행을 추가하는 거라서 표시해줘야함
# 숫자가 맞지 않으면 error가 나온다

array([[  1.,   0.,   0.,   0.,   0.,   0.,   1.,   0.,   0., 100.],
       [  0.,   1.,   0.,   0.,   0.,   0.,   0.,   1.,   0.,  20.],
       [  0.,   0.,   0.,   0.,   1.,   0.,   0.,   1.,   0., 150.],
       [  0.,   0.,   0.,   0.,   0.,   1.,   0.,   1.,   0.,  20.],
       [  0.,   0.,   0.,   1.,   0.,   0.,   0.,   0.,   1.,  60.],
       [  0.,   0.,   0.,   1.,   0.,   0.,   0.,   0.,   1., 100.],
       [  0.,   0.,   1.,   0.,   0.,   0.,   1.,   0.,   0., 200.],
       [  0.,   0.,   1.,   0.,   0.,   0.,   1.,   0.,   0.,  30.]])

In [268]:
ll=np.array([[1,2,3,4,5,6,7,8,9]])
ll

array([[1, 2, 3, 4, 5, 6, 7, 8, 9]])

In [269]:
np.concatenate([result,ll])

array([[1., 0., 0., 0., 0., 0., 1., 0., 0.],
       [0., 1., 0., 0., 0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 1., 0., 0., 1., 0.],
       [0., 0., 0., 0., 0., 1., 0., 1., 0.],
       [0., 0., 0., 1., 0., 0., 0., 0., 1.],
       [0., 0., 0., 1., 0., 0., 0., 0., 1.],
       [0., 0., 1., 0., 0., 0., 1., 0., 0.],
       [0., 0., 1., 0., 0., 0., 1., 0., 0.],
       [1., 2., 3., 4., 5., 6., 7., 8., 9.]])

### TODO: adult dataset에 one-hot encoding 적용

- 전체 컬럼 중에서 **'age', 'workclass', 'fnlwgt', 'education-num', 'marital-status', 'occupation', 'relationship', 'race', 'capital-gain', 'capital-loss', 'hours-per-week', 'income'** 컬럼들만 추출해서 다음 작업을 한다.
    - 범주형
        - 'workclass','marital-status', 'occupation','relationship','race': **One Hot Encoding** 처리
        - 'income': **target값**으로  **Label Encoding** 처리
    - 연속형
        - 'age','fnlwgt', 'education-num','capital-gain','capital-loss','hours-per-week': **유지**

In [270]:
cols = ['age', 'workclass','fnlwgt','education', 'education-num', 'marital-status', 'occupation','relationship', 'race', 'gender','capital-gain','capital-loss', 'hours-per-week','native-country', 'income']

In [396]:
# adult.data 읽어들이기

# 필요한 column들만 추출

# 결측치 처리 (제거)

In [397]:
# one hot encoding, label(income) -> labelencoding

In [398]:
import pandas as pd
import numpy as np

from sklearn.preprocessing import OneHotEncoder,LabelEncoder
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score

In [399]:
df=pd.read_csv('data/adult.data',header=None,names=cols,na_values="?",skipinitialspace=True)
df.shape

(32561, 15)

In [400]:
adult_df=df[['age', 'workclass', 'fnlwgt', 'education-num', 'marital-status', 'occupation', 'relationship', 'race', 'capital-gain', 'capital-loss', 'hours-per-week', 'income' ]]

In [401]:
adult_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 32561 entries, 0 to 32560
Data columns (total 12 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   age             32561 non-null  int64 
 1   workclass       30725 non-null  object
 2   fnlwgt          32561 non-null  int64 
 3   education-num   32561 non-null  int64 
 4   marital-status  32561 non-null  object
 5   occupation      30718 non-null  object
 6   relationship    32561 non-null  object
 7   race            32561 non-null  object
 8   capital-gain    32561 non-null  int64 
 9   capital-loss    32561 non-null  int64 
 10  hours-per-week  32561 non-null  int64 
 11  income          32561 non-null  object
dtypes: int64(6), object(6)
memory usage: 3.0+ MB


In [402]:
adult_df.isnull().sum()

age                  0
workclass         1836
fnlwgt               0
education-num        0
marital-status       0
occupation        1843
relationship         0
race                 0
capital-gain         0
capital-loss         0
hours-per-week       0
income               0
dtype: int64

In [403]:
adult_df.dropna(inplace=True)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  adult_df.dropna(inplace=True)


In [404]:
adult_df.isnull().sum()

age               0
workclass         0
fnlwgt            0
education-num     0
marital-status    0
occupation        0
relationship      0
race              0
capital-gain      0
capital-loss      0
hours-per-week    0
income            0
dtype: int64

In [405]:
adult_df.shape

(30718, 12)

In [406]:
# index 이름이 순번인 경우 행을 drop하고 나면
# 중간에 비는 index 이름이 생김 (ex 0,1,6,7,10,12)
adult_df.reset_index(drop=True,inplace=True)

In [407]:
category_columns=['workclass','marital-status', 'occupation','relationship','race']
numeric_columns=['age','fnlwgt', 'education-num','capital-gain','capital-loss','hours-per-week']
target='income'

In [408]:
#label(income) -> label encoding
le = LabelEncoder()
y=le.fit_transform(adult_df['income'])
print(le.classes_)
y

['<=50K' '>50K']


array([0, 0, 0, ..., 0, 0, 1])

In [409]:
X_df=adult_df.drop(columns='income')
X_df

Unnamed: 0,age,workclass,fnlwgt,education-num,marital-status,occupation,relationship,race,capital-gain,capital-loss,hours-per-week
0,39,State-gov,77516,13,Never-married,Adm-clerical,Not-in-family,White,2174,0,40
1,50,Self-emp-not-inc,83311,13,Married-civ-spouse,Exec-managerial,Husband,White,0,0,13
2,38,Private,215646,9,Divorced,Handlers-cleaners,Not-in-family,White,0,0,40
3,53,Private,234721,7,Married-civ-spouse,Handlers-cleaners,Husband,Black,0,0,40
4,28,Private,338409,13,Married-civ-spouse,Prof-specialty,Wife,Black,0,0,40
...,...,...,...,...,...,...,...,...,...,...,...
30713,27,Private,257302,12,Married-civ-spouse,Tech-support,Wife,White,0,0,38
30714,40,Private,154374,9,Married-civ-spouse,Machine-op-inspct,Husband,White,0,0,40
30715,58,Private,151910,9,Widowed,Adm-clerical,Unmarried,White,0,0,40
30716,22,Private,201490,9,Never-married,Adm-clerical,Own-child,White,0,0,20


In [410]:
# pandas의 get_dummies() 이용
X_ohe=pd.get_dummies(X_df,columns=category_columns)
X_ohe.shape

(30718, 45)

In [411]:
X_ohe.head()

Unnamed: 0,age,fnlwgt,education-num,capital-gain,capital-loss,hours-per-week,workclass_Federal-gov,workclass_Local-gov,workclass_Private,workclass_Self-emp-inc,...,relationship_Not-in-family,relationship_Other-relative,relationship_Own-child,relationship_Unmarried,relationship_Wife,race_Amer-Indian-Eskimo,race_Asian-Pac-Islander,race_Black,race_Other,race_White
0,39,77516,13,2174,0,40,False,False,False,False,...,True,False,False,False,False,False,False,False,False,True
1,50,83311,13,0,0,13,False,False,False,False,...,False,False,False,False,False,False,False,False,False,True
2,38,215646,9,0,0,40,False,False,True,False,...,True,False,False,False,False,False,False,False,False,True
3,53,234721,7,0,0,40,False,False,True,False,...,False,False,False,False,False,False,False,True,False,False
4,28,338409,13,0,0,40,False,False,True,False,...,False,False,False,False,True,False,False,True,False,False


In [412]:
# scikit-learn의 OneHotEncoder를 사용
ohe=OneHotEncoder(sparse_output=False)
tmp_values=ohe.fit_transform(X_df[category_columns])
tmp_values

array([[0., 0., 0., ..., 0., 0., 1.],
       [0., 0., 0., ..., 0., 0., 1.],
       [0., 0., 1., ..., 0., 0., 1.],
       ...,
       [0., 0., 1., ..., 0., 0., 1.],
       [0., 0., 1., ..., 0., 0., 1.],
       [0., 0., 0., ..., 0., 0., 1.]])

In [413]:
tmp_values.shape, X_df[numeric_columns].shape

((30718, 39), (30718, 6))

In [414]:
# tmp_values에 numeric column들의 값을 합친다.
X_ohe2=np.concatenate([X_df[numeric_columns].values,tmp_values], axis=1)
X_ohe2.shape

(30718, 45)

In [415]:
np.round(X_ohe2[:5],2)

array([[3.90000e+01, 7.75160e+04, 1.30000e+01, 2.17400e+03, 0.00000e+00,
        4.00000e+01, 0.00000e+00, 0.00000e+00, 0.00000e+00, 0.00000e+00,
        0.00000e+00, 1.00000e+00, 0.00000e+00, 0.00000e+00, 0.00000e+00,
        0.00000e+00, 0.00000e+00, 1.00000e+00, 0.00000e+00, 0.00000e+00,
        1.00000e+00, 0.00000e+00, 0.00000e+00, 0.00000e+00, 0.00000e+00,
        0.00000e+00, 0.00000e+00, 0.00000e+00, 0.00000e+00, 0.00000e+00,
        0.00000e+00, 0.00000e+00, 0.00000e+00, 0.00000e+00, 0.00000e+00,
        1.00000e+00, 0.00000e+00, 0.00000e+00, 0.00000e+00, 0.00000e+00,
        0.00000e+00, 0.00000e+00, 0.00000e+00, 0.00000e+00, 1.00000e+00],
       [5.00000e+01, 8.33110e+04, 1.30000e+01, 0.00000e+00, 0.00000e+00,
        1.30000e+01, 0.00000e+00, 0.00000e+00, 0.00000e+00, 0.00000e+00,
        1.00000e+00, 0.00000e+00, 0.00000e+00, 0.00000e+00, 0.00000e+00,
        1.00000e+00, 0.00000e+00, 0.00000e+00, 0.00000e+00, 0.00000e+00,
        0.00000e+00, 0.00000e+00, 0.00000e+00, 1.0

In [416]:
X_ohe.shape,X_ohe2.shape

((30718, 45), (30718, 45))

In [417]:
X_df[category_columns]

Unnamed: 0,workclass,marital-status,occupation,relationship,race
0,State-gov,Never-married,Adm-clerical,Not-in-family,White
1,Self-emp-not-inc,Married-civ-spouse,Exec-managerial,Husband,White
2,Private,Divorced,Handlers-cleaners,Not-in-family,White
3,Private,Married-civ-spouse,Handlers-cleaners,Husband,Black
4,Private,Married-civ-spouse,Prof-specialty,Wife,Black
...,...,...,...,...,...
30713,Private,Married-civ-spouse,Tech-support,Wife,White
30714,Private,Married-civ-spouse,Machine-op-inspct,Husband,White
30715,Private,Widowed,Adm-clerical,Unmarried,White
30716,Private,Never-married,Adm-clerical,Own-child,White


#### 데이터셋 분리

In [418]:
# train/test/validation
X_tmp,X_test,y_tmp,y_test = train_test_split(X_ohe, y, test_size=0.2, stratify=y, random_state=0)
X_train,X_val,y_train,y_val=train_test_split(X_tmp,y_tmp, test_size=0.25, stratify=y_tmp, random_state=0)
X_train.shape, X_val.shape, X_test.shape

((18430, 45), (6144, 45), (6144, 45))

### 모델링

In [419]:
max_depth_list=[1,2,3,4,5,6,7,8,9]
valac=[]
for max_depth in max_depth_list:
    # 모델 생성
    tree=DecisionTreeClassifier(max_depth=max_depth,random_state=0)
    # 학습
    tree.fit(X_train,y_train)
    # 검증
    ## 추정 -> train set, validation set
    pred_train=tree.predict(X_train)
    pred_val=tree.predict(X_val)
    ## 평가
    acc_train=accuracy_score(y_train,pred_train)
    acc_val=accuracy_score(y_val,pred_val)
    ## 평가 결과를 출력
    print(f"max_depth : {max_depth}")
    print("Train set 정확도: ",acc_train)
    print("Val set 정확도:",acc_val)
    valac.append(acc_val)
    print("="*50)
print(f"highest accuracy max_depth {valac.index(max(valac))+1,max(valac)}")

max_depth : 1
Train set 정확도:  0.7509495387954422
Val set 정확도: 0.7509765625
max_depth : 2
Train set 정확도:  0.82561041779707
Val set 정확도: 0.81982421875
max_depth : 3
Train set 정확도:  0.8400976668475312
Val set 정확도: 0.8367513020833334
max_depth : 4
Train set 정확도:  0.8402061855670103
Val set 정확도: 0.8362630208333334
max_depth : 5
Train set 정확도:  0.8409658166033641
Val set 정확도: 0.83642578125
max_depth : 6
Train set 정확도:  0.8507867607162235
Val set 정확도: 0.8439127604166666
max_depth : 7
Train set 정확도:  0.8544221378187737
Val set 정확도: 0.8434244791666666
max_depth : 8
Train set 정확도:  0.8583830710797613
Val set 정확도: 0.8434244791666666
max_depth : 9
Train set 정확도:  0.8627780792186652
Val set 정확도: 0.8406575520833334
highest accuracy max_depth (6, 0.8439127604166666)


In [420]:
best_model=DecisionTreeClassifier(random_state=0,max_depth=6)
best_model.fit(X_train,y_train)

In [421]:
pred_test=best_model.predict(X_test)
accuracy_score(y_test,pred_test)

0.8445638020833334

#### 최종 평가

# 수치형 데이터 전처리

## Feature Scaling(정규화)
- 데이터의 속성인 각 feature들간의 값의 척도(Scale)를 같은 기준으로 통일한다.
    > 척도: 값을 측정하거나 평가하는 단위. ex) cm, km, kg
- 트리계열을 제외한 대부분의 머신러닝 알고리즘들이 feature간의 서로 다른 척도(Scale)에 영향을 받는다.
    - 선형모델, SVM 모델, 신경망 모델
- **Scaling(정규화)은 train set으로 학습(fitting) 한다. test set, validation set 그리고 모델이 예측할 새로운 데이터는 train set으로 학습한 scaler를 사용해 변환만 한다.**
    - test set과 validation set은 모델이 앞으로 예측할 새로운 데이터에 대해 어느 정도 성능을 가지는지를 평가하는 용으로 쓰인다. 그런데 새로운 데이터들이 모델링할 때 사용할 데이터셋(sample)의 scale과 같다라고 보장할 수 없으므로 **전체 sample 데이터셋을 학습 시킨 뒤 train/validation/test 으로 나누는 것은 모델의 정확한 성능평가를 할 수 없다.**

### 종류
- **표준화(Standardization) Scaling**
    - StandardScaler 사용
- **Min Max Scaling**
    - MinMaxScaler 사용

### 메소드
- fit(): 어떻게 변환할 지 학습
    - 2차원 배열을 받으면 0축을 기준으로 학습한다. (DataFrame으로는 컬럼기준)
- transform(): 변환
    - 2차원 배열을 받으며 0축을 기준으로 변환한다. (DataFrame으로는 컬럼기준)
- fit_transform(): 학습과 변환을 한번에 처리 
- inverse_transform(): 변환된 값을 원래값으로 복원

###  표준화(StandardScaler)
- 피쳐의 값들이 평균이 0이고 표준편차가 1인 범위에 있도록 변환한다.
    - 0을 기준으로 모든 데이터들이 모여있게 된다

$$
New\,x_i = \cfrac{X_i-\mu}{\sigma}\\
\mu-평균,\;  \sigma-표준편차
$$

- **sklearn.preprocessing.StandardScaler** 를 이용

In [422]:
x=[1,3,5,7,4,9,5,1,3,7,4]
np.mean(x),np.std(x)
newx=[]

for i in x:
    newx.append((i-np.mean(x))/np.std(x))
print(newx)

[-1.4466352764910737, -0.6091095901015046, 0.22841609628806445, 1.0659417826776334, -0.19034674690672007, 1.9034674690672024, 0.22841609628806445, -1.4466352764910737, -0.6091095901015046, 1.0659417826776334, -0.19034674690672007]


In [423]:
np.mean(x),np.std(x)

(4.454545454545454, 2.3879864611933996)

In [442]:
import numpy as np

data = np.array([10,2,30]).reshape([3,1])
print(data.shape)
m=data.mean()
sd=data.std()
print(f"평균 : {m}, 표준편차:{sd}")

(3, 1)
평균 : 14.0, 표준편차:11.775681155103795


In [443]:
tmp=data-m
tmp.mean()
r=tmp/ sd
print(r.mean(), r.std())
r

0.0 1.0


array([[-0.33968311],
       [-1.01904933],
       [ 1.35873244]])

In [426]:
from sklearn.preprocessing import StandardScaler
scaler= StandardScaler()
scaler.fit(data) # axis=0을 기준으로 계산 -> feature 별로 평균과 표준편차 계산


In [427]:
r2=scaler.transform(data)
r2

array([[-0.33968311],
       [-1.01904933],
       [ 1.35873244]])

In [428]:
#iris dataset scaling
from sklearn.datasets import load_iris
iris=load_iris()
df=pd.DataFrame(iris['data'],columns=iris.feature_names)
df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


In [429]:
df.mean(),df.std()

(sepal length (cm)    5.843333
 sepal width (cm)     3.057333
 petal length (cm)    3.758000
 petal width (cm)     1.199333
 dtype: float64,
 sepal length (cm)    0.828066
 sepal width (cm)     0.435866
 petal length (cm)    1.765298
 petal width (cm)     0.762238
 dtype: float64)

In [430]:
df.agg(['mean','std']).T

Unnamed: 0,mean,std
sepal length (cm),5.843333,0.828066
sepal width (cm),3.057333,0.435866
petal length (cm),3.758,1.765298
petal width (cm),1.199333,0.762238


In [431]:
scaler=StandardScaler()
scaler.fit(iris['data'])
iris_scaled = scaler.transform(iris['data'])

In [432]:
iris_scaled.mean(axis=0)

array([-1.69031455e-15, -1.84297022e-15, -1.69864123e-15, -1.40924309e-15])

In [433]:
iris_scaled.std(axis=0)



array([1., 1., 1., 1.])

In [434]:
iris_scaled[0]

array([-0.90068117,  1.01900435, -1.34022653, -1.3154443 ])

In [435]:
iris['data'][0]

array([5.1, 3.5, 1.4, 0.2])

## Feature scaling 
- scaler는 train set으로 학습(fit) 시킨다.
- train, validation, test set은 **train set으로 학습한 scaler로 변환한다.** ==> validation, test set은 학습시키지 않는다.
    - 이유: 앞으로 모델이 예측할 새로운 데이터셋에 대한 정확한 평가를 위해서.

In [436]:
X_tmp, X_test, y_tmp,y_test=train_test_split(iris['data'],iris['target'],test_size=0.2,stratify=iris['target'],random_state=0)

X_train,X_val,y_train,y_val=train_test_split(X_tmp,y_tmp,test_size=0.2,stratify=y_tmp,random_state=0)

In [437]:
# X_train으로 scaler 학습(fit())
scaler=StandardScaler()
scaler.fit(X_train)


In [438]:
# X_train을 fit한 scaler를 이용해서 X_train, X_val, X_test 변환
X_train_scaled= scaler.transform(X_train)
X_val_scaled= scaler.transform(X_val)
X_test_scaled= scaler.transform(X_test)


In [439]:
print(X_train_scaled.mean(), X_train_scaled.std())
print(X_val_scaled.mean(), X_val_scaled.std())
print(X_test_scaled.mean(), X_test_scaled.std())

2.6830389761774615e-16 0.9999999999999998
-0.10386741503088819 1.0571753140306965
-0.031708659543466244 0.9171878015445646


### MinMaxScaler
- 데이터셋의 모든 값을 0(Min value)과 1(Max value) 사이의 값으로 변환한다.
$$
New\,x_i = \cfrac{x_i - min(X)}{max(X) - min(X)}
$$

In [441]:
data

array([[10],
       [ 2],
       [30]])

In [440]:
min_v, max_v=data.min(), data.max()
min_v,max_v

(2, 30)

In [366]:
from sklearn.preprocessing import MinMaxScaler
mm_scaler = MinMaxScaler()
mm_scaler.fit(data) # min, max 값 찾는다.
mm_scaler.transform(data)

array([[0.28571429],
       [0.        ],
       [1.        ]])

In [370]:
# iris dataset
# train set의 min, max
print("Max value - train")
print(X_train.max(axis=0),X_val.max(axis=0),X_test.max(axis=0))
print("Min value - train")
print(X_train.min(axis=0),X_val.min(axis=0),X_test.min(axis=0))

Max value - train
[7.9 4.4 6.7 2.5] [7.7 4.2 6.9 2.3] [7.2 3.8 6.  2.5]
Min value - train
[4.3 2.2 1.  0.1] [4.7 2.  1.4 0.1] [4.6 2.4 1.3 0.1]


In [466]:
# MinMaxScaling
## -> train set으로 fit한 scaler를 이용해서 train/val/test set을 변환
mm_scaler = MinMaxScaler()
X_train_scaled2 = mm_scaler.fit_transform(X_train)
X_val_Scaled2=mm_scaler.transform(X_val)
X_test_scaled2 = mm_scaler.transform(X_test)

In [468]:
print("Max value - train,val,test")
print(X_train_scaled2.max(axis=0),X_val_Scaled2.max(axis=0),X_test_scaled2.max(axis=0))
print("Max value - train,val,test")
print(X_train_scaled2.min(axis=0),X_val_Scaled2.min(axis=0),X_test_scaled2    .min(axis=0))

Max value - train,val,test
[1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1.
 1. 1. 1. 1. 1. 1.] [1.0349739  1.22697095 1.01151245 0.99914185 0.89985535 0.79019692
 0.93606819 0.83376895 0.85       0.96440607 1.13385342 0.70893741
 1.1861063  0.96899503 0.68181664 0.60622766 0.29262673 1.04150751
 0.56210953 0.56786719 0.80666618 0.87553305 0.73717655 0.72434498
 0.85471835 0.92334809 0.74976038 0.91284878 0.55450424 0.68972533] [0.83932282 0.94439834 0.85105771 0.6824852  1.23255814 0.8199497
 1.13692062 1.05175118 0.81717172 0.94903117 0.57380415 0.60992751
 0.51936511 0.4224857  0.7348472  0.78219725 1.30348914 1.34428317
 0.68100974 1.37603636 0.72078064 0.88992537 0.77428702 0.55910083
 0.78603975 1.13188961 0.88258786 1.0024113  0.82968658 1.29247202]
Min value - train,val,test
[0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 0. 0. 0.] [0.04460439 0.06514523 0.0475608  0.02183987 0.18026038 0.05751181
 0.         0.        

### 위스콘신 유방암 데이터셋
- 위스콘신 대학교에서 제공한 유방암 진단결과 데이터
- Feature: 종양 측정값들
    - 모든 Feature들은 연속형(continous)이다.
- target: 악성, 양성 여부
- scikit-learn에서 toy dataset으로 제공한다. 
    - load_breast_cancer() 함수 이용

In [444]:
from sklearn.datasets import load_breast_cancer
data=load_breast_cancer()
X=data['data']
y=data['target']
X.shape, y.shape

((569, 30), (569,))

In [445]:
np.unique(y,return_counts=True)

(array([0, 1]), array([212, 357], dtype=int64))

In [446]:
data['target_names'] # 0이 악성, 1이 양성

array(['malignant', 'benign'], dtype='<U9')

In [447]:
X[:2]

array([[1.799e+01, 1.038e+01, 1.228e+02, 1.001e+03, 1.184e-01, 2.776e-01,
        3.001e-01, 1.471e-01, 2.419e-01, 7.871e-02, 1.095e+00, 9.053e-01,
        8.589e+00, 1.534e+02, 6.399e-03, 4.904e-02, 5.373e-02, 1.587e-02,
        3.003e-02, 6.193e-03, 2.538e+01, 1.733e+01, 1.846e+02, 2.019e+03,
        1.622e-01, 6.656e-01, 7.119e-01, 2.654e-01, 4.601e-01, 1.189e-01],
       [2.057e+01, 1.777e+01, 1.329e+02, 1.326e+03, 8.474e-02, 7.864e-02,
        8.690e-02, 7.017e-02, 1.812e-01, 5.667e-02, 5.435e-01, 7.339e-01,
        3.398e+00, 7.408e+01, 5.225e-03, 1.308e-02, 1.860e-02, 1.340e-02,
        1.389e-02, 3.532e-03, 2.499e+01, 2.341e+01, 1.588e+02, 1.956e+03,
        1.238e-01, 1.866e-01, 2.416e-01, 1.860e-01, 2.750e-01, 8.902e-02]])

In [448]:
data['feature_names']

array(['mean radius', 'mean texture', 'mean perimeter', 'mean area',
       'mean smoothness', 'mean compactness', 'mean concavity',
       'mean concave points', 'mean symmetry', 'mean fractal dimension',
       'radius error', 'texture error', 'perimeter error', 'area error',
       'smoothness error', 'compactness error', 'concavity error',
       'concave points error', 'symmetry error',
       'fractal dimension error', 'worst radius', 'worst texture',
       'worst perimeter', 'worst area', 'worst smoothness',
       'worst compactness', 'worst concavity', 'worst concave points',
       'worst symmetry', 'worst fractal dimension'], dtype='<U23')

- train / validation / test 분리
    - tmp / test - 0.8 : 0.2
    - tmp -> train / val - 0.8 : 0.2

### TODO
- StandardScaler와 MinMax Scaler를 이용해위스콘신 유방암 데이터셋의 Feature들 scaling 처리를 한다.
    - Scaler 학습은 Train set으로 만 하고 그 학습된 것을 이용해 Train/Validation/Test set을 변환한다.
- **StandardScaler 로 변환한 결과를 저장할 변수**
    - X_train_scaled1, X_val_scaled1, X_test_scaled1
- **MinMaxScaler 로 변환한 결과를 저장할 변수**
    - X_train_scaled2, X_val_scaled2, X_test_scaled2

### 모범 답안

In [451]:
data

{'data': array([[1.799e+01, 1.038e+01, 1.228e+02, ..., 2.654e-01, 4.601e-01,
         1.189e-01],
        [2.057e+01, 1.777e+01, 1.329e+02, ..., 1.860e-01, 2.750e-01,
         8.902e-02],
        [1.969e+01, 2.125e+01, 1.300e+02, ..., 2.430e-01, 3.613e-01,
         8.758e-02],
        ...,
        [1.660e+01, 2.808e+01, 1.083e+02, ..., 1.418e-01, 2.218e-01,
         7.820e-02],
        [2.060e+01, 2.933e+01, 1.401e+02, ..., 2.650e-01, 4.087e-01,
         1.240e-01],
        [7.760e+00, 2.454e+01, 4.792e+01, ..., 0.000e+00, 2.871e-01,
         7.039e-02]]),
 'target': array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1,
        0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0,
        0, 0, 1, 0, 1, 1, 1, 1, 1, 0, 0, 1, 0, 0, 1, 1, 1, 1, 0, 1, 0, 0,
        1, 1, 1, 1, 0, 1, 0, 0, 1, 0, 1, 0, 0, 1, 1, 1, 0, 0, 1, 0, 0, 0,
        1, 1, 1, 0, 1, 1, 0, 0, 1, 1, 1, 0, 0, 1, 1, 1, 1, 0, 1, 1, 0, 1,
        1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 1, 0, 0, 1, 1, 1, 0

In [470]:
X_tmp, X_test, y_tmp,y_test=train_test_split(data['data'],data['target'],test_size=0.2,stratify=data['target'],random_state=0)
X_train,X_val,y_train,y_val=train_test_split(X_tmp,y_tmp,test_size=0.2,stratify=y_tmp,random_state=0)
X_train.shape, X_val.shape, X_test.shape

((364, 30), (91, 30), (114, 30))

In [469]:
X_train_df=pd.DataFrame(X_train, columns=data['feature_names'])
X_val_df=pd.DataFrame(X_val, columns=data['feature_names'])
X_test_df=pd.DataFrame(X_test, columns=data['feature_names'])

Scaling : 학습-train set, 변환- train, val, test

##### 표준화(StandardScaling)

In [473]:
# 변환전 평균, 표준편차 확인
X_train_df.agg(['mean','std']).T

Unnamed: 0,mean,std
mean radius,14.173478,3.622847
mean texture,19.174231,4.240037
mean perimeter,92.28717,24.999251
mean area,661.099451,365.089909
mean smoothness,0.096343,0.014091
mean compactness,0.104168,0.053197
mean concavity,0.08862,0.078731
mean concave points,0.049121,0.039568
mean symmetry,0.18029,0.027193
mean fractal dimension,0.062672,0.006991


In [474]:
X_val_df.agg(['mean','std']).T

Unnamed: 0,mean,std
mean radius,14.009571,3.528089
mean texture,19.447033,4.819788
mean perimeter,91.098022,24.171235
mean area,643.897802,356.786712
mean smoothness,0.097035,0.013129
mean compactness,0.103921,0.047704
mean concavity,0.085136,0.069899
mean concave points,0.04903,0.03643
mean symmetry,0.184201,0.02663
mean fractal dimension,0.06291,0.006986


In [475]:
X_test_df.agg(['mean','std']).T

Unnamed: 0,mean,std
mean radius,14.073789,3.213541
mean texture,19.532544,4.075435
mean perimeter,91.648509,22.223488
mean area,643.833333,304.290282
mean smoothness,0.095877,0.014783
mean compactness,0.105227,0.055819
mean concavity,0.092296,0.0901
mean concave points,0.048186,0.038487
mean symmetry,0.18152,0.028763
mean fractal dimension,0.063111,0.007385


In [476]:
# scaling
s_scaler=StandardScaler()
# train set 으로 학습 및 변환
X_train_scaled1 = s_scaler.fit_transform(X_train)
# val, test set은 변환만
X_val_scaled1 = s_scaler.transform(X_val)
X_test_scaled1 = s_scaler.transform(X_test)

In [478]:
# 변환 후 확인 - 평균, 표준편차 확인
pd.DataFrame(X_train_scaled1,columns=data['feature_names']).agg(['mean','std']).T

Unnamed: 0,mean,std
mean radius,-2.537653e-15,1.001376
mean texture,-1.307867e-15,1.001376
mean perimeter,-6.441734e-16,1.001376
mean area,2.440051e-16,1.001376
mean smoothness,-8.515777e-16,1.001376
mean compactness,5.29491e-16,1.001376
mean concavity,4.245688e-16,1.001376
mean concave points,-4.977703e-16,1.001376
mean symmetry,-1.647034e-15,1.001376
mean fractal dimension,2.703576e-15,1.001376


In [479]:
pd.DataFrame(X_val_scaled1,columns=data['feature_names']).agg(['mean','std']).T

Unnamed: 0,mean,std
mean radius,-0.045305,0.975185
mean texture,0.064428,1.138297
mean perimeter,-0.047633,0.968209
mean area,-0.047181,0.978602
mean smoothness,0.04917,0.933004
mean compactness,-0.004655,0.89799
mean concavity,-0.044309,0.889047
mean concave points,-0.002286,0.921953
mean symmetry,0.144029,0.980635
mean fractal dimension,0.034098,1.000597


In [480]:
pd.DataFrame(X_test_scaled1,columns=data['feature_names']).agg(['mean','std']).T

Unnamed: 0,mean,std
mean radius,-0.027555,0.888242
mean texture,0.084623,0.962502
mean perimeter,-0.025582,0.89019
mean area,-0.047358,0.834614
mean smoothness,-0.033099,1.050593
mean compactness,0.019931,1.050728
mean concavity,0.04675,1.145982
mean concave points,-0.023651,0.97402
mean symmetry,0.045306,1.059172
mean fractal dimension,0.062934,1.057814


In [486]:
# 변환전 min, max 확인
X_train_df.agg(['min','max']).T
#변환
m_scaler=MinMaxScaler()

# train은 학습과 변환
X_train_scaled2=m_scaler.fit_transform(X_train)

# val, test는 변환만 진행
X_val_scaled2=m_scaler.transform(X_val)
X_test_scaled2=m_scaler.transform(X_test)


In [487]:
pd.DataFrame(X_train_scaled2).agg(['min','max']).T

Unnamed: 0,min,max
0,0.0,1.0
1,0.0,1.0
2,0.0,1.0
3,0.0,1.0
4,0.0,1.0
5,0.0,1.0
6,0.0,1.0
7,0.0,1.0
8,0.0,1.0
9,0.0,1.0


In [488]:
pd.DataFrame(X_val_scaled2).agg(['min','max']).T

Unnamed: 0,min,max
0,0.044604,1.034974
1,0.065145,1.226971
2,0.047561,1.011512
3,0.02184,0.999142
4,0.18026,0.899855
5,0.057512,0.790197
6,0.0,0.936068
7,0.0,0.833769
8,0.142424,0.85
9,0.012216,0.964406


In [489]:
pd.DataFrame(X_test_scaled2).agg(['min','max']).T

Unnamed: 0,min,max
0,-0.035988,0.839323
1,0.102075,0.944398
2,-0.029717,0.851058
3,-0.011542,0.682485
4,0.150217,1.232558
5,0.021839,0.81995
6,0.0,1.136921
7,0.0,1.051751
8,0.05404,0.817172
9,0.006108,0.949031


### 내가 한거

In [455]:
from sklearn.preprocessing import StandardScaler
st=StandardScaler()
st.fit(X_train)

In [460]:
X_train_scaled1= st.transform(X_train)
X_val_scaled1= st.transform(X_val)
X_test_scaled1= st.transform(X_test)

##### 확인
- 평균, 표준편차 확인

In [461]:
print(X_train_scaled.mean(), X_train_scaled.std())
print(X_val_scaled.mean(), X_val_scaled.std())
print(X_test_scaled.mean(), X_test_scaled.std())

4.0342169979053306e-17 1.0
0.01778581996633659 0.9934199910377655
0.014429498415340218 1.029561311789187


##### MinMax Scaling

In [463]:
from sklearn.preprocessing import MinMaxScaler
mm = MinMaxScaler()
mm.fit(X_train) # min, max 값 찾는다.
mm.transform(X_train)

array([[0.60109484, 0.56016598, 0.58267377, ..., 0.62866001, 0.19929036,
        0.1778569 ],
       [0.30863196, 0.25228216, 0.29104907, ..., 0.11408887, 0.05795387,
        0.1107155 ],
       [0.55547671, 0.32738589, 0.54525831, ..., 0.8191526 , 0.44037059,
        0.31205493],
       ...,
       [0.29596026, 0.05103734, 0.28773924, ..., 0.25514984, 0.22570471,
        0.14301458],
       [0.15859902, 0.60165975, 0.15088502, ..., 0.11243541, 0.2945003 ,
        0.17989149],
       [0.24121851, 0.24854772, 0.24931645, ..., 0.59972442, 0.47703528,
        0.58799593]])

##### 확인
- min, max값 확인

In [464]:
print("Max value - train")
print(X_train.max(axis=0),X_val.max(axis=0),X_test.max(axis=0))
print("Min value - train")
print(X_train.min(axis=0),X_val.min(axis=0),X_test.min(axis=0))

Max value - train
[2.742e+01 3.381e+01 1.869e+02 2.501e+03 1.425e-01 3.454e-01 3.754e-01
 1.913e-01 3.040e-01 9.744e-02 2.547e+00 4.885e+00 1.865e+01 5.422e+02
 3.113e-02 1.354e-01 3.038e-01 3.927e-02 7.895e-02 2.193e-02 3.604e+01
 4.954e+01 2.512e+02 4.254e+03 2.226e-01 9.379e-01 1.252e+00 2.903e-01
 6.638e-01 1.730e-01] [2.811e+01 3.928e+01 1.885e+02 2.499e+03 1.335e-01 2.770e-01 3.514e-01
 1.595e-01 2.743e-01 9.575e-02 2.873e+00 3.568e+00 2.198e+01 5.256e+02
 2.177e-02 8.297e-02 8.890e-02 4.090e-02 4.783e-02 1.284e-02 3.075e+01
 4.487e+01 1.995e+02 3.143e+03 2.006e-01 8.681e-01 9.387e-01 2.650e-01
 4.378e-01 1.364e-01] [2.425e+01 3.247e+01 1.662e+02 1.761e+03 1.634e-01 2.867e-01 4.268e-01
 2.012e-01 2.678e-01 9.502e-02 1.509e+00 3.120e+00 1.005e+01 2.330e+02
 2.333e-02 1.064e-01 3.960e-01 5.279e-02 5.628e-02 2.984e-02 2.840e+01
 4.541e+01 2.068e+02 2.477e+03 1.902e-01 1.058e+00 1.105e+00 2.910e-01
 5.774e-01 2.075e-01]
Min value - train
[7.691e+00 9.710e+00 4.792e+01 1.704e+02 5.263

### Modeling

In [491]:
from sklearn.svm import SVC

##### scaling하지 않은 데이터셋 이용

In [505]:
# 모델 생성
# svm= SVC(random_state=0, C=0.1, gamma=0.1)
svm=SVC(random_state=0)
# 학습
svm.fit(X_train, y_train)
# 검증
## 추론
pred_train = svm.predict(X_train)
pred_val=svm.predict(X_val)

#평가 - 정확도
print("train:", accuracy_score(y_train, pred_train))
print("validation:", accuracy_score(y_val, pred_val))

train: 0.9203296703296703
validation: 0.9120879120879121


##### standardscaler 데이터셋 이용¶

In [506]:
# 모델 생성
# svm= SVC(random_state=0, C=0.1, gamma=0.1)
svm=SVC(random_state=0)
# 학습
svm.fit(X_train_scaled1, y_train)
# 검증
## 추론
pred_train1 = svm.predict(X_train_scaled1)
pred_val1=svm.predict(X_val_scaled1)

#평가 - 정확도
print("train:", accuracy_score(y_train, pred_train1))
print("validation:", accuracy_score(y_val, pred_val1))

train: 0.9917582417582418
validation: 0.989010989010989


##### MinMax Scaling 데이터셋 이용

In [507]:
# 모델 생성
# svm= SVC(random_state=0, C=0.1, gamma=0.1)
svm=SVC(random_state=0)
# 학습
svm.fit(X_train_scaled2, y_train)
# 검증
## 추론
pred_train2 = svm.predict(X_train_scaled2)
pred_val2=svm.predict(X_val_scaled2)

#평가 - 정확도
print("train:", accuracy_score(y_train, pred_train2))
print("validation:", accuracy_score(y_val, pred_val2))

train: 0.9862637362637363
validation: 0.989010989010989


# TODO adult dataset 모델링

- 전처리
    - 범주형: one hot encoding -> train과 test 나누기 전에 한꺼번에 진행 **(굳이 여러번 진행필요 없기 때문)**
    - 연속형: standard scaling -> 나누고 난 이후에 진행하는 것이 좋음
- 모델
    - sklearn.linear_model.**LogisticRegression(max_iter=1000, random_state=0)**
    - sklearn.svm.**SVC(random_state=0)**
- train/test dataset으로 나누고 train set으로 cross validation 학습 및 검증을 하고 test set으로 최종 평가 진행

1. import
2. data loading
3. 결측치 처리
4. input, output data 분리
5. 범주형 feature 전처리
6. train test set 분리
7. 연속형 feature 전처리
8. 모델링

In [4]:
cols = ['age', 'workclass','fnlwgt','education', 'education-num', 'marital-status', 
        'occupation','relationship', 'race', 'gender','capital-gain','capital-loss', 
        'hours-per-week','native-country', 'income']

category_columns = ['workclass','education','marital-status',
                    'occupation','relationship','race','gender','native-country']
continuous_columns = ['age','fnlwgt', 'education-num','capital-gain','capital-loss','hours-per-week']
target = 'income'

In [5]:
# import
import numpy as np
import pandas as pd

from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.preprocessing import LabelEncoder, OneHotEncoder, StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score

In [6]:
adult_data= pd.read_csv("data/adult.data",header=None, # 첫행이 데이터 -> header가 없는 파일임을 설정
                  # header=[0,1,2] 다중 header일때 이렇게 함 
                    names=cols,
                    skipinitialspace=True, # 값의 첫글자가 공백이면 제거.
                   na_values="?" # 결측치가 무엇인지 설정하여 읽어들이게하기!
                 )
adult_data.shape

(32561, 15)

In [7]:
adult_data.isnull().sum()

age                  0
workclass         1836
fnlwgt               0
education            0
education-num        0
marital-status       0
occupation        1843
relationship         0
race                 0
gender               0
capital-gain         0
capital-loss         0
hours-per-week       0
native-country     583
income               0
dtype: int64

In [8]:
#결측치 처리
adult_data.dropna(inplace=True)

In [9]:
adult_data.reset_index(drop=True, inplace=True)

In [10]:
class_name=np.array(['5만달러 미만','5만달러 초과'])

In [11]:
# X,y 분리 ==> y를 label encoding
y=LabelEncoder().fit_transform(adult_data[target])
# adult_data[target].value_counts
y[:10]


array([0, 0, 0, 0, 0, 0, 0, 1, 1, 1])

In [12]:
adult_data.drop(columns=target).head()

Unnamed: 0,age,workclass,fnlwgt,education,education-num,marital-status,occupation,relationship,race,gender,capital-gain,capital-loss,hours-per-week,native-country
0,39,State-gov,77516,Bachelors,13,Never-married,Adm-clerical,Not-in-family,White,Male,2174,0,40,United-States
1,50,Self-emp-not-inc,83311,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,13,United-States
2,38,Private,215646,HS-grad,9,Divorced,Handlers-cleaners,Not-in-family,White,Male,0,0,40,United-States
3,53,Private,234721,11th,7,Married-civ-spouse,Handlers-cleaners,Husband,Black,Male,0,0,40,United-States
4,28,Private,338409,Bachelors,13,Married-civ-spouse,Prof-specialty,Wife,Black,Female,0,0,40,Cuba


In [13]:
# X-> 범주형 컬럼을 OneHotEncoding
X=pd.get_dummies(adult_data.drop(columns=target),columns=category_columns)
X

Unnamed: 0,age,fnlwgt,education-num,capital-gain,capital-loss,hours-per-week,workclass_Federal-gov,workclass_Local-gov,workclass_Private,workclass_Self-emp-inc,...,native-country_Portugal,native-country_Puerto-Rico,native-country_Scotland,native-country_South,native-country_Taiwan,native-country_Thailand,native-country_Trinadad&Tobago,native-country_United-States,native-country_Vietnam,native-country_Yugoslavia
0,39,77516,13,2174,0,40,False,False,False,False,...,False,False,False,False,False,False,False,True,False,False
1,50,83311,13,0,0,13,False,False,False,False,...,False,False,False,False,False,False,False,True,False,False
2,38,215646,9,0,0,40,False,False,True,False,...,False,False,False,False,False,False,False,True,False,False
3,53,234721,7,0,0,40,False,False,True,False,...,False,False,False,False,False,False,False,True,False,False
4,28,338409,13,0,0,40,False,False,True,False,...,False,False,False,False,False,False,False,False,False,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
30157,27,257302,12,0,0,38,False,False,True,False,...,False,False,False,False,False,False,False,True,False,False
30158,40,154374,9,0,0,40,False,False,True,False,...,False,False,False,False,False,False,False,True,False,False
30159,58,151910,9,0,0,40,False,False,True,False,...,False,False,False,False,False,False,False,True,False,False
30160,22,201490,9,0,0,20,False,False,True,False,...,False,False,False,False,False,False,False,True,False,False


In [14]:
### train/test set 분리
X_train, X_test, y_train, y_test = train_test_split(X,y,test_size=0.25, stratify=y, random_state=0)
# X_train.shape, y_train.shape, X_test.shape, y_test.shape

In [15]:
## Scaling (train set으로 학습시킨 뒤 train set과 test set 변환)
scaler=StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

In [16]:
X_train_scaled[:10,50:70]

array([[-0.83967712,  1.70873382, -0.17524368, -0.41737504, -0.34411037,
        -0.22293133, -0.09726502,  5.7282767 , -0.32148992, -0.08981065,
        -2.47210149, -0.69494985,  0.69494985, -0.02397953, -0.0576761 ,
        -0.04706625, -0.04514036, -0.05531361, -0.04706625, -0.02974755],
       [-0.83967712, -0.58522866, -0.17524368,  2.39592672, -0.34411037,
        -0.22293133, -0.09726502, -0.17457257, -0.32148992, -0.08981065,
         0.40451414, -0.69494985,  0.69494985, -0.02397953, -0.0576761 ,
        -0.04706625, -0.04514036, -0.05531361, -0.04706625, -0.02974755],
       [-0.83967712,  1.70873382, -0.17524368, -0.41737504, -0.34411037,
        -0.22293133, -0.09726502, -0.17457257, -0.32148992, -0.08981065,
         0.40451414,  1.43895276, -1.43895276, -0.02397953, -0.0576761 ,
        -0.04706625, -0.04514036, -0.05531361, -0.04706625, -0.02974755],
       [-0.83967712,  1.70873382, -0.17524368, -0.41737504, -0.34411037,
        -0.22293133, -0.09726502, -0.17457257, -

In [17]:
# 모델링
## LogisticRegression

lr=LogisticRegression(random_state=0,max_iter=1000)
result_lr=cross_val_score(lr,X_train_scaled,y_train, scoring='accuracy',cv=5,n_jobs=-1)

In [18]:
print("Logistic Regression 교차검증 결과")
print(result_lr)
print(np.mean(result_lr))

Logistic Regression 교차검증 결과
[0.85569061 0.85079576 0.84748011 0.83908046 0.85234306]
0.8490779977626997


In [19]:
## SVC
svm=SVC(random_state=0)
result_svc=cross_val_score(svm,X_train_scaled, y_train, scoring='accuracy',cv=5,n_jobs=-1)

In [20]:
print("SVM 교차 검증 결과")
print(result_svc)
print(np.mean(result_svc))

SVM 교차 검증 결과
[0.8519337  0.84902741 0.8428382  0.83355438 0.84681698]
0.8448341320202628


In [21]:
# 두 모델 중 성능이 더 좋은 LogisticRegression을 최종 모델로 사용
best_model=LogisticRegression(max_iter=1000, random_state=0)
best_model.fit(X_train_scaled,y_train)

In [22]:
# 최종 평가
pred_test= best_model.predict(X_test_scaled)
accuracy_score(y_test,pred_test)

0.8456438138177961

In [515]:
input_data=adult_data[category_columns]

In [516]:
output_data=adult_data[continuous_columns]

## 모델 저장 -> pickle

- 전처리 객체, 모델 객체

- 객체 -> 파일 : 직렬화 serializer
- 파일 -> 메모리로 복원 : 역직렬화

In [1]:
import os
# 모델, 전처리기를 저장할 directory를 설정하고 생성
save_root= "./adult_data_model/"
# 전처리- OneHotEncoder를 정할 경로
ohe_path=os.path.join(save_root, 'ohe.pkl')
scaler_path=os.path.join(save_root,'scaler.pkl')
model_path=os.path.join(save_root,'model.pkl')

#save_root 디렉토리 생성
os.makedirs(save_root,exist_ok=True)

In [2]:
adult_data.columns

NameError: name 'adult_data' is not defined

In [3]:
print(ohe_path,scaler_path,model_path,sep=', ')

./adult_data_model/ohe.pkl, ./adult_data_model/scaler.pkl, ./adult_data_model/model.pkl


In [66]:
# 전처리기와 모델을 pickle로 저장
# pickle.dump() : 파일에 저장, pickle.load() : 저장된 객체를 불러오기
import pickle

In [67]:
# OneHotEncoder 저장
with open(ohe_path, "wb") as fw1:
    pickle.dump(ohe,fw1) # (저장할 객체, output stream)

# StandardScaler 저장
with open(scaler_path, "wb") as fw2:
    pickle.dump(scaler, fw2)

# 모델 저장
with open(model_path, 'wb') as fw3:
    pickle.dump(best_model, fw3)

FileNotFoundError: [Errno 2] No such file or directory: './adult_data_model/ohe.pkl'

In [49]:
# best model 로딩
import pickle
with open(model_path, 'rb') as fr1:
    save_model = pickle.load(fr1) # load(입력 stream)
    
# ohe loading
with open(ohe_path, 'rb') as fr2:
    save_ohe=pickle.load(fr2)
    
#scaler loading
with open(scaler_path, 'rb') as fr3:
    save_scaler = pickle.load(fr3)

FileNotFoundError: [Errno 2] No such file or directory: 'adult_data_model\\model.pkl'

In [50]:
save_model

NameError: name 'save_model' is not defined

In [51]:
save_ohe

NameError: name 'save_ohe' is not defined

In [47]:
from sklearn.metrics import accuracy_score
pred_test10 = save_model.predict(X_test_scaled)
accuracy_score(y_test, pred_test10)

NameError: name 'save_model' is not defined

In [52]:
# data에서 income(target) column을 제거한 뒤 5개 행만 조회 ==> 모델이 추론할 새로운 데이터
new_data = adult_data.drop(columns='income').iloc[:5].copy()
new_data

Unnamed: 0,age,workclass,fnlwgt,education,education-num,marital-status,occupation,relationship,race,gender,capital-gain,capital-loss,hours-per-week,native-country
0,39,State-gov,77516,Bachelors,13,Never-married,Adm-clerical,Not-in-family,White,Male,2174,0,40,United-States
1,50,Self-emp-not-inc,83311,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,13,United-States
2,38,Private,215646,HS-grad,9,Divorced,Handlers-cleaners,Not-in-family,White,Male,0,0,40,United-States
3,53,Private,234721,11th,7,Married-civ-spouse,Handlers-cleaners,Husband,Black,Male,0,0,40,United-States
4,28,Private,338409,Bachelors,13,Married-civ-spouse,Prof-specialty,Wife,Black,Female,0,0,40,Cuba


In [53]:
save_ohe.transform(new_data[category_columns])

NameError: name 'save_ohe' is not defined

In [None]:
# 연속형 column의 값 + ohe 한 범주형 column 합치기
new_data2=new_data[category_columns]
new_data2[save_ohe.get_feature_names_out()]=save_ohe.transform(new_data[category_columns])

In [None]:
# 연속형 column의 값(scaling 전) + ohe 한 범주형 column 합치기 ==> new_data2
new_data2.shape

In [None]:
# new_data2 값을 scaling

input_data=save_scaler.transform(new_data2)
input_data.shape



##### 전처리 완료 #####



In [None]:
pred = save_model.predict(input_data)
pred

In [None]:
# 결과 후처리 : 0 --> 5만 dollar 이상, 1 --> 5만 dollar 미만
class_name[pred]

In [55]:
adult_data['income'][:5]

0    <=50K
1    <=50K
2    <=50K
3    <=50K
4    <=50K
Name: income, dtype: object