<a href="https://colab.research.google.com/github/leo-contigo/ML/blob/main/04_Data_Encoding.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
# 경고 메세지 숨기기 
import warnings
warnings.filterwarnings(action='ignore')

# 라이브러리 임포트 
import numpy as np
import pandas as pd
import seaborn as sns

import matplotlib
import matplotlib.pyplot as plt

# gp 설정
%matplotlib inline
plt.rcParams['font.size'] = 11.0
plt.rcParams['font.family'] = 'Malgun Gothic'
plt.rcParams['axes.unicode_minus'] = False
%config InlineBackend.figure_format = 'retina'

# 그래프 기본 크기 설정 
plt.rcParams['figure.figsize'] = [10, 6]

#### ML_06_수업자료.html

# 데이타 전처리(Preprocessing)

>- 데이타 클린징
>- 결측값, 결손값 처리 (Null, NaN 처리)
>- 데이터 인코딩 (레이블, 원핫인코딩)
>- 데이터 스케일링
>- 이상치 제거
>- 피처 선택, 추출 및 가공

## 레이블 인코딩(Label encoding)

: 사이킷런의 LabelEncoder 이용. 숫자형태로 변경

>- 모듈 임포트
    - from sklearn.preprocessing import LabelEncoder

>- 인코딩 객체 생성
    - encoder = LabelEncoder()

>- 인코딩객체 fit → 인코딩.fit(타겟리스트)
    - encoder.fit(items)

>- 인코딩객체 변환및 저장 → 인코딩.transform(타겟리스트)
    - labels = encoder.transform(items)


## 원-핫 인코딩(One-Hot encoding)

>- 판다스의 get_dummies()를 이용한 원핫 인코딩
>- pd.get_dummies(데이타프레임[컬럼명])
>- pd.get_dummies(데이타프레임)


In [None]:
# 사이킷런 import

from sklearn.preprocessing import LabelEncoder

---------------------------------------------------

## 레이블 인코딩
- 문자열 데이터값을 수치형으로 변경

>- 판다스 apply()
>- 사이킷런 LabelEncoder()

In [None]:
# 데이터프레임으로 데이터 준비

items = ['TV' , '냉장고' , '전자레인지' , '컴퓨터' , '선풍기' , '선풍기' , '믹서기' , '믹서기' ]
df = pd.DataFrame(items,
                 columns = ['items'])
df

Unnamed: 0,items
0,TV
1,냉장고
2,전자레인지
3,컴퓨터
4,선풍기
5,선풍기
6,믹서기
7,믹서기


---------------------------------------------------

### apply() 활용

In [None]:
# 컬럼 중복 제거 후 리스트화

item_list = list(df['items'].unique())
item_list

['TV', '냉장고', '전자레인지', '컴퓨터', '선풍기', '믹서기']

In [None]:
# ㄱㄴㄷ순으로 정렬 - 원본 저장 O

item_list = sorted(item_list)
item_list

['TV', '냉장고', '믹서기', '선풍기', '전자레인지', '컴퓨터']

In [None]:
# 데이터값 삽입시 인덱스가 반환되도록 함수 정의

# 함수 정의
def change_label(item):
    # 리스트명 . index ( 값) → 값에 해당하는 인덱스 위치 반환
    return item_list.index(item)

In [None]:
change_label('TV'), change_label('전자레인지')

(0, 4)

In [None]:
# 데이터프레임에 컬럼을 추가 후 라벨링한 값 추가
# 데이터프레임 [ 컬럼명 ].(함수명이나 람다함수)

df['items_label'] = df['items'].apply(change_label)

In [None]:
df

Unnamed: 0,items,items_label
0,TV,0
1,냉장고,1
2,전자레인지,4
3,컴퓨터,5
4,선풍기,3
5,선풍기,3
6,믹서기,2
7,믹서기,2


---------------------------------------------------

### 사이킷런 LabelEncoder() 활용

- 1) 인코딩 객체 생성

>    - encoder.fit(items)
    

- 2) 인코딩 객체 fit → 인코딩.fit(타겟리스트)

>    - encoder.fit(items)
    

- 3) 인코딩객체 변환및 저장 => 인코딩.transform(타겟리스트)

>    - labels = encoder.transform(items)

In [None]:
# 1) 인코딩 객체 생성

encoder = LabelEncoder()
type(encoder)

sklearn.preprocessing._label.LabelEncoder

In [None]:
# 2) 입력 데이터 적용

print(item_list)
encoder.fit(item_list)

['TV', '냉장고', '믹서기', '선풍기', '전자레인지', '컴퓨터']


LabelEncoder()

In [None]:
# 3) 결과 데이타 저장 
# encoder.transform(items)

encoder.transform(['TV', '냉장고', '믹서기', '선풍기', '전자레인지', '컴퓨터'])

array([0, 1, 2, 3, 4, 5])

In [None]:
# 데이터프레임에 컬럼 추가 후 레이블링 된 값 추가

df['items_label2'] = encoder.transform(df['items'])
df

Unnamed: 0,items,items_label,items_label2
0,TV,0,0
1,냉장고,1,1
2,전자레인지,4,4
3,컴퓨터,5,5
4,선풍기,3,3
5,선풍기,3,3
6,믹서기,2,2
7,믹서기,2,2


In [None]:
# 전체 속성과 값 확인 
dir(encoder)

['__class__',
 '__delattr__',
 '__dict__',
 '__dir__',
 '__doc__',
 '__eq__',
 '__format__',
 '__ge__',
 '__getattribute__',
 '__getstate__',
 '__gt__',
 '__hash__',
 '__init__',
 '__init_subclass__',
 '__le__',
 '__lt__',
 '__module__',
 '__ne__',
 '__new__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '__setattr__',
 '__setstate__',
 '__sizeof__',
 '__str__',
 '__subclasshook__',
 '__weakref__',
 '_check_feature_names',
 '_check_n_features',
 '_get_param_names',
 '_get_tags',
 '_more_tags',
 '_repr_html_',
 '_repr_html_inner',
 '_repr_mimebundle_',
 '_validate_data',
 'classes_',
 'fit',
 'fit_transform',
 'get_params',
 'inverse_transform',
 'set_params',
 'transform']

In [None]:
# 인코딩객체.classes_ : 각 숫자에 해당하는 원본 리스트 반환
# 인코딩객체.inverse_transform( [  레이블링된 숫자, ... ]) : 메소드 이용 원본값 보기

In [None]:
encoder.classes_

array(['TV', '냉장고', '믹서기', '선풍기', '전자레인지', '컴퓨터'], dtype='<U5')

In [None]:
encoder.inverse_transform([0, 2, 3, 5, 5])

array(['TV', '믹서기', '선풍기', '컴퓨터', '컴퓨터'], dtype='<U5')

---------------------------------------------------

## 원핫인코딩

>- pd.get_dummies(데이터프레임[컬럼])

In [None]:
pd.get_dummies(df['items'])

Unnamed: 0,TV,냉장고,믹서기,선풍기,전자레인지,컴퓨터
0,1,0,0,0,0,0
1,0,1,0,0,0,0
2,0,0,0,0,1,0
3,0,0,0,0,0,1
4,0,0,0,1,0,0
5,0,0,0,1,0,0
6,0,0,1,0,0,0
7,0,0,1,0,0,0


In [None]:
# 가로로 합치기 

pd.concat([df, pd.get_dummies(df['items'], prefix='item')], axis=1)

Unnamed: 0,items,items_label,items_label2,item_TV,item_냉장고,item_믹서기,item_선풍기,item_전자레인지,item_컴퓨터
0,TV,0,0,1,0,0,0,0,0
1,냉장고,1,1,0,1,0,0,0,0
2,전자레인지,4,4,0,0,0,0,1,0
3,컴퓨터,5,5,0,0,0,0,0,1
4,선풍기,3,3,0,0,0,1,0,0
5,선풍기,3,3,0,0,0,1,0,0
6,믹서기,2,2,0,0,1,0,0,0
7,믹서기,2,2,0,0,1,0,0,0


---------------------------------------------------

## 타이타닉 생존자 예측

In [None]:
# 1) 데이터 확인

In [None]:
ls data\titanic_book.csv

 C 드라이브의 볼륨에는 이름이 없습니다.
 볼륨 일련 번호: 2C15-09AA

 C:\Users\uuuna\Desktop\AI\9W_머신러닝\data 디렉터리

2020-08-18  오전 09:29            61,194 titanic_book.csv
               1개 파일              61,194 바이트
               0개 디렉터리  73,088,176,128 바이트 남음


#### 각 피처 설명
- Passengerid: 탑승자 데이터 일련번호
- survived: 생존 여부, 0 = 사망, 1 = 생존
- Pclass: 티켓의 선실 등급, 1 = 일등석, 2 = 이등석, 3 = 삼등석
- sex: 탑승자 성별
- name: 탑승자 이름
- Age: 탑승자 나이
- sibsp: 같이 탑승한 형제자매 또는 배우자 인원수
- parch: 같이 탑승한 부모님 또는 어린이 인원수
- ticket: 티켓 번호
- fare: 요금
- cabin: 선실 번호
- embarked: 중간 정착 항구 C = Cherbourg, Q = Queenstown, S = Southampton

In [None]:
# !type data\titanic_book.csv

In [None]:
# 2) 데이터 프레임으로 저장

df_t = pd.read_csv('data/titanic_book.csv')
df_t.shape

(891, 12)

In [None]:
df_t.sample(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
845,846,0,3,"Abbing, Mr. Anthony",male,42.0,0,0,C.A. 5547,7.55,,S
816,817,0,3,"Heininen, Miss. Wendla Maria",female,23.0,0,0,STON/O2. 3101290,7.925,,S
277,278,0,2,"Parkes, Mr. Francis ""Frank""",male,,0,0,239853,0.0,,S


In [None]:
# 3) 결측치 확인

df_t.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


In [None]:
# 결측 컬럼 - Embarked , Age , Cabin 

In [None]:
# Age → 컬럼의 평균으로 채우기

avg = df_t['Age'].mean()
df_t['Age'].fillna(value=avg, inplace=True)

In [None]:
# 결측값이 채워졌는지 확인

df_t['Age'].isnull().sum()

0

In [None]:
df_t.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          891 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


In [None]:
# Embarked 결측값의 갯수?

df_t['Embarked'].isnull().sum()

2

In [None]:
df_t['Embarked'].value_counts()

S    644
C    168
Q     77
Name: Embarked, dtype: int64

In [None]:
# Embarked 결측값은 최빈값으로 채우기

df_t['Embarked'].fillna(value='S', inplace=True)

In [None]:
df_t['Embarked'].isnull().sum()

0

In [None]:
df_t['Embarked'].value_counts()

S    646
C    168
Q     77
Name: Embarked, dtype: int64

In [None]:
df_t['Cabin'].unique()

array([nan, 'C85', 'C123', 'E46', 'G6', 'C103', 'D56', 'A6',
       'C23 C25 C27', 'B78', 'D33', 'B30', 'C52', 'B28', 'C83', 'F33',
       'F G73', 'E31', 'A5', 'D10 D12', 'D26', 'C110', 'B58 B60', 'E101',
       'F E69', 'D47', 'B86', 'F2', 'C2', 'E33', 'B19', 'A7', 'C49', 'F4',
       'A32', 'B4', 'B80', 'A31', 'D36', 'D15', 'C93', 'C78', 'D35',
       'C87', 'B77', 'E67', 'B94', 'C125', 'C99', 'C118', 'D7', 'A19',
       'B49', 'D', 'C22 C26', 'C106', 'C65', 'E36', 'C54',
       'B57 B59 B63 B66', 'C7', 'E34', 'C32', 'B18', 'C124', 'C91', 'E40',
       'T', 'C128', 'D37', 'B35', 'E50', 'C82', 'B96 B98', 'E10', 'E44',
       'A34', 'C104', 'C111', 'C92', 'E38', 'D21', 'E12', 'E63', 'A14',
       'B37', 'C30', 'D20', 'B79', 'E25', 'D46', 'B73', 'C95', 'B38',
       'B39', 'B22', 'C86', 'C70', 'A16', 'C101', 'C68', 'A10', 'E68',
       'B41', 'A20', 'D19', 'D50', 'D9', 'A23', 'B50', 'A26', 'D48',
       'E58', 'C126', 'B71', 'B51 B53 B55', 'D49', 'B5', 'B20', 'F G63',
       'C62 C64',

In [None]:
# Cabin 결측치 갯수 확인 

df_t['Cabin'].isnull().sum()

687

In [None]:
# Cabin 값은 NaN 대신 'N' 으로 채움 
df_t['Cabin'].fillna(value='N', inplace=True)

In [None]:
df_t.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          891 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        891 non-null    object 
 11  Embarked     891 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


### 머신러닝은 문자열 x 

In [None]:
df_t.dtypes

PassengerId      int64
Survived         int64
Pclass           int64
Name            object
Sex             object
Age            float64
SibSp            int64
Parch            int64
Ticket          object
Fare           float64
Cabin           object
Embarked        object
dtype: object

In [None]:
# 문자 → 숫자 레이블링
# 문자열 데이터는 ? Name, Sex, Ticket, Cabin, Embarked

In [None]:
# 성별 레이블링 → male : 0, female:1

df_t['Sex'].value_counts()

male      577
female    314
Name: Sex, dtype: int64

In [None]:
# LavelEncoder() 활용해서 변경

# 객체 생성
encoder = LabelEncoder()

# 입력데이터
encoder.fit(df_t['Sex'])
# 변경
encoder.transform(df_t['Sex'])

array([1, 0, 0, 0, 1, 1, 1, 1, 0, 0, 0, 0, 1, 1, 0, 0, 1, 1, 0, 0, 1, 1,
       0, 1, 0, 0, 1, 1, 0, 1, 1, 0, 0, 1, 1, 1, 1, 1, 0, 0, 0, 0, 1, 0,
       0, 1, 1, 0, 1, 0, 1, 1, 0, 0, 1, 1, 0, 1, 0, 1, 1, 0, 1, 1, 1, 1,
       0, 1, 0, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 0, 1, 0, 0, 1, 1,
       0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 0, 1, 1, 1, 1, 1, 0, 1, 1, 0,
       1, 0, 1, 0, 0, 1, 1, 1, 1, 0, 1, 1, 1, 0, 1, 1, 1, 1, 0, 1, 1, 1,
       0, 0, 1, 1, 0, 1, 1, 1, 0, 0, 0, 1, 1, 1, 1, 0, 1, 1, 1, 0, 1, 1,
       1, 1, 0, 1, 1, 1, 1, 0, 1, 1, 1, 1, 0, 0, 1, 1, 1, 1, 0, 1, 1, 1,
       1, 0, 1, 1, 0, 1, 1, 1, 0, 1, 0, 1, 1, 1, 0, 1, 0, 1, 0, 0, 1, 1,
       0, 0, 1, 1, 1, 1, 1, 0, 1, 1, 0, 1, 1, 0, 1, 1, 1, 0, 0, 1, 0, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 1, 1, 0, 1, 0, 1, 0, 1, 1, 0, 0,
       1, 1, 1, 1, 0, 0, 1, 1, 1, 0, 1, 1, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1,
       0, 1, 1, 1, 0, 0, 1, 1, 0, 1, 0, 0, 0, 1, 1, 0, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 0, 0, 0, 1, 0, 1, 1, 1, 0, 1, 0, 0,

In [None]:
df_t['Sex2'] = encoder.transform(df_t['Sex'])

In [None]:
df_t['Sex2'].value_counts()

1    577
0    314
Name: Sex2, dtype: int64

In [None]:
df_t[['Sex', 'Sex2']]

Unnamed: 0,Sex,Sex2
0,male,1
1,female,0
2,female,0
3,female,0
4,male,1
...,...,...
886,male,1
887,female,0
888,female,0
889,male,1


In [None]:
# 원본 데이터에 적용

df_t['Sex'] = encoder.transform(df_t['Sex'])

In [None]:
# 필요없는 컬럼은 삭제 
del df_t['Sex2']

In [None]:
df_t.sample(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
766,767,0,1,"Brewe, Dr. Arthur Jackson",1,29.699118,0,0,112379,39.6,N,C
81,82,1,3,"Sheerlinck, Mr. Jan Baptist",1,29.0,0,0,345779,9.5,N,S
867,868,0,1,"Roebling, Mr. Washington Augustus II",1,31.0,0,0,PC 17590,50.4958,A24,S


In [None]:
# Embarked 숫자 레이블링 

df_t['Embarked'].value_counts()

S    646
C    168
Q     77
Name: Embarked, dtype: int64

In [None]:
# 입력 데이타 
encoder.fit(df_t['Embarked'])

# 변경 
df_t['Embarked'] = encoder.transform(df_t['Embarked'])

In [None]:
df_t['Embarked'].value_counts()

2    646
0    168
1     77
Name: Embarked, dtype: int64

In [None]:
# Cabin → 앞글자만 추출해서 데이타로 교체 

df_t['Cabin'].value_counts()

N              687
C23 C25 C27      4
G6               4
B96 B98          4
C22 C26          3
              ... 
E34              1
C7               1
C54              1
E36              1
C148             1
Name: Cabin, Length: 148, dtype: int64

In [None]:
df_t['Cabin'] = df_t['Cabin'].str[0]

In [None]:
# Cabin

df_t['Cabin'].value_counts()

N    687
C     59
B     47
D     33
E     32
A     15
F     13
G      4
T      1
Name: Cabin, dtype: int64

In [None]:
# 숫자형태로 레이블링

encoder.fit(df_t['Cabin'])

# 변경
df_t['Cabin'] = encoder.transform(df_t['Cabin'])

In [None]:
df_t['Cabin'].value_counts()

7    687
2     59
1     47
3     33
4     32
0     15
5     13
6      4
8      1
Name: Cabin, dtype: int64

In [None]:
# 삭제할 컬럼은?
# Name, PassengerId, Ticket

In [None]:
df_t.sample(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
243,244,0,3,"Maenpaa, Mr. Matti Alexanteri",1,22.0,0,0,STON/O 2. 3101275,7.125,7,2
843,844,0,3,"Lemberopolous, Mr. Peter L",1,34.5,0,0,2683,6.4375,7,0
478,479,0,3,"Karlsson, Mr. Nils August",1,22.0,0,0,350060,7.5208,7,2


In [None]:
df_t.drop(columns = ['Name','PassengerId','Ticket'], inplace=True)

In [None]:
df_t.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 9 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   Survived  891 non-null    int64  
 1   Pclass    891 non-null    int64  
 2   Sex       891 non-null    int32  
 3   Age       891 non-null    float64
 4   SibSp     891 non-null    int64  
 5   Parch     891 non-null    int64  
 6   Fare      891 non-null    float64
 7   Cabin     891 non-null    int32  
 8   Embarked  891 non-null    int32  
dtypes: float64(2), int32(3), int64(4)
memory usage: 52.3 KB


In [None]:
# 학습데이타와 테스트용데이타로 분리 
X = df_t.drop(columns = ['Survived']).copy()

In [None]:
y = df_t['Survived']

In [None]:
X

Unnamed: 0,Pclass,Sex,Age,SibSp,Parch,Fare,Cabin,Embarked
0,3,1,22.000000,1,0,7.2500,7,2
1,1,0,38.000000,1,0,71.2833,2,0
2,3,0,26.000000,0,0,7.9250,7,2
3,1,0,35.000000,1,0,53.1000,2,2
4,3,1,35.000000,0,0,8.0500,7,2
...,...,...,...,...,...,...,...,...
886,2,1,27.000000,0,0,13.0000,7,2
887,1,0,19.000000,0,0,30.0000,1,2
888,3,0,29.699118,1,2,23.4500,7,2
889,1,1,26.000000,0,0,30.0000,2,0


In [None]:
# 모델 생성 → 데이터 입력 후 테스트 

# Quiz
```
타이타닉 데이타셋에서 Age 컬럼을 아래의 함수를 이용하여 
세분화하여 추가하고 원핫인코딩 형태 변경하여
모델의 데이타로 활용하여라.

def get_category(age):
    cat = ''
    if age <= -1: cat = 'Unknown'
    elif age <= 5: cat = 'Baby'
    elif age <= 12: cat = 'Child'
    elif age <= 18: cat = 'Teenager'
    elif age <= 25: cat = 'Student'
    elif age <= 35: cat = 'Young Adult'
    elif age <= 60: cat = 'Adult'
    else : cat = 'Elderly'
    
    return cat
```    