# LabelEncoder
* sklearn.preprocessing.LabelEncoder

* fit(y) : Fit label encoder.
* fit_transform(y) : Fit label encoder and return encoded labels.
* get_params([deep]) : Get parameters for this estimator.
* inverse_transform(y) : Transform labels back to original encoding.
* set_params(**params) : Set the parameters of this estimator.
* transform(y) : Transform labels to normalized encoding.

In [1]:
from sklearn.preprocessing import LabelEncoder

In [2]:
## p.102

items = ['TV', '냉장고', '전자렌지', '컴퓨터', '선풍기', '선풍기', '믹서', '믹서']

## LabelEncoder를 객체로 생성한 후, fit( )과 trandsform( )으로 label 인코딩 수행
encoder = LabelEncoder()
encoder.fit(items)
labels = encoder.transform(items)
print('인코딩 변환값:', labels)

인코딩 변환값: [0 1 4 5 3 3 2 2]


In [3]:
print('인코딩 클래스:', encoder.classes_)

인코딩 클래스: ['TV' '냉장고' '믹서' '선풍기' '전자렌지' '컴퓨터']


In [4]:
print('디코딩 원본 값:', encoder.inverse_transform([4,5,2,0,1,1,3,3]))

디코딩 원본 값: ['전자렌지' '컴퓨터' '믹서' 'TV' '냉장고' '냉장고' '선풍기' '선풍기']


## Titanic 데이터 전처리
- Survived, Sex, Age, Embarked 컬럼만 이용하려 함
- 피처는 Sex(결측치: 남), Age(결측치: 평균), Embarked(결측치: s) 사용, 레이블은 Survived 사용하여 지도학습 하려 함
- 데이터의 전처리가 필요한 상황이라 데이터 전처리를 해야 하는데 결측치가 관찰이 되어서 결측치 처리를 해야하고 문자열이 보여서 인코딩을 해줘야 한다.
- 결측치는 평균값으로 인코딩은 labelencoding을 이용하여 처리한 결과를 데이터 프레임으로 출력
- 판다스를 이용해서 csv읽어오기
- 필요한 칼럼만 남기고 drop
- fillna를 활용하여 결측치 처리 (mean)
- LabelEncoder를 활용하여 인코딩

In [5]:
import pandas as pd

In [17]:
## p.112

df = pd.read_csv("C:/PYTHON/G_ML/csv/train.csv")

In [18]:
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [19]:
df.drop(["PassengerId", "Pclass", "Name", "SibSp", "Parch", "Ticket", "Fare", "Cabin"], axis=1, inplace=True)

In [20]:
df.head()

Unnamed: 0,Survived,Sex,Age,Embarked
0,0,male,22.0,S
1,1,female,38.0,C
2,1,female,26.0,S
3,1,female,35.0,S
4,0,male,35.0,S


In [21]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 4 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   Survived  891 non-null    int64  
 1   Sex       891 non-null    object 
 2   Age       714 non-null    float64
 3   Embarked  889 non-null    object 
dtypes: float64(1), int64(1), object(2)
memory usage: 28.0+ KB


In [22]:
df['Embarked'].isnull().sum()

2

In [23]:
df['Embarked'].isna().sum()

2

In [24]:
df['Age'].isnull().sum()

177

In [25]:
## p.113

df['Age'].fillna(df['Age'].mean(), inplace=True)
# df['Age'] = df['Age'].fillna(df['Age'].mean())

In [26]:
df['Age'].isnull().sum()

0

In [28]:
df['Embarked'].fillna('S', inplace=True)

In [29]:
df['Embarked'].isnull().sum()

0

int나 float는 계산이 가능 but object는 연산이 안됨 -> int나 float으로 바꿔야함 -> 인코딩 필요

In [31]:
## Sex, Embarked encoding
from sklearn.preprocessing import LabelEncoder

In [33]:
encoder = LabelEncoder()
df['Sex'] = data = encoder.fit_transform(df['Sex'])

In [34]:
df.head()

Unnamed: 0,Survived,Sex,Age,Embarked
0,0,1,22.0,S
1,1,0,38.0,C
2,1,0,26.0,S
3,1,0,35.0,S
4,0,1,35.0,S


In [35]:
df['Embarked'] = data = encoder.fit_transform(df['Embarked'])

In [37]:
df.head()

Unnamed: 0,Survived,Sex,Age,Embarked
0,0,1,22.0,2
1,1,0,38.0,0
2,1,0,26.0,2
3,1,0,35.0,2
4,0,1,35.0,2


# OneHotEncoder
* sklearn.preprocessing.OneHotEncoder
* OneHotEncoder(*, categories='auto', drop=None, sparse=True, dtype=<class 'numpy.float64'>, handle_unknown='error', min_frequency=None, max_categories=None)

In [38]:
from sklearn.preprocessing import OneHotEncoder
import numpy as np

In [40]:
## p.104

items = ['TV', '냉장고', '전자렌지', '컴퓨터', '선풍기', '선풍기', '믹서', '믹서']

## 먼저 숫자값으로 변환을 위해 LabelEncoder로 변환합니다.
encoder = LabelEncoder()
encoder.fit(items)
labels = encoder.transform(items)

##2차원 데이터로 변환합니다.
labels = labels.reshape(-1, 1)

## 원-핫 인코딩을 적용합니다
oh_encoder = OneHotEncoder()
oh_encoder.fit(labels)
oh_labels = oh_encoder.transform(labels)
print('원-핫 인코딩 데이터')
print(oh_labels.toarray())
print('원-핫 인코딩 데이터 차원')
print(oh_labels.shape)

## 이 교제는 transform하면 array가 바뀌니까 한번 더 한거임

원-핫 인코딩 데이터
[[1. 0. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0. 0.]
 [0. 0. 0. 0. 1. 0.]
 [0. 0. 0. 0. 0. 1.]
 [0. 0. 0. 1. 0. 0.]
 [0. 0. 0. 1. 0. 0.]
 [0. 0. 1. 0. 0. 0.]
 [0. 0. 1. 0. 0. 0.]]
원-핫 인코딩 데이터 차원
(8, 6)


코드가 위에 것 처럼 길 필요가 없음 아래 코드로 간략화 가능

In [43]:
items = ['TV', '냉장고', '전자렌지', '컴퓨터', '선풍기', '선풍기', '믹서', '믹서']

## 먼저 숫자값으로 변환을 위해 LabelEncoder로 변환합니다.
one_encoder = OneHotEncoder()

# items = items.reshape(-1, 1)
# np.array(items).reshape(-1, 1)

items = np.array(items).reshape(-1, 1)
data = one_encoder.fit_transform(items)


In [44]:
data.toarray()

array([[1., 0., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0., 0.],
       [0., 0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 0., 1.],
       [0., 0., 0., 1., 0., 0.],
       [0., 0., 0., 1., 0., 0.],
       [0., 0., 1., 0., 0., 0.],
       [0., 0., 1., 0., 0., 0.]])

In [46]:
df = pd.read_csv("C:/PYTHON/G_ML/csv/train.csv")
one_encoder = OneHotEncoder()
trans_data = one_encoder.fit_transform([df['Sex']]) ## 이차원 array하라 해서 [[]] 한 것 임
trans_data.toarray()

array([[1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
        1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
        1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
        1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
        1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
        1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
        1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
        1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
        1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
        1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
        1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
        1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
        1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
        1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 

# pandas.get_dummies
* pandas.get_dummies(data, prefix=None, prefix_sep='_', dummy_na=False, columns=None, sparse=False, drop_first=False, dtype=None)

In [None]:
## p.105

In [47]:
import pandas as pd

In [48]:
df = pd.read_csv("C:/PYTHON/G_ML/csv/train.csv")
df.drop(["PassengerId", "Pclass", "Name", "SibSp", "Parch", "Ticket", "Fare", "Cabin"], axis=1, inplace=True)
df['Age'].fillna(df['Age'].mean(), inplace=True)
df['Embarked'].fillna('S', inplace=True)

In [51]:
data = df.loc[:,'Embarked']

In [52]:
data

0      S
1      C
2      S
3      S
4      S
      ..
886    S
887    S
888    S
889    C
890    Q
Name: Embarked, Length: 891, dtype: object

In [54]:
dummy_embarke = pd.get_dummies(data)
dummy_embarke

## 이거 할 필요없이 뒤에꺼가 더 나음 이름 잘 나와있으니까

Unnamed: 0,C,Q,S
0,0,0,1
1,1,0,0
2,0,0,1
3,0,0,1
4,0,0,1
...,...,...,...
886,0,0,1
887,0,0,1
888,0,0,1
889,1,0,0


In [56]:
dummy_data = pd.get_dummies(df[['Sex', 'Embarked']])
dummy_data

Unnamed: 0,Sex_female,Sex_male,Embarked_C,Embarked_Q,Embarked_S
0,0,1,0,0,1
1,1,0,1,0,0
2,1,0,0,0,1
3,1,0,0,0,1
4,0,1,0,0,1
...,...,...,...,...,...
886,0,1,0,0,1
887,1,0,0,0,1
888,1,0,0,0,1
889,0,1,1,0,0


In [61]:
dummy_df = pd.concat([df, dummy_data], axis=1)
dummy_df

Unnamed: 0,Survived,Sex,Age,Embarked,Sex_female,Sex_male,Embarked_C,Embarked_Q,Embarked_S
0,0,male,22.000000,S,0,1,0,0,1
1,1,female,38.000000,C,1,0,1,0,0
2,1,female,26.000000,S,1,0,0,0,1
3,1,female,35.000000,S,1,0,0,0,1
4,0,male,35.000000,S,0,1,0,0,1
...,...,...,...,...,...,...,...,...,...
886,0,male,27.000000,S,0,1,0,0,1
887,1,female,19.000000,S,1,0,0,0,1
888,0,female,29.699118,S,1,0,0,0,1
889,1,male,26.000000,C,0,1,1,0,0


In [62]:
dummy_df.drop(columns=['Sex', 'Embarked'], inplace=True)

In [63]:
dummy_df

Unnamed: 0,Survived,Age,Sex_female,Sex_male,Embarked_C,Embarked_Q,Embarked_S
0,0,22.000000,0,1,0,0,1
1,1,38.000000,1,0,1,0,0
2,1,26.000000,1,0,0,0,1
3,1,35.000000,1,0,0,0,1
4,0,35.000000,0,1,0,0,1
...,...,...,...,...,...,...,...
886,0,27.000000,0,1,0,0,1
887,1,19.000000,1,0,0,0,1
888,0,29.699118,1,0,0,0,1
889,1,26.000000,0,1,1,0,0


**정규화(스케일링)**:일정한 값으로 바꿔주는 것  

**인코딩** -> 문자를 숫자로 바꿔주는 것  
    비밀번호를 해쉬코드(?)로 바꾸는 것도 인코딩

- **표준화(Standard Scaling / 스케일링) : 평균을 0으로 넣고 바꿔주는 것**  
평균을 구할 때 아웃라이어(?)가 있으면 평균이 많이 왜곡됨  
따라서 아웃라이어먼저 제거하고 표준화 해야함      
    
    
- **정규화(MinMax Scaling) : 0과 1사이를 넣고 바꿔주는 것**  
0과 1사이 값으로 만들고 나서 아웃라이어 제거 해도 되고 그 전에 제거해도 됨


RobustScaling : Standered Scaling의 단점을 보완