## 데이터 인코딩
### 라벨인코딩

In [2]:
import pandas as pd
from sklearn.preprocessing import LabelEncoder

obj={'Class':['A','B','A','C','E','D','D','A','F']}
df=pd.DataFrame(obj)

In [3]:
# 라벨 인코딩
encoder=LabelEncoder()  # 라벨 인코더 객체 생성
encoder.fit(df.Class)   # 적합
labels=encoder.transform(df.Class) # 변환

In [4]:
# 인코딩 결과, 변환된 숫자 카테고리 값
print(labels)

[0 1 0 2 4 3 3 0 5]


In [5]:
# 숫자 값에 대응되는 원본 레이블
print(encoder.classes_)

['A' 'B' 'C' 'D' 'E' 'F']


In [6]:
# 디코딩(즉, 다시 원본으로 되돌림)
print(encoder.inverse_transform(labels))

['A' 'B' 'A' 'C' 'E' 'D' 'D' 'A' 'F']


In [7]:
# Q. 위의 파이썬 예제의 classes에 대하여 numpy.select()를 활용해 라벨 인코딩과 동일한 결과를 만들어보자.
# 조건목록생성
conditionlist=[(df['Class']=='A'),
               (df['Class']=='B'),
               (df['Class']=='C'),
               (df['Class']=='D'),
               (df['Class']=='E'),
               (df['Class']=='F')]

# 조건과 매칭할 선택 목록 생성(0~5)
choicelist=list(range(6))

import numpy as np
# 결과
np.select(condlist=conditionlist,choicelist=choicelist)

array([0, 1, 0, 2, 4, 3, 3, 0, 5])

In [8]:
# 시리즈객체 .map()을 이용해 라벨 인코딩과 동일한 결과를 만드는 방법
df['Class'].map(arg={'A':0,'B':1,'C':2,'D':3,"E":4,'F':5})

0    0
1    1
2    0
3    2
4    4
5    3
6    3
7    0
8    5
Name: Class, dtype: int64

### 원핫인코딩


In [9]:
from sklearn.preprocessing import LabelEncoder,OneHotEncoder

# 데이터프레임 생성 
obj={'Class':['A','B','A','C','E','D','D','A','F']}
df=pd.DataFrame(obj)

# 라벨인코딩 먼저 수행
encoder=LabelEncoder()
encoder.fit(df['Class'])

# 2차원 레이블 변환
labels=encoder.transform(df['Class']).reshape(-1,1)
labels

array([[0],
       [1],
       [0],
       [2],
       [4],
       [3],
       [3],
       [0],
       [5]])

In [10]:
# 원-핫 인코딩
# sparse = False 옵션은 결과를 보통의 array형태로 반환하기 위함
oh_encoder=OneHotEncoder(sparse=False)
oh_encoder.fit(labels)
oh_labels=oh_encoder.transform(labels)
oh_labels



array([[1., 0., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0., 0.],
       [1., 0., 0., 0., 0., 0.],
       [0., 0., 1., 0., 0., 0.],
       [0., 0., 0., 0., 1., 0.],
       [0., 0., 0., 1., 0., 0.],
       [0., 0., 0., 1., 0., 0.],
       [1., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 1.]])

In [11]:
# 판다스 get_dummies() 함수 활용한 방법
obj={'Class':['A','B','A','C','E','D','D','A','F']}
df=pd.DataFrame(obj)
pd.get_dummies(df)  # 원-핫 인코딩 실행

Unnamed: 0,Class_A,Class_B,Class_C,Class_D,Class_E,Class_F
0,True,False,False,False,False,False
1,False,True,False,False,False,False
2,True,False,False,False,False,False
3,False,False,True,False,False,False
4,False,False,False,False,True,False
5,False,False,False,True,False,False
6,False,False,False,True,False,False
7,True,False,False,False,False,False
8,False,False,False,False,False,True


In [12]:
# 첫번째 고유 틍징을 제거해 k-1개의 변수를 생성
pd.get_dummies(df,drop_first=True)

Unnamed: 0,Class_B,Class_C,Class_D,Class_E,Class_F
0,False,False,False,False,False
1,True,False,False,False,False
2,False,False,False,False,False
3,False,True,False,False,False
4,False,False,False,True,False
5,False,False,True,False,False
6,False,False,True,False,False
7,False,False,False,False,False
8,False,False,False,False,True


In [16]:
# numpy.where()을 이용해 라벨 인코딩과 동일한 결과를 만드는 방법
df['Class_B']=np.where(df['Class']=='B',1,0)
df['Class_C']=np.where(df['Class']=='C',1,0)
df['Class_D']=np.where(df['Class']=='D',1,0)
df['Class_E']=np.where(df['Class']=='E',1,0)
df['Class_F']=np.where(df['Class']=='F',1,0)
df

Unnamed: 0,Class,Class_B,Class_C,Class_D,Class_E,Class_F
0,A,0,0,0,0,0
1,B,1,0,0,0,0
2,A,0,0,0,0,0
3,C,0,1,0,0,0
4,E,0,0,0,1,0
5,D,0,0,1,0,0
6,D,0,0,1,0,0
7,A,0,0,0,0,0
8,F,0,0,0,0,1


In [18]:
# loc 인덱서와 부울 인덱싱을 이용한 방법
obj={'Class':['A','B','A','C','E','D','D','A','F']}
df=pd.DataFrame(obj)

# df의 Class열이 B이면, Class_B 열에 1을 추가
df.loc[df['Class']=='B','Class_B']=1
# df의 Class열이 B이 아니면, Class_B 열에 0을 추가
df.loc[df['Class']!='B','Class_B']=0

# df의 Class열이 C이면, Class_C 열에 1을 추가
df.loc[df['Class']=='C','Class_C']=1
# df의 Class열이 B이 아니면, Class_B 열에 0을 추가
df.loc[df['Class']!='C','Class_C']=0

# df의 Class열이 D이면, Class_D 열에 1을 추가
df.loc[df['Class']=='D','Class_D']=1
# df의 Class열이 D이 아니면, Class_D 열에 0을 추가
df.loc[df['Class']!='D','Class_D']=0

# df의 Class열이 E이면, Class_E 열에 1을 추가
df.loc[df['Class']=='E','Class_E']=1
# df의 Class열이 E이 아니면, Class_E 열에 0을 추가
df.loc[df['Class']!='E','Class_E']=0

# df의 Class열이 F이면, Class_F 열에 1을 추가
df.loc[df['Class']=='F','Class_F']=1
# df의 Class열이 F이 아니면, Class_F 열에 0을 추가
df.loc[df['Class']!='F','Class_F']=0

df

Unnamed: 0,Class,Class_B,Class_C,Class_D,Class_E,Class_F
0,A,0.0,0.0,0.0,0.0,0.0
1,B,1.0,0.0,0.0,0.0,0.0
2,A,0.0,0.0,0.0,0.0,0.0
3,C,0.0,1.0,0.0,0.0,0.0
4,E,0.0,0.0,0.0,1.0,0.0
5,D,0.0,0.0,1.0,0.0,0.0
6,D,0.0,0.0,1.0,0.0,0.0
7,A,0.0,0.0,0.0,0.0,0.0
8,F,0.0,0.0,0.0,0.0,1.0


Q. 학생의 id(s1,s2,s3,s4,s5,s6)를 담은 'student_id'컬럼과 시험점수 (55,90,85,71,63,99)를 담은 'socre'컬럽으로 구성된 데이터프레임을 생성하자. 그 후 시험점수가 90점 이상이면 '수', 80점 이상 90점 미만이면 '우', 70점 이상 80점 미만이면 '미', 60점이상 70점미만이면 '양', 60점 미만이면 '가'로 분류하는 'grade'컬럼을 새롭게 생성하고 생성한 'grade'컬럼에 대하여 라벨 인코딩과 원-핫 인코딩을 시행해보자.

In [23]:
# 해당예제는 구간화와 파생변수생성, 인코딩이 모두 필요함
import pandas as pd
from sklearn.preprocessing import LabelEncoder,OneHotEncoder
import numpy as np

# 데이터 프레임 생성
obj={'student_id':['s1','s2','s3','s4','s5','s6'],
     'score':[55,90,85,71,63,99]}
df=pd.DataFrame(obj)
#print(df)

df['grade']=pd.cut(df.score,bins=[0,60,70,80,90,100],labels=['가','양','미','우','수'])
print(df)

  student_id  score grade
0         s1     55     가
1         s2     90     우
2         s3     85     우
3         s4     71     미
4         s5     63     양
5         s6     99     수


In [None]:
# 라벨인코딩
lb_encoder=LabelEncoder()
lb_encoder.fit(df.grade)
lb_lables=lb_encoder.transform(df.grade)
print(lb_lables)

[0 4 4 1 3 2]


In [26]:
print(lb_encoder.classes_)

['가' '미' '수' '양' '우']


In [32]:
# 원핫인코딩
oh_encoder=OneHotEncoder(sparse=False)
oh_encoder.fit(lb_lables.reshape(-1,1))
oh_labels=oh_encoder.transform(lb_lables.reshape(-1,1))
print(oh_labels)

[[1. 0. 0. 0. 0.]
 [0. 0. 0. 0. 1.]
 [0. 0. 0. 0. 1.]
 [0. 1. 0. 0. 0.]
 [0. 0. 0. 1. 0.]
 [0. 0. 1. 0. 0.]]


