# 범주형 데이터의 실수화와 범주형 변수의 연속형 변수 변환

## 1. 범주형 데이터의 실수화

### 1) 필요 라이브러리 Import 

In [114]:
import pandas as pd   # pandas package 임포트
from sklearn.preprocessing import LabelEncoder # 범주형 데이터의 실수화 함수 임포트 
from sklearn.preprocessing import OneHotEncoder # 더미 변수 생성,가변환 함수 임포트 

###  2) 데이터 set 생성 및 확인 

In [115]:
# 데이터 set 생성 
x_train = pd.DataFrame(["남성", "여성","남성","여성","남성","여성"], columns=["성별"]) 

In [116]:
# 데이터 확인 
x_train.head(3) 

Unnamed: 0,성별
0,남성
1,여성
2,남성


In [117]:
x_train.info()  # 데이터 프레임의 정보 확인 : object 타입 '성별' 변수 

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 1 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   성별      6 non-null      object
dtypes: object(1)
memory usage: 176.0+ bytes


In [118]:
x_train['성별'].value_counts()  # 범주형 데이터의 갯수 확인 

남성    3
여성    3
Name: 성별, dtype: int64

### 3) 레이블 인코딩 : 문자를 0부터 시작하는 정수형 숫자로 변환 

In [119]:
# 레이블 인코더 생성 
encoing = LabelEncoder()  
# X_train 데이터를 이용하여 피팅하고 레이블 숫자로 변환
encoing.fit(x_train["성별"])
# 
x_train["성별_인코딩"] = encoing.transform(x_train["성별"])

### 4) 인코딩 결과 확인 

In [120]:
x_train 

Unnamed: 0,성별,성별_인코딩
0,남성,0
1,여성,1
2,남성,0
3,여성,1
4,남성,0
5,여성,1


In [121]:
print(list(encoing.classes_))  # 클래스 확인 
print(list(encoing.inverse_transform([1,0])))# 인코딩 값으로 문자값 확인 

['남성', '여성']
['여성', '남성']


## 2. One-Hot Encoding : 더미 변수 생성, 가변환 

### 1) 데이터 확인 (실수화 한 데이터 사용)

In [122]:
x_train.head(2)

Unnamed: 0,성별,성별_인코딩
0,남성,0
1,여성,1


### 2) One-Hot Encoding 

In [131]:
# 원 핫 인코더 생성 
# sparse를 True로 할 경우 "(행, 열) 1"의 좌표리스트의 형식, False로 할 경우 넘파이 배열로 반환
one_encoding = OneHotEncoder(sparse=False) 

# X_train 데이터를 이용하여 피팅 
one_encoding.fit(x_train[["성별"]])

# 가변환 값 변환 
one_encoding.transform(x_train[["성별"]])

# one_encoding.fit_transform(x_train[["성별"]])

array([[1., 0.],
       [0., 1.],
       [1., 0.],
       [0., 1.],
       [1., 0.],
       [0., 1.]])

In [132]:
# 가변환 된 피쳐 확인
print(one_encoding.get_feature_names()) 

['x0_남성' 'x0_여성']


### 3) 인코딩 결과 확인 

In [133]:
# 가변환 된 값을 x_train_one 데이터 프레임으로 저장 
x_train_one = pd.DataFrame(one_encoding.transform(x_train[['성별']]), columns=['성별0', '성별1'])

In [134]:
# x_train 데이터와 x_train_one의 가변환된 속성 합침 
x_train = pd.concat([x_train,x_train_one], axis=1)

In [135]:
# 결과 확인 
x_train.head(3)

Unnamed: 0,성별,성별_인코딩,성별0,성별1
0,남성,0,1.0,0.0
1,여성,1,0.0,1.0
2,남성,0,1.0,0.0
