In [17]:
import pandas as pd

# Pandas 데이터 타입 선택과 원핫인코딩

특정 데이터 타입의 column을 선택하고, 머신러닝을 위한 원핫인코딩을 학습합니다.

**학습 목표:**
- `select_dtypes()`로 데이터 타입별 column 선택
- `include`와 `exclude` 옵션 활용
- 원핫인코딩(One-hot-encoding)의 개념 이해
- `pd.get_dummies()`로 원핫인코딩 적용

---

## 실습에 활용한 예제

[국내 아이돌 평판지수 (csv)](http://bit.ly/ds-korean-idol)

## DataFrame 로드

In [18]:
df = pd.read_csv('https://bit.ly/ds-korean-idol')

In [19]:
df

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928
5,정국,방탄소년단,빅히트,남자,1997-09-01,178.0,A,5208335
6,민현,뉴이스트,플레디스,남자,1995-08-09,182.3,O,4989792
7,소연,아이들,큐브,여자,1998-08-26,,B,4668615
8,진,방탄소년단,빅히트,남자,1992-12-04,179.2,O,4570308
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,167.1,A,4036489


## 1. 데이터 타입별 column 선택 (select_dtypes)

In [20]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 15 entries, 0 to 14
Data columns (total 8 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   이름       15 non-null     object 
 1   그룹       14 non-null     object 
 2   소속사      15 non-null     object 
 3   성별       15 non-null     object 
 4   생년월일     15 non-null     object 
 5   키        13 non-null     float64
 6   혈액형      15 non-null     object 
 7   브랜드평판지수  15 non-null     int64  
dtypes: float64(1), int64(1), object(6)
memory usage: 1.1+ KB


### 1-1. 문자열이 있는 column 만 선택

In [25]:
import pandas as pd


In [26]:
# df중에서 object 타입의 컬럼만 선택
df.select_dtypes(include ='object')

Unnamed: 0,이름,그룹,소속사,성별,생년월일,혈액형
0,지민,방탄소년단,빅히트,남자,1995-10-13,A
1,지드래곤,빅뱅,YG,남자,1988-08-18,A
2,강다니엘,,커넥트,남자,1996-12-10,A
3,뷔,방탄소년단,빅히트,남자,1995-12-30,AB
4,화사,마마무,RBW,여자,1995-07-23,A
5,정국,방탄소년단,빅히트,남자,1997-09-01,A
6,민현,뉴이스트,플레디스,남자,1995-08-09,O
7,소연,아이들,큐브,여자,1998-08-26,B
8,진,방탄소년단,빅히트,남자,1992-12-04,O
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,A


In [None]:
# df중에서 object 타입을 제외한 컬럼만 선택
df.select_dtypes(exclude='object')

Unnamed: 0,키,브랜드평판지수
0,173.6,10523260
1,177.0,9916947
2,180.0,8273745
3,178.0,8073501
4,162.1,7650928
5,178.0,5208335
6,182.3,4989792
7,,4668615
8,179.2,4570308
9,167.1,4036489


문자열이 포함된 DataFrame의 연산으로 발생되는 Error를 피하기 위해서는...

In [None]:
# df에 10을 더하면 에러 생성(그안에 문자열 데이터타입을 포함하므로)
# df + 10

In [None]:
# 데이터프레임에서 object 타입의 컬럼을 선택하고 10을 더하는 코드
#object+ int는 불가능하므로 astype(int)로 변환
# df.select_dtypes(include='object') + 10

In [27]:
df.select_dtypes(exclude='object') + 10

Unnamed: 0,키,브랜드평판지수
0,183.6,10523270
1,187.0,9916957
2,190.0,8273755
3,188.0,8073511
4,172.1,7650938
5,188.0,5208345
6,192.3,4989802
7,,4668625
8,189.2,4570318
9,177.1,4036499


In [28]:
num_cols = df.select_dtypes(exclude='object').columns
obj_cols = df.select_dtypes(include='object').columns

In [29]:
df[obj_cols]

Unnamed: 0,이름,그룹,소속사,성별,생년월일,혈액형
0,지민,방탄소년단,빅히트,남자,1995-10-13,A
1,지드래곤,빅뱅,YG,남자,1988-08-18,A
2,강다니엘,,커넥트,남자,1996-12-10,A
3,뷔,방탄소년단,빅히트,남자,1995-12-30,AB
4,화사,마마무,RBW,여자,1995-07-23,A
5,정국,방탄소년단,빅히트,남자,1997-09-01,A
6,민현,뉴이스트,플레디스,남자,1995-08-09,O
7,소연,아이들,큐브,여자,1998-08-26,B
8,진,방탄소년단,빅히트,남자,1992-12-04,O
9,하성운,핫샷,스타크루이엔티,남자,1994-03-22,A


## 2. 원핫인코딩 (One-hot-encoding)

* 원핫인코딩은 한개의 요소는 True 그리고 나머지 요소는 False로 만들어 주는 기법입니다.
* 원핫인코딩을 왜 필요할까요?

In [39]:
df = pd.read_csv('https://bit.ly/ds-korean-idol')

In [40]:
df.head()

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928


In [41]:
# 혈액형 : A, B, AB, O
# 인공지능 모델에서 학습 혹은 예측에서 사용하려면 원핫인코딩 권장
# 문자열 -> 정수로 변환 -> 원핫인코딩으로변환
# map() 함수 사용
blood_map = {
    'A': 0, 
    'B': 1,
    'AB': 2, 
    'O': 3,
} 

In [42]:
# 혈액형_code 열을 추가
df['혈액형_code'] = df['혈액형'].map(blood_map)


In [43]:
df.head()

Unnamed: 0,이름,그룹,소속사,성별,생년월일,키,혈액형,브랜드평판지수,혈액형_code
0,지민,방탄소년단,빅히트,남자,1995-10-13,173.6,A,10523260,0
1,지드래곤,빅뱅,YG,남자,1988-08-18,177.0,A,9916947,0
2,강다니엘,,커넥트,남자,1996-12-10,180.0,A,8273745,0
3,뷔,방탄소년단,빅히트,남자,1995-12-30,178.0,AB,8073501,2
4,화사,마마무,RBW,여자,1995-07-23,162.1,A,7650928,0


In [44]:
#  숫자가 고유한 값이 몇개가 있는지 확인,숫자값의 갯수를 카운트
df['혈액형_code'].value_counts()

혈액형_code
0    7
3    4
2    2
1    2
Name: count, dtype: int64

* 우리가 만약 df['혈액형_code']를 머신러닝 알고리즘에 그대로 넣어 데이터를 예측하라고 지시한다면, 컴퓨터는 '혈액형_code'안에서 **값들간의 관계를 스스로 형성**하게 됩니다.
* 이 상황에서 만약 B형은 1, AB형은 2라는 값을 가지고 있는데, 컴퓨터는 B형 + **AB형 = O형이다라고 잘못 관계**를 맺을 수 있게 됩니다.
* 따라서, 우리는 4개의 별도의 column을 형성해주고 1개의 column에는 True 나머지는 모두 False를 넣어 줌으로써 **A, B, AB, O형의 관계는 독립적이다**를 표현해줍니다.
* 이를 원핫인코딩이라고 합니다.


In [45]:
df['혈액형_code']

0     0
1     0
2     0
3     2
4     0
5     0
6     3
7     1
8     3
9     0
10    0
11    1
12    2
13    3
14    3
Name: 혈액형_code, dtype: int64

In [46]:
# pandas에서 원핫인코딩과 동일한 역할을 하는 함수
pd.get_dummies(df['혈액형_code'])

Unnamed: 0,0,1,2,3
0,True,False,False,False
1,True,False,False,False
2,True,False,False,False
3,False,False,True,False
4,True,False,False,False
5,True,False,False,False
6,False,False,False,True
7,False,True,False,False
8,False,False,False,True
9,True,False,False,False


prefix를 설정하려면?

In [None]:
# prefix test(예시:test_0,test_1, test_2, test_3
pd.get_dummies(df['혈액형_code'], prefix='혈액형')

Unnamed: 0,혈액형_0,혈액형_1,혈액형_2,혈액형_3
0,True,False,False,False
1,True,False,False,False
2,True,False,False,False
3,False,False,True,False
4,True,False,False,False
5,True,False,False,False
6,False,False,False,True
7,False,True,False,False
8,False,False,False,True
9,True,False,False,False


In [49]:
df2 = pd.get_dummies(df['혈액형_code'],prefix='혈액형')
df2

Unnamed: 0,혈액형_0,혈액형_1,혈액형_2,혈액형_3
0,True,False,False,False
1,True,False,False,False
2,True,False,False,False
3,False,False,True,False
4,True,False,False,False
5,True,False,False,False
6,False,False,False,True
7,False,True,False,False
8,False,False,False,True
9,True,False,False,False


나중에 머신러닝 알고리즘으로 발전하기 위해서는 꼭 알아야하는 개념입니다!

지금은 원핫인코딩의 개념만 이해하셔도 충분합니다^0^

---
## 정리

| 함수/메서드 | 설명 | 예시 |
|------------|------|------|
| `select_dtypes(include='object')` | 문자열 column만 선택 | `df.select_dtypes(include='object')` |
| `select_dtypes(exclude='object')` | 숫자형 column만 선택 | `df.select_dtypes(exclude='object')` |
| `pd.get_dummies()` | 원핫인코딩 적용 | `pd.get_dummies(df['col'])` |
| `prefix` 옵션 | 인코딩 column 접두사 설정 | `pd.get_dummies(df['col'], prefix='혈액형')` |

**원핫인코딩이 필요한 이유:**
- 범주형 데이터를 숫자로 변환할 때 값들 간 잘못된 관계 형성 방지
- 예: A=0, B=1, AB=2, O=3일 때, 컴퓨터가 "A + AB = O"라고 해석할 수 있음
- 각 범주를 독립적인 column으로 분리하여 관계의 독립성 보장