# 범주형 데이터 처리
## 구간 분할
- 열속적인 연속변수를 일정한구간으로 나누고, 각 구간을 범주형 이산 변수로 변환하는 과정
- 데이터 분석 알고리즘에 따라서, 연속데이터를 그대로 사용하기 보다는 일정한 구간(bin)으로 나눠서 분석하는 것이 훨씬 효율적일 때가 있다.
- 판다스의 cut()함수를 이용하면 연속데이터를 여러구간으로 나누어 범주형 데이터로 변환할 수 있다.

In [1]:
import pandas as pd
import numpy as np
df=pd.read_csv('auto-mpg,csv')
df.columns=['mpg','cylinders','displacement','horsepower','weight','acceleration','model year','origin','name']

df.head()

Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,model year,origin,name
0,15.0,8,350.0,165.0,3693.0,11.5,70,1,buick skylark 320
1,18.0,8,318.0,150.0,3436.0,11.0,70,1,plymouth satellite
2,16.0,8,304.0,150.0,3433.0,12.0,70,1,amc rebel sst
3,17.0,8,302.0,140.0,3449.0,10.5,70,1,ford torino
4,15.0,8,429.0,198.0,4341.0,10.0,70,1,ford galaxie 500


In [3]:
df['horsepower'].replace('?', np.nan, inplace=True)
df.dropna(subset=['horsepower'], axis=0, inplace=True)
df['horsepower']=df['horsepower'].astype('float')
df

Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,model year,origin,name
0,15.0,8,350.0,165.0,3693.0,11.5,70,1,buick skylark 320
1,18.0,8,318.0,150.0,3436.0,11.0,70,1,plymouth satellite
2,16.0,8,304.0,150.0,3433.0,12.0,70,1,amc rebel sst
3,17.0,8,302.0,140.0,3449.0,10.5,70,1,ford torino
4,15.0,8,429.0,198.0,4341.0,10.0,70,1,ford galaxie 500
...,...,...,...,...,...,...,...,...,...
392,27.0,4,140.0,86.0,2790.0,15.6,82,1,ford mustang gl
393,44.0,4,97.0,52.0,2130.0,24.6,82,2,vw pickup
394,32.0,4,135.0,84.0,2295.0,11.6,82,1,dodge rampage
395,28.0,4,120.0,79.0,2625.0,18.6,82,1,ford ranger


> numpy의 hostogram()함수 : data값, bins="나눌구간"

In [6]:
import numpy as np
bins = np.arange(20,55,5)
count,bin_div=np.histogram(df['horsepower'], bins=3)
print(count,bin_div)

[257 102  32] [ 46.         107.33333333 168.66666667 230.        ]


In [9]:
bin_name=['저출력','보통출력','고출력']
# pd.cut()을 활용하여 각 데이터를 bin에 할당

df['hp_bin']=pd.cut(x=df['horsepower'], #데이터배열
                   bins=bin_div, # 경계값 리스트
                   labels=bin_name, # bin 이름
                   include_lowest=True) #각 구간 낮은경계값 포함

df[['horsepower','hp_bin']].head(15)

Unnamed: 0,horsepower,hp_bin
0,165.0,보통출력
1,150.0,보통출력
2,150.0,보통출력
3,140.0,보통출력
4,198.0,고출력
5,220.0,고출력
6,215.0,고출력
7,225.0,고출력
8,190.0,고출력
9,170.0,고출력


## 더미변수
- 범주형 데이터로 변환을 해도, 머신러닝 알고리즘에서 바로 사용할 경우가 발생하는데 이때, 컴퓨터가 인식 가능한 값으로 변환을 해줘야한다.
- 0과 1로 표현되는 더미 변수로 변환을 한다. 이를 통해 True False로 구별
- 범주형 데이터를 컴퓨터가 인식할 수 있는 숫자 0과1 로 구성이 되는 것을 원핫인코딩이라 한다.
- 판다스에서는 get_dummies()함수를 이용

In [10]:
hp_dummies=pd.get_dummies(df['hp_bin'])

In [11]:
hp_dummies

Unnamed: 0,저출력,보통출력,고출력
0,0,1,0
1,0,1,0
2,0,1,0
3,0,1,0
4,0,0,1
...,...,...,...
392,1,0,0
393,1,0,0
394,1,0,0
395,1,0,0
