## 범주형(category) 데이터 처리 
### 구간 분할
- 연속 데이터는 일정한 구간(bin)으로 나눠서 분석하는 것이 효율적인 경우가 있음
- 연속적인 값을 이산적인 값으로 나타내어 구간별 차이를 드러내는 것
- 각 구간을 범주형 이산 변수로 변환하는 과정 = 구간 분할(binning)
- pandas cut() 함수를 이용하면 연속 데이터를 여러 구간으로 나누고 범주형 데이터로 변환 

- numpy histogram() 함수를 이용하여 경계값 구함 
- 나누려는 구간(bin) 개수를 bins 옵션에 입력하면 구간에 속하는 개수(count)와
경계값 리스트(bin_dividers) 반환

In [1]:
import pandas as pd
import numpy as np 

path = 'C:\\Users\\jswoo\\Desktop\\Repository\\Study_Data_Science\\Pandas_Data_Analytics\\auto-mpg.csv'
df = pd.read_csv(path, header=None)

df.columns = ['mpg', 'cylinders', 'displacement', 'horsepower', 'weight', 
'acceleration', 'model year', 'origin', 'name']

In [2]:
df['horsepower'].replace('?', np.nan, inplace = True)
df.dropna(subset = ['horsepower'], axis = 0, inplace = True)
df['horsepower'] = df['horsepower'].astype('float')

In [3]:
### histogram 함수로 3개의 bin으로 구분할 경계값 리스트를 구함
count, bin_dividers = np.histogram(df['horsepower'], bins = 3)
print(bin_dividers)

[ 46.         107.33333333 168.66666667 230.        ]


- pandas cut() 함수 옵션 설정 
- bin_dividers를 bins 옵션에 할당하고 각 구간의 이름(bin_name)을 labels 옵션에 할당
- include_lowest = True 옵션을 사용하면 각 구간의 낮은 경계값 포함

In [4]:
bin_names = ['저출력', '보통출력', '고출력']

df['hp_bin'] = pd.cut(x = df['horsepower'],
                    bins = bin_dividers,
                    labels = bin_names,
                    include_lowest=True) ### 첫 경계값 포함

print(df[['horsepower', 'hp_bin']].head(15))

    horsepower hp_bin
0        130.0   보통출력
1        165.0   보통출력
2        150.0   보통출력
3        150.0   보통출력
4        140.0   보통출력
5        198.0    고출력
6        220.0    고출력
7        215.0    고출력
8        225.0    고출력
9        190.0    고출력
10       170.0    고출력
11       160.0   보통출력
12       150.0   보통출력
13       225.0    고출력
14        95.0    저출력
