# 범주형(카테고리) 데이터 처리

In [1]:
import pandas as pd
import numpy as np

In [2]:
df = pd.read_csv('../auto-mpg.csv')

In [3]:
df.columns = ['mpg', 'cylinders', 'displacement', 'horsepower', 'weight', 'acceleration', 'model year', 'origin', 'name']
print(df.head(3))
print('\n')

# mpg(mile per gallon)를 kpl(kilometer per liter)로 변환(mpg_to_kpl = .425)
mpg_to_kpl = 1.60934/3.78541

# mpg 열에 .425를 곱한 결과를 새로운 열(kpl)에 추가
df['kpl'] = df['mpg']*mpg_to_kpl
print(df.head(3))
print('\n')

# kpl열을 소수점 아래 둘째자리에서 반올림
df['kpl'] = df['kpl'].round(2)
print(df.head(3))

    mpg  cylinders  displacement horsepower  weight  acceleration  model year  \
0  15.0          8         350.0      165.0  3693.0          11.5          70   
1  18.0          8         318.0      150.0  3436.0          11.0          70   
2  16.0          8         304.0      150.0  3433.0          12.0          70   

   origin                name  
0       1   buick skylark 320  
1       1  plymouth satellite  
2       1       amc rebel sst  


    mpg  cylinders  displacement horsepower  weight  acceleration  model year  \
0  15.0          8         350.0      165.0  3693.0          11.5          70   
1  18.0          8         318.0      150.0  3436.0          11.0          70   
2  16.0          8         304.0      150.0  3433.0          12.0          70   

   origin                name       kpl  
0       1   buick skylark 320  6.377143  
1       1  plymouth satellite  7.652571  
2       1       amc rebel sst  6.802286  


    mpg  cylinders  displacement horsepower  weigh

In [4]:
df.dtypes

mpg             float64
cylinders         int64
displacement    float64
horsepower       object
weight          float64
acceleration    float64
model year        int64
origin            int64
name             object
kpl             float64
dtype: object

In [5]:
print(df['horsepower'].unique())
print('\n')

['165.0' '150.0' '140.0' '198.0' '220.0' '215.0' '225.0' '190.0' '170.0'
 '160.0' '95.00' '97.00' '85.00' '88.00' '46.00' '87.00' '90.00' '113.0'
 '200.0' '210.0' '193.0' '?' '100.0' '105.0' '175.0' '153.0' '180.0'
 '110.0' '72.00' '86.00' '70.00' '76.00' '65.00' '69.00' '60.00' '80.00'
 '54.00' '208.0' '155.0' '130.0' '112.0' '92.00' '145.0' '137.0' '158.0'
 '167.0' '94.00' '107.0' '230.0' '49.00' '75.00' '91.00' '122.0' '67.00'
 '83.00' '78.00' '52.00' '61.00' '93.00' '148.0' '129.0' '96.00' '71.00'
 '98.00' '115.0' '53.00' '81.00' '79.00' '120.0' '152.0' '102.0' '108.0'
 '68.00' '58.00' '149.0' '89.00' '63.00' '48.00' '66.00' '139.0' '103.0'
 '125.0' '133.0' '138.0' '135.0' '142.0' '77.00' '62.00' '132.0' '84.00'
 '64.00' '74.00' '116.0' '82.00']




In [6]:
df['horsepower'].replace('?', np.nan, inplace=True)
df[df['horsepower'].isna()]

Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,model year,origin,name,kpl
31,25.0,4,98.0,,2046.0,19.0,71,1,ford pinto,10.63
125,21.0,6,200.0,,2875.0,17.0,74,1,ford maverick,8.93
329,40.9,4,85.0,,1835.0,17.3,80,2,renault lecar deluxe,17.39
335,23.6,4,140.0,,2905.0,14.3,80,1,ford mustang cobra,10.03
353,34.5,4,100.0,,2320.0,15.8,81,2,renault 18i,14.67
373,23.0,4,151.0,,3035.0,20.5,82,1,amc concord dl,9.78


In [7]:
df.dropna(subset=['horsepower'], axis=0, inplace=True)
df[df['horsepower'].isna()]

Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,model year,origin,name,kpl


In [8]:
df['horsepower'] = df['horsepower'].astype('float')

In [9]:
print(df['horsepower'].dtype)

float64


In [10]:
print(df['origin'].unique())

[1 3 2]


In [11]:
df['origin'].replace({1: 'USA', 2: 'EU', 3:'JPN'}, inplace=True)

In [12]:
print(df['origin'].unique())

['USA' 'JPN' 'EU']


In [13]:
print(df['origin'].dtypes)

object


In [14]:
df['origin'] = df['origin'].astype('category')
print(df['origin'].dtypes)

category


In [15]:
df['origin'] = df['origin'].astype('str')
print(df['origin'].dtypes)

object


In [16]:
df['model year'].sample()

18    70
Name: model year, dtype: int64

In [17]:
df['model year'].sample(5)

346    81
192    76
122    73
367    82
253    78
Name: model year, dtype: int64

In [18]:
df['model year'] = df['model year'].astype('category')

In [19]:
df['model year'].sample(5)

143    74
234    77
226    77
215    77
69     72
Name: model year, dtype: category
Categories (13, int64): [70, 71, 72, 73, ..., 79, 80, 81, 82]

## 구간 분할

데이터 분석 알고리즘에 따라서는 연속 데이터를 그대로 사용하기 보다는 일정한 구간(bin)으로 나눠서 분석하는 것이 효율적인 경우가 있다.

이처럼 연속 변수를 일정한 구간으로 나누고, 각 구간을 범주형 이산 변수로 변환하는 과정을 구간 분할(binning)이라고 한다. 판다스 cut()함수를 이용하면 연속 데이터를 여러 구간으로 나누고 범주형 데이터로 변환할 수 있다.

경계값을 구하는 방법 중에서 NumPy 라이브러리의 histogram()함수를 활용하는 방법을 설명한다. 나누려는 구간(bin)개수를 bins옵션에 입력하면
각 구간에 속하는 값의 개수(count)와 경계값 리스트(bin_dividers)를 반환한다. 예제에서는 모두 4개의 경계값을 생성하고 3개의 구간이 만들어진다.

In [20]:
df = pd.read_csv('../auto-mpg.csv')

In [21]:
df.columns = ['mpg', 'cylinders', 'displacement', 'horsepower', 'weight', 'acceleration', 'model year', 'origin', 'name']
print(df.head(3))
print('\n')

    mpg  cylinders  displacement horsepower  weight  acceleration  model year  \
0  15.0          8         350.0      165.0  3693.0          11.5          70   
1  18.0          8         318.0      150.0  3436.0          11.0          70   
2  16.0          8         304.0      150.0  3433.0          12.0          70   

   origin                name  
0       1   buick skylark 320  
1       1  plymouth satellite  
2       1       amc rebel sst  




In [22]:
df['horsepower'].replace('?', np.nan, inplace=True)
df.dropna(subset=['horsepower'], axis=0, inplace=True)
df['horsepower'] = df['horsepower'].astype('float')

In [23]:
# np.histogram 함수로 3개의 bin으로 구분할 경계값의 리스트 구하기
count, bin_dividers = np.histogram(df['horsepower'], bins = 3)
print(bin_dividers)

[ 46.         107.33333333 168.66666667 230.        ]


In [24]:
# 3개의 bin에 이름 지정
bin_names = ['저출력', '보통출력', '고출력']

# pd.cut 함수로 각 데이터를 3개의 bin에 할당
df['hp_bin'] = pd.cut(x=df['horsepower'],
                     bins=bin_dividers,
                     labels=bin_names,
                     include_lowest=True)

# horsepower 열, hp_bin 열의 첫 15행 출력
print(df[['horsepower', 'hp_bin']].head(15))

    horsepower hp_bin
0        165.0   보통출력
1        150.0   보통출력
2        150.0   보통출력
3        140.0   보통출력
4        198.0    고출력
5        220.0    고출력
6        215.0    고출력
7        225.0    고출력
8        190.0    고출력
9        170.0    고출력
10       160.0   보통출력
11       150.0   보통출력
12       225.0    고출력
13        95.0    저출력
14        95.0    저출력
