자료들은 단위, 대소문자, 약칭 등을 통해 여러 형태로 표현된다.
때문에 서로 다른 단위가 섞여 있거나 같은 대상을 다른 형식으로 표현한 문제들이 발생한다. 이처럼 동일한 대상을 표현하는 방법에 차이가 있으면, 분석의 정확도는 낮아진다. 따라서 데이터를 표준화하는 작업이 필요하다.

<h3> 단위 환산 </h3>

같은 데이터셋 안에서 서로 다른 측정 단위를 사용하면 일관성 측면에서 문제가 발생한다. 따라서 **측정 단위를 동일하게 맞출 필요가 있다**. <br>
CSV 파일의 'mpg'열은 영미권에서 사용하는 '갤런당 마일(mile per gallon)' 단위로 연비를 표현했다. 이를 '리터당 킬로미터(km/h)' 단위로 변환해 보자. 1마일은 1.60934km 이고, 1갤런은 3.78541리터이다.

In [15]:
import pandas as pd

df = pd.read_csv('auto-mpg.csv', header = None)

df.columns = ['mpg','cylinders','displacement','horsepower','weight',
              'acceleration','model year','origin','name'] 
print(df.head(3))    
print('\n')

mpg_to_kpl = 1.60934 / 3.78541

df['kpl'] = df['mpg'] * mpg_to_kpl
print(df.head())
print('\n')

df['kpl'] = df['kpl'].round(2) # 소숫점 둘째 자리까지 남긴다.
print(df.head())

    mpg  cylinders  displacement  ... model year  origin                       name
0  18.0          8         307.0  ...         70       1  chevrolet chevelle malibu
1  15.0          8         350.0  ...         70       1          buick skylark 320
2  18.0          8         318.0  ...         70       1         plymouth satellite

[3 rows x 9 columns]


    mpg  cylinders  displacement  ... origin                       name       kpl
0  18.0          8         307.0  ...      1  chevrolet chevelle malibu  7.652571
1  15.0          8         350.0  ...      1          buick skylark 320  6.377143
2  18.0          8         318.0  ...      1         plymouth satellite  7.652571
3  16.0          8         304.0  ...      1              amc rebel sst  6.802286
4  17.0          8         302.0  ...      1                ford torino  7.227428

[5 rows x 10 columns]


    mpg  cylinders  displacement  ... origin                       name   kpl
0  18.0          8         307.0  ...      1 

<h3> 자료형 반환 </h3>

숫자가 문자열(object)로 저장된 경우 숫자형(int, float)으로 변환해야 한다. <br>
**dtypes 속성**을 이용해 데이터프레임을 구성하는 각 열의 자료형을 확인할 수 있다.

* info() 메소드를 사용해도 상관없다.

In [7]:
df = pd.read_csv('auto-mpg.csv', header = None)

df.columns = ['mpg','cylinders','displacement','horsepower','weight',
              'acceleration','model year','origin','name'] 

print(df.dtypes)

mpg             float64
cylinders         int64
displacement    float64
horsepower       object
weight          float64
acceleration    float64
model year        int64
origin            int64
name             object
dtype: object


'horsepower' 열은 엔진 출력을 나타내므로 숫자형이 적절하지만 문자열로 저장되어 있다. 엔진 출력이 문자열로 저장된 이유는 열의 고유값을 출력해보면 알 수 있다. <br>
**unique() 함수**를 통해 고유값을 확인해보자.

In [8]:
print(df['horsepower'].unique())

['130.0' '165.0' '150.0' '140.0' '198.0' '220.0' '215.0' '225.0' '190.0'
 '170.0' '160.0' '95.00' '97.00' '85.00' '88.00' '46.00' '87.00' '90.00'
 '113.0' '200.0' '210.0' '193.0' '?' '100.0' '105.0' '175.0' '153.0'
 '180.0' '110.0' '72.00' '86.00' '70.00' '76.00' '65.00' '69.00' '60.00'
 '80.00' '54.00' '208.0' '155.0' '112.0' '92.00' '145.0' '137.0' '158.0'
 '167.0' '94.00' '107.0' '230.0' '49.00' '75.00' '91.00' '122.0' '67.00'
 '83.00' '78.00' '52.00' '61.00' '93.00' '148.0' '129.0' '96.00' '71.00'
 '98.00' '115.0' '53.00' '81.00' '79.00' '120.0' '152.0' '102.0' '108.0'
 '68.00' '58.00' '149.0' '89.00' '63.00' '48.00' '66.00' '139.0' '103.0'
 '125.0' '133.0' '138.0' '135.0' '142.0' '77.00' '62.00' '132.0' '84.00'
 '64.00' '74.00' '116.0' '82.00']


문자열 '?'가 열에 포함되어 다른 숫자도 모두 문자열로 처리된 것이다. 나머지 값은 모두 숫자형으로 바꾸는 것이 적절하다. <br>
먼저 **replace() 함수**를 사용해 '?'를 np.nan값으로 변환고 해당 열을 dropna() 메소드를 사용해 제거하자. 그러면 'horsepower'열에는 숫자형으로 변환 가능한 값들만 남으므로 **astype() 메소드**를 사용해 문자열을 실수형으로 변환할 수 있다.

* 실수형이면 astype('float') 정수형이면 astype('int')를 사용한다.

In [9]:
import numpy as np
df['horsepower'].replace('?', np.nan, inplace = True)
df.dropna(subset = ['horsepower'], axis = 0, inplace = True)
df['horsepower'] = df['horsepower'].astype('float')

print(df['horsepower'].dtypes)

float64


'origin'열에는 1, 2, 3값이 들어있지만, 각각 'USA, EU, JPN'를 의미한다. replace() 메소드를 사용해 각 숫자 데이터를 국가이름으로 바꾸면 object 자료형으로 자동 변경된다.

In [10]:
print(df['origin'].unique())

[1 3 2]


In [11]:
df['origin'].replace({1: 'USA', 2: 'EU', 3: 'JPN'}, inplace = True)

print(df['origin'].unique())
print(df['origin'].dtypes)

['USA' 'JPN' 'EU']
object


'origin'열과 같이 유한개의 고유값이 반복적으로 나타나는 경우 **범주형(category) 데이터**로 표현하는 것이 효율적이다. 

* 카테고리 데이터로 변환하려면 astype('category') 함수를 사용하면 된다.

In [12]:
df['origin'] = df['origin'].astype('category')
print(df['origin'].dtypes)

df['origin'] = df['origin'].astype('str')
print(df['origin'].dtypes)

category
object


'model year'열은 모델 출시연도를 숫자로 기록한 데이터이다. 연도를 뜻하므로 숫자형으로 남겨도 무방하지만 시간적인 순서의 의미는 있으나 숫자의 상대적인 크기는 별 의미가 없다. 따라서 데이터는 숫자 형태를 가져도 자료형은 범주형으로 표현하는 것이 적절하다.

In [13]:
print(df['model year'].sample(3))
df['model year'] = df['model year'].astype('category')
print(df['model year'].sample(3))

284    79
163    75
256    78
Name: model year, dtype: int64
24     70
346    81
304    79
Name: model year, dtype: category
Categories (13, int64): [70, 71, 72, 73, ..., 79, 80, 81, 82]
