# [pd.to_numeric]데이터에서 object 를 숫자로 바꾸기

In [66]:
import numpy as np
import pandas as pd

# make a DataFrame
df = pd.DataFrame({'col_str': ['1', '2', '3', '4', '5']})
df

Unnamed: 0,col_str
0,1
1,2
2,3
3,4
4,5


In [67]:
df.dtypes
# 아니! datatype 이 object 이다! 이 경우 숫자로 취급이 안되어서 데이터 분석을 할 수가 없다.

col_str    object
dtype: object

In [68]:
df['col_int'] = pd.to_numeric(df['col_str'])
df

Unnamed: 0,col_str,col_int
0,1,1
1,2,2
2,3,3
3,4,4
4,5,5


In [69]:
df.dtypes
# 오! pd.to_numeric(df[]) 은 df[] 을 int 의 형식으로 바꾸어준다!

col_str    object
col_int     int64
dtype: object

# [apply()/pd.to_numeric()] 다수의 문자열 칼럼을 숫자형으로 바꾸기

In [70]:
df2 = pd.DataFrame({'col_str_1': ['1', '2', '3'], 
                   'col_str_2': ['4', '5', '6'], 
                   'col_str_3': ['7.0', '8.1', '9.2']})
df2.dtypes

col_str_1    object
col_str_2    object
col_str_3    object
dtype: object

In [71]:
# convert 'col_str_1' and 'col_str_2' to numeric
df2[['col_int_1', 'col_int_2']] = df2[['col_str_1', 'col_str_2']].apply(pd.to_numeric)
df2.dtypes

col_str_1    object
col_str_2    object
col_str_3    object
col_int_1     int64
col_int_2     int64
dtype: object

# [astype()] df의 모든 col 의 type을 한번에 바꾸기

In [72]:
df3 = pd.DataFrame({'col_str_1': ['1', '2', '3'], 
                    'col_str_2': ['4', '5', '6'], 
                   'col_str_3': ['7.0', '8.1', '9.2']})

In [73]:
df3=df3.astype(float)
df3.dtypes

col_str_1    float64
col_str_2    float64
col_str_3    float64
dtype: object

# [errors = 'coerce']숫자와 문자가 포함된 data가 같이 있을 경우

숫자로 된 object 와, 문자로 된 object 가 같이 있는경우, 일반적으로 바꾸려면 error 가 뜬다. 즉 이런경우는pd.to_numeric(df, errors = 'coerce') 로 하면, bbb 같은 문자열은 NAN 으로 처리한다.

In [74]:
df8 = pd.DataFrame({'col_1': ['1', '2', '3'], 
                   'col_2': ['4', 'bbb', '6']})
df8

Unnamed: 0,col_1,col_2
0,1,4
1,2,bbb
2,3,6


In [75]:
df8 = df8.apply(pd.to_numeric, errors = 'coerce')
df8

Unnamed: 0,col_1,col_2
0,1,4.0
1,2,
2,3,6.0
