In [1]:
import pandas as pd

# 자료형 확인
* **데이터프레임.dtyes**
* **시리즈.dtype**
* 한 시리즈에 문자열과 숫자, 문자열과 부울 등으로 데이터타입이 혼합되어 있으면 object형으로 결정된다.
* 한 시리즈에 정수와 실수가 혼합되어 있으면 float64으로 결정된다.

In [4]:
# 샘플데이터
df = pd.DataFrame({'float': [1.0, 2.0],
                    'int': [1,2],
                    'datetime': [pd.Timestamp('20200101'),pd.Timestamp('20210101')],
                    'string': ['a','b'],
                    'bool':[True,False],
                    'object':[1,'-'],
                    'float2' : [1.0, 2]})

In [5]:
df

Unnamed: 0,float,int,datetime,string,bool,object,float2
0,1.0,1,2020-01-01,a,True,1,1.0
1,2.0,2,2021-01-01,b,False,-,2.0


## 데이터프레임의 자료형 확인

In [6]:
# 데이터프레임의 자료형 확인
df.dtypes

float              float64
int                  int64
datetime    datetime64[ns]
string              object
bool                  bool
object              object
float2             float64
dtype: object

## 시리즈의 자료형 확인

In [7]:
# int 컬럼의 자료형 확인
df['int'].dtype

dtype('int64')

## 자료형이 혼합된 컬럼의 자료형 확인

In [11]:
# 숫자형과 문자형이 혼합되어 있는 경우 각 데이터의 자료형 확인
type(df.loc[0,'object'])

int

In [12]:
print(df.loc[1,'object'])
print(type(df.loc[1,'object']))

-
<class 'str'>


# 자료형 변환
* 데이터프레임.**astype**('자료형')
* 시리즈.**astype**('자료형')

In [14]:
# 샘플 데이터
df = pd.DataFrame({'col1': [1, 2], 'col2': [3, 4]})
df

Unnamed: 0,col1,col2
0,1,3
1,2,4


In [15]:
df.dtypes

col1    int64
col2    int64
dtype: object

## 데이터프레임 전체 자료형 변환

In [19]:
# 실수형으로 변환
df = df.astype('float64')
df.dtypes

col1    float64
col2    float64
dtype: object

In [20]:
df

Unnamed: 0,col1,col2
0,1.0,3.0
1,2.0,4.0


In [22]:
# 문자열로 변환
df = df.astype('str')
df.dtypes

col1    object
col2    object
dtype: object

In [23]:
df

Unnamed: 0,col1,col2
0,1.0,3.0
1,2.0,4.0


In [27]:
# 정수형으로 변환
df = df.astype('float').astype('int')
df.dtypes

col1    int32
col2    int32
dtype: object

## 컬럼의 자료형 변환

In [28]:
df

Unnamed: 0,col1,col2
0,1,3
1,2,4


In [31]:
# col2의 자료형만 str로 변환
df['col2'] = df['col2'].astype('str')
df.dtypes

col1     int32
col2    object
dtype: object

In [34]:
# col2의 자료형만 float로변환
df['col2'] = df['col2'].astype('float')
df.dtypes

col1      int32
col2    float64
dtype: object

In [37]:
# col2의 자료형만 int로변환
df['col2'] = df['col2'].astype('int')
df.dtypes

col1    int32
col2    int32
dtype: object

## 자료형이 혼합된 컬럼의 자료형 변환

In [46]:
# 샘플 데이터
df = pd.DataFrame({'col1': [1, 2], 'col2': [3, 4],'col3':[5,'-']})
df

Unnamed: 0,col1,col2,col3
0,1,3,5
1,2,4,-


In [39]:
df.dtypes

col1     int64
col2     int64
col3    object
dtype: object

In [43]:
# col3 컬럼을 str형으로 변환
df['col3'] = df['col3'].astype('str')
type(df.loc[0,'col3'])

str

In [47]:
# 변경할 수 없는 자료가 섞여있으면 error
df['col3'] = df['col3'].astype('int')

ValueError: invalid literal for int() with base 10: '-'

# 자료형이 혼합된 컬럼을 숫자형으로 변경
* pd.to_numeric(컬럼, **errors='ignore'**) : 숫자로 변경할 수 없는 값이 있으면 작업하지 않음
* pd.to_numeric(컬럼, **errors='coerce'**) : 숫자로 변경할 수 없는 값이 NaN으로 설정
* pd.to_numeric(컬럼, **errors='raise'**) :  숫자로 변경할 수 없는 값이 있으면 에러발생(default)

## astype으로 변환

In [54]:
# 모든 값을 숫자로 변경할 수 있음
s1 = pd.Series(['1.0', '2', -3])
s1.astype('float')

0    1.0
1    2.0
2   -3.0
dtype: float64

In [56]:
# 숫자로 변경할 수 없는 데이터가 섞여있음
s2 = pd.Series(['1.0', '2', -3, 'a'])
s2.astype('float')

ValueError: could not convert string to float: 'a'

## to_numeric으로 변환

In [58]:
# ignore:숫자료 변경할 수 없는 데이터가 있으면 작업하지 않음
pd.to_numeric(s2, errors='ignore')

0    1.0
1      2
2     -3
3      a
dtype: object

In [59]:
# coerce:숫자로 변경할 수 없는 값이 NaN으로 설정
pd.to_numeric(s2, errors='coerce')

0    1.0
1    2.0
2   -3.0
3    NaN
dtype: float64

In [62]:
# raise : 숫자로 변경할 수 없는 값이 있으면 에러발생(default)
pd.to_numeric(s2, errors='raise')

ValueError: Unable to parse string "a" at position 3

# 시계열 데이터로 변경
* pd.to_datetime(컬럼)

In [63]:
df = pd.read_csv('data/birth_die.csv')
df.head()

Unnamed: 0,이름,주요경력,출생,사망
0,스티븐 호킹,이론 물리학자,1942-01-08,2018-03-14
1,마이클잭슨,가수,1958-08-29,2009-06-25
2,스티브잡스,CEO,1955-02-24,2011-10-05
3,로빈윌리엄스,배우,1951-07-21,2014-08-11
4,앨빈토플러,미래학자,1928-10-04,2016-06-27


In [64]:
df.dtypes

이름      object
주요경력    object
출생      object
사망      object
dtype: object

## astype으로 변환

In [66]:
# 출생
df['출생'] = df['출생'].astype('datetime64')

In [67]:
df.dtypes

이름              object
주요경력            object
출생      datetime64[ns]
사망              object
dtype: object

## to_datetime으로 변환

In [68]:
# 사망
df['사망'] = pd.to_datetime(df['사망'])

In [69]:
df.dtypes

이름              object
주요경력            object
출생      datetime64[ns]
사망      datetime64[ns]
dtype: object