# 타입 변환

데이터 생성

In [28]:
import pandas as pd

df = pd.DataFrame({'판매일': ['5/11/21', '5/12/21', '5/13/21', '5/14/21', '5/15/21'],
                   '판매량': ['10', '15', '20', '25', '30'], '방문자수': ['10', '-', '17', '23', '25'],
                   '기온': ['24.1', '24.3', '24.8', '25', '25.4']})

In [14]:
df

Unnamed: 0,판매일,판매량,방문자수,기온
0,5/11/21,10,10,24.1
1,5/12/21,15,-,24.3
2,5/13/21,20,17,24.8
3,5/14/21,25,23,25.0
4,5/15/21,30,25,25.4


In [15]:
df.dtypes

판매일     object
판매량     object
방문자수    object
기온      object
dtype: object

In [16]:
df['판매량 보정'] = df['판매량'] + 1

TypeError: ignored

In [29]:
df = df.astype({'판매량': 'int'})   # 컬럼의 타입을 변경하는 방법
df.dtypes

판매일     object
판매량      int64
방문자수    object
기온      object
dtype: object

In [30]:
df['판매량 보정'] = df['판매량'] + 1

In [31]:
df

Unnamed: 0,판매일,판매량,방문자수,기온,판매량 보정
0,5/11/21,10,10,24.1,11
1,5/12/21,15,-,24.3,16
2,5/13/21,20,17,24.8,21
3,5/14/21,25,23,25.0,26
4,5/15/21,30,25,25.4,31


방문자수를 숫자 타입으로 변경

In [34]:
df.astype({'방문자수': 'int'})    # '-' 때문에 변경 불가

ValueError: ignored

In [35]:
pd.to_numeric(df['방문자수']) # 숫자타입으로 변경하는 다른 방법 (여전히 '-' 때문에 되지 않음)

ValueError: ignored

In [38]:
pd.to_numeric(df['방문자수'], errors='coerce')  # 에러가 나는 경우 nan값으로 변경

0    10.0
1     NaN
2    17.0
3    23.0
4    25.0
Name: 방문자수, dtype: float64

In [39]:
df['방문자수'] = pd.to_numeric(df['방문자수'], errors='coerce')

In [40]:
df

Unnamed: 0,판매일,판매량,방문자수,기온,판매량 보정
0,5/11/21,10,10.0,24.1,11
1,5/12/21,15,,24.3,16
2,5/13/21,20,17.0,24.8,21
3,5/14/21,25,23.0,25.0,26
4,5/15/21,30,25.0,25.4,31


In [41]:
df.dtypes

판매일        object
판매량         int64
방문자수      float64
기온         object
판매량 보정      int64
dtype: object

In [43]:
df['방문자수'].astype(int)    # nan값 때문에 변환 오류

IntCastingNaNError: ignored

In [52]:
df['방문자수'].fillna(df['방문자수'].mean(), inplace=True)  # 방문자수의 평균으로 결측치 채우기
df

Unnamed: 0,판매일,판매량,방문자수,기온,판매량 보정
0,5/11/21,10,10.0,24.1,11
1,5/12/21,15,18.75,24.3,16
2,5/13/21,20,17.0,24.8,21
3,5/14/21,25,23.0,25.0,26
4,5/15/21,30,25.0,25.4,31


In [56]:
df['방문자수'] = df['방문자수'].astype(int)
df

Unnamed: 0,판매일,판매량,방문자수,기온,판매량 보정
0,5/11/21,10,10,24.1,11
1,5/12/21,15,18,24.3,16
2,5/13/21,20,17,24.8,21
3,5/14/21,25,23,25.0,26
4,5/15/21,30,25,25.4,31


In [57]:
df.dtypes

판매일       object
판매량        int64
방문자수       int64
기온        object
판매량 보정     int64
dtype: object

판매일을 datetime 형태로 바꾸기

In [59]:
df['판매일'] = pd.to_datetime(df['판매일'], format="%m/%d/%y")
df

Unnamed: 0,판매일,판매량,방문자수,기온,판매량 보정
0,2021-05-11,10,10,24.1,11
1,2021-05-12,15,18,24.3,16
2,2021-05-13,20,17,24.8,21
3,2021-05-14,25,23,25.0,26
4,2021-05-15,30,25,25.4,31


In [60]:
df.dtypes

판매일       datetime64[ns]
판매량                int64
방문자수               int64
기온                object
판매량 보정             int64
dtype: object