# 11-1 dtype 변경(atype)

In [1]:
import numpy as np
import pandas as pd

In [2]:
col1 = [1, 2, 3, 4]
col2 = ['one', 'two', 'three', 'four']
col3 = [1.5, 2.5, 3.5, 4.5]
col4 = [True, False, False, True]
index = ['row1','row2','row3','row4']
df = pd.DataFrame(index=index, data={"col1": col1, "col2": col2, "col3": col3, "col4": col4})
print(df)

      col1   col2  col3   col4
row1     1    one   1.5   True
row2     2    two   2.5  False
row3     3  three   3.5  False
row4     4   four   4.5   True


In [4]:
print(df.dtypes)

col1      int64
col2     object
col3    float64
col4       bool
dtype: object


In [5]:
#한 개의 열만 type 변경
df1 = df.astype({'col1':'int32'})
print(df1.dtypes)

col1      int32
col2     object
col3    float64
col4       bool
dtype: object


In [6]:
df1 = df.astype({'col1': 'int32', 'col3' : 'int64'})
print(df1.dtypes)

col1     int32
col2    object
col3     int64
col4      bool
dtype: object


In [7]:
# 모든 열의 dtype 변경, dtype인수에 원하는 dtype을 입력해주는 것만으로도 가능
df1 = df.astype(dtype = 'int64')
print(df1.dtypes) #object는 int64로 변경할 수 없어서 오류 발생함. 따라서 에러 무시함.

ValueError: invalid literal for int() with base 10: 'one'

In [8]:
df1 = df.astype(dtype = 'int64', errors='ignore')
print(df1.dtypes)

col1     int64
col2    object
col3     int64
col4     int64
dtype: object


# 11-2 열의 dtype 통일(convert_dtypes)
- convert_dtypes : 열의 요소가 혼합된 dtype일 경우, 열의 요소를 같은 dtype으로 통일할 수 있는 가장 합리적인 형식을 갖는 pd.NA로 변환됨.

In [9]:
col1 = ['a','b',np.NaN]
col2 = [True, np.NaN, False]
col3 = [np.NaN, 2, 4]
col4 = [1.4, np.NaN, 2.5]
df = pd.DataFrame(data={'col1':col1,'col2':col2,'col3':col3,'col4':col4},index=['row1','row1','row3'])
print(df)

     col1   col2  col3  col4
row1    a   True   NaN   1.4
row1    b    NaN   2.0   NaN
row3  NaN  False   4.0   2.5


In [10]:
print(df.dtypes)

col1     object
col2     object
col3    float64
col4    float64
dtype: object


In [11]:
result = df.convert_dtypes() #NaN이 <NA>로 바뀌고, 논리값들이 object에서 boolean으로 바뀜
print(result)

      col1   col2  col3  col4
row1     a   True  <NA>   1.4
row1     b   <NA>     2  <NA>
row3  <NA>  False     4   2.5


In [12]:
result.dtypes

col1     string
col2    boolean
col3      Int64
col4    Float64
dtype: object

# 11-3 object 열의 적절 dtype 추론(infer_objects)
- infer_object : dtype이 object인 열에 대해서 적당한 dtype을 추론

In [13]:
col1 = ['a','b', 3, 4]
df = pd.DataFrame({'col1':col1},index=['row1','row2','row3','row4'])
print(df)

     col1
row1    a
row2    b
row3    3
row4    4


In [14]:
print(df.dtypes)

col1    object
dtype: object


In [15]:
df = df.iloc[2:]
print(df)

     col1
row3    3
row4    4


In [16]:
print(df.dtypes)

col1    object
dtype: object


In [17]:
#infer_obejct는 적당한 데이터타입을 제안하는 기능임
print(df.infer_objects())

      col1
row3     3
row4     4


In [18]:
print(df.infer_objects().dtypes)

col1    int64
dtype: object
