In [2]:
#1. 자료형 다루기

import pandas as pd
import seaborn as sns

tips = sns.load_dataset("tips")

# astype 메서드로 문자열로 변환
tips['sex_str'] = tips['sex'].astype(str)
print(tips.dtypes)

total_bill     float64
tip            float64
sex           category
smoker        category
day           category
time          category
size             int64
sex_str         object
dtype: object


In [4]:
# 변환된 데이터를 원래대로 만들기

tips['total_bill'] = tips['total_bill'].astype(str)
print(tips.dtypes)

tips['total_bill'] = tips['total_bill'].astype(float)
print(tips.dtypes)

total_bill      object
tip            float64
sex           category
smoker        category
day           category
time          category
size             int64
sex_str         object
dtype: object
total_bill     float64
tip            float64
sex           category
smoker        category
day           category
time          category
size             int64
sex_str         object
dtype: object


In [12]:
# 잘못 입력한 데이터 처리하기

# 특정 데이터를 잘못 입력한 것으로 만든다.
tips_sub_miss = tips.head(10)
tips_sub_miss.loc[[1, 3, 5, 7], 'total_bill'] = 'missing'
# print(tips_sub_miss)
# total_bill 열이 실수가 아니라 문자열(object)임을 확인할 수 있다.
# print(tips_sub_miss.dtypes)

# tips_sub_miss['total_bill'].astype(float)
# 아래 코드로 실수로 만들려고 하면 에러가 발생한다.
# 문자열(missing) 데이터를 float으로 만들 수 없기 때문
# 해결하기 위해 to_numeric 메서드를 사용한다.

#1. 에러를 무시하는 방법. 오류가 없지만 자료형도 변하지 않음.
tips_sub_miss['total_bill'] = pd.to_numeric(tips_sub_miss['total_bill'],
                                           errors='ignore')
# print(tips_sub_miss.dtypes)

#2. 누락값으로 바꾸는 방법. 자료형이 실수로 바뀜.
tips_sub_miss['total_bill'] = pd.to_numeric(tips_sub_miss['total_bill'],
                                           errors='coerce')
# print(tips_sub_miss.dtypes)

#3. downcast 인자 사용. float64가 float32로 바뀐다.
tips_sub_miss['total_bill'] = pd.to_numeric(tips_sub_miss['total_bill'],
                                           errors='coerce',
                                           downcast='float')
print(tips_sub_miss.dtypes)

total_bill     float32
tip            float64
sex           category
smoker        category
day           category
time          category
size             int64
sex_str         object
dtype: object


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy


In [14]:
#2. 카테고리 자료형

# 카테고리는 용량과 속도면에서 효율적
# 동일한 문자열이 반복되어 데이터를 구성하는 경우 사용한다.

# tips의 sex열의 데이터는 10.7KB 정도의 용량을 차지한다.
tips['sex'] = tips['sex'].astype('str')
print(tips.info())

# category로 변환하니 9.1KB로 줄어들었다.
tips['sex'] = tips['sex'].astype('category')
print(tips.info())

# 카테고리 자료형은 데이터의 크기가 커지면 커질수록 진가를 발휘한다.

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 244 entries, 0 to 243
Data columns (total 8 columns):
total_bill    244 non-null float64
tip           244 non-null float64
sex           244 non-null object
smoker        244 non-null category
day           244 non-null category
time          244 non-null category
size          244 non-null int64
sex_str       244 non-null object
dtypes: category(3), float64(2), int64(1), object(2)
memory usage: 10.7+ KB
None
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 244 entries, 0 to 243
Data columns (total 8 columns):
total_bill    244 non-null float64
tip           244 non-null float64
sex           244 non-null category
smoker        244 non-null category
day           244 non-null category
time          244 non-null category
size          244 non-null int64
sex_str       244 non-null object
dtypes: category(4), float64(2), int64(1), object(1)
memory usage: 9.2+ KB
None
