# 여러 가지 자료형을 문자열로 변환하기

In [None]:
import pandas as pd
import seaborn as sns

tips = sns.load_dataset('tips')

In [None]:
# 자료형(category)을 문자형(str = object)로 바꾸기
tips['sex_str'] = tips['sex'].astype('str')
print(tips)

In [None]:
print(tips.dtypes)

# sex           category
# sex_str         object

# 자료형을 변환한 데이터 다시 원래대로 만들기

In [None]:
tips['total_bill'] = tips['total_bill'].astype(str)
print(tips.dtypes)

# total_bill: float64 -> object

In [None]:
tips['total_bill'] = tips['total_bill'].astype(float)
print(tips.dtypes)

# total_bill: object -> float64

# 잘못 입력한 문자열 처리하기

In [None]:
tips_sub_miss = tips.head(10)
tips_sub_miss.loc[[1, 3, 5, 7], 'total_bill'] = 'missing'
print(tips_sub_miss)

#   total_bill   tip     sex smoker  day    time  size sex_str
# 0      16.99  1.01  Female     No  Sun  Dinner     2  Female
# 1    missing  1.66    Male     No  Sun  Dinner     3    Male
# 2      21.01  3.50    Male     No  Sun  Dinner     3    Male
# 3    missing  3.31    Male     No  Sun  Dinner     2    Male

print(tips_sub_miss.dtypes)
# total_bill      object   -> 원래 float64였지만, missing이 들어와 문자열로 바뀜

In [None]:
tips_sub_miss['total_bill'].astype(float)  # ERROR
pd.to_numeric(tips_sub_miss['total_bill'])  # ERROR
# to_numeric을 사용해도 문자열을 실수로 변환할 수 없다. but errors인자에 raise, coerce, ignore을 지정해 오류 제어 가능
#     - raise: 숫자로 변환할 수 없는 값이 있으면 오류 발생
#     - coerce: 숫자로 변환할 수 없는 값을 누락값으로 지정
tips_sub_miss['total_bill'] = pd.to_numeric(tips_sub_miss['total_bill'], errors='coerce')
#     - ignore: 아무작업하지 않음(무시)
tips_sub_miss['total_bill'] = pd.to_numeric(tips_sub_miss['total_bill'], errors='ignore')

# errors인자 외에도 downcast인자 -> 정수, 실수와 같은 자료형을 더 작은 형태로 만듦.
tips_sub_miss['total_bill'] = pd.to_numeric(tips_sub_miss['total_bill'], errors='coerce', downcast='float')
    # total_bill : float64 -> float32

# 문자열을 카테고리로 변환하기

In [None]:
# 카테고리 자료형
# 특징1. 용량과 속도 면에서 매우 효율적
# 특징2. 주로 동일한 문자열이 반복되에 데이터를 구성하는 경우 사용

In [None]:
# info 메소드로 데이터프레임의 용량 확인
tips['sex'] = tips['sex'].astype('str')  # 용량: 10.7KB
tips['sex'] = tips['sex'].astype('category')  # 용량: 9.1KB