# 자료형을 자유자재로 변환하기

## 대상 데이터셋 로딩

In [1]:
import pandas as pd
import seaborn as sns

tips = sns.load_dataset("tips")
tips[:5]

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.5,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4


In [2]:
# 데이터셋을 구성하는 각 변수컬럼의 자료형확인
tips.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 244 entries, 0 to 243
Data columns (total 7 columns):
total_bill    244 non-null float64
tip           244 non-null float64
sex           244 non-null category
smoker        244 non-null category
day           244 non-null category
time          244 non-null category
size          244 non-null int64
dtypes: category(4), float64(2), int64(1)
memory usage: 7.2 KB


## 카테고리 자료형을 문자열 자료형으로 변환하기

In [3]:
# 타임 변수컬럼의 자료형식 확인1
tips['time'].dtype
# - time을 tips 데이터프레임에 속한 
#   하나의 변수컬럼으로 고려하여 '객체[]' 방식을 이용한 인덱싱방법

CategoricalDtype(categories=['Lunch', 'Dinner'], ordered=False)

In [4]:
# 타임 변수컬럼의 자료형식 확인2
tips.time.dtype
# - time을 tips 데이터프레임에 속한 
#   하나의 속성으로 고려하여 '객체.속성' 방식을 이용한 인덱싱방법

CategoricalDtype(categories=['Lunch', 'Dinner'], ordered=False)

In [5]:
# 타임 변수컬럼의 자료형식을 카테고리에서 문자열로 변경
# - 파생변수를 만들어서 새롭게 추가함

tips['time_str'] = tips['time'].astype('str') # '객체[]' 방식을 이용
tips['time2_str'] = tips.time.astype('str') # 객체.속성' 방식을 이용

print(tips.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 244 entries, 0 to 243
Data columns (total 9 columns):
total_bill    244 non-null float64
tip           244 non-null float64
sex           244 non-null category
smoker        244 non-null category
day           244 non-null category
time          244 non-null category
size          244 non-null int64
time_str      244 non-null object
time2_str     244 non-null object
dtypes: category(4), float64(2), int64(1), object(2)
memory usage: 11.0+ KB
None


## 문자열 자료형을 카테고리 자료형으로 변환하기

In [6]:
# 파생변수로 만들어진 time 관련 문자열 변수들의 자료형을
# 문자열에서 카테고리로 변경

tips['time_str'] = tips['time_str'].astype('category') # '객체[]' 방식을 이용
tips['time_str'] = tips.time_str.astype('category') # 객체.속성' 방식을 이용

print(tips.info())
# - 문자열 자료형을 카테고리 자료형으로 변형시 
#   데이터프레임의 용량이 절약됨

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 244 entries, 0 to 243
Data columns (total 9 columns):
total_bill    244 non-null float64
tip           244 non-null float64
sex           244 non-null category
smoker        244 non-null category
day           244 non-null category
time          244 non-null category
size          244 non-null int64
time_str      244 non-null category
time2_str     244 non-null object
dtypes: category(5), float64(2), int64(1), object(1)
memory usage: 9.5+ KB
None


## 숫자형을 문자로, 문자형을 다시 숫자로 변환하기 

In [7]:
# 숫자형인 total_bill 변수컬럼의 자료형식을 문자열 형식으로 변환
tips['total_bill'] = tips['total_bill'].astype(str) 
tips['total_bill'] = tips.total_bill.astype(str) 
print(tips.dtypes)

total_bill      object
tip            float64
sex           category
smoker        category
day           category
time          category
size             int64
time_str      category
time2_str       object
dtype: object


In [8]:
# 문자열인 total_bill 변수컬럼의 자료형식을 다시 숫자형 형식으로 변환
tips['total_bill'] = tips['total_bill'].astype(float) 
print(tips.dtypes)

total_bill     float64
tip            float64
sex           category
smoker        category
day           category
time          category
size             int64
time_str      category
time2_str       object
dtype: object


# 잘못 입력한 문자열 처리하기

In [9]:
# 실습용 서브셋 추출
tips_sub_miss = tips.head(10)
tips_sub_miss

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,time_str,time2_str
0,16.99,1.01,Female,No,Sun,Dinner,2,Dinner,Dinner
1,10.34,1.66,Male,No,Sun,Dinner,3,Dinner,Dinner
2,21.01,3.5,Male,No,Sun,Dinner,3,Dinner,Dinner
3,23.68,3.31,Male,No,Sun,Dinner,2,Dinner,Dinner
4,24.59,3.61,Female,No,Sun,Dinner,4,Dinner,Dinner
5,25.29,4.71,Male,No,Sun,Dinner,4,Dinner,Dinner
6,8.77,2.0,Male,No,Sun,Dinner,2,Dinner,Dinner
7,26.88,3.12,Male,No,Sun,Dinner,4,Dinner,Dinner
8,15.04,1.96,Male,No,Sun,Dinner,2,Dinner,Dinner
9,14.78,3.23,Male,No,Sun,Dinner,2,Dinner,Dinner


### 특정 변수컬럼에 이질적인 자료형의 데이터 삽입

In [10]:
# 특정 변수컬럼에 이질적인 자료형의 데이터 삽입
tips_sub_miss.loc[[1, 3, 5, 7], 'total_bill'] = 'missing'
print(tips_sub_miss)

  total_bill   tip     sex smoker  day    time  size time_str time2_str
0      16.99  1.01  Female     No  Sun  Dinner     2   Dinner    Dinner
1    missing  1.66    Male     No  Sun  Dinner     3   Dinner    Dinner
2      21.01  3.50    Male     No  Sun  Dinner     3   Dinner    Dinner
3    missing  3.31    Male     No  Sun  Dinner     2   Dinner    Dinner
4      24.59  3.61  Female     No  Sun  Dinner     4   Dinner    Dinner
5    missing  4.71    Male     No  Sun  Dinner     4   Dinner    Dinner
6       8.77  2.00    Male     No  Sun  Dinner     2   Dinner    Dinner
7    missing  3.12    Male     No  Sun  Dinner     4   Dinner    Dinner
8      15.04  1.96    Male     No  Sun  Dinner     2   Dinner    Dinner
9      14.78  3.23    Male     No  Sun  Dinner     2   Dinner    Dinner


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  self.obj[item] = s


In [11]:
tips_sub_miss.dtypes
# - total_bill 변수컬럼이 원래는 실수숫자형(float)이었으나 
#   missing이라는 문자열이 중간중간 삽입되면서 문자형(object)으로 변경됨

total_bill      object
tip            float64
sex           category
smoker        category
day           category
time          category
size             int64
time_str      category
time2_str       object
dtype: object

### 이질적인 자료형을 가진 변수컬럼의 자료형변환시 에러발생

In [13]:
# .astype() 메서드를 이용한 변환
tips_sub_miss['total_bill'].astype(float)
# - 자료가 섞여 있으므로 실수형으로 변경시 missing이라는 문자열 요소들로 인해서 에러발생함

ValueError: could not convert string to float: 'missing'

In [14]:
# to_numeric() 메소드를 이용한 변환
pd.to_numeric(tips_sub_miss['total_bill'])
# - 자료가 섞여 있으므로 실수형으로 변경시 missing이라는 문자열 요소들로 인해서 에러발생함

ValueError: Unable to parse string "missing" at position 1

### 이질적인 자료형이 섞여 있는 변수컬럼의 자료형변환

* .to_number() 메서드의 errors 인수설정을 통해 
* 숫자로 변환할 수 없는 요소값이 있을 때의 처리방법
    * raise: 에러가 발생되며, 자료형 변환이 안됨
    * coerce: 숫자로 변환할 수 없는 값을 결측치로 지정해 변환함
    * ignore: 오류가 발생하지 않지만, 자료형도 변환되지 않음 

In [15]:
tips_sub_miss['total_bill'] = pd.to_numeric(tips_sub_miss['total_bill'], 
                                            errors='ignore')

print(tips_sub_miss.dtypes)
# -  errors='ignore'에 의해 오류가 발생하지 않지만, 
#    자료형도 변환되지 않고 그대로 유지됨

total_bill      object
tip            float64
sex           category
smoker        category
day           category
time          category
size             int64
time_str      category
time2_str       object
dtype: object


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  


In [16]:
tips_sub_miss['total_bill'] = pd.to_numeric(tips_sub_miss['total_bill'], 
                                            errors='coerce')

print(tips_sub_miss.dtypes)
# - errors='coerce'에 숫자로 변환할 수 없는 값을 
#   결측치로 지정해 변환함

print()
print(tips_sub_miss)

total_bill     float64
tip            float64
sex           category
smoker        category
day           category
time          category
size             int64
time_str      category
time2_str       object
dtype: object

   total_bill   tip     sex smoker  day    time  size time_str time2_str
0       16.99  1.01  Female     No  Sun  Dinner     2   Dinner    Dinner
1         NaN  1.66    Male     No  Sun  Dinner     3   Dinner    Dinner
2       21.01  3.50    Male     No  Sun  Dinner     3   Dinner    Dinner
3         NaN  3.31    Male     No  Sun  Dinner     2   Dinner    Dinner
4       24.59  3.61  Female     No  Sun  Dinner     4   Dinner    Dinner
5         NaN  4.71    Male     No  Sun  Dinner     4   Dinner    Dinner
6        8.77  2.00    Male     No  Sun  Dinner     2   Dinner    Dinner
7         NaN  3.12    Male     No  Sun  Dinner     4   Dinner    Dinner
8       15.04  1.96    Male     No  Sun  Dinner     2   Dinner    Dinner
9       14.78  3.23    Male     No  Sun  Dinner 

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  


In [17]:
# downcast 옵션을 이용한 자료형 저장공간의 축소화
tips_sub_miss['total_bill'] = pd.to_numeric( tips_sub_miss['total_bill'], 
                                            errors='coerce', 
                                            downcast='float')
print(tips_sub_miss.dtypes)
# - total_bill 변수컬럼의 자료형의 기존의 float64에서 float32로 축소됨

total_bill     float32
tip            float64
sex           category
smoker        category
day           category
time          category
size             int64
time_str      category
time2_str       object
dtype: object


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  after removing the cwd from sys.path.


# End of Source