In [1]:
import warnings
warnings.filterwarnings('ignore')
from IPython.display import Image
import numpy as np
import pandas as pd
import requests
from bs4 import BeautifulSoup
import seaborn as sns


자료형 변환하기 

In [2]:
print(sns.get_dataset_names())  #seaborn이 제공하는 데이터 집합들

['anagrams', 'anscombe', 'attention', 'brain_networks', 'car_crashes', 'diamonds', 'dots', 'exercise', 'flights', 'fmri', 'gammas', 'geyser', 'iris', 'mpg', 'penguins', 'planets', 'tips', 'titanic']


In [3]:
# seaborn 라이브러리가 제공하는 tips 테이터프레임을 불러온다
tips = sns.load_dataset('tips')
print(type(tips))
tips

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.50,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4
...,...,...,...,...,...,...,...
239,29.03,5.92,Male,No,Sat,Dinner,3
240,27.18,2.00,Female,Yes,Sat,Dinner,2
241,22.67,2.00,Male,Yes,Sat,Dinner,2
242,17.82,1.75,Male,No,Sat,Dinner,2


In [4]:
# 자료 분석할떄 첫번째로 해야하는 것
# category => 범주형 데이터, 관츽 결과가 몇 개의 범주 또는 항목의 형태로 나타나는 자료를 말한다.
tips.dtypes

total_bill     float64
tip            float64
sex           category
smoker        category
day           category
time          category
size             int64
dtype: object

In [5]:
# 자료 분석할떄 첫번째로 해야하는 것
tips.info

<bound method DataFrame.info of      total_bill   tip     sex smoker   day    time  size
0         16.99  1.01  Female     No   Sun  Dinner     2
1         10.34  1.66    Male     No   Sun  Dinner     3
2         21.01  3.50    Male     No   Sun  Dinner     3
3         23.68  3.31    Male     No   Sun  Dinner     2
4         24.59  3.61  Female     No   Sun  Dinner     4
..          ...   ...     ...    ...   ...     ...   ...
239       29.03  5.92    Male     No   Sat  Dinner     3
240       27.18  2.00  Female    Yes   Sat  Dinner     2
241       22.67  2.00    Male    Yes   Sat  Dinner     2
242       17.82  1.75    Male     No   Sat  Dinner     2
243       18.78  3.00  Female     No  Thur  Dinner     2

[244 rows x 7 columns]>

In [6]:
# 자료형을 변환하려명 astypes() 함수를 사용하면 된다.
# 판다스의 category 자료형은 R의 factor와 같은 범주형 데이터를 의미한다. 범주형 데이터는 연산을 위한 데이터가 아니고 분류를 
# 위한 데이터이다.
# time 열에 데이터를 astype를 이용해서 category type을 object로 변환해서 time_str 이라는 세로운 열을 만든다.
tips['time_str'] = tips['time'].astype(str)
tips.dtypes

total_bill     float64
tip            float64
sex           category
smoker        category
day           category
time          category
size             int64
time_str        object
dtype: object

잘못 입력한 문자열 처리하기

In [7]:
tips_sub_miss = tips.head(10)
tips_sub_miss

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,time_str
0,16.99,1.01,Female,No,Sun,Dinner,2,Dinner
1,10.34,1.66,Male,No,Sun,Dinner,3,Dinner
2,21.01,3.5,Male,No,Sun,Dinner,3,Dinner
3,23.68,3.31,Male,No,Sun,Dinner,2,Dinner
4,24.59,3.61,Female,No,Sun,Dinner,4,Dinner
5,25.29,4.71,Male,No,Sun,Dinner,4,Dinner
6,8.77,2.0,Male,No,Sun,Dinner,2,Dinner
7,26.88,3.12,Male,No,Sun,Dinner,4,Dinner
8,15.04,1.96,Male,No,Sun,Dinner,2,Dinner
9,14.78,3.23,Male,No,Sun,Dinner,2,Dinner


In [8]:
#deliberatly making errors to the dataframe
tips_sub_miss.loc[[1,3,5,7], 'total_bill'] = 'missing'
tips_sub_miss

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,time_str
0,16.99,1.01,Female,No,Sun,Dinner,2,Dinner
1,missing,1.66,Male,No,Sun,Dinner,3,Dinner
2,21.01,3.5,Male,No,Sun,Dinner,3,Dinner
3,missing,3.31,Male,No,Sun,Dinner,2,Dinner
4,24.59,3.61,Female,No,Sun,Dinner,4,Dinner
5,missing,4.71,Male,No,Sun,Dinner,4,Dinner
6,8.77,2.0,Male,No,Sun,Dinner,2,Dinner
7,missing,3.12,Male,No,Sun,Dinner,4,Dinner
8,15.04,1.96,Male,No,Sun,Dinner,2,Dinner
9,14.78,3.23,Male,No,Sun,Dinner,2,Dinner


In [9]:
tips_sub_miss.dtypes

total_bill      object
tip            float64
sex           category
smoker        category
day           category
time          category
size             int64
time_str        object
dtype: object

In [10]:
#tips_sub_miss 데이터프레임의 total_bill 열을 astype() 함수를 사용해서 숫자로 변환을 시도하면 'missing' 이라는 문자열 때문에 
#오류가 발생된다
try:
    tips_sub_miss['total_bill'] = tips_sub_miss.total_bill.astype(float)
except ValueError:
    print('astype() 함수는 문자를 숫자로 변환할 수 없습니다.')
tips_sub_miss.dtypes

astype() 함수는 문자를 숫자로 변환할 수 없습니다.


total_bill      object
tip            float64
sex           category
smoker        category
day           category
time          category
size             int64
time_str        object
dtype: object

In [11]:
# 판다스의 to_numeric() 함수를 사용해도 문자열을 숫자로 변환할 수 있다. 
# 하지만 위랑 똑같이 'missing' 이라는 문자열 데이터가 존제하기 때문에 못 바꾼다.sam
try:
    tips_sub_miss['total_bill'] = pd.to_numeric(tips_sub_miss.total_bill)
except ValueError:
    print('astype() 함수는 문자를 숫자로 변환할 수 없습니다.')

tips_sub_miss.dtypes

astype() 함수는 문자를 숫자로 변환할 수 없습니다.


total_bill      object
tip            float64
sex           category
smoker        category
day           category
time          category
size             int64
time_str        object
dtype: object

In [12]:
# to_numeric() 함수는 errors 속성을 사용하면 어느정도 오류를 제어할 수 있다
# errors 속성을 지정하지 않으면 'raise'가 기본 값이되며 숫자로 변환할 수 없는 값이 있으면 오류를 발생시킨다.
try:
    tips_sub_miss['total_bill'] = pd.to_numeric(tips_sub_miss.total_bill, errors='raise')
except ValueError:
    print('to_numeric() 함수는 errors 속성을 "raise" 로 지정하면 문자를 숫자로 변환하려 하면 에러가 발생된다.' )
tips_sub_miss.dtypes

to_numeric() 함수는 errors 속성을 "raise" 로 지정하면 문자를 숫자로 변환하려 하면 에러가 발생된다.


total_bill      object
tip            float64
sex           category
smoker        category
day           category
time          category
size             int64
time_str        object
dtype: object

In [13]:
# errors 속성을 'ignore'로 지정하면 오류가 발생되면 함수를 무시해버리기 때문에 자료형이 변환되지 않는다
tips_sub_miss['total_bill'] = pd.to_numeric(tips_sub_miss.total_bill,errors = 'ignore')
tips_sub_miss.dtypes

total_bill      object
tip            float64
sex           category
smoker        category
day           category
time          category
size             int64
time_str        object
dtype: object

In [14]:
# errors 속성을 'coerce'로 지정하면 오류가 발생된 데이터를 NaN으로 변경한다
tips_sub_miss['total_bill'] = pd.to_numeric(tips_sub_miss.total_bill,errors = 'coerce')
tips_sub_miss.dtypes

total_bill     float64
tip            float64
sex           category
smoker        category
day           category
time          category
size             int64
time_str        object
dtype: object