In [1]:
import warnings
warnings.filterwarnings(action='ignore')
%config Computer.use_jedi = False
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
# !pip install seaborn
import seaborn as sns # matplotlib을 확장한 시각화 라이브러리

seaborn 라이브러리가 제공하는 tips 데이터를 사용한다.  
seaborn 라이브러리가 제공하는 데이터 종류는 https://github.com/mwaskom/seaborn-data 를 참조한다.

In [2]:
# load_dataset() 메소드를 사용해서 seaborn이 제공하는 데이터셋을 읽어 데이터프레임으로 얻어올 수 있다.
tips = sns.load_dataset('tips')
tips

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.50,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4
...,...,...,...,...,...,...,...
239,29.03,5.92,Male,No,Sat,Dinner,3
240,27.18,2.00,Female,Yes,Sat,Dinner,2
241,22.67,2.00,Male,Yes,Sat,Dinner,2
242,17.82,1.75,Male,No,Sat,Dinner,2


자료형 변환하기

In [4]:
# pandas의 category는 R의 factor와 같은 범주형 데이터를 의미한다. => 연선을 위한 데이터가 아니고 분류를 위한 데이터이다.
# pandas의 object는 문자열 데이터를 의미한다.
print(tips.dtypes)

total_bill     float64
tip            float64
sex           category
smoker        category
day           category
time          category
size             int64
dtype: object


In [6]:
# astype() 메소드를 사용해서 자료형을 변경할 수 있다.
# time 열의 데이터를 category 타입에서 object 타입으로 변환해서 time_str 이라는 새로운 열에 저장한다.
tips['time_str'] = tips['time'].astype(str)
tips

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,time_str
0,16.99,1.01,Female,No,Sun,Dinner,2,Dinner
1,10.34,1.66,Male,No,Sun,Dinner,3,Dinner
2,21.01,3.50,Male,No,Sun,Dinner,3,Dinner
3,23.68,3.31,Male,No,Sun,Dinner,2,Dinner
4,24.59,3.61,Female,No,Sun,Dinner,4,Dinner
...,...,...,...,...,...,...,...,...
239,29.03,5.92,Male,No,Sat,Dinner,3,Dinner
240,27.18,2.00,Female,Yes,Sat,Dinner,2,Dinner
241,22.67,2.00,Male,Yes,Sat,Dinner,2,Dinner
242,17.82,1.75,Male,No,Sat,Dinner,2,Dinner


In [7]:
print(tips.dtypes)

total_bill     float64
tip            float64
sex           category
smoker        category
day           category
time          category
size             int64
time_str        object
dtype: object


잘못 입력한 문자열 처리하기

In [8]:
tips_sub_miss = tips.head(10)
tips_sub_miss

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,time_str
0,16.99,1.01,Female,No,Sun,Dinner,2,Dinner
1,10.34,1.66,Male,No,Sun,Dinner,3,Dinner
2,21.01,3.5,Male,No,Sun,Dinner,3,Dinner
3,23.68,3.31,Male,No,Sun,Dinner,2,Dinner
4,24.59,3.61,Female,No,Sun,Dinner,4,Dinner
5,25.29,4.71,Male,No,Sun,Dinner,4,Dinner
6,8.77,2.0,Male,No,Sun,Dinner,2,Dinner
7,26.88,3.12,Male,No,Sun,Dinner,4,Dinner
8,15.04,1.96,Male,No,Sun,Dinner,2,Dinner
9,14.78,3.23,Male,No,Sun,Dinner,2,Dinner


In [10]:
# tips_sub_miss.loc[[1, 3, 5, 7], 'total_bill'] = 'missing'
tips_sub_miss.iloc[[1, 3, 5, 7], 0] = 'missing'
tips_sub_miss

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,time_str
0,16.99,1.01,Female,No,Sun,Dinner,2,Dinner
1,missing,1.66,Male,No,Sun,Dinner,3,Dinner
2,21.01,3.5,Male,No,Sun,Dinner,3,Dinner
3,missing,3.31,Male,No,Sun,Dinner,2,Dinner
4,24.59,3.61,Female,No,Sun,Dinner,4,Dinner
5,missing,4.71,Male,No,Sun,Dinner,4,Dinner
6,8.77,2.0,Male,No,Sun,Dinner,2,Dinner
7,missing,3.12,Male,No,Sun,Dinner,4,Dinner
8,15.04,1.96,Male,No,Sun,Dinner,2,Dinner
9,14.78,3.23,Male,No,Sun,Dinner,2,Dinner


In [11]:
print(tips_sub_miss.dtypes)

total_bill      object
tip            float64
sex           category
smoker        category
day           category
time          category
size             int64
time_str        object
dtype: object


In [12]:
# tips_sub_miss 데이터프레임의 total_bill 열을 astype() 메소드를 사용해서 실수로 변환하려하면 'missing'이라는
# 문자열 때문에 에러가 발생된다.
tips_sub_miss['total_bill'] = tips_sub_miss['total_bill'].astype(float)

ValueError: could not convert string to float: 'missing'

In [13]:
# to_numeric() 메소드를 사용해도 문자열을 실수로 변경할 수 있다.
tips_sub_miss['total_bill'] = pd.to_numeric(tips_sub_miss['total_bill'])

ValueError: Unable to parse string "missing" at position 1

In [14]:
# to_numeric() 메소드의 errors 속성을 사용하면 어느정도 오류 제어를 할 수 있다.
# errors 속성을 지정하지 않으면 'raise'가 기본값으로 사용되며 숫자로 변환할 수 없는 값이 있으면 에러를 발생시킨다.
tips_sub_miss['total_bill'] = pd.to_numeric(tips_sub_miss['total_bill'], errors='raise')

ValueError: Unable to parse string "missing" at position 1

In [16]:
# errors 속성을 'ignore'로 지정하면 to_numeric() 메소드를 실행하지 않는다.
tips_sub_miss['total_bill'] = pd.to_numeric(tips_sub_miss['total_bill'], errors='ignore')
tips_sub_miss

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,time_str
0,16.99,1.01,Female,No,Sun,Dinner,2,Dinner
1,missing,1.66,Male,No,Sun,Dinner,3,Dinner
2,21.01,3.5,Male,No,Sun,Dinner,3,Dinner
3,missing,3.31,Male,No,Sun,Dinner,2,Dinner
4,24.59,3.61,Female,No,Sun,Dinner,4,Dinner
5,missing,4.71,Male,No,Sun,Dinner,4,Dinner
6,8.77,2.0,Male,No,Sun,Dinner,2,Dinner
7,missing,3.12,Male,No,Sun,Dinner,4,Dinner
8,15.04,1.96,Male,No,Sun,Dinner,2,Dinner
9,14.78,3.23,Male,No,Sun,Dinner,2,Dinner


In [17]:
# errors 속성을 'coerce'로 지정하면 오류가 발생되는 데이터를 누락값으로 변경한다.
tips_sub_miss['total_bill'] = pd.to_numeric(tips_sub_miss['total_bill'], errors='coerce')
tips_sub_miss

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,time_str
0,16.99,1.01,Female,No,Sun,Dinner,2,Dinner
1,,1.66,Male,No,Sun,Dinner,3,Dinner
2,21.01,3.5,Male,No,Sun,Dinner,3,Dinner
3,,3.31,Male,No,Sun,Dinner,2,Dinner
4,24.59,3.61,Female,No,Sun,Dinner,4,Dinner
5,,4.71,Male,No,Sun,Dinner,4,Dinner
6,8.77,2.0,Male,No,Sun,Dinner,2,Dinner
7,,3.12,Male,No,Sun,Dinner,4,Dinner
8,15.04,1.96,Male,No,Sun,Dinner,2,Dinner
9,14.78,3.23,Male,No,Sun,Dinner,2,Dinner
