## Chapter 6. 데이터 정제하기

### 6.1. 데이터 정제하기 입문

####6.1.1. 데이터 분석 과정 소개

#### 6.1.2. 데이터 정제하기란?

### 6.2. 정렬

#### 6.2.1. 단일 열을 기준으로 정렬하기 (sort_values)

In [1]:
# 코드 6-1. 정렬 실습 예제 코드
import pandas as pd
data1 = [[60, 84, 80, 19], [77, 62, 95, 17], [61, 84, 72, 15], [75, 65, 95, 18]]
cols = ['국어', '영어', '수학', '나이']
df1 = pd.DataFrame(data1, index=list('ABCD'), columns=cols)
df1

Unnamed: 0,국어,영어,수학,나이
A,60,84,80,19
B,77,62,95,17
C,61,84,72,15
D,75,65,95,18


In [2]:
# 코드 6-2. 국어 열을 기준으로 오름차순으로 정렬하기
df1.sort_values('국어')

Unnamed: 0,국어,영어,수학,나이
A,60,84,80,19
C,61,84,72,15
D,75,65,95,18
B,77,62,95,17


In [3]:
# 코드 6-3. 함수를 적용해도 원본 df1이 바뀌는 것은 아니다
df1

Unnamed: 0,국어,영어,수학,나이
A,60,84,80,19
B,77,62,95,17
C,61,84,72,15
D,75,65,95,18


#### 6.2.2. 오름차순과 내림차순

In [4]:
# 코드 6-4. 국어 열을 기준으로 내림차순으로 정렬하기
df1.sort_values('국어', ascending=False)

Unnamed: 0,국어,영어,수학,나이
B,77,62,95,17
D,75,65,95,18
C,61,84,72,15
A,60,84,80,19


#### 6.2.3. 복수의 열을 기준으로 정렬하기

In [5]:
# 코드 6-5. 영어 열로 오름차순 정렬하되, 동점일 때는 나이 열로 오름차순 정렬
df1.sort_values(['영어', '나이'])

Unnamed: 0,국어,영어,수학,나이
B,77,62,95,17
D,75,65,95,18
C,61,84,72,15
A,60,84,80,19


In [6]:
# 코드 6-6. 영어 열로 내림차순 정렬하되, 동점일 때는 나이 열로 오름차순으로 정렬
df1.sort_values(['영어', '나이'], ascending=[False, True])

Unnamed: 0,국어,영어,수학,나이
C,61,84,72,15
A,60,84,80,19
D,75,65,95,18
B,77,62,95,17


#### 6.2.4. 인덱스나 컬럼즈를 기준으로 정렬하기 (sort_index)

In [7]:
# 코드 6-7. 인덱스를 기준으로 알파벳 역순으로 정렬
df1.sort_index(ascending=False)

Unnamed: 0,국어,영어,수학,나이
D,75,65,95,18
C,61,84,72,15
B,77,62,95,17
A,60,84,80,19


### 6.3. 필터링

#### 6.3.1. 불리언 인덱싱이란?

#### 6.3.2. 단일 요건 불리언 인덱싱

In [8]:
# 코드 6-8. 국어 점수가 70점보다 낮은 행을 필터링
df1.loc[df1['국어'] < 70]
df1[df1['국어'] < 70]

Unnamed: 0,국어,영어,수학,나이
A,60,84,80,19
C,61,84,72,15


In [9]:
# 코드 6-9. 조건문도 불 시리즈이기 때문에 변수로 지정할 수 있다.
cond1 = df1['국어'] < 70
df1[cond1]

Unnamed: 0,국어,영어,수학,나이
A,60,84,80,19
C,61,84,72,15


In [10]:
# 코드 6-10. 국어 점수가 70점보다 낮은 행의 국어, 수학 열만 필터링
df1.loc[df1['국어'] < 70, ['국어', '수학']]

Unnamed: 0,국어,수학
A,60,80
C,61,72


In [11]:
# 코드 6-11. A가 90점 이상 받은 과목의 전체 성적만 필터링
df1.loc[:, df1.loc['A'] >= 80]

Unnamed: 0,영어,수학
A,84,80
B,62,95
C,84,72
D,65,95


#### 6.3.3. 다중 요건 불리언 인덱싱

In [12]:
# 코드 6-12. 국어 점수가 70점보다 낮으면서 수학 점수가 75점보다 높은 행 필터링
df1[(df1['국어'] < 70) & (df1['수학'] > 75) ]

Unnamed: 0,국어,영어,수학,나이
A,60,84,80,19


In [13]:
# 코드 6-13. 코드 6-12의 조건문을 변수로 지정하면 가독성이 향상된다.
cond1 = df1['국어'] < 70
cond2 = df1['수학'] > 75
df1[cond1 & cond2]

Unnamed: 0,국어,영어,수학,나이
A,60,84,80,19


#### 6.3.4. 불(bool) 자료형 객체를 생성하는 함수


In [14]:
# 코드 6-14. NaN은 NaN과 같지 않다.
float('nan') == float('nan')

False

In [15]:
# 코드 6-15. 실습 예제 코드
import pandas as pd
data2 = {'반': ['1반', '4반', '5반', '2반', '1반', '3반'],
         '국어': [60, 77, 61, 75, 92, 90],
         '영어': [84, 62, 84, 65, 81, 90],
         '수학': [80, float('nan'), 72, 95, float('nan'), 81]}
df2 = pd.DataFrame(data2)
df2

Unnamed: 0,반,국어,영어,수학
0,1반,60,84,80.0
1,4반,77,62,
2,5반,61,84,72.0
3,2반,75,65,95.0
4,1반,92,81,
5,3반,90,90,81.0


In [16]:
# 코드 6-16. 수학 열에서 NaN을 확인
df2['수학'].isna()

0    False
1     True
2    False
3    False
4     True
5    False
Name: 수학, dtype: bool

In [17]:
# 코드 6-17. 수학 열에서 NaN의 개수를 확인
df2['수학'].isna().sum()

2

In [18]:
# 코드 6-18. 수학 열이 NaN이 아니거나 국어가 90점이상인 데이터 필터링
cond3 = ~df2['수학'].isna()
cond4 = df2['국어'] >= 90
df2[cond3 | cond4]

Unnamed: 0,반,국어,영어,수학
0,1반,60,84,80.0
2,5반,61,84,72.0
3,2반,75,65,95.0
4,1반,92,81,
5,3반,90,90,81.0


In [19]:
# 코드 6-19. 1반, 2반, 3반 중 하나에 속하는 데이터만 필터링
cond5 = df2['반'].isin(['1반', '2반', '3반'])
df2[cond5]

Unnamed: 0,반,국어,영어,수학
0,1반,60,84,80.0
3,2반,75,65,95.0
4,1반,92,81,
5,3반,90,90,81.0


#### 6.3.5. 특정 열의 값을 기준으로 데이터의 일부만 가져오기 (nlargest, nsmallest)

In [20]:
# 코드 6-20. 국어 점수가 하위인 4명의 데이터만 필터링
df2.nsmallest(4, columns='국어')

Unnamed: 0,반,국어,영어,수학
0,1반,60,84,80.0
2,5반,61,84,72.0
3,2반,75,65,95.0
1,4반,77,62,


In [21]:
# 코드 6-21. 영어 점수가 상위인 2명의 데이터 추출 (동점자는 모두 추출)
df2.nlargest(2, columns='영어', keep='all')

Unnamed: 0,반,국어,영어,수학
5,3반,90,90,81.0
0,1반,60,84,80.0
2,5반,61,84,72.0


#### 6.3.6. 무작위로 데이터 추출하기 (sample)

In [22]:
# 코드 6-22. df2에서 랜덤하게 3명의 데이터 추출 (시행마다 무작위)
df2.sample(3)

Unnamed: 0,반,국어,영어,수학
1,4반,77,62,
3,2반,75,65,95.0
5,3반,90,90,81.0


In [23]:
# 코드 6-23. df2 전체를 랜덤하게 재배열 (난수 고정)
df2.sample(frac=1, random_state=20)

Unnamed: 0,반,국어,영어,수학
1,4반,77,62,
4,1반,92,81,
0,1반,60,84,80.0
5,3반,90,90,81.0
2,5반,61,84,72.0
3,2반,75,65,95.0


### 엑셀 예제 4. OECD 국가 GDP 데이터에서 원하는 데이터 추출하기

In [24]:
# 코드 6-24. OECD 국가 GDP 통계 엑셀 파일에서 데이터 프레임 불러오기
import pandas as pd
pd.options.display.max_rows = 6 # 6행까지만 출력 코드
url1 = 'https://github.com/panda-kim/book1/blob/main/08GDP.xlsx?raw=true'
df_gdp = pd.read_excel(url1)
df_gdp

Unnamed: 0,국가,대륙,장래인구,GDP(10억$),1인당 GDP($),성장률(%),수출,수입
0,한국,아시아,51709,1651.0,31929,2.2,542.2,503.3
1,이스라엘,아시아,8519,394.7,43589,3.5,51.9,75.7
2,일본,아시아,126860,5064.9,40113,0.3,705.7,721.1
...,...,...,...,...,...,...,...,...
35,영국,유럽,67530,2830.8,42354,1.4,443.7,622.6
36,호주,오세아니아,25203,1396.6,55057,2.2,271.0,154.0
37,뉴질랜드,오세아니아,4783,209.1,41999,1.6,39.5,42.4


In [25]:
# 코드 6-25. 1인당 GPD가 8만불 이상인 데이터 추출
cond1 = df_gdp['1인당 GDP($)'] > 80000
df_gdp[cond1]

Unnamed: 0,국가,대륙,장래인구,GDP(10억$),1인당 GDP($),성장률(%),수출,수입
21,아일랜드,유럽,4882,398.6,80779,5.6,169.6,100.8
25,룩셈부르크,유럽,616,71.1,114685,2.3,14.8,23.0
34,스위스,유럽,8591,731.5,85300,1.1,313.9,277.8


In [26]:
# 코드 6-26. 아시아, 남미, 오세아니아의 데이터만 추출
cond2 = df_gdp['대륙'].isin(['아시아', '남미', '오세아니아'])
df_gdp[cond2]

Unnamed: 0,국가,대륙,장래인구,GDP(10억$),1인당 GDP($),성장률(%),수출,수입
0,한국,아시아,51709,1651.0,31929,2.2,542.2,503.3
1,이스라엘,아시아,8519,394.7,43589,3.5,51.9,75.7
2,일본,아시아,126860,5064.9,40113,0.3,705.7,721.1
...,...,...,...,...,...,...,...,...
9,코스타리카,남미,5048,64.0,12670,2.2,11.9,17.6
36,호주,오세아니아,25203,1396.6,55057,2.2,271.0,154.0
37,뉴질랜드,오세아니아,4783,209.1,41999,1.6,39.5,42.4


In [27]:
# 코드 6-27. GDP 상위 3개 국가 데이터 추출
df_gdp.nlargest(3, columns='GDP(10억$)')

Unnamed: 0,국가,대륙,장래인구,GDP(10억$),1인당 GDP($),성장률(%),수출,수입
6,미국,북중미,329065,21433.2,65280,2.2,1643.1,2497.5
2,일본,아시아,126860,5064.9,40113,0.3,705.7,721.1
17,독일,유럽,83517,3861.1,46468,0.6,1489.4,1234.0


### 6.4. 결측값 처리하기 1

#### 6.4.1. 결측값 확인하기 (isna)

In [28]:
# 코드 6-28. 결측값 처리 실습 예제 코드
import pandas as pd
data = [[88, 66, None], [None, None, 69], [69, 82, None], [71, 89, 98]]
df = pd.DataFrame(data, index=list('ABCD'), columns=['국어', '영어', '수학'])
df

Unnamed: 0,국어,영어,수학
A,88.0,66.0,
B,,,69.0
C,69.0,82.0,
D,71.0,89.0,98.0


In [29]:
# 코드 6-29. df 각 열에 결측값이 있는지 확인
df.isna().sum()

국어    1
영어    1
수학    2
dtype: int64

#### 6.4.2. 결측값을 포함한 데이터 삭제하기 (dropna)

In [30]:
# 코드 6-30. NaN을 포함하는 행을 모두 삭제
df.dropna()

Unnamed: 0,국어,영어,수학
D,71.0,89.0,98.0


In [31]:
# 코드 6-31. 수학 열에 NaN을 포함하는 행만 삭제
df.dropna(subset='수학')

Unnamed: 0,국어,영어,수학
B,,,69.0
D,71.0,89.0,98.0


#### 6.4.3. 결측값 대체하기 (fillna)


In [32]:
# 코드 6-32. df의 NaN을 0으로 대체
df.fillna(0)

Unnamed: 0,국어,영어,수학
A,88.0,66.0,0.0
B,0.0,0.0,69.0
C,69.0,82.0,0.0
D,71.0,89.0,98.0


In [33]:
# 코드 6-33. 수학 열의 결측값을 국어 열로 대체
df['수학'].fillna(df['국어'])

A    88.0
B    69.0
C    69.0
D    98.0
Name: 수학, dtype: float64

In [34]:
# 코드 6-34. 영어 열은 0, 수학 열은 30으로 결측값 대체
df.fillna({'영어': 0, '수학': 30})

Unnamed: 0,국어,영어,수학
A,88.0,66.0,30.0
B,,0.0,69.0
C,69.0,82.0,30.0
D,71.0,89.0,98.0


In [35]:
# 코드 6-35. 과목별 최저점으로 NaN을 대체
df.fillna(df.min())

Unnamed: 0,국어,영어,수학
A,88.0,66.0,69.0
B,69.0,66.0,69.0
C,69.0,82.0,69.0
D,71.0,89.0,98.0


### 6.5. 이상치와 중복 데이터 처리

#### 6.5.1. 이상치 처리하기 (clip)

In [36]:
# 코드 6-36. clip 함수 실습 예제 코드
import pandas as pd
data1 = [[89, 4, 74], [29, 46, 83], [40, 19, 60], [29, 91, 76]]
df1 = pd.DataFrame(data1, index=list('ABCD'), columns=['국어', '영어', '수학'])
df1

Unnamed: 0,국어,영어,수학
A,89,4,74
B,29,46,83
C,40,19,60
D,29,91,76


In [37]:
# 코드 6-37. 상한선과 하한선으로 임계값을 각각 20과 80으로 적용
df1.clip(lower=20, upper=80)

Unnamed: 0,국어,영어,수학
A,80,20,74
B,29,46,80
C,40,20,60
D,29,80,76


#### 6.5.2. 중복 데이터 확인 및 제거 (duplicated, drop_duplicates)

In [38]:
# 코드 6-38. 중복 데이터 처리 실습 예제 코드
import pandas as pd
data = {'회차': [1, 1, 1, 2, 2],
        '이름': ['김판다', '김판다', '강승주', '조민영', '김판다'],
        '점수': [680, 680, 880, 620, 750]}
df = pd.DataFrame(data)
df

Unnamed: 0,회차,이름,점수
0,1,김판다,680
1,1,김판다,680
2,1,강승주,880
3,2,조민영,620
4,2,김판다,750


In [39]:
# 코드 6-39. 중복 데이터 확인
df.duplicated()

0    False
1     True
2    False
3    False
4    False
dtype: bool

In [40]:
# 코드 6-40. 중복 데이터 삭제
df.drop_duplicates()

Unnamed: 0,회차,이름,점수
0,1,김판다,680
2,1,강승주,880
3,2,조민영,620
4,2,김판다,750


#### 6.5.3 중복 데이터 처리 함수의 활용

In [41]:
# 코드 6-41. df의 이름 열로만 중복을 결정해 중복 데이터 삭제
df.drop_duplicates('이름')

Unnamed: 0,회차,이름,점수
0,1,김판다,680
2,1,강승주,880
3,2,조민영,620


In [42]:
# 코드 6-42. keep을 활용해 각 사람의 마지막 성적을 필터링
df.drop_duplicates('이름', keep='last')

Unnamed: 0,회차,이름,점수
2,1,강승주,880
3,2,조민영,620
4,2,김판다,750


In [43]:
# 코드 6-43. keep을 활용해 시험에 한 번만 응시한 사람의 성적만 필터링
df.drop_duplicates('이름', keep=False)

Unnamed: 0,회차,이름,점수
2,1,강승주,880
3,2,조민영,620


### 6.6. 자료형 변환과 소수점 처리

#### 6.6.1. 여러 가지 자료형으로 변환하기 (astype)

In [44]:
# 코드 6-44. 자료형 변환 실습 예제 코드
import pandas as pd
data1 = [[8.2, 9, '17', '1'], [7.1, 9, '18', '2'],
         [9.3, 7, '18', '3'], [7.8, 7, '19', '-']]
df1 = pd.DataFrame(data1, columns=['실수', '정수', '문자열1', '문자열2'])
df1

Unnamed: 0,실수,정수,문자열1,문자열2
0,8.2,9,17,1
1,7.1,9,18,2
2,9.3,7,18,3
3,7.8,7,19,-


In [45]:
# 코드 6-45. df1의 자료형을 dtypes 속성으로 파악하기
df1.dtypes

실수      float64
정수        int64
문자열1     object
문자열2     object
dtype: object

In [46]:
# 코드 6-46. df1의 자료형을 문자열(str)로 변환하기
df1.astype('str')

Unnamed: 0,실수,정수,문자열1,문자열2
0,8.2,9,17,1
1,7.1,9,18,2
2,9.3,7,18,3
3,7.8,7,19,-


In [47]:
# 코드 6-47. 코드 6-46의 결과 자료형 확인하기
df1.astype('str').dtypes

실수      object
정수      object
문자열1    object
문자열2    object
dtype: object

In [48]:
# 코드 6-48. 매퍼를 입력해 열마다 다른 자료형으로 변환한 뒤 자료형 확인하기
df1.astype({'실수': 'int', '정수': 'str'}).dtypes

실수       int64
정수      object
문자열1    object
문자열2    object
dtype: object

In [49]:
# 코드 6-49. 실수 열을 시리즈로 불러, 정수 자료형으로 변환하기
df1['실수'].astype('int')

0    8
1    7
2    9
3    7
Name: 실수, dtype: int64

#### 6.6.2. 수치형으로 변환하기 (to_numeric)

In [50]:
# 코드 6-50. 수치형으로 바꿀 수 없는 문자열이 포함되었을 때 수치형으로 변환
pd.to_numeric(df1['문자열2'], errors='coerce')

0    1.0
1    2.0
2    3.0
3    NaN
Name: 문자열2, dtype: float64

In [51]:
# 코드 6-51. 데이터 프레임 전체에 to_numeric 함수 적용하기
df1.apply(pd.to_numeric, errors='coerce')

Unnamed: 0,실수,정수,문자열1,문자열2
0,8.2,9,17,1.0
1,7.1,9,18,2.0
2,9.3,7,18,3.0
3,7.8,7,19,


#### 6.6.3. 소수점 처리하기

In [52]:
# 코드 6-52. 반올림 실습 예제 코드
import pandas as pd
data2 = [[1.025, 2.249], [3.923, 4.035], [5.418, 6.736]]
df2 = pd.DataFrame(data2, index=list('ABC'), columns=['col1', 'col2'])
df2

Unnamed: 0,col1,col2
A,1.025,2.249
B,3.923,4.035
C,5.418,6.736


In [53]:
# 코드 6-53. df2를 소수점 셋째 자리에서 반올림
df2.round(2)

Unnamed: 0,col1,col2
A,1.02,2.25
B,3.92,4.04
C,5.42,6.74


In [54]:
# 코드 6-54. 출력 옵션으로 소수점 둘째 자리까지 표시
pd.options.display.float_format = '{:.2f}'.format
df2

Unnamed: 0,col1,col2
A,1.02,2.25
B,3.92,4.04
C,5.42,6.74


### 6.7. 데이터 치환과 매핑


#### 6.7.1. 데이터 치환 (replace)

In [55]:
# 코드 6-55. 치환 실습 예제 코드
data = {'홈팀': ['서독', '대한민국', '브라질', '소련', '대한민국'],
         '원정팀': ['대한민국', '서독', '소련', '브라질', '브라질'],
         '홈팀골': [3, 1, 4, 2, 0], '원정팀골': [0, 2, 1, 2, 2]}
data1 = {'old': ['서독', '소련'], 'new': ['독일', '러시아']}

df = pd.DataFrame(data)
df1 = pd.DataFrame(data1)
df

Unnamed: 0,홈팀,원정팀,홈팀골,원정팀골
0,서독,대한민국,3,0
1,대한민국,서독,1,2
2,브라질,소련,4,1
3,소련,브라질,2,2
4,대한민국,브라질,0,2


In [56]:
# 코드 6-56. 서독을 독일로 치환
df.replace('서독', '독일')

Unnamed: 0,홈팀,원정팀,홈팀골,원정팀골
0,독일,대한민국,3,0
1,대한민국,독일,1,2
2,브라질,소련,4,1
3,소련,브라질,2,2
4,대한민국,브라질,0,2


In [57]:
# 코드 6-57. regex=True로 셀의 일부를 치환하
df.replace('대한민', '한', regex=True)

Unnamed: 0,홈팀,원정팀,홈팀골,원정팀골
0,서독,한국,3,0
1,한국,서독,1,2
2,브라질,소련,4,1
3,소련,브라질,2,2
4,한국,브라질,0,2


In [58]:
# 코드 6-58. 서독과 소련을 EU로 치환
df.replace(['서독', '소련'], 'EU')

Unnamed: 0,홈팀,원정팀,홈팀골,원정팀골
0,EU,대한민국,3,0
1,대한민국,EU,1,2
2,브라질,EU,4,1
3,EU,브라질,2,2
4,대한민국,브라질,0,2


In [59]:
# 코드 6-59. 서독을 독일로 치환하고 소련을 러시아로 치환
df.replace({'서독': '독일', '소련': '러시아'})

Unnamed: 0,홈팀,원정팀,홈팀골,원정팀골
0,독일,대한민국,3,0
1,대한민국,독일,1,2
2,브라질,러시아,4,1
3,러시아,브라질,2,2
4,대한민국,브라질,0,2


In [60]:
# 코드 6-60. 데이터 프레임으로 매퍼(시리즈)를 만들어 치환하기
m = df1.set_index('old')['new']
df.replace(m)

Unnamed: 0,홈팀,원정팀,홈팀골,원정팀골
0,독일,대한민국,3,0
1,대한민국,독일,1,2
2,브라질,러시아,4,1
3,러시아,브라질,2,2
4,대한민국,브라질,0,2


#### 6.7.2. 매핑하기 (map)

In [61]:
# 코드 6-61. 매핑 실습 예제 코드
import pandas as pd
s = pd.Series(['사과', '바나나', '바나나', '포도', '사과'])
s

0     사과
1    바나나
2    바나나
3     포도
4     사과
dtype: object

In [62]:
# 코드 6-62. 사과는 0, 바나나는 1, 포도는 2로 매핑하기
dict1 = {'사과': 0, '바나나': 1, '포도': 2}
s.map(dict1)

0    0
1    1
2    1
3    2
4    0
dtype: int64

#### 6.7.3. replace 함수와 map 함수의 차이

In [63]:
# 코드 6-63. replace 함수로 코드61 수행하기
s.replace(dict1)

0    0
1    1
2    1
3    2
4    0
dtype: int64

In [64]:
# 코드 6-64. 사과만 0으로 매핑하기
dict2 = {'사과': 0}
s.map(dict2)

0   0.00
1    NaN
2    NaN
3    NaN
4   0.00
dtype: float64

In [65]:
# 코드 6-65. 코드 6-64를 replace 함수로 수행해 map함수와의 차이 확인
s.replace(dict2)

0      0
1    바나나
2    바나나
3     포도
4      0
dtype: object

In [66]:
# 코드 6-66. 사과는 0 나머지는 전부 1로 매핑하기
s.map(dict2).fillna(1).astype('int')

0    0
1    1
2    1
3    1
4    0
dtype: int64

### 엑셀 예제 5.  미국 레스토랑 고객의 팁 데이터 정제하기

In [67]:
# 코드 6-67. 미국 레스토랑 고객의 팁 엑셀 파일에서 데이터 프레임 불러오기
import pandas as pd
pd.options.display.max_rows = 6 # 6행까지만 출력
url2 = 'https://github.com/panda-kim/book1/blob/main/09tips.xlsx?raw=true'
df_tips = pd.read_excel(url2)
df_tips

Unnamed: 0,total_bill,tip,gender,smoker,day,time,size
0,16.99,-,Female,No,Sun,Lunch,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.50,Male,,Sun,Dinner,3
...,...,...,...,...,...,...,...
241,22.67,2,Male,,Sat,Dinner,2
242,17.82,1.75,Male,No,Sat,Dinner,2
243,18.78,3,Female,,Thur,Dinner,2


In [68]:
# 코드 6-68. info 함수로 데이터 프레임 확인하기
df_tips.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 244 entries, 0 to 243
Data columns (total 7 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   total_bill  244 non-null    float64
 1   tip         244 non-null    object 
 2   gender      244 non-null    object 
 3   smoker      231 non-null    object 
 4   day         244 non-null    object 
 5   time        244 non-null    object 
 6   size        244 non-null    int64  
dtypes: float64(1), int64(1), object(5)
memory usage: 13.5+ KB


In [69]:
# 코드 6-69. tip 열을 실수 자료형으로 변환하기
df_tips['tip'] = pd.to_numeric(df_tips['tip'], errors='coerce')
df_tips

Unnamed: 0,total_bill,tip,gender,smoker,day,time,size
0,16.99,,Female,No,Sun,Lunch,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.50,Male,,Sun,Dinner,3
...,...,...,...,...,...,...,...
241,22.67,2.00,Male,,Sat,Dinner,2
242,17.82,1.75,Male,No,Sat,Dinner,2
243,18.78,3.00,Female,,Thur,Dinner,2


In [70]:
# 코드 6-70. time 열의 Lunch를 0, Dinner를 1로 매핑하기
m1 = {'Lunch': 0, 'Dinner': 1}
df_tips['time'] = df_tips['time'].replace(m1)
df_tips

Unnamed: 0,total_bill,tip,gender,smoker,day,time,size
0,16.99,,Female,No,Sun,0,2
1,10.34,1.66,Male,No,Sun,1,3
2,21.01,3.50,Male,,Sun,1,3
...,...,...,...,...,...,...,...
241,22.67,2.00,Male,,Sat,1,2
242,17.82,1.75,Male,No,Sat,1,2
243,18.78,3.00,Female,,Thur,1,2


In [71]:
# 코드 6-71. smoker 열의 결측값을 여자일때 No, 남자일때는 Yes로 대체하기
m2 = {'Female': 'No', 'Male': 'Yes'}
df_tips['smoker'] = df_tips['smoker'].fillna(df_tips['gender'].map(m2))
df_tips

Unnamed: 0,total_bill,tip,gender,smoker,day,time,size
0,16.99,,Female,No,Sun,0,2
1,10.34,1.66,Male,No,Sun,1,3
2,21.01,3.50,Male,Yes,Sun,1,3
...,...,...,...,...,...,...,...
241,22.67,2.00,Male,Yes,Sat,1,2
242,17.82,1.75,Male,No,Sat,1,2
243,18.78,3.00,Female,No,Thur,1,2


In [72]:
# 코드 6-72. info 함수로 df_tips의 자료형 확인
df_tips.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 244 entries, 0 to 243
Data columns (total 7 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   total_bill  244 non-null    float64
 1   tip         218 non-null    float64
 2   gender      244 non-null    object 
 3   smoker      244 non-null    object 
 4   day         244 non-null    object 
 5   time        244 non-null    int64  
 6   size        244 non-null    int64  
dtypes: float64(2), int64(2), object(3)
memory usage: 13.5+ KB


In [73]:
# 코드 6-73. 결과를 엑셀 파일로 저장
df_tips.to_excel('ch06_tips.xlsx', index=False)