# **Chapter 02. 파이썬을 활용한 데이터 전처리**

---
**< 목차 >**
> 2-11. 전처리의 기본! 결측값, 중복 처리<br>
2-12. 고급 기능 (apply, lambda, map)으로 나도 이제 Pandas 고수!<br>
2-13. Pandas 시각화로 멋지게 레포팅하자

In [None]:
# 드라이브 마운트
from google.colab import drive
drive.mount('/content/drive')

# 라이브러리 임포트
import numpy as np
import pandas as pd

Mounted at /content/drive


## 2-11. 결측값, 중복 처리

In [45]:
# 실습 파일 로딩 (아이돌 프로필)
df = pd.read_csv('https://bit.ly/3gRXTfD')

In [46]:
# 사용할 정보 필터링링
df = df.iloc[15:30]
df = df[['K. Stage Name', 'Date of Birth', 'Group', 'Height', 'Weight', 'Birthplace']]
df

Unnamed: 0,K. Stage Name,Date of Birth,Group,Height,Weight,Birthplace
15,소유,1992-02-12,SISTAR,0,0,
16,다솜,1993-05-06,SISTAR,0,0,
17,지현,1990-01-09,4minute,167,0,Seoul
18,가윤,1990-05-18,4minute,165,0,Seoul
19,지윤,1990-10-15,4minute,165,0,Seoul
20,현아,1992-06-06,4minute,164,0,Jeolla
21,소현,1994-08-30,4minute,162,0,Seoul
22,지민,1991-01-08,,160,43,Seoul
23,초아,1990-03-06,,160,42,Incheon
24,유나,1992-12-30,AoA,163,45,Busan


### **2-11-1. 결측값 처리**

결측값이란?
- 자료가 입력되지 않은 값, 입력이 누락된 값을 의미한다.
- 현실의 거의 모든 데이터에는 결측값이 존재할 수 있으며, 그 이유는 다양하게 있을 수 있다.
    - ex) 수집하는 과정에서 데이터가 없어졌다. / 원래 없는 값의 데이터이다.
- 결측값을 어떤 방식으로 처리하느냐에 따라 데이터 분석 결과가 달라질 수 있기에 결측값 처리는 중요하다.
- NaN, N/A, NULL, 0값 등 다양한 방식으로 불린다.
    - 0이 너무 많이 반복되거나 누가봐도 잘못 들어가 있는 값일 경우는 결측값이라 판단할 수 있다.
    - 하지만 0 자체가 데이터일 수도 있으니 주의

> **1. 데이터 탐색**

In [15]:
df
# 이 경우는 키와 몸무게가 0인게 말이 안 되기 때문에 결측값이라 판단

Unnamed: 0,K. Stage Name,Date of Birth,Group,Height,Weight,Birthplace
15,소유,1992-02-12,SISTAR,0,0,
16,다솜,1993-05-06,SISTAR,0,0,
17,지현,1990-01-09,4minute,167,0,Seoul
18,가윤,1990-05-18,4minute,165,0,Seoul
19,지윤,1990-10-15,4minute,165,0,Seoul
20,현아,1992-06-06,4minute,164,0,Jeolla
21,소현,1994-08-30,4minute,162,0,Seoul
22,지민,1991-01-08,,160,43,Seoul
23,초아,1990-03-06,,160,42,Incheon
24,유나,1992-12-30,AoA,163,45,Busan


In [47]:
# 0을 결측값이라 판단했기 때문에 한 번에 결측값을 처리하기 위해 0값을 NaN 형으로 변환
df = df.replace(0, np.NaN)

In [17]:
df

Unnamed: 0,K. Stage Name,Date of Birth,Group,Height,Weight,Birthplace
15,소유,1992-02-12,SISTAR,,,
16,다솜,1993-05-06,SISTAR,,,
17,지현,1990-01-09,4minute,167.0,,Seoul
18,가윤,1990-05-18,4minute,165.0,,Seoul
19,지윤,1990-10-15,4minute,165.0,,Seoul
20,현아,1992-06-06,4minute,164.0,,Jeolla
21,소현,1994-08-30,4minute,162.0,,Seoul
22,지민,1991-01-08,,160.0,43.0,Seoul
23,초아,1990-03-06,,160.0,42.0,Incheon
24,유나,1992-12-30,AoA,163.0,45.0,Busan


In [21]:
# 결측값이 잘 적용됨됨을 확인할 수 있다.
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 15 entries, 15 to 29
Data columns (total 6 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   K. Stage Name  15 non-null     object 
 1   Date of Birth  15 non-null     object 
 2   Group          11 non-null     object 
 3   Height         13 non-null     float64
 4   Weight         8 non-null      float64
 5   Birthplace     12 non-null     object 
dtypes: float64(2), object(4)
memory usage: 852.0+ bytes


> **2. 결측 데이터 확인 (`isnull()`, `notnull()`)**
- `isnull()`은 null 값이 있는지 확인한다.
    - 결측값이 있으면 True, 없으면 False
- `notnull()`은 isnull의 반대로, 결측값이 없으면 True, 있으면 False

In [48]:
df.isnull()

Unnamed: 0,K. Stage Name,Date of Birth,Group,Height,Weight,Birthplace
15,False,False,False,True,True,True
16,False,False,False,True,True,True
17,False,False,False,False,True,False
18,False,False,False,False,True,False
19,False,False,False,False,True,False
20,False,False,False,False,True,False
21,False,False,False,False,True,False
22,False,False,True,False,False,False
23,False,False,True,False,False,False
24,False,False,False,False,False,False


In [23]:
df.notnull()

Unnamed: 0,K. Stage Name,Date of Birth,Group,Height,Weight,Birthplace
15,True,True,True,False,False,False
16,True,True,True,False,False,False
17,True,True,True,True,False,True
18,True,True,True,True,False,True
19,True,True,True,True,False,True
20,True,True,True,True,False,True
21,True,True,True,True,False,True
22,True,True,False,True,True,True
23,True,True,False,True,True,True
24,True,True,True,True,True,True


isnull을 이용하여 결측값을 True로 처리할 경우, 그 합을 더하면 결측값이 몇 개인지 알 수 있다.
- Python에서 True는 1이기 때문

In [49]:
df.isnull().sum()

K. Stage Name    0
Date of Birth    0
Group            4
Height           2
Weight           7
Birthplace       3
dtype: int64

> **3. 결측 데이터 제거 (`dropna()`)**

`dropna()`는 기본적으로 결측인 값이 존재하면 행을 모두 삭제한다.
- 결측값이 많은 경우 dropna()를 사용하는 것을 조심하자 (아예 다 없어지기 때문)

In [50]:
df.dropna()

Unnamed: 0,K. Stage Name,Date of Birth,Group,Height,Weight,Birthplace
24,유나,1992-12-30,AoA,163.0,45.0,Busan
26,혜정,1993-08-10,AoA,170.0,48.0,Seoul
28,설현,1995-01-03,AoA,167.0,47.0,Bucheon
29,찬미,1996-06-19,AoA,166.0,47.0,Gumi


`subset=['컬럼명']` 옵션을 지정하면 해당 컬럼만 검사하여 행을 제거한다.

In [51]:
df.dropna(subset=['Group'])

Unnamed: 0,K. Stage Name,Date of Birth,Group,Height,Weight,Birthplace
15,소유,1992-02-12,SISTAR,,,
16,다솜,1993-05-06,SISTAR,,,
17,지현,1990-01-09,4minute,167.0,,Seoul
18,가윤,1990-05-18,4minute,165.0,,Seoul
19,지윤,1990-10-15,4minute,165.0,,Seoul
20,현아,1992-06-06,4minute,164.0,,Jeolla
21,소현,1994-08-30,4minute,162.0,,Seoul
24,유나,1992-12-30,AoA,163.0,45.0,Busan
26,혜정,1993-08-10,AoA,170.0,48.0,Seoul
28,설현,1995-01-03,AoA,167.0,47.0,Bucheon


In [29]:
# 여러 컬럼도 지정 가능
df.dropna(subset=['Group', 'Height'])

Unnamed: 0,K. Stage Name,Date of Birth,Group,Height,Weight,Birthplace
17,지현,1990-01-09,4minute,167.0,,Seoul
18,가윤,1990-05-18,4minute,165.0,,Seoul
19,지윤,1990-10-15,4minute,165.0,,Seoul
20,현아,1992-06-06,4minute,164.0,,Jeolla
21,소현,1994-08-30,4minute,162.0,,Seoul
24,유나,1992-12-30,AoA,163.0,45.0,Busan
26,혜정,1993-08-10,AoA,170.0,48.0,Seoul
28,설현,1995-01-03,AoA,167.0,47.0,Bucheon
29,찬미,1996-06-19,AoA,166.0,47.0,Gumi


> **4. 결측 데이터 치환 (`fillna()`)**
- 결측값을 대체해주는 함수이다.
- 기본 사용법: `fillna('결측값을 대체할 값')`

In [52]:
df = df.dropna(subset=['Group'])
df

Unnamed: 0,K. Stage Name,Date of Birth,Group,Height,Weight,Birthplace
15,소유,1992-02-12,SISTAR,,,
16,다솜,1993-05-06,SISTAR,,,
17,지현,1990-01-09,4minute,167.0,,Seoul
18,가윤,1990-05-18,4minute,165.0,,Seoul
19,지윤,1990-10-15,4minute,165.0,,Seoul
20,현아,1992-06-06,4minute,164.0,,Jeolla
21,소현,1994-08-30,4minute,162.0,,Seoul
24,유나,1992-12-30,AoA,163.0,45.0,Busan
26,혜정,1993-08-10,AoA,170.0,48.0,Seoul
28,설현,1995-01-03,AoA,167.0,47.0,Bucheon


>4-1. 지정 값으로 대체 (`fillna('대체값')`)

In [53]:
df['Height'] = df['Height'].fillna(160)

In [33]:
df

Unnamed: 0,K. Stage Name,Date of Birth,Group,Height,Weight,Birthplace
15,소유,1992-02-12,SISTAR,160.0,,
16,다솜,1993-05-06,SISTAR,160.0,,
17,지현,1990-01-09,4minute,167.0,,Seoul
18,가윤,1990-05-18,4minute,165.0,,Seoul
19,지윤,1990-10-15,4minute,165.0,,Seoul
20,현아,1992-06-06,4minute,164.0,,Jeolla
21,소현,1994-08-30,4minute,162.0,,Seoul
24,유나,1992-12-30,AoA,163.0,45.0,Busan
26,혜정,1993-08-10,AoA,170.0,48.0,Seoul
28,설현,1995-01-03,AoA,167.0,47.0,Bucheon


> 4-2. 평균값으로 대체 (`fillna('평균값')`)

In [54]:
mean_value = df['Weight'].mean()    # 평균값 구하기
df['Weight'] = df['Weight'].fillna(mean_value)

In [35]:
df

Unnamed: 0,K. Stage Name,Date of Birth,Group,Height,Weight,Birthplace
15,소유,1992-02-12,SISTAR,160.0,46.75,
16,다솜,1993-05-06,SISTAR,160.0,46.75,
17,지현,1990-01-09,4minute,167.0,46.75,Seoul
18,가윤,1990-05-18,4minute,165.0,46.75,Seoul
19,지윤,1990-10-15,4minute,165.0,46.75,Seoul
20,현아,1992-06-06,4minute,164.0,46.75,Jeolla
21,소현,1994-08-30,4minute,162.0,46.75,Seoul
24,유나,1992-12-30,AoA,163.0,45.0,Busan
26,혜정,1993-08-10,AoA,170.0,48.0,Seoul
28,설현,1995-01-03,AoA,167.0,47.0,Bucheon


> 4-3. 최빈값으로 대체 (`fillna('최빈값')`)
- 값을 세어주는 함수 `value_counts()`를 활용하면, 최빈값을 알아낼 수 있다.

In [38]:
df['Birthplace'].value_counts()

Seoul      5
Jeolla     1
Busan      1
Bucheon    1
Gumi       1
Name: Birthplace, dtype: int64

In [39]:
# value_counts()는 많은 수부터 나열하므로 첫 번째 index가 최빈값이다.
df['Birthplace'].value_counts().index

Index(['Seoul', 'Jeolla', 'Busan', 'Bucheon', 'Gumi'], dtype='object')

In [40]:
df['Birthplace'].value_counts().index[0]

'Seoul'

In [55]:
# 이를 활용하여 최빈값을 대체
df['Birthplace'] = df['Birthplace'].fillna(df['Birthplace'].value_counts().index[0])

In [56]:
df

Unnamed: 0,K. Stage Name,Date of Birth,Group,Height,Weight,Birthplace
15,소유,1992-02-12,SISTAR,160.0,46.75,Seoul
16,다솜,1993-05-06,SISTAR,160.0,46.75,Seoul
17,지현,1990-01-09,4minute,167.0,46.75,Seoul
18,가윤,1990-05-18,4minute,165.0,46.75,Seoul
19,지윤,1990-10-15,4minute,165.0,46.75,Seoul
20,현아,1992-06-06,4minute,164.0,46.75,Jeolla
21,소현,1994-08-30,4minute,162.0,46.75,Seoul
24,유나,1992-12-30,AoA,163.0,45.0,Busan
26,혜정,1993-08-10,AoA,170.0,48.0,Seoul
28,설현,1995-01-03,AoA,167.0,47.0,Bucheon


> **5. `reset_index()`로 인덱스 재정렬**
- 결측치를 제거하거나, 전처리하는 과정에서 데이터 프레임의 인덱스가 바뀌는 현상이 자주 일어난다.
- 이때 `reset_index()`를 써서 마지막에 인덱스를 정렬해주면, 이후에 진행하게 되는 분석과정에 문제가 발생할 확률이 줄어든다.

In [58]:
df = df.reset_index(drop=True)
# 이때 drop=True 옵션은 기존의 index를 버린다는 의미이다.
# drop=False를 할 경우 기존의 인덱스를 새로운 컬럼으로 추가한다.

In [59]:
df

Unnamed: 0,K. Stage Name,Date of Birth,Group,Height,Weight,Birthplace
0,소유,1992-02-12,SISTAR,160.0,46.75,Seoul
1,다솜,1993-05-06,SISTAR,160.0,46.75,Seoul
2,지현,1990-01-09,4minute,167.0,46.75,Seoul
3,가윤,1990-05-18,4minute,165.0,46.75,Seoul
4,지윤,1990-10-15,4minute,165.0,46.75,Seoul
5,현아,1992-06-06,4minute,164.0,46.75,Jeolla
6,소현,1994-08-30,4minute,162.0,46.75,Seoul
7,유나,1992-12-30,AoA,163.0,45.0,Busan
8,혜정,1993-08-10,AoA,170.0,48.0,Seoul
9,설현,1995-01-03,AoA,167.0,47.0,Bucheon


### 2-11-2. 중복값 처리

중복값이란?
- 자료가 중복으로 입력된 값을 의미한다.
- 전체 행/열이 중복된 경우, 혹은 값이 중복된 경우가 있다.
- 중복값을 어떤 방식으로 처리하느냐에 따라 데이터 분석 결과가 달라질 수 있다.

In [60]:
# 중복 데이터 임의로 생성
df = df.append(df.iloc[-1]).reset_index(drop=True)

In [61]:
df

Unnamed: 0,K. Stage Name,Date of Birth,Group,Height,Weight,Birthplace
0,소유,1992-02-12,SISTAR,160.0,46.75,Seoul
1,다솜,1993-05-06,SISTAR,160.0,46.75,Seoul
2,지현,1990-01-09,4minute,167.0,46.75,Seoul
3,가윤,1990-05-18,4minute,165.0,46.75,Seoul
4,지윤,1990-10-15,4minute,165.0,46.75,Seoul
5,현아,1992-06-06,4minute,164.0,46.75,Jeolla
6,소현,1994-08-30,4minute,162.0,46.75,Seoul
7,유나,1992-12-30,AoA,163.0,45.0,Busan
8,혜정,1993-08-10,AoA,170.0,48.0,Seoul
9,설현,1995-01-03,AoA,167.0,47.0,Bucheon


> **1. 중복 데이터 탐색 (`duplicated()`)**
- `duplicated()` 함수는 행이 완벽히 중복된 여부를 검사한다.
    - 첫 번째 값을 제외하고 중복된 값들은 True로 표시한다.
- 특정 열에 중복값이 있는지 확인을 할 수도 있다.

In [67]:
df.duplicated()

0     False
1     False
2     False
3     False
4     False
5     False
6     False
7     False
8     False
9     False
10    False
11     True
dtype: bool

In [68]:
# 중복된 값 찾기
df[df.duplicated()]

Unnamed: 0,K. Stage Name,Date of Birth,Group,Height,Weight,Birthplace
11,찬미,1996-06-19,AoA,166.0,47.0,Gumi


In [69]:
# 특정 열의 중복값 찾기
df['Group'].duplicated()

0     False
1      True
2     False
3      True
4      True
5      True
6      True
7     False
8      True
9      True
10     True
11     True
Name: Group, dtype: bool

> **2. 중복 데이터 제거 (`drop_duplicates()`)**

`drop_duplicates()`는 기본적으로 중복된 행을 완전히 제거한다.
- 완벽하게 겹치는 행만 삭제

In [70]:
df.drop_duplicates()

Unnamed: 0,K. Stage Name,Date of Birth,Group,Height,Weight,Birthplace
0,소유,1992-02-12,SISTAR,160.0,46.75,Seoul
1,다솜,1993-05-06,SISTAR,160.0,46.75,Seoul
2,지현,1990-01-09,4minute,167.0,46.75,Seoul
3,가윤,1990-05-18,4minute,165.0,46.75,Seoul
4,지윤,1990-10-15,4minute,165.0,46.75,Seoul
5,현아,1992-06-06,4minute,164.0,46.75,Jeolla
6,소현,1994-08-30,4minute,162.0,46.75,Seoul
7,유나,1992-12-30,AoA,163.0,45.0,Busan
8,혜정,1993-08-10,AoA,170.0,48.0,Seoul
9,설현,1995-01-03,AoA,167.0,47.0,Bucheon


`subset=['컬럼명']` 옵션을 지정하면 특정 열을 기준으로 중복값이 있는 행을 제거할 수도 있다.

In [71]:
# 특정 열을 기준으로 제거
df.drop_duplicates(subset=['Group'])

Unnamed: 0,K. Stage Name,Date of Birth,Group,Height,Weight,Birthplace
0,소유,1992-02-12,SISTAR,160.0,46.75,Seoul
2,지현,1990-01-09,4minute,167.0,46.75,Seoul
7,유나,1992-12-30,AoA,163.0,45.0,Busan


`keep='남길 값'` 옵션을 지정하여 마지막 값을 남길 수도 있다.
- 기본값은 `keep='first'`이다.

In [72]:
# 특정 열을 기준으로 제거 (마지막 값 남기기)
df.drop_duplicates(subset=['Group'], keep='last')

Unnamed: 0,K. Stage Name,Date of Birth,Group,Height,Weight,Birthplace
1,다솜,1993-05-06,SISTAR,160.0,46.75,Seoul
6,소현,1994-08-30,4minute,162.0,46.75,Seoul
11,찬미,1996-06-19,AoA,166.0,47.0,Gumi


## 2-12. apply, lambda, map 함수

In [85]:
# 실습 파일 로딩 (아이돌 프로필)
df = pd.read_csv('https://bit.ly/3gRXTfD')

In [90]:
# 파일에서 사용할 정보 필터링

# 데이터 중 남성 상위 3개의 행 + 위에서 상위 9개의 행
df = df.loc[df['Gender']=='M'][:3].append(df.head(9)).reset_index(drop=True)

# 컬럼 설정
df = df[['Height', 'Weight', 'Gender']]

In [91]:
df

Unnamed: 0,Height,Weight,Gender
0,180,65,M
1,174,56,M
2,177,58,M
3,180,65,M
4,174,56,M
5,177,58,M
6,160,44,F
7,158,43,F
8,163,50,F
9,158,48,F


### 2-12-1. apply 함수