# 데이터 전처리

- 결측치 확인 및 처리 (결측치가 포함된 행 제거 or 결측치 값 대체)
- 이상값 처리
- 중복값 처리

In [80]:
import numpy as np
import pandas as pd

In [81]:
df = pd.read_csv('./data/contacts.csv')
df

Unnamed: 0,Name,Phone,Email
0,김민수,010-1234-5678,minsu.kim@gmail.com
1,이지은,010-2345-6789,jieun.lee@naver.com
2,박철수,010-3456-7890,chulsoo.park@hotmail.com
3,홍길동,010-4567-8901,gildong.hong@daum.net
4,김영희,010-5678-9012,younghee.kim@gmail.com
...,...,...,...
72,범수정,010-3456-7892,soojeong.beom@gmail.com
73,이호진,010-4567-8904,hojin.lee@daum.net
74,정지윤,010-5678-9015,jungzee@naver.com
75,김지현,010-6789-0126,jh.kim@gmail.com


In [82]:
# 결측치가 좀 있다는 것을 알 수 있음
df.info()

<class 'pandas.DataFrame'>
RangeIndex: 77 entries, 0 to 76
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   Name    77 non-null     str  
 1   Phone   71 non-null     str  
 2   Email   76 non-null     str  
dtypes: str(3)
memory usage: 1.9 KB


In [83]:
df.describe()

Unnamed: 0,Name,Phone,Email
count,77,71,76
unique,75,63,75
top,박철수,010-2345-6789,dahyun.jung@naver.com
freq,2,2,2


In [84]:
# df[df['Name'] == '박철수']
# df[df['Phone'] == '010-2345-6789']
df[df['Email'] == 'dahyun.jung@naver.com']  # 완벽히 중복된 row

Unnamed: 0,Name,Phone,Email
32,정다현,010-2345-6782,dahyun.jung@naver.com
67,정다현,010-2345-6782,dahyun.jung@naver.com


### 중복 데이터 처리

In [85]:
# df.duplicated().sum() == 중복 데이터의 수
# - 결과가 1 = 중복되는 데이터가 1개 = 같은 데이터가 2개
# - 결과가 2 == 중복되는 데이터가 2개
#           == A 데이터가 3개 있는 경우 or A 데이터가 2개, B 데이터가 2개 있는 경우
df.duplicated().sum()

np.int64(1)

In [86]:
df[df.duplicated()]

Unnamed: 0,Name,Phone,Email
67,정다현,010-2345-6782,dahyun.jung@naver.com


In [87]:
# 특정 컬럼을 지정해 중복 데이터 찾기
df[df.duplicated(['Name'])]

Unnamed: 0,Name,Phone,Email
31,박철수,010-1234-5681,chulsoo.park@gmail.com
67,정다현,010-2345-6782,dahyun.jung@naver.com


In [88]:
# 중복 데이터 제거
df.drop_duplicates(['Name'])

Unnamed: 0,Name,Phone,Email
0,김민수,010-1234-5678,minsu.kim@gmail.com
1,이지은,010-2345-6789,jieun.lee@naver.com
2,박철수,010-3456-7890,chulsoo.park@hotmail.com
3,홍길동,010-4567-8901,gildong.hong@daum.net
4,김영희,010-5678-9012,younghee.kim@gmail.com
...,...,...,...
72,범수정,010-3456-7892,soojeong.beom@gmail.com
73,이호진,010-4567-8904,hojin.lee@daum.net
74,정지윤,010-5678-9015,jungzee@naver.com
75,김지현,010-6789-0126,jh.kim@gmail.com


In [89]:
df.drop_duplicates().reset_index(drop=True)
                    # reset_index() : 제거된 행을 제외하고 인덱스를 재설정
                    # 기존 인덱스를 컬럼으로 추가하지 않으려면
                    # drop=True 인자를 전달해야함.
                    # 그럼 반대로 기존 인덱스가 컬럼으로 생기는 이유는 뭐임?

Unnamed: 0,Name,Phone,Email
0,김민수,010-1234-5678,minsu.kim@gmail.com
1,이지은,010-2345-6789,jieun.lee@naver.com
2,박철수,010-3456-7890,chulsoo.park@hotmail.com
3,홍길동,010-4567-8901,gildong.hong@daum.net
4,김영희,010-5678-9012,younghee.kim@gmail.com
...,...,...,...
71,범수정,010-3456-7892,soojeong.beom@gmail.com
72,이호진,010-4567-8904,hojin.lee@daum.net
73,정지윤,010-5678-9015,jungzee@naver.com
74,김지현,010-6789-0126,jh.kim@gmail.com


### 결측치 처리

In [90]:
df.isna().sum()
# df.isnull()

Name     0
Phone    6
Email    1
dtype: int64

In [91]:
# 결측값 처리 1 : 대표값으로 결측치 대체 (평균값, 기본값, 최빈값, ...)
# df['Phone'] = df['Phone'].fillna('010-0000-0000') # 기본값으로 대체
print(df['Phone'].value_counts())
df['Phone'] = df['Phone'].fillna('010-4567-8904') # 최빈값으로 대체
df['Phone'].value_counts()

Phone
010-2345-6789    2
010-3456-7892    2
010-0123-4569    2
010-2345-6782    2
010-4567-8904    2
                ..
010-6789-0128    1
010-7890-1240    1
010-8901-2349    1
010-9012-3461    1
010-1234-5672    1
Name: count, Length: 63, dtype: int64


Phone
010-4567-8904    8
010-2345-6789    2
010-3456-7892    2
010-0123-4569    2
010-2345-6782    2
                ..
010-6789-0128    1
010-7890-1240    1
010-8901-2349    1
010-9012-3461    1
010-1234-5672    1
Name: count, Length: 63, dtype: int64

In [92]:
# 결측값 처리 2 : 결측치가 포함된 행 제거
# - how='any' : 결측치 셀을 하나라도 가지고 있으면 행 제거 (기본값)
# - how='all' : 모든 셀이 결측치인 행 제거
df = df.dropna(how='any')

In [93]:
df.info()

<class 'pandas.DataFrame'>
Index: 76 entries, 0 to 76
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   Name    76 non-null     str  
 1   Phone   76 non-null     str  
 2   Email   76 non-null     str  
dtypes: str(3)
memory usage: 2.4 KB
