# 데이터 전처리

- 결측치 확인 및 처리 (결측치가 포함된 행 제거 or 결측치 값 대체)
- 이상값 처리
- 중복값 처리

In [1]:
import numpy as np
import pandas as pd

In [None]:
df = pd.read_csv('./data/contacts.csv')
df

Unnamed: 0,Name,Phone,Email
0,김민수,010-1234-5678,minsu.kim@gmail.com
1,이지은,010-2345-6789,jieun.lee@naver.com
2,박철수,010-3456-7890,chulsoo.park@hotmail.com
3,홍길동,010-4567-8901,gildong.hong@daum.net
4,김영희,010-5678-9012,younghee.kim@gmail.com
...,...,...,...
72,범수정,010-3456-7892,soojeong.beom@gmail.com
73,이호진,010-4567-8904,hojin.lee@daum.net
74,정지윤,010-5678-9015,jungzee@naver.com
75,김지현,010-6789-0126,jh.kim@gmail.com


In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 77 entries, 0 to 76
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Name    77 non-null     object
 1   Phone   71 non-null     object
 2   Email   76 non-null     object
dtypes: object(3)
memory usage: 1.9+ KB


In [23]:
df.describe()

Unnamed: 0,Name,Phone,Email
count,77,71,76
unique,75,63,75
top,박철수,010-2345-6789,dahyun.jung@naver.com
freq,2,2,2


In [5]:
df[df['Name']=='박철수']

Unnamed: 0,Name,Phone,Email
2,박철수,010-3456-7890,chulsoo.park@hotmail.com
31,박철수,010-1234-5681,chulsoo.park@gmail.com


In [6]:
df[df['Phone']=='010-2345-6789']

Unnamed: 0,Name,Phone,Email
1,이지은,010-2345-6789,jieun.lee@naver.com
71,엄정희,010-2345-6789,jeonghee.eom@hotmail.com


In [7]:
df[df['Email']=='dahyun.jung@naver.com']

Unnamed: 0,Name,Phone,Email
32,정다현,010-2345-6782,dahyun.jung@naver.com
67,정다현,010-2345-6782,dahyun.jung@naver.com


---
### 중복 데이터 처리

In [None]:
# df.duplicated() = 기본적으로 모든 컬럼 값이 같을 때 중복으로 간주
# 결과가 1=2개 데이터 중복
# 결과가 2=A라는 데이터가 3번 중복된 경우 or A라는 데이터가 2번, B라는 데이터가 2번 중복된 경우
df.duplicated().sum() # 중복되는 것의 합계계


np.int64(1)

In [9]:
df[df.duplicated()]

Unnamed: 0,Name,Phone,Email
67,정다현,010-2345-6782,dahyun.jung@naver.com


In [15]:
# 특정 컬럼을 지정해서 중복 데이터를 찾기
# df[df.duplicated(["Name"])]
df[df.duplicated(["Phone"])]

Unnamed: 0,Name,Phone,Email
25,하이안,,hi.an@gmail.com
30,정하율,,hayul.jung@daum.net
37,이진아,,
45,하예원,,yewon.ha@hotmail.com
53,임지혜,,ji-hye.lim@gmail.com
67,정다현,010-2345-6782,dahyun.jung@naver.com
69,노정훈,010-0123-4569,junghoon.no@gmail.com
71,엄정희,010-2345-6789,jeonghee.eom@hotmail.com
72,범수정,010-3456-7892,soojeong.beom@gmail.com
73,이호진,010-4567-8904,hojin.lee@daum.net


In [25]:
# 중복 데이터 제거
df = df.drop_duplicates()
df.describe()

Unnamed: 0,Name,Phone,Email
count,76,70,75
unique,75,63,75
top,박철수,010-2345-6789,minsu.kim@gmail.com
freq,2,2,1


In [None]:
# 중복 데이터 제거
df = df.drop_duplicates().reset_index(drop=True) # drop=True: 기존 인덱스를 날림 | reset_index: 제거된 행을 제외하고 인덱스 재설정
df

Unnamed: 0,Name,Phone,Email
0,김민수,010-1234-5678,minsu.kim@gmail.com
1,이지은,010-2345-6789,jieun.lee@naver.com
2,박철수,010-3456-7890,chulsoo.park@hotmail.com
3,홍길동,010-4567-8901,gildong.hong@daum.net
4,김영희,010-5678-9012,younghee.kim@gmail.com
...,...,...,...
71,범수정,010-3456-7892,soojeong.beom@gmail.com
72,이호진,010-4567-8904,hojin.lee@daum.net
73,정지윤,010-5678-9015,jungzee@naver.com
74,김지현,010-6789-0126,jh.kim@gmail.com


---
# 결측치 처리

In [29]:
print(df.isna().sum())
df.isna()

Name     0
Phone    6
Email    1
dtype: int64


Unnamed: 0,Name,Phone,Email
0,False,False,False
1,False,False,False
2,False,False,False
3,False,False,False
4,False,False,False
...,...,...,...
71,False,False,False
72,False,False,False
73,False,False,False
74,False,False,False


In [30]:
# df.isnull()
print(df.isnull().sum())
df.isnull()

Name     0
Phone    6
Email    1
dtype: int64


Unnamed: 0,Name,Phone,Email
0,False,False,False
1,False,False,False
2,False,False,False
3,False,False,False
4,False,False,False
...,...,...,...
71,False,False,False
72,False,False,False
73,False,False,False
74,False,False,False


In [40]:
# 대표값으로 결측치 대체
# - 평균값, 기본값, 최빈값, ...
# df['Phone'] = df['Phone'].fillna('010-0000-0000')
df['Phone'].value_counts()
# df['Phone'] = df['Phone'].fillna('010-2345-6789')
# df.info()

Phone
010-2345-6789    8
010-2345-6782    2
010-3456-7892    2
010-0123-4569    2
010-7890-1237    2
                ..
010-6789-0128    1
010-7890-1240    1
010-8901-2349    1
010-9012-3461    1
010-1234-5672    1
Name: count, Length: 63, dtype: int64

In [None]:
# 결측치가 포함된 행을 제거
# - how='any': 결측치 셀을 하나라도 가지고 있으면 행 제거 (기본값)
# - how='all': 모든 셀이 결측치인 경우 행 제거
df = df.dropna()
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 71 entries, 0 to 76
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Name    71 non-null     object
 1   Phone   71 non-null     object
 2   Email   71 non-null     object
dtypes: object(3)
memory usage: 2.2+ KB
