## 데이터 전처리

- 결측치 확인 및 처리(결측치가 포함된 행 제거 or 결측치 값 대체)
- 이상값 처리
- 중복값 처리

In [28]:
import numpy as np
import pandas as pd

In [29]:
df = pd.read_csv('./data/contacts.csv')
print(df)

   Name          Phone                     Email
0   김민수  010-1234-5678       minsu.kim@gmail.com
1   이지은  010-2345-6789       jieun.lee@naver.com
2   박철수  010-3456-7890  chulsoo.park@hotmail.com
3   홍길동  010-4567-8901     gildong.hong@daum.net
4   김영희  010-5678-9012    younghee.kim@gmail.com
..  ...            ...                       ...
72  범수정  010-3456-7892   soojeong.beom@gmail.com
73  이호진  010-4567-8904        hojin.lee@daum.net
74  정지윤  010-5678-9015         jungzee@naver.com
75  김지현  010-6789-0126          jh.kim@gmail.com
76  이지훈  010-7890-1237           leejh@gmail.com

[77 rows x 3 columns]


In [30]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 77 entries, 0 to 76
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Name    77 non-null     object
 1   Phone   71 non-null     object
 2   Email   76 non-null     object
dtypes: object(3)
memory usage: 1.9+ KB


In [31]:
df.describe()

Unnamed: 0,Name,Phone,Email
count,77,71,76
unique,75,63,75
top,박철수,010-2345-6789,dahyun.jung@naver.com
freq,2,2,2


In [32]:
df[df['Name'] == '박철수']


Unnamed: 0,Name,Phone,Email
2,박철수,010-3456-7890,chulsoo.park@hotmail.com
31,박철수,010-1234-5681,chulsoo.park@gmail.com


In [33]:
df[df['Phone'] == '010-2345-6789']


Unnamed: 0,Name,Phone,Email
1,이지은,010-2345-6789,jieun.lee@naver.com
71,엄정희,010-2345-6789,jeonghee.eom@hotmail.com


In [34]:
df[df['Email'] == 'dahyun.jung@naver.com']

Unnamed: 0,Name,Phone,Email
32,정다현,010-2345-6782,dahyun.jung@naver.com
67,정다현,010-2345-6782,dahyun.jung@naver.com


---
### 중복 데이터 처리

In [35]:
# df.duplicated() = 기본적으로 모든 컬럼 값이 같을 때 중복으로 간주
# 결과가 1 = 2개 데이터 중복
# 결과가 2 = A라는 데이터가 3번 중복 or A 데이터 2번, B라는 데이터 2번 중복된 경우
df.duplicated().sum()

np.int64(1)

In [36]:
df[df.duplicated()]

Unnamed: 0,Name,Phone,Email
67,정다현,010-2345-6782,dahyun.jung@naver.com


In [37]:
# 특정 컬럼을 지정해서 중복 데이터 찾기
df[df.duplicated(['Name'])]

Unnamed: 0,Name,Phone,Email
31,박철수,010-1234-5681,chulsoo.park@gmail.com
67,정다현,010-2345-6782,dahyun.jung@naver.com


In [38]:
# 중복데이터 제거
df = df.drop_duplicates().reset_index(drop=True) # reset_index() : 제거된 행을 제외하고 인덱스 재설정
print(df)

   Name          Phone                     Email
0   김민수  010-1234-5678       minsu.kim@gmail.com
1   이지은  010-2345-6789       jieun.lee@naver.com
2   박철수  010-3456-7890  chulsoo.park@hotmail.com
3   홍길동  010-4567-8901     gildong.hong@daum.net
4   김영희  010-5678-9012    younghee.kim@gmail.com
..  ...            ...                       ...
71  범수정  010-3456-7892   soojeong.beom@gmail.com
72  이호진  010-4567-8904        hojin.lee@daum.net
73  정지윤  010-5678-9015         jungzee@naver.com
74  김지현  010-6789-0126          jh.kim@gmail.com
75  이지훈  010-7890-1237           leejh@gmail.com

[76 rows x 3 columns]


---
### 결측치 처리

In [39]:
# df.isna() : 
print(df.isna().sum())
df.isna()

Name     0
Phone    6
Email    1
dtype: int64


Unnamed: 0,Name,Phone,Email
0,False,False,False
1,False,False,False
2,False,False,False
3,False,False,False
4,False,False,False
...,...,...,...
71,False,False,False
72,False,False,False
73,False,False,False
74,False,False,False


In [40]:
# df.isnull() :
print(df.isnull().sum())
df.isnull()

Name     0
Phone    6
Email    1
dtype: int64


Unnamed: 0,Name,Phone,Email
0,False,False,False
1,False,False,False
2,False,False,False
3,False,False,False
4,False,False,False
...,...,...,...
71,False,False,False
72,False,False,False
73,False,False,False
74,False,False,False


In [41]:
# 대표값으로 결측치 대체
# - 평균값, 기본값, 최빈값, ...

# df['Phone'] = df['Phone'].fillna('010-0000-0000')  # 기본값

# df['Phone'].value_counts() 
df['Phone'] = df['Phone'].filna('010-2345-6789') # 최빈값

# df.info()

Phone
010-2345-6789    2
010-0123-4569    2
010-3456-7892    2
010-6789-0126    2
010-7890-1237    2
                ..
010-6789-0128    1
010-7890-1240    1
010-8901-2349    1
010-9012-3461    1
010-1234-5672    1
Name: count, Length: 63, dtype: int64

In [43]:
# 결측치가 포함된 행 제거
# - how='any' : 결측치 셀을 하나라도 가지고 있으면 행 제거
# - how='all' : 모든 셀이 결측치인 경우 행 제거
df = df.dropna(how='all')
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 70 entries, 0 to 75
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Name    70 non-null     object
 1   Phone   70 non-null     object
 2   Email   70 non-null     object
dtypes: object(3)
memory usage: 2.2+ KB
