# Data Preprocessing
- 결측치 확인 및 처리
- 이상값 처리
- 중복값 처리

In [1]:
import numpy as np
import pandas as pd

In [2]:
contacts_df = pd.read_csv('./data/contacts.csv')
contacts_df.head(5)

Unnamed: 0,Name,Phone,Email
0,김민수,010-1234-5678,minsu.kim@gmail.com
1,이지은,010-2345-6789,jieun.lee@naver.com
2,박철수,010-3456-7890,chulsoo.park@hotmail.com
3,홍길동,010-4567-8901,gildong.hong@daum.net
4,김영희,010-5678-9012,younghee.kim@gmail.com


In [3]:
contacts_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 77 entries, 0 to 76
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Name    77 non-null     object
 1   Phone   71 non-null     object
 2   Email   76 non-null     object
dtypes: object(3)
memory usage: 1.9+ KB


In [4]:
contacts_df.describe() # 다르게 나오는 이유: 위에 보면 데이터 타입들이 object라서

# top: 제일 많이 가지고 있는 데이터
# freq: 그것의 빈도

Unnamed: 0,Name,Phone,Email
count,77,71,76
unique,75,63,75
top,박철수,010-2345-6789,dahyun.jung@naver.com
freq,2,2,2


### 중복 데이터 확인

In [5]:
contacts_df[contacts_df['Name']=='박철수']

Unnamed: 0,Name,Phone,Email
2,박철수,010-3456-7890,chulsoo.park@hotmail.com
31,박철수,010-1234-5681,chulsoo.park@gmail.com


In [6]:
contacts_df[contacts_df['Phone']=='010-2345-6789']

Unnamed: 0,Name,Phone,Email
1,이지은,010-2345-6789,jieun.lee@naver.com
71,엄정희,010-2345-6789,jeonghee.eom@hotmail.com


In [7]:
contacts_df[contacts_df['Email']=='dahyun.jung@naver.com']

Unnamed: 0,Name,Phone,Email
32,정다현,010-2345-6782,dahyun.jung@naver.com
67,정다현,010-2345-6782,dahyun.jung@naver.com


---

## 중복 데이터 처리

In [8]:
# 중복 데이터 더 깔쌈하게 확인
contacts_df.duplicated().sum()

# 결과가 1 = 2개의 행의 데이터가 중복
# 결과가 2 = A라는 데이터가 3번 중복된 경우 
#           OR A라는 데이터가 2번 + B라는 데이터가 2번 중복된 경우

np.int64(1)

In [9]:
contacts_df[contacts_df.duplicated()]

Unnamed: 0,Name,Phone,Email
67,정다현,010-2345-6782,dahyun.jung@naver.com


In [10]:
# 특정 컬럼을 지정해 중복 데이터를 확인 가능
contacts_df[contacts_df.duplicated(['Name'])] # 박철수 & 정다현 이름 중복 O

Unnamed: 0,Name,Phone,Email
31,박철수,010-1234-5681,chulsoo.park@gmail.com
67,정다현,010-2345-6782,dahyun.jung@naver.com


In [11]:
# 중복 데이터 제거하기
# reset_index(drop=True) -> 제거된 행 제외하고 인덱스 새로 설정
contacts_df = contacts_df.drop_duplicates().reset_index(drop=True)
contacts_df

Unnamed: 0,Name,Phone,Email
0,김민수,010-1234-5678,minsu.kim@gmail.com
1,이지은,010-2345-6789,jieun.lee@naver.com
2,박철수,010-3456-7890,chulsoo.park@hotmail.com
3,홍길동,010-4567-8901,gildong.hong@daum.net
4,김영희,010-5678-9012,younghee.kim@gmail.com
...,...,...,...
71,범수정,010-3456-7892,soojeong.beom@gmail.com
72,이호진,010-4567-8904,hojin.lee@daum.net
73,정지윤,010-5678-9015,jungzee@naver.com
74,김지현,010-6789-0126,jh.kim@gmail.com


---

### 결측치 처리

In [12]:
contacts_df.isna().sum()

Name     0
Phone    6
Email    1
dtype: int64

In [13]:
contacts_df.isnull().sum() # .isnull() == .isna()

Name     0
Phone    6
Email    1
dtype: int64

In [None]:
# 대표값으로 결측치 대체
# - 평균, 기본, 최반, ...

#contacts_df['Phone'] = contacts_df['Phone'].fillna('010-0000-0000') # 기본값

print(contacts_df['Phone'].value_counts()) # 각 값 count 보여줌
contacts_df['Phone'] = contacts_df['Phone'].fillna('010-2345-6789') # 최빈값

contacts_df.info()

Phone
010-2345-6789    2
010-0123-4569    2
010-3456-7892    2
010-6789-0126    2
010-7890-1237    2
                ..
010-6789-0128    1
010-7890-1240    1
010-8901-2349    1
010-9012-3461    1
010-1234-5672    1
Name: count, Length: 63, dtype: int64
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 76 entries, 0 to 75
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Name    76 non-null     object
 1   Phone   76 non-null     object
 2   Email   75 non-null     object
dtypes: object(3)
memory usage: 1.9+ KB


In [19]:
# df.dropna(): 결측치가 포함된 행 제거
# - how='all': 모든 셀이 결측치인 경우 행 제거
# - how='any': 결측치 셀을 하나라도 가지고 있으면 행 제거 (기본값)

contacts_df = contacts_df.dropna()
contacts_df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 75 entries, 0 to 75
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Name    75 non-null     object
 1   Phone   75 non-null     object
 2   Email   75 non-null     object
dtypes: object(3)
memory usage: 2.3+ KB
