# 데이터 전처리 
- 결측지 확인 및 처리
- 이상값 처리
- 중복값 처리

In [70]:
import pandas as pd 
import numpy as np

In [71]:
df = pd.read_csv('./data/contacts.csv')
df

Unnamed: 0,Name,Phone,Email
0,김민수,010-1234-5678,minsu.kim@gmail.com
1,이지은,010-2345-6789,jieun.lee@naver.com
2,박철수,010-3456-7890,chulsoo.park@hotmail.com
3,홍길동,010-4567-8901,gildong.hong@daum.net
4,김영희,010-5678-9012,younghee.kim@gmail.com
...,...,...,...
72,범수정,010-3456-7892,soojeong.beom@gmail.com
73,이호진,010-4567-8904,hojin.lee@daum.net
74,정지윤,010-5678-9015,jungzee@naver.com
75,김지현,010-6789-0126,jh.kim@gmail.com


In [72]:
df.info()     # 결측치 개수 확인가능

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 77 entries, 0 to 76
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Name    77 non-null     object
 1   Phone   71 non-null     object
 2   Email   76 non-null     object
dtypes: object(3)
memory usage: 1.9+ KB


In [73]:
df.describe()    # object 형식이기 때문에, 다른 형식으로 반환 / top : 가장 많이 가지고 있는 값 / freq : 가장 많이 가지고 있는 값의 개수

Unnamed: 0,Name,Phone,Email
count,77,71,76
unique,75,63,75
top,박철수,010-2345-6789,dahyun.jung@naver.com
freq,2,2,2


In [74]:
df[df['Name'] == '박철수']

Unnamed: 0,Name,Phone,Email
2,박철수,010-3456-7890,chulsoo.park@hotmail.com
31,박철수,010-1234-5681,chulsoo.park@gmail.com


In [75]:
df[df['Phone'] == '010-2345-6789']

Unnamed: 0,Name,Phone,Email
1,이지은,010-2345-6789,jieun.lee@naver.com
71,엄정희,010-2345-6789,jeonghee.eom@hotmail.com


In [76]:
df[df['Email'] == 'dahyun.jung@naver.com']

Unnamed: 0,Name,Phone,Email
32,정다현,010-2345-6782,dahyun.jung@naver.com
67,정다현,010-2345-6782,dahyun.jung@naver.com


### 중복 데이터 처리 

In [None]:
# df.duplicated()    # 기본적으로 모든 컬럼 값이 같을 때 중복으로 간주 

df.duplicated().sum()    

# 결과가 1 = 2개의 행의 데이터가 중복
# 결과가 2 = a라는 데이터가 3번 중복된 경우 or a라는 데이터가 2번 + b라는 데이터가 2번 중복된 경우

0     False
1     False
2     False
3     False
4     False
      ...  
72    False
73    False
74    False
75    False
76    False
Length: 76, dtype: bool

In [78]:
df[df.duplicated()]

Unnamed: 0,Name,Phone,Email
67,정다현,010-2345-6782,dahyun.jung@naver.com


In [79]:
# 특정 컬럼을 지정해 중복 데이터를 확인 가능
df[df.duplicated(['Name'])]

Unnamed: 0,Name,Phone,Email
31,박철수,010-1234-5681,chulsoo.park@gmail.com
67,정다현,010-2345-6782,dahyun.jung@naver.com


In [80]:
# 중복데이터 제거 
df.drop_duplicates().reset_index(drop=True)      # drop만 사용시 인덱스가 유지됨. reset_index 매서드를 이용해서 인덱스 재설정 조건 부여 
df.info()                                               # drop_duplicartes : 모든 컬럼이 동일하면 제거 

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 77 entries, 0 to 76
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Name    77 non-null     object
 1   Phone   71 non-null     object
 2   Email   76 non-null     object
dtypes: object(3)
memory usage: 1.9+ KB


---

### 결측치 처리 

In [81]:
df.isna().sum()

Name     0
Phone    6
Email    1
dtype: int64

In [82]:
df.isnull().sum()                # isna와 동일한 기능을 함. 

Name     0
Phone    6
Email    1
dtype: int64

In [None]:
# 대표값으로 결측치 대체
# - 평균, 기본값, 최빈값 ,,,

# df['Phone'] = df['Phone'].fillna('010-0000-0000')     # 기본값

df['Phone'].value_counts()   # 값의 개수를 반환
df['Phone'] = df['Phone'].fillna('010-2345-6789')       # 최빈값

# df.info()
# print(df['Phone'] == '010-0000-0000')

Phone
010-2345-6789    7
010-2345-6782    2
010-3456-7892    2
010-0123-4569    2
010-7890-1237    2
                ..
010-6789-0128    1
010-7890-1240    1
010-8901-2349    1
010-9012-3461    1
010-1234-5672    1
Name: count, Length: 63, dtype: int64

In [85]:
# df.dropna() : 결측치가 포함된 행 제거 
# - how = 'all' : 모든 셀이 결측치인 경우 행 제거 
# - how = 'any' : 결측치 셀을 하나라도 가지고 있으면 해당 행 제거 (기본값)

# df = df.dropna(how='all')     # inplace 연산 미지원
df = df.dropna() 
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 76 entries, 0 to 76
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Name    76 non-null     object
 1   Phone   76 non-null     object
 2   Email   76 non-null     object
dtypes: object(3)
memory usage: 2.4+ KB
