---
##### 04_data_preprocessing 데이터 전처리
- 결측치 확인 및 처리 (결측치가 포함된 행 제거 or 결측치 값 대체)
- 이상값 처리
- 중복값 처리

In [1]:
import numpy as np
import pandas as pd

In [2]:
n = "\n-------------------------------------------------------------------------------\n"

In [14]:
df = pd.read_csv('./data/contacts.csv')
df

Unnamed: 0,Name,Phone,Email
0,김민수,010-1234-5678,minsu.kim@gmail.com
1,이지은,010-2345-6789,jieun.lee@naver.com
2,박철수,010-3456-7890,chulsoo.park@hotmail.com
3,홍길동,010-4567-8901,gildong.hong@daum.net
4,김영희,010-5678-9012,younghee.kim@gmail.com
...,...,...,...
72,범수정,010-3456-7892,soojeong.beom@gmail.com
73,이호진,010-4567-8904,hojin.lee@daum.net
74,정지윤,010-5678-9015,jungzee@naver.com
75,김지현,010-6789-0126,jh.kim@gmail.com


In [6]:
df.isnull().sum()

Name     0
Phone    6
Email    1
dtype: int64

In [None]:
df.info()
# 결측치 확인
# Phone 컬럼 결측치 확인 : 6개
# Email 컬럼 결측치 확인 : 1개

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 77 entries, 0 to 76
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Name    77 non-null     object
 1   Phone   71 non-null     object
 2   Email   76 non-null     object
dtypes: object(3)
memory usage: 1.9+ KB


In [9]:
df.describe()
# object 타입 컬럼 조회를 하는 경우 describe() 함수를 사용하면 object 타입 컬럼에 대해서는 모든 통계 정보를 조회할 수 없습니다.

Unnamed: 0,Name,Phone,Email
count,77,71,76
unique,75,63,75
top,박철수,010-2345-6789,dahyun.jung@naver.com
freq,2,2,2


In [11]:
# 따라서 object 타입 컬럼에 대해서는 다음과 같이 조회해야 합니다.
df.describe(include=['object'])

Unnamed: 0,Name,Phone,Email
count,77,71,76
unique,75,63,75
top,박철수,010-2345-6789,dahyun.jung@naver.com
freq,2,2,2


In [13]:
df[df['Name'] == '박철수']

Unnamed: 0,Name,Phone,Email
2,박철수,010-3456-7890,chulsoo.park@hotmail.com
31,박철수,010-1234-5681,chulsoo.park@gmail.com


In [14]:
df[df['Phone'] == '010-2345-6789']

Unnamed: 0,Name,Phone,Email
1,이지은,010-2345-6789,jieun.lee@naver.com
71,엄정희,010-2345-6789,jeonghee.eom@hotmail.com


In [15]:
df[df['Email'] == 'dahyun.jung@naver.com']

Unnamed: 0,Name,Phone,Email
32,정다현,010-2345-6782,dahyun.jung@naver.com
67,정다현,010-2345-6782,dahyun.jung@naver.com


---
##### 중복 데이터 처리

In [20]:
df.duplicated()

0     False
1     False
2     False
3     False
4     False
      ...  
72    False
73    False
74    False
75    False
76    False
Length: 77, dtype: bool

In [None]:
# df.duplicated() = 기본적으로 모든 컬럼 값이 같을 때 중복으로 간주
# 결과가 1 = 2개 데이터 중복
# 결과가 2 = A라는 데이터가 3번 중복된 경우 
# or A라는 데이터가 2번, B라는 데이터가 2번 중복된 경우

df.duplicated().sum() # 중복 데이터 개수 조회
# np.int64(1) : 2개 데이터 중복복
# np.int64(2) : 

np.int64(1)

In [None]:
df[df.duplicated()]
# 2	박철수	010-3456-7890	chulsoo.park@hotmail.com
# 31	박철수	010-1234-5681	chulsoo.park@gmail.com
# 1	이지은	010-2345-6789	jieun.lee@naver.com
# 71	엄정희	010-2345-6789	jeonghee.eom@hotmail.com
# 32	정다현	010-2345-6782	dahyun.jung@naver.com 중복
# 67	정다현	010-2345-6782	dahyun.jung@naver.com 중복
# 모든 컬럼 값이 같아야만 중복으로 간주


Unnamed: 0,Name,Phone,Email
67,정다현,010-2345-6782,dahyun.jung@naver.com


In [None]:
# 1개라도 중복되면 중복으로 간주하기 (Name 컬럼 기준)
df[df.duplicated(['Name'])]

Unnamed: 0,Name,Phone,Email
31,박철수,010-1234-5681,chulsoo.park@gmail.com
67,정다현,010-2345-6782,dahyun.jung@naver.com


In [32]:
# 1개라도 중복되면 중복으로 간주하기 (Name 컬럼 기준)
df[df.duplicated(['Phone'])]

Unnamed: 0,Name,Phone,Email
25,하이안,,hi.an@gmail.com
30,정하율,,hayul.jung@daum.net
37,이진아,,
45,하예원,,yewon.ha@hotmail.com
53,임지혜,,ji-hye.lim@gmail.com
67,정다현,010-2345-6782,dahyun.jung@naver.com
69,노정훈,010-0123-4569,junghoon.no@gmail.com
71,엄정희,010-2345-6789,jeonghee.eom@hotmail.com
72,범수정,010-3456-7892,soojeong.beom@gmail.com
73,이호진,010-4567-8904,hojin.lee@daum.net


In [33]:
# 1개라도 중복되면 중복으로 간주하기 (Name 컬럼 기준)
df[df.duplicated(['Email'])]

Unnamed: 0,Name,Phone,Email
67,정다현,010-2345-6782,dahyun.jung@naver.com


In [None]:
# 중복데이터 제거
df.drop_duplicates(['Name'])
df.drop_duplicates(['Phone'])
df.drop_duplicates(['Email'])
# 중복데이터 제거
df.drop_duplicates(['Name'])
df.drop_duplicates(['Phone'])

In [None]:
# 중복데이터 제거 (모든 컬럼 기준)
df.drop_duplicates()

Unnamed: 0,Name,Phone,Email
0,김민수,010-1234-5678,minsu.kim@gmail.com
1,이지은,010-2345-6789,jieun.lee@naver.com
2,박철수,010-3456-7890,chulsoo.park@hotmail.com
3,홍길동,010-4567-8901,gildong.hong@daum.net
4,김영희,010-5678-9012,younghee.kim@gmail.com
...,...,...,...
72,범수정,010-3456-7892,soojeong.beom@gmail.com
73,이호진,010-4567-8904,hojin.lee@daum.net
74,정지윤,010-5678-9015,jungzee@naver.com
75,김지현,010-6789-0126,jh.kim@gmail.com


In [None]:
df.describe() # 정다현	010-2345-6782	dahyun.jung@naver.com 2개 중복 데이터 제거됨됨

Unnamed: 0,Name,Phone,Email
count,77,71,76
unique,75,63,75
top,박철수,010-2345-6789,dahyun.jung@naver.com
freq,2,2,2


In [37]:
# 중복데이터 제거 (인덱스 재설정)
df = df.drop_duplicates().reset_index(drop=True)
# 제거된 행을 제외하고 인덱스 재설정
df[df['Name'] == '정다현']

Unnamed: 0,Name,Phone,Email
32,정다현,010-2345-6782,dahyun.jung@naver.com


---
##### 결측치 처리

In [38]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 76 entries, 0 to 75
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Name    76 non-null     object
 1   Phone   70 non-null     object
 2   Email   75 non-null     object
dtypes: object(3)
memory usage: 1.9+ KB


In [39]:
df.isna().sum()

Name     0
Phone    6
Email    1
dtype: int64

In [40]:
print(df.isna().sum())

Name     0
Phone    6
Email    1
dtype: int64


In [4]:
df.isnull().sum()

Name     0
Phone    6
Email    1
dtype: int64

# 대표값으로 결측치를 대체
# - 평균값, 기본값, 최빈값, ...

In [6]:
df[df.duplicated('Phone')]

Unnamed: 0,Name,Phone,Email
25,하이안,,hi.an@gmail.com
30,정하율,,hayul.jung@daum.net
37,이진아,,
45,하예원,,yewon.ha@hotmail.com
53,임지혜,,ji-hye.lim@gmail.com
67,정다현,010-2345-6782,dahyun.jung@naver.com
69,노정훈,010-0123-4569,junghoon.no@gmail.com
71,엄정희,010-2345-6789,jeonghee.eom@hotmail.com
72,범수정,010-3456-7892,soojeong.beom@gmail.com
73,이호진,010-4567-8904,hojin.lee@daum.net


In [7]:
df['Phone'] = df['Phone'].fillna('010-0000-0000') # 정해진 기본 값을 넣어준다.

In [8]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 77 entries, 0 to 76
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Name    77 non-null     object
 1   Phone   77 non-null     object
 2   Email   76 non-null     object
dtypes: object(3)
memory usage: 1.9+ KB


In [9]:
df['Phone'].value_counts()

Phone
010-0000-0000    6
010-2345-6789    2
010-2345-6782    2
010-3456-7892    2
010-0123-4569    2
                ..
010-6789-0128    1
010-7890-1240    1
010-8901-2349    1
010-9012-3461    1
010-1234-5672    1
Name: count, Length: 64, dtype: int64

In [15]:
df['Phone'] = df['Phone'].fillna('010-2345-6789') # 최빈값으로 결측치를 채우기
df['Phone'].value_counts()

Phone
010-2345-6789    8
010-2345-6782    2
010-3456-7892    2
010-0123-4569    2
010-7890-1237    2
                ..
010-6789-0128    1
010-7890-1240    1
010-8901-2349    1
010-9012-3461    1
010-1234-5672    1
Name: count, Length: 63, dtype: int64

In [16]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 77 entries, 0 to 76
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Name    77 non-null     object
 1   Phone   77 non-null     object
 2   Email   76 non-null     object
dtypes: object(3)
memory usage: 1.9+ KB


In [18]:
df = pd.read_csv('./data/contacts.csv')
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 77 entries, 0 to 76
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Name    77 non-null     object
 1   Phone   71 non-null     object
 2   Email   76 non-null     object
dtypes: object(3)
memory usage: 1.9+ KB


In [26]:
# 결측치가 포함된 행 제거
# ! - how='any' : 결측치 셀을 하나라도 가지고 있으면 행 제거 (기본값)
# ! - how='all' : 모든 셀이 결측치인 경우 행 제거

# 행을 제거하는 것은 drop()
# 중복된 행을 제거하는 것은 drop_duplicates()
# 결측치를 가진 행을 제거하는 것은 dropna()
df = df.dropna()

In [27]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 71 entries, 0 to 76
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Name    71 non-null     object
 1   Phone   71 non-null     object
 2   Email   71 non-null     object
dtypes: object(3)
memory usage: 2.2+ KB


In [30]:
df = pd.read_csv('./data/contacts.csv')
df = df.dropna(how='all')
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 77 entries, 0 to 76
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Name    77 non-null     object
 1   Phone   71 non-null     object
 2   Email   76 non-null     object
dtypes: object(3)
memory usage: 1.9+ KB
