# Chapter 5. 데이터 사전처리
* 전처리 Preprocessing
* 분석 데이터의 품질을 높이기 위한 작업
* 누락, 결측, 중복 데이터 등을 처리

## 1. 누락 데이터 처리

### 누락 데이터 확인

In [1]:
import seaborn as sns

# titanic 데이터셋 가져오기
df = sns.load_dataset('titanic')

#df 의 정보 출력
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 15 columns):
survived       891 non-null int64
pclass         891 non-null int64
sex            891 non-null object
age            714 non-null float64
sibsp          891 non-null int64
parch          891 non-null int64
fare           891 non-null float64
embarked       889 non-null object
class          891 non-null category
who            891 non-null object
adult_male     891 non-null bool
deck           203 non-null category
embark_town    889 non-null object
alive          891 non-null object
alone          891 non-null bool
dtypes: bool(2), category(2), float64(2), int64(4), object(5)
memory usage: 80.6+ KB


In [2]:
# deck 열의 NaN 개수 계산하기
# value_counts() , dropna 옵션 False
df["deck"].value_counts(dropna=False)

NaN    688
C       59
B       47
D       33
E       32
A       15
F       13
G        4
Name: deck, dtype: int64

In [3]:
# isnull() 메서드로 누락 데이터 찾기
df.head().isnull()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False
1,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False
3,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False


In [4]:
# notnull() 메서드로 누락 데이터 찾기
df.head().notnull()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,True,True,True,True,True,True,True,True,True,True,True,False,True,True,True
1,True,True,True,True,True,True,True,True,True,True,True,True,True,True,True
2,True,True,True,True,True,True,True,True,True,True,True,False,True,True,True
3,True,True,True,True,True,True,True,True,True,True,True,True,True,True,True
4,True,True,True,True,True,True,True,True,True,True,True,False,True,True,True


In [5]:
# isnull() 메서드로 누락 데이터 개수 구하기
df.isnull().sum(axis=0)

survived         0
pclass           0
sex              0
age            177
sibsp            0
parch            0
fare             0
embarked         2
class            0
who              0
adult_male       0
deck           688
embark_town      2
alive            0
alone            0
dtype: int64

### 누락 데이터 제거

In [6]:
# for 반복문으로 각 열의 NaN 개수 계산하기
missing_df = df.isnull()
for col in missing_df.columns:
    missing_count = missing_df[col].value_counts()    # 각 열의 NaN 개수 파악

    try: 
        print(col, ': ', missing_count[True])   # NaN 값이 있으면 개수를 출력
    except:
        print(col, ': ', 0)                     # NaN 값이 없으면 0개 출력

survived :  0
pclass :  0
sex :  0
age :  177
sibsp :  0
parch :  0
fare :  0
embarked :  2
class :  0
who :  0
adult_male :  0
deck :  688
embark_town :  2
alive :  0
alone :  0


In [7]:
# NaN 값이 500개 이상인 열을 모두 삭제 - deck 열(891개 중 688개의 NaN 값)
# dropna 함수, thresh 옵션 
 
df_thresh = df.dropna(thresh=500, axis=1)
df_thresh.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,Southampton,no,True


In [8]:
# age 열에 나이 데이터가 없는 모든 행을 삭제 - age 열(891개 중 177개의 NaN 값)
# dropna 함수, subset 옵션 ['age'], how 옵션 하나라도 없으면 (any)

df_age = df.dropna(subset=['age'], how="any")
print(df.shape, df_age.shape)
df_age.head()


(891, 15) (714, 15)


Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


### 누락 데이터 치환

In [9]:
# age 열의 첫 10개 데이터 출력 (5 행에 NaN 값)
df['age'].head(10)

0    22.0
1    38.0
2    26.0
3    35.0
4    35.0
5     NaN
6    54.0
7     2.0
8    27.0
9    14.0
Name: age, dtype: float64

In [10]:
# age 열의 NaN값을 다른 나이 데이터의 평균으로 변경하기
# age 열의 평균 계산 (NaN 값 제외)
# mean 함수, 행 기준
mean_age =  df['age'].mean()
mean_age
# fillna 함수, 데이터 필수 옵션
df['age'] = df['age'].fillna(mean_age)
df['age'].head(10)

0    22.000000
1    38.000000
2    26.000000
3    35.000000
4    35.000000
5    29.699118
6    54.000000
7     2.000000
8    27.000000
9    14.000000
Name: age, dtype: float64

In [11]:
# embark_town 열의 829행의 NaN 데이터 출력
df['embark_town'][825:830]

825     Queenstown
826    Southampton
827      Cherbourg
828     Queenstown
829            NaN
Name: embark_town, dtype: object

In [12]:
# embark_town 열의 NaN값을 승선도시 중에서 가장 많이 출현한 값으로 치환하기
# value_counts 함수, dropna 옵션 / idxmax() 함수 -> 최빈값 인덱스

most_freq = df['embark_town'].value_counts(dropna=False).idxmax()
most_freq

'Southampton'

In [13]:
# fillna 함수, 데이터 필수 옵션
df_emb = df['embark_town'].fillna(most_freq)
df_emb[825:830]

825     Queenstown
826    Southampton
827      Cherbourg
828     Queenstown
829    Southampton
Name: embark_town, dtype: object

In [14]:
# embark_town 열의 NaN값을 바로 앞에 있는 828행의 값으로 변경하기
# fillna 함수, ffill 옵션 -> 바로 앞의 데이터 값으로 치환
df3 = df['embark_town'].fillna(method='ffill')
df3[825:830]

825     Queenstown
826    Southampton
827      Cherbourg
828     Queenstown
829     Queenstown
Name: embark_town, dtype: object

------

## 2. 중복 데이터 처리

### 중복 데이터 확인

In [15]:
import pandas as pd
# 중복 데이터를 갖는 데이터프레임 만들기
df = pd.DataFrame({'c1':['a', 'a', 'b', 'a', 'b'],
                  'c2':[1, 1, 1, 2, 2],
                  'c3':[1, 1, 2, 2, 2]})
df

Unnamed: 0,c1,c2,c3
0,a,1,1
1,a,1,1
2,b,1,2
3,a,2,2
4,b,2,2


In [16]:
# 데이터프레임 전체 행 데이터 중에서 중복값 찾기
# duplicated 함수 사용

df_dup = df.duplicated()
df_dup

0    False
1     True
2    False
3    False
4    False
dtype: bool

In [17]:
# 데이터프레임의 특정 열 데이터에서 중복값 찾기
# 'c2'열 중복 찾기

col_dup = df['c2'].duplicated()
col_dup

0    False
1     True
2     True
3    False
4     True
Name: c2, dtype: bool

### 중복 데이터 제거

In [18]:
# 중복 데이터를 갖는 데이터프레임 만들기
df = pd.DataFrame({'c1':['a', 'a', 'b', 'a', 'b'],
                  'c2':[1, 1, 1, 2, 2],
                  'c3':[1, 1, 2, 2, 2]})

In [19]:
# 데이터프레임에서 중복 행을 제거
# drop_duplicates 함수 사용

df2 = df.drop_duplicates()
df2

Unnamed: 0,c1,c2,c3
0,a,1,1
2,b,1,2
3,a,2,2
4,b,2,2


In [27]:
# c2, c3열을 기준으로 중복 행을 제거
# drop_duplicates 함수 사용, subset 옵션 : ['c2', 'c3']

df3 = df.drop_duplicates(subset=['c2', 'c3'])
df3

Unnamed: 0,c1,c2,c3
0,a,1,1
2,b,1,2
3,a,2,2


In [28]:
df4=df3.reset_index()
df4

Unnamed: 0,index,c1,c2,c3
0,0,a,1,1
1,2,b,1,2
2,3,a,2,2


In [24]:
df3=df3.reset_index().drop(['index'], axis=1)
df3

Unnamed: 0,c1,c2,c3
0,a,1,1
1,b,1,2
2,a,2,2


-----