# 데이터 전처리(Data Preprocessing)
- 머신러닝 등 데이터 분석의 정확도는 분석 데이터의 품질에 의해 좌우된다.
- 데이터 품질을 높이기 위해서는 누락 데이터, 중복 데이터 등 오류를 수정하고 분석 목적에 맞게 변형하는 과정이 필요하다.
- 수집한 데이터를 분석에 적합하도록 처리하는 과정을 데이터 전처리(Data Preprocessing)이라고 한다.

## 누락 데이터 처리
- 데이터 프레임에는 원소 데이터 값이 종종 누락되는 경우가 있다. 
- 데이터를 파일로 입력할 때 빠뜨리거나 파일 형식을 변환하는 과정에서 데이터가 손실되는 것이 주요 원인이다.
- 일반적으로 유효한 데이터 값이 존재하지 않는 누락 데이터를  Nan(Not a Number)로 표시한다.
- 데이터 분석을 하기 전에 반드시 누락 데이터를 제거하거나 다른 적적할 값으로 대체하는 과정이 필요하다.

* Seaborn 라이러리의 'titanic' 데이터셋을 사용한다.

In [1]:
# 판다스, Seaborn 라이브러리 임포트

import pandas as pd
import seaborn as sns

In [20]:
# Seaborn 라이브러리의 'titanic'데이터셋을 로드(seaborn.load_dataset())한다.
# 로드한 데이터프레임을  df에 대입한다.

df = sns.load_dataset("titanic")
df

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True
888,0,3,female,,1,2,23.4500,S,Third,woman,False,,Southampton,no,False
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True


In [3]:
# 데이터프레임 df의 isnull()메소드와  sum()메소들 이용하여 누락 데이터 개수 구하기

df.isnull().sum()

survived         0
pclass           0
sex              0
age            177
sibsp            0
parch            0
fare             0
embarked         2
class            0
who              0
adult_male       0
deck           688
embark_town      2
alive            0
alone            0
dtype: int64

## 누락 데이터 제거
* <b>`데이터프레임객체.dropna()`</b>
- 누락데이터가 들어있는 열을 삭제하면 분석 대상이 갖는 특성(변수)를 제거하고, 행을 삭제하면 분석 대상의 관측값(레코드)를 제거하게 된다.  


In [5]:
# numpy임포트

import numpy as np

In [7]:
# 데이터프레임 df_exam01생성

df_exam01 = pd.DataFrame({"name":["Alfred","Batman","Catwoman"],
                         "toy":[np.nan,"Batmobile","Bullwhip"],
                         "city":[np.nan,"LA",np.nan]})
df_exam01

Unnamed: 0,name,toy,city
0,Alfred,,
1,Batman,Batmobile,LA
2,Catwoman,Bullwhip,


In [8]:
# 적어도 하나의 누락데이터가 있는 행을 삭제

df_exam01.dropna()

Unnamed: 0,name,toy,city
1,Batman,Batmobile,LA


In [9]:
# df_exam01은 변경되지 않았음을 확인

df_exam01

Unnamed: 0,name,toy,city
0,Alfred,,
1,Batman,Batmobile,LA
2,Catwoman,Bullwhip,


In [10]:
#적어도 하나의 누락데이터가 있는 열을 삭제

df_exam01.dropna(axis=1)

Unnamed: 0,name
0,Alfred
1,Batman
2,Catwoman


In [11]:
#행의 모든 요소가 누락데이터일 경우 삭제

df_exam01.dropna(how="all")

Unnamed: 0,name,toy,city
0,Alfred,,
1,Batman,Batmobile,LA
2,Catwoman,Bullwhip,


In [12]:
#유효데이터가 2개 이상인 행만 남김, 즉, 유효데이터가 2개 미만인 행을 삭제

df_exam01.dropna(thresh=2)

Unnamed: 0,name,toy,city
1,Batman,Batmobile,LA
2,Catwoman,Bullwhip,


In [13]:
# 'name'과 'toy'열의 데이터중에서 누락데이터가 있으면 행 삭제

df_exam01.dropna(subset=["name","toy"])

Unnamed: 0,name,toy,city
1,Batman,Batmobile,LA
2,Catwoman,Bullwhip,


In [14]:
#df_exam01을 변경되지 않았음을 확인

df_exam01

Unnamed: 0,name,toy,city
0,Alfred,,
1,Batman,Batmobile,LA
2,Catwoman,Bullwhip,


In [16]:
# df_exam01 데이터프레임 자체가 변경됨

df_exam01.dropna(inplace=True)
df_exam01

Unnamed: 0,name,toy,city
1,Batman,Batmobile,LA


* 'titanic'데이터셋에서 전체 891명의 승객 중에서 688명의 'deck' 데이터가 누락되어 있다. 누락데이터가 차지하는 비율이 매우 높기 때문에 'deck'열의 누락데이터를 삭제하여 분석에서 제외하는 것이 의미가 있다.

In [17]:
# 유효데이터 개수 확인
df.notnull().sum()

survived       891
pclass         891
sex            891
age            714
sibsp          891
parch          891
fare           891
embarked       889
class          891
who            891
adult_male     891
deck           203
embark_town    889
alive          891
alone          891
dtype: int64

In [23]:
#열이름은 'deck'인 열을 삭제
df.drop(columns="deck").columns

#동일식 df.drop("deck",axis=1).columns

Index(['survived', 'pclass', 'sex', 'age', 'sibsp', 'parch', 'fare',
       'embarked', 'class', 'who', 'adult_male', 'embark_town', 'alive',
       'alone'],
      dtype='object')

In [25]:
#유효한 데이터가 500개이상인 열만 남김, 즉 유효한 데이터가 500개미만인 열을 삭제

df.dropna(thresh=500, axis=1).columns

Index(['survived', 'pclass', 'sex', 'age', 'sibsp', 'parch', 'fare',
       'embarked', 'class', 'who', 'adult_male', 'embark_town', 'alive',
       'alone'],
      dtype='object')

* 우리 예제에서 전체 891명의 승객 중에서 177명은 'age'에 대한 데이터가 없다. 승객의 나이가 데이터 분석의 중요한 변수라면, 나이 데이터가 없는 승객의 레코드(행)을 제거하는 것이 좋다.

In [31]:
#'age'열의 데이터가 누락데이터인 경우 그 해당 행을 제거

df.dropna(subset=["age"]).shape  #891 -> 714 줄었음 (-177개)

(714, 15)

## 누락 데이터 치환
<b>`데이터프레임객체.fillna()`</b>
- 데이터셋의 품질을 높일 목적으로 누락 데이터를 무작정 삭제해 버린다면 어렵게 수집한 데이터를 활용하지 못하게 된다.
- 데이터 분석의 정확도는 데이터의 품질 이외에도 제공되는 데이터의 양에 의해 상당한 영향을 받는다.
- 따라서 데이터 중에서 일부가 누락되어 있더라도 나머지 데이터를 최대한 살려서 데이터 분석에 활요하는 것이 좋은 결과를 얻는 경우가 많다.
- 누락 데이터를 바꿔서 대체할 값으로는 데이터의 분포와 특성을 잘 나타낼 수 있는 평균값, 최빈값 등을 활용한다.

In [33]:
# 데이터 프레임 df_exam02 생성
df_exam02 = pd.DataFrame([[np.nan, 2, np.nan, 0],
                   [3, 4, np.nan, 1],
                   [np.nan, np.nan, np.nan, np.nan],
                   [np.nan, 3, np.nan, 4]],
                  columns=list("ABCD"))
df_exam02

Unnamed: 0,A,B,C,D
0,,2.0,,0.0
1,3.0,4.0,,1.0
2,,,,
3,,3.0,,4.0


In [34]:
# NaN을 0으로 치환

df_exam02.fillna(0)

Unnamed: 0,A,B,C,D
0,0.0,2.0,0.0,0.0
1,3.0,4.0,0.0,1.0
2,0.0,0.0,0.0,0.0
3,0.0,3.0,0.0,4.0


In [35]:
# df_exam2확인
df_exam02

Unnamed: 0,A,B,C,D
0,,2.0,,0.0
1,3.0,4.0,,1.0
2,,,,
3,,3.0,,4.0


In [36]:
# NaN이 있는 행의 직전행에 있는 값으로 치환
#ffill 앞쪽 행 같은것


df_exam02.fillna(method="ffill")

Unnamed: 0,A,B,C,D
0,,2.0,,0.0
1,3.0,4.0,,1.0
2,3.0,4.0,,1.0
3,3.0,3.0,,4.0


In [38]:
# df_exam2확인
df_exam02

Unnamed: 0,A,B,C,D
0,,2.0,,0.0
1,3.0,4.0,,1.0
2,,,,
3,,3.0,,4.0


In [41]:
# NaN이 있는 행의 바로 다음행에 있는 값으로 치환
df_exam02.fillna(method="bfill")

Unnamed: 0,A,B,C,D
0,3.0,2.0,,0.0
1,3.0,4.0,,1.0
2,,3.0,,4.0
3,,3.0,,4.0


*  titanic 데이터프레임에서 승객의 나이 데이터가 누락된 행을 제거하지 않고, 대신 'age'열의 나머지 승객의 평균나이로 치환한다.

In [42]:
# age열의 평균 age_mean 구하기

age_mean = df.age.mean()
age_mean

29.69911764705882

In [44]:
# 'age'열의 NaN값을 다른 나이 데이터의 평균으로 치환하기

df.age.fillna(age_mean, inplace=True)

In [46]:
# 누락데이터가 'age'평균값으로 치환되었음을 확인
df.age.isnull().sum()

0

- 승선도시를 나타내는 'embark_town'열에 있는 NaN을 승객들이 가장 많이 승선한 도시의 이름으로 치환한다.

In [48]:
# 누락데이터 확인


df.embark_town.isnull().sum()

2

In [49]:
df.embark_town.value_counts()

Southampton    644
Cherbourg      168
Queenstown      77
Name: embark_town, dtype: int64

In [58]:
# 가장 많이 승선한 도시 이름 찾기

top = df.embark_town.value_counts()[0]
top

644

In [59]:
df.embark_town.fillna(top)

0      Southampton
1        Cherbourg
2      Southampton
3      Southampton
4      Southampton
          ...     
886    Southampton
887    Southampton
888    Southampton
889      Cherbourg
890     Queenstown
Name: embark_town, Length: 891, dtype: object

In [60]:
# 누락데이터가 가장 많이 승선한 항으로 치환되었음을 확인

df.embark_town.fillna(top).isnull().sum()

0

- 데이터셍의 특성상 서로 이웃하고 있는 데이터끼리 유사성을 가질 가능성이 높다.
- 이럴때 앞이나 뒤에서 이웃하고 있는 값으로 치환해 주는 것이 좋다.

In [64]:
# 825~830행 값 확인

df.embark_town[825:831]

825     Queenstown
826    Southampton
827      Cherbourg
828     Queenstown
829            NaN
830      Cherbourg
Name: embark_town, dtype: object

In [66]:
# 829행의 NaN값을 바로 앞에 위치한 828행의 'Queenstown'으로 치환

df.embark_town.fillna(method='ffill')[825:831]
# 829행의 NaN값을 바로 앞에 위치한 828행의 'Queenstown'으로 치환되었음을 확인

825     Queenstown
826    Southampton
827      Cherbourg
828     Queenstown
829     Queenstown
830      Cherbourg
Name: embark_town, dtype: object