# 데이터 전처리 // data preprocessing

# 학습 목표
---
- 중복된 데이터를 찾아 제거할 수 있고, 결측치(missing data)를 제거하거나 채워 넣을 수 있다.
- 데이터를 정규화시킬 수 있다.
- 이상치(outlier)를 찾고, 이를 처리할 수 있다.
- 범주형 데이터를 원-핫 인코딩할 수 있다.
- 연속적인 데이터를 구간으로 나눠 범주형 데이터로 변환할 수 있다.



# 배울 내용 
---
- 결측치(Missing Data)
- 중복된 데이터(Duplicated Data)
- 이상치(Outlier)
- 정규화(Normalization)
- 원-핫 인코딩(One-Hot Encoding)
- Binning

In [2]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

print("Hello")

Hello


In [3]:
import os

csv_file_path=os.getenv('HOME')+'/aiffel/data_preprocess/data/trade.csv'
trade = pd.read_csv(csv_file_path)
trade.head()

Unnamed: 0,기간,국가명,수출건수,수출금액,수입건수,수입금액,무역수지,기타사항
0,2015년 01월,중국,116932.0,12083947.0,334522.0,8143271.0,3940676.0,
1,2015년 01월,미국,65888.0,5561545.0,509564.0,3625062.0,1936484.0,
2,2015년 01월,일본,54017.0,2251307.0,82480.0,3827247.0,-1575940.0,
3,2015년 02월,중국,86228.0,9927642.0,209100.0,6980874.0,2946768.0,
4,2015년 02월,미국,60225.0,5021264.0,428678.0,2998216.0,2023048.0,


## 결측치(missing value)를 처리하는 방법은 크게 두 가지가 있습니다.      

- 결측치가 있는 데이터를 제거한다. // remove data value in data    
- 결측치를 어떤 값으로 대체한다.  // replace missing value with another value    
    - 결측치를 대체하는 방법은 다양한데 데이터마다 특성을 반영하여 해결해야 합니다.      
      // there are many ways to replace missing value but you gotta reflect each data's characteristics.

In [4]:
print('전체 데이터 건수:',len(trade))

전체 데이터 건수: 199


In [5]:
print('컬럼별 결측치 개수')
len(trade)-trade.count()

컬럼별 결측치 개수


기간        0
국가명       0
수출건수      3
수출금액      4
수입건수      3
수입금액      3
무역수지      4
기타사항    199
dtype: int64

In [6]:
trade = trade.drop('기타사항', axis=1)
trade.head()

Unnamed: 0,기간,국가명,수출건수,수출금액,수입건수,수입금액,무역수지
0,2015년 01월,중국,116932.0,12083947.0,334522.0,8143271.0,3940676.0
1,2015년 01월,미국,65888.0,5561545.0,509564.0,3625062.0,1936484.0
2,2015년 01월,일본,54017.0,2251307.0,82480.0,3827247.0,-1575940.0
3,2015년 02월,중국,86228.0,9927642.0,209100.0,6980874.0,2946768.0
4,2015년 02월,미국,60225.0,5021264.0,428678.0,2998216.0,2023048.0


<mark>DataFrame.isnull()</mark>은 데이터마다 결측치 여부를 True, False로 반환합니다.      
<mark>DataFrame.any(axis=1)</mark>는 행마다 하나라도 True가 있으면 True, 그렇지 않으면 False를 반환합니다.

In [7]:
trade.isnull()

Unnamed: 0,기간,국가명,수출건수,수출금액,수입건수,수입금액,무역수지
0,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False
3,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False
...,...,...,...,...,...,...,...
194,False,False,False,False,False,False,False
195,False,False,False,False,False,False,False
196,False,False,True,True,True,True,True
197,False,False,True,True,True,True,True


In [9]:
trade.isnull().any(axis=1)

0      False
1      False
2      False
3      False
4      False
       ...  
194    False
195    False
196     True
197     True
198     True
Length: 199, dtype: bool

<mark>trade.isnull().any(axis=1)</mark>을 다시 DataFrame에 넣어주면 값이 True인 데이터만 추출해줍니다.

In [10]:
trade[trade.isnull().any(axis=1)]

Unnamed: 0,기간,국가명,수출건수,수출금액,수입건수,수입금액,무역수지
191,2020년 04월,미국,105360.0,,1141118.0,5038739.0,
196,2020년 06월,중국,,,,,
197,2020년 06월,미국,,,,,
198,2020년 06월,일본,,,,,


In [11]:
trade.dropna(how='all', subset=['수출건수', '수출금액', '수입건수', '수입금액', '무역수지'], inplace=True)
print("👽 It's okay, no biggie.")

👽 It's okay, no biggie.


In [12]:
trade[trade.isnull().any(axis=1)]

Unnamed: 0,기간,국가명,수출건수,수출금액,수입건수,수입금액,무역수지
191,2020년 04월,미국,105360.0,,1141118.0,5038739.0,
