### Data preprocessing issues

#### 기본적으로 세가지 정도는 처리를 해줘야함.

***
- 데이터가 빠진 경우 (결측치의 처리)


- 라벨링된 데이터(category) 데이터의 처리


- 데이터의 scale의 차이가 매우 크게 날 경우
***

#### 데이터가 없을 때 할 수 있는 전략

***
- 데이터가 없으면 sample을 drop(이렇게 할 경우 대부분 데이터는 엉망으로 들어가 있는 경우가 많기 때문에 data를 아예 못쓰게 될 수 있다.)


- 데이터가 없는 최소 개수를 정해서 **sample을 drop**


- 데이터가 거의 없는 feature는 **feature 자체를 drop**


- 최빈값, 평균값으로 비어있는 데이터를 채우기

***

### Data drop

In [1]:
import pandas as pd
import numpy as np

In [2]:
# df 만들기

raw_data = {'first_name': ['Jason', np.nan, 'Tina', 'Jake', 'Amy'],
        'last_name': ['Miller', np.nan, 'Ali', 'Milner', 'Cooze'],
        'age': [42, np.nan, 36, 24, 73],
        'sex': ['m', np.nan, 'f', 'm', 'f'],
        'preTestScore': [4, np.nan, np.nan, 2, 3],
        'postTestScore': [25, np.nan, np.nan, 62, 70]}
df = pd.DataFrame(raw_data, columns = ['first_name', 'last_name', 'age', 'sex', 'preTestScore', 'postTestScore'])
df

Unnamed: 0,first_name,last_name,age,sex,preTestScore,postTestScore
0,Jason,Miller,42.0,m,4.0,25.0
1,,,,,,
2,Tina,Ali,36.0,f,,
3,Jake,Milner,24.0,m,2.0,62.0
4,Amy,Cooze,73.0,f,3.0,70.0


In [3]:
# NaN 값 찾기

df.isnull().sum()

first_name       1
last_name        1
age              1
sex              1
preTestScore     2
postTestScore    2
dtype: int64

In [4]:
# 전체 데이터 개수에서 NaN 값의 비율 찾기

df.isnull().sum()/len(df)

first_name       0.2
last_name        0.2
age              0.2
sex              0.2
preTestScore     0.4
postTestScore    0.4
dtype: float64

In [5]:
df_no_missing = df.dropna()
df_no_missing

Unnamed: 0,first_name,last_name,age,sex,preTestScore,postTestScore
0,Jason,Miller,42.0,m,4.0,25.0
3,Jake,Milner,24.0,m,2.0,62.0
4,Amy,Cooze,73.0,f,3.0,70.0


drop 메소드 사용시 데이터 자체를 아예 날릴 수 있으니 copy를 사용해주도록 한다.

In [6]:
# 모든 데이터가 비어 있으면 drop

df_cleaned = df.dropna(how = 'all')
df_cleaned

Unnamed: 0,first_name,last_name,age,sex,preTestScore,postTestScore
0,Jason,Miller,42.0,m,4.0,25.0
2,Tina,Ali,36.0,f,,
3,Jake,Milner,24.0,m,2.0,62.0
4,Amy,Cooze,73.0,f,3.0,70.0


In [7]:
# NAN을 가진 column 생성 

df['location'] = np.nan
df

Unnamed: 0,first_name,last_name,age,sex,preTestScore,postTestScore,location
0,Jason,Miller,42.0,m,4.0,25.0,
1,,,,,,,
2,Tina,Ali,36.0,f,,,
3,Jake,Milner,24.0,m,2.0,62.0,
4,Amy,Cooze,73.0,f,3.0,70.0,


In [8]:
# 데이터가 최소 4개 이상 없을 때 drop
# 축(디폴트 = 행기준), 데이터 개수 설정
df.dropna(axis = 1 , thresh = 3)

Unnamed: 0,first_name,last_name,age,sex,preTestScore,postTestScore
0,Jason,Miller,42.0,m,4.0,25.0
1,,,,,,
2,Tina,Ali,36.0,f,,
3,Jake,Milner,24.0,m,2.0,62.0
4,Amy,Cooze,73.0,f,3.0,70.0


In [9]:
# 데이터 채워넣기
# nan 값을 전부 0으로 집어 넣어라
df.fillna(0)

Unnamed: 0,first_name,last_name,age,sex,preTestScore,postTestScore,location
0,Jason,Miller,42.0,m,4.0,25.0,0.0
1,0,0,0.0,0,0.0,0.0,0.0
2,Tina,Ali,36.0,f,0.0,0.0,0.0
3,Jake,Milner,24.0,m,2.0,62.0,0.0
4,Amy,Cooze,73.0,f,3.0,70.0,0.0


데이터 채워넣는데에는 흔히 평균값, 최빈값, 중앙값을 사용함.

In [10]:
df

Unnamed: 0,first_name,last_name,age,sex,preTestScore,postTestScore,location
0,Jason,Miller,42.0,m,4.0,25.0,
1,,,,,,,
2,Tina,Ali,36.0,f,,,
3,Jake,Milner,24.0,m,2.0,62.0,
4,Amy,Cooze,73.0,f,3.0,70.0,


preTestScore에서 na값을 무엇으로 채울것인가

In [11]:
# preTestScore 평균 확인

df['preTestScore'].mean()

3.0

In [12]:
# 중위값 확인

df['preTestScore'].median()

3.0

In [13]:
# preTestScore의 평균값을 값이 비워있으면 채워넣어라
# inplace = True를 할 시 데이터를 직접 변경 
df['preTestScore'].fillna(df['preTestScore'].mean(),inplace = True)

In [14]:
df

Unnamed: 0,first_name,last_name,age,sex,preTestScore,postTestScore,location
0,Jason,Miller,42.0,m,4.0,25.0,
1,,,,,3.0,,
2,Tina,Ali,36.0,f,3.0,,
3,Jake,Milner,24.0,m,2.0,62.0,
4,Amy,Cooze,73.0,f,3.0,70.0,


'성별마다 성적이 다를수가 있다'라는 것을 가정함.

In [15]:
# 남녀별 성적 평균
df.groupby('sex')['postTestScore'].mean()

sex
f    70.0
m    43.5
Name: postTestScore, dtype: float64

In [16]:
# transform 사용시 성별을 기준으로 그룹별 평균값을 Series형태로 뽑아냄
df.groupby('sex')['postTestScore'].transform('mean')

0    43.5
1     NaN
2    70.0
3    43.5
4    70.0
Name: postTestScore, dtype: float64

In [17]:
# postscore의 비어져있는 곳을 평균값을 채우기

df['postTestScore'].fillna(
    df.groupby('sex')['postTestScore'].transform('mean'), inplace = True)

df

Unnamed: 0,first_name,last_name,age,sex,preTestScore,postTestScore,location
0,Jason,Miller,42.0,m,4.0,25.0,
1,,,,,3.0,,
2,Tina,Ali,36.0,f,3.0,70.0,
3,Jake,Milner,24.0,m,2.0,62.0,
4,Amy,Cooze,73.0,f,3.0,70.0,


#### 이산형 데이터를 어떻게 처리할 것인가?

실제 데이터 set의 크기만큼 Binary Feature를 생성한다.

### Data Type

In [18]:
import numpy as np
import pandas as pd

In [19]:
edges = pd.DataFrame({'source': [0, 1, 2],
                   'target': [2, 2, 3],
                       'weight': [3, 4, 5],
                       'color': ['red', 'blue', 'blue']})

edges

Unnamed: 0,source,target,weight,color
0,0,2,3,red
1,1,2,4,blue
2,2,3,5,blue


In [20]:
edges.dtypes

source     int64
target     int64
weight     int64
color     object
dtype: object

color 값을 일종의 카테고리 값으로 봄

**one - hot - encoding** 을 사용

one-hot(원핫)인코딩이란? 

- 단 하나의 값만 True이고 나머지는 모두 False인 인코딩을 말한다.

In [23]:
# 더미 변수를 만들어준다

pd.get_dummies(edges)

Unnamed: 0,source,target,weight,color_blue,color_red
0,0,2,3,0,1
1,1,2,4,1,0
2,2,3,5,1,0


In [24]:
# weight는 순서형 데이터이므로 category 데이터로 바꿔줘야함

weight_dict = {3:"M", 4:"L", 5:"XL"}
edges["weight_sign"] = edges["weight"].map(weight_dict)
edges

Unnamed: 0,source,target,weight,color,weight_sign
0,0,2,3,red,M
1,1,2,4,blue,L
2,2,3,5,blue,XL


one-hot-encoding을 남용하지 않도록 하는게 좋다