# 머신러닝   
       
6주 1강: 데이터 전처리

숭실대학교<br/>
AI융합학부<br/>
윤진혁<br/>

## 데이터 전처리의 기초
### 데이터 전처리란?
* 데이터 전처리(data preprocessing) : 머신러닝 모델에 훈련 데이터를 입력하기 전에 데이터를 가공
* 넘파이나 판다스 같은 머신러닝의 핵심 도구, Matplotlib립과 Seaborn 같은 데이터 시각화 도구를 활용하여 실제 데이터를 정리

* (Reminder!) 머신러닝 기초 수식
$y= f(x)$
  * 이 식은 데이터 X를 머신러닝 함수 f(x)에 넣으면 그 결과 y가 나온다는 뜻입니다.
  * 데이터 X는 훈련 데이터(train data)와 테스트 데이터(test data)가 모두 같은 구조를 갖는 피쳐(feature)여야 합니다



### 데이터 품질 문제
* 데이터 분포의 지나친 차이가 있다면 문제가 있습니다. 
  * 데이터가 연속형 값인데 최댓값과 최솟값 차이가 다른 피쳐보다 훨씬 많이 나는 경우
  * 학습에 영향을 줄 수 있기 때문에 데이터의 스케일(scale)을 맞춰줌
  * 데이터의 최댓값과 최솟값을 0에서 1 사이 값으로 바꾸거나 표준 정규분포 형태로 나타내는 등


* 기수형 데이터와 서수형 데이터
  * 기수형 데이터와 서수형 데이터는 일반적으로 숫자로 표현되지 않음
  * 컴퓨터가 이해할 수 있는 숫자 형태의 정보로 변형

* 결측치
  * 결측치(missing data) : 실제로 존재하지만 데이터베이스 등에 기록되지 않는 데이터
  * 해당 데이터를 빼고 모델을 돌릴 수 없기 때문에 결측치 처리 전략을 세워 데이터를 채워 넣어야 합니다


* 이상치  
  * 이상치(outlier) : 극단적으로 크거나 작은 값
  * 단순히 데이터 분포의 차이와는 다릅니다.
  * 데이터 오류, 특이 현상, 측정 오류 등 원인은 다양합니다.

## 데이터 전처리 전략
### 결측치(missing values) 처리하기
* 결측치 처리하기 : 보통은 드롭과 채우기로 처리합니다. 
   * 데이터를 삭제하거나 데이터를 채움
   * 데이터가 없으면 해당 행이나 열을 삭제하거나
   * 평균값, 최빈값, 중간값 등으로 데이터를 채움
   
일단 임의의 데이터를 한 번 만들어 봅시다

In [1]:
import pandas as pd
import numpy as np

raw_data = {'first_name': ['Jason', np.nan, 'Tina', 'Jake', 'Amy'],
            'last_name': ['Miller', np.nan, 'Ali', 'Milner', 'Cooze'],
            'age': [42, np.nan, 36, 24, 73],
            'sex': ['m', np.nan, 'f', 'm', 'f'],
            'preTestScore': [4, np.nan, np.nan, 2, 3],
            'postTestScore': [25, np.nan, np.nan, 62, 70]}

df = pd.DataFrame(raw_data, columns = ['first_name', 'last_name', 'age', 'sex', 'preTestScore', 'postTestScore'])
df

Unnamed: 0,first_name,last_name,age,sex,preTestScore,postTestScore
0,Jason,Miller,42.0,m,4.0,25.0
1,,,,,,
2,Tina,Ali,36.0,f,,
3,Jake,Milner,24.0,m,2.0,62.0
4,Amy,Cooze,73.0,f,3.0,70.0


* 결측치를 확인할 때 isnull를 활용할 수 있습니다.
  * NaN 값이 존재할 경우 True, 그렇지 않을 경우 False 출력

In [4]:
df.isnull().sum() / len(df)

first_name       0.2
last_name        0.2
age              0.2
sex              0.2
preTestScore     0.4
postTestScore    0.4
dtype: float64

In [5]:
df.isna().sum() / len(df) #isna와 isnull은 동일한 함수입니다.

first_name       0.2
last_name        0.2
age              0.2
sex              0.2
preTestScore     0.4
postTestScore    0.4
dtype: float64

In [8]:
df.isna().sum().sum() # 이건 전체에서 전체의 총 결측치를 세 줍니다

8

In [9]:
df.dropna()

Unnamed: 0,first_name,last_name,age,sex,preTestScore,postTestScore
0,Jason,Miller,42.0,m,4.0,25.0
3,Jake,Milner,24.0,m,2.0,62.0
4,Amy,Cooze,73.0,f,3.0,70.0


### 드롭: 결측치가 나온 열이나 행을 삭제합니다
* dropna() 를 사용합니다

In [11]:
df_no_missing = df.dropna()
display(df)
display(df_no_missing)

Unnamed: 0,first_name,last_name,age,sex,preTestScore,postTestScore
0,Jason,Miller,42.0,m,4.0,25.0
1,,,,,,
2,Tina,Ali,36.0,f,,
3,Jake,Milner,24.0,m,2.0,62.0
4,Amy,Cooze,73.0,f,3.0,70.0


Unnamed: 0,first_name,last_name,age,sex,preTestScore,postTestScore
0,Jason,Miller,42.0,m,4.0,25.0
3,Jake,Milner,24.0,m,2.0,62.0
4,Amy,Cooze,73.0,f,3.0,70.0


* 드롭의 결과물 저장
  * 드롭과 관련된 대부분의 명령어들은 실제 드롭한 결과를 반환(return)합니다
  * 하지만 원 객체에 드롭 결과를 저장하지는 않습니다
  * 드롭의 결과물을 저장하려면 다른 변수에 재할당해야 합니다.

  * 매개변수 inplace=True 사용하면 원 데이터프레임이 변화합니다
     * 하지만 자체적으로 값이 변하면 이후에 해당 데이터를 불러 쓰거나 다시 코드를 실행할 때 문제가 되기 때문에 새로운 값에 복사하는 것이 좋습니다
     * 원 변수를 바꿀때도 개인적으로는 ```df=df.dropna()``` 형태를 더 선호합니다

* 매개변수 `how`로 조건에 따라 결측치를 지웁니다
   * how에는 매개변수 `all`과 `any`가 가능합니다
   * `all`은 행에 있는 모든 값이 NaN일 때 해당 행을 삭제
   * `any`는 하나의 NaN만 있어도 삭제
   * 기본은 `any`입니다

In [13]:
df_cleaned = df.dropna(how='all')
display(df)
display(df_cleaned)

Unnamed: 0,first_name,last_name,age,sex,preTestScore,postTestScore
0,Jason,Miller,42.0,m,4.0,25.0
1,,,,,,
2,Tina,Ali,36.0,f,,
3,Jake,Milner,24.0,m,2.0,62.0
4,Amy,Cooze,73.0,f,3.0,70.0


Unnamed: 0,first_name,last_name,age,sex,preTestScore,postTestScore
0,Jason,Miller,42.0,m,4.0,25.0
2,Tina,Ali,36.0,f,,
3,Jake,Milner,24.0,m,2.0,62.0
4,Amy,Cooze,73.0,f,3.0,70.0


* 열 값이 모두 NaN일 경우에는 축(axis)을 추가하여 삭제할 수 있습니다

In [19]:
df['location'] = np.nan
display(df)
display(df.dropna(axis=0, how='all'))
# location이라는 열을 추가하여 값들을 모두 NaN으로 한 후 axis=1로 location 열만 삭제

Unnamed: 0,first_name,last_name,age,sex,preTestScore,postTestScore,location
0,Jason,Miller,42.0,m,4.0,25.0,
1,,,,,,,
2,Tina,Ali,36.0,f,,,
3,Jake,Milner,24.0,m,2.0,62.0,
4,Amy,Cooze,73.0,f,3.0,70.0,


Unnamed: 0,first_name,last_name,age,sex,preTestScore,postTestScore,location
0,Jason,Miller,42.0,m,4.0,25.0,
2,Tina,Ali,36.0,f,,,
3,Jake,Milner,24.0,m,2.0,62.0,
4,Amy,Cooze,73.0,f,3.0,70.0,


* 매개변수 thresh는 데이터의 개수를 기준으로 삭제합니다
  * 예: thresh=1 지정하면 데이터가 한 개라도 존재하는 행은 남김
  * 예: thresh=5 지정하면 데이터가 다섯 개 이상 있어야 남김

In [25]:
df.dropna(axis=0, thresh=5)

Unnamed: 0,first_name,last_name,age,sex,preTestScore,postTestScore,location
0,Jason,Miller,42.0,m,4.0,25.0,
3,Jake,Milner,24.0,m,2.0,62.0,
4,Amy,Cooze,73.0,f,3.0,70.0,


In [None]:
df.dropna(thresh=5)

### 채우기(fill)
* 채우기(fill) : 비어있는 값을 채움
  * 일반적으로  드롭한 후에 남은 값들을 채우기 처리
  * 평균, 최빈값 등 **데이터의 분포를 고려해서** 채움
  * 함수 fillna 사용

In [30]:
display(df.fillna(0))
#display(df)

Unnamed: 0,first_name,last_name,age,sex,preTestScore,postTestScore,location
0,Jason,Miller,42.0,m,4.0,25.0,0.0
1,0,0,0.0,0,0.0,0.0,0.0
2,Tina,Ali,36.0,f,0.0,0.0,0.0
3,Jake,Milner,24.0,m,2.0,62.0,0.0
4,Amy,Cooze,73.0,f,3.0,70.0,0.0


* 빈 값에 평균값을 채우려면 열 단위의 평균값을 계산하여 해당 열에만 값을 채울 수 있습니다
  * (매개변수 inplace는 변경된 값을 리턴시키는 것이 아니고 해당 변수 자체의 값을 변경합니다)

In [31]:
df["preTestScore"].fillna(df["preTestScore"].mean(), inplace=True)
display(df)

Unnamed: 0,first_name,last_name,age,sex,preTestScore,postTestScore,location
0,Jason,Miller,42.0,m,4.0,25.0,
1,,,,,3.0,,
2,Tina,Ali,36.0,f,3.0,,
3,Jake,Milner,24.0,m,2.0,62.0,
4,Amy,Cooze,73.0,f,3.0,70.0,


* 조금 더 복잡하게 해 볼까요?
  * 특정 조건들을 맞춘 분포를 계산해서 해 봅시다. 

  * 예를 들어 아래와 같이 하면 지난시간에 배운 groupby를 통해서 성별별로 평균을 따로 구할 수 있습니다

In [33]:
df.groupby("sex")["postTestScore"].mean()

sex
f    70.0
m    43.5
Name: postTestScore, dtype: float64

* transform() 함수는 변환을 거친 이후에 본래의 데이터와 같은 사이즈의 형태를 취합니다

In [35]:
display(df.groupby("sex")["postTestScore"].transform("mean"))
display(df)

0    43.5
1     NaN
2    70.0
3    43.5
4    70.0
Name: postTestScore, dtype: float64

Unnamed: 0,first_name,last_name,age,sex,preTestScore,postTestScore,location
0,Jason,Miller,42.0,m,4.0,25.0,
1,,,,,3.0,,
2,Tina,Ali,36.0,f,3.0,,
3,Jake,Milner,24.0,m,2.0,62.0,
4,Amy,Cooze,73.0,f,3.0,70.0,


* 이제 채워볼까요?
   * fillna 함수 안에 transform을 사용하여 인덱스를 기반으로 채울 수 있습니다
   * 즉, 조금 더 복잡한 방법으로도 채워넣을 수 있습니다

In [36]:
df["postTestScore"].fillna(df.groupby("sex")["postTestScore"].transform("mean"), inplace=True)
display(df)

Unnamed: 0,first_name,last_name,age,sex,preTestScore,postTestScore,location
0,Jason,Miller,42.0,m,4.0,25.0,
1,,,,,3.0,,
2,Tina,Ali,36.0,f,3.0,70.0,
3,Jake,Milner,24.0,m,2.0,62.0,
4,Amy,Cooze,73.0,f,3.0,70.0,


In [37]:
df.groupby("sex")["postTestScore"].transform("mean")

0    43.5
1     NaN
2    70.0
3    43.5
4    70.0
Name: postTestScore, dtype: float64

## 범주형 데이터 처리하기: 원핫인코딩 (one-hot-encoding)
* 원핫인코딩(one-hot encoding) : 범주형 데이터의 개수만큼 가변수(dummy variable)를 생성하여 존재 유무를 1 또는 0으로 표현
  * color라는 변수에 {Green, Blue, Yellow} 3개의 값이 있을 때 3개의 가변수를 만들고 각 색상에 인덱스를 지정
  * Green의 인덱스는 0, Blue의 인덱스 1, Yellow의 인덱스는 2로 지정
  * 해당 값이면 1, 아니면 0을 입력
  ```python
  {Green} -> [1,0,0]
  {Blue} -> [0,1,0]
  {Yellow} -> [0,0,1]
  ```

* 원핫인코딩을 적용하려면 
  * 판다스에서 제공하는 get_dummies 함수를 이용하거나 
  * 사이킷런(scikit-learn)에서 제공하는 LabelEncoder나 OneHotEncoder를 이용하는 방법 등이 있습니다

* 일단 데이터를 만듭시다

In [38]:
edges = pd.DataFrame({'source': [0, 1, 2], 'target': [2, 2, 3],
                      'weight': [3, 4, 5], 'color': ['red', 'blue', 'blue']})
display(edges)

Unnamed: 0,source,target,weight,color
0,0,2,3,red
1,1,2,4,blue
2,2,3,5,blue


In [39]:
edges.dtypes

source     int64
target     int64
weight     int64
color     object
dtype: object

In [42]:
pd.get_dummies(edges) # pandas로 하는 법

Unnamed: 0,source,target,weight,color_blue,color_red
0,0,2,3,False,True
1,1,2,4,True,False
2,2,3,5,True,False


* 아래처럼 원래 열 이름인 color를 조회하면 더미 변수가 나옵니다

In [46]:
pd.get_dummies(edges["color"]) # 방법 1

Unnamed: 0,blue,red
0,False,True
1,True,False
2,True,False


In [44]:
pd.get_dummies(edges[["color"]]) # 방법 2

Unnamed: 0,color_blue,color_red
0,False,True
1,True,False
2,True,False


* 필요에 따라서는 정수형을 객체로 변환할 수도 있습니다
  * 아래에서 weight는 숫자로 되어있지만 기수형 데이터입니다
  * 데이터를 M, L, XL이라는 세 가지로 바꿔볼 수 있을까요?

In [47]:
display(edges)

Unnamed: 0,source,target,weight,color
0,0,2,3,red
1,1,2,4,blue
2,2,3,5,blue


In [55]:
weight_dict = {3:"M", 4:"L", 5:"XL"}
edges["weight_sign"] = edges["weight"].map(weight_dict)
display(edges)
weight_sign = pd.get_dummies(edges["weight_sign"])

Unnamed: 0,source,target,weight,color,weight_sign
0,0,2,3,red,M
1,1,2,4,blue,L
2,2,3,5,blue,XL


* 데이터를 원핫인코딩 형태로 변경한 후 필요에 따라 병합이나 연결로 두 가지의 데이터를 합칠수도 있습니다

In [56]:
pd.concat([edges, weight_sign], axis=1)

Unnamed: 0,source,target,weight,color,weight_sign,L,M,XL
0,0,2,3,red,M,False,True,False
1,1,2,4,blue,L,True,False,False
2,2,3,5,blue,XL,False,False,True


## 범주형 데이터로 "변환하여" 처리하기
  * 바인딩(binding) : 연속형 데이터를 범주형 데이터로 변환
  * 먼저 데이터를 만들어봅시다

In [57]:
raw_data = {'regiment': ['Nighthawks', 'Nighthawks', 'Nighthawks', 'Nighthawks', 'Dragoons', 'Dragoons', 'Dragoons', 'Dragoons', 'Scouts', 'Scouts', 'Scouts', 'Scouts'],
            'company': ['1st', '1st', '2nd', '2nd', '1st', '1st', '2nd', '2nd','1st', '1st', '2nd', '2nd'],
            'name': ['Miller', 'Jacobson', 'Ali', 'Milner', 'Cooze', 'Jacon', 'Ryaner', 'Sone', 'Sloan', 'Piger', 'Riani', 'Ali'],
            'preTestScore': [4, 24, 31, 2, 3, 4, 24, 31, 2, 3, 2, 3],
            'postTestScore': [25, 94, 57, 62, 70, 25, 94, 57, 62, 70, 62, 70]}

df = pd.DataFrame(raw_data, columns = ['regiment', 'company', 'name', 'preTestScore', 'postTestScore'])
df.head()

Unnamed: 0,regiment,company,name,preTestScore,postTestScore
0,Nighthawks,1st,Miller,4,25
1,Nighthawks,1st,Jacobson,24,94
2,Nighthawks,2nd,Ali,31,57
3,Nighthawks,2nd,Milner,2,62
4,Dragoons,1st,Cooze,3,70


* postTestScore에 대한 학점을 측정하는 코드를 만들어봅시다
  * 데이터 범위를 구분 : 0-25, 25-50, 50-75, 75-100으로 구분
  * 함수 `cut` 사용
  * bins 리스트에 구간의 시작 값 끝 값을 넣고 구간의 이름을 리스트로 나열합니다
  * bins의 원소는 5개이고  group_names는 4개
  * cut 함수로 나눌 시리즈 객체와 구간, 구간의 이름을 넣어주면 해당 값을 바인딩하여 표시해줍니다

In [58]:
bins = [0, 25, 50, 75, 100] # bins 정의(0-25, 25-50, 60-75, 75-100)
group_names = ['Low', 'Okay', 'Good', 'Great']
categories = pd.cut(df['postTestScore'], bins, labels=group_names)
display(categories)

0       Low
1     Great
2      Good
3      Good
4      Good
5       Low
6     Great
7      Good
8      Good
9      Good
10     Good
11     Good
Name: postTestScore, dtype: category
Categories (4, object): ['Low' < 'Okay' < 'Good' < 'Great']

## 데이터의 크기 맞추기: Feature Scaling
* 스케일링(scaling) : 데이터 간 범위를 맞추어 줍니다
  * 특정 모델은 "절대값"이 영향을 줍니다
  * 예를 들어 몸무게와 키를 하나의 모델에 넣으면 데이터의 범위가 훨씬 넓어져 키가 몸무게에 비해 모델에 과다하게 영향을 줍니다
  * x1과 x2의 변수 범위가 다를 때 하나의 변수 범위로 통일시켜 처리합니다
  
  ![W06/Figs/W06-fig1.jpg](W06/Figs/W06-fig1.jpg)

* 최솟값-최댓값 정규화(min-max normalization) 
  * 최솟값과 최댓값을 기준으로 0에서 1, 또는 0에서 지정 값까지로 값의 크기를 변화시킵니다
  
  $z_i = \frac{x_i-min(x)}{max(x)-min(x)}(new_{max} - new_{min}) + new_{min}$
  
  * 여기에서 x는 처리하고자 하는 열(feature 이름), x_i는 이 열의 하나의 값, max(x)는 해당 열의 최댓값, min(x)는 해당 열의 최솟값
  * new_max와 new_min은 새롭게 지정되는 값의 최댓값 또는 최솟값

* z-스코어 정규화(z-score normalization)
  * 기존 값을 표준 정규분포값으로 변환하여 처리합니다
  * 정규분포 가정이 들어가 있긴 합니다만...
  
  $z = \frac{x_i-\mu}{\sigma}$
  
  * $\mu$는 x 열의 평균값이고 $\sigma$는 표준편차

* 일단 테스트용 데이터를 만들어 봅시다

In [59]:
df = pd.DataFrame(
    {'A':[14.00,90.20,90.95,96.27,91.21],
     'B':[103.02,107.26,110.35,114.23,114.68],
     'C':['big','small','big','small','small']})

df

Unnamed: 0,A,B,C
0,14.0,103.02,big
1,90.2,107.26,small
2,90.95,110.35,big
3,96.27,114.23,small
4,91.21,114.68,small


* 스케일링할 때는 브로드캐스팅을 생각하면 됩니다
  * 스칼라 값(평균값, 최댓값, 최솟값)과 벡터(열) 값 간 연산을 하면, 벡터의 각 행에 스칼라 값이 연산됩니다

In [60]:
df["A"] - df["A"].min()

0     0.00
1    76.20
2    76.95
3    82.27
4    77.21
Name: A, dtype: float64

* 아래처럼 바로 계산할 수도 있습니다

  $z_i = \frac{x_i-min(x)}{max(x)-min(x)}$

In [61]:
( df["A"] - df["A"].min() ) / (df["A"].max() - df["A"].min())

0    0.000000
1    0.926219
2    0.935335
3    1.000000
4    0.938495
Name: A, dtype: float64

* z-score 정규화도 아래와 같이 표현 가능합니다

In [62]:
( df["B"] - df["B"].mean() ) / (df["B"].std())

0   -1.405250
1   -0.540230
2    0.090174
3    0.881749
4    0.973556
Name: B, dtype: float64

# Today
- 전처리의 기초와 이유
- 데이터 전처리 전략
  - 누락데이터 처리: 제거하기와 채우기-
  - 범주형 데이터: 원핫인코딩
  - 범주형 데이터로 바꾸기: 바인딩
  - 데이터의 크기 맞추기: 스케일링

# Next class
- 실제로 전처리를 해 봅시다: 타이타닉 생존자 데이터!