### Data 전처리(Data Preprocessing)란

-   데이터 분석이나 머신러닝 모델에 적합한 형태로 데이터셋을 변환 또는 조정하는 과정을 말한다.
-   데이터 분석, 머신러닝 모델링 전에 수행하는 작업이다.
-   Garbage in, Garbage out.
    -   좋은 dataset으로 학습 해야 좋은 예측 결과를 만드는 모델을 학습할 수 있다.
    -   좋은 train dataset을 만드는 것은 모델의 성능에 가장 큰 영향을 준다.
-   Data 전처리에는 다음과 같은 작업이 있다.
    -   **Data Cleaning (데이터 정제)**
        -   데이터셋에 있는 오류값, 불필요한 값, 결측치, 중복값 등을 제거하는 작업
    -   **컬럼 선택 및 파생변수 생성**
        -   컬럼들 중 분석에 필요한 컬럼들만 선택하거나 기존 컬럼들을 계산한 결과값을 가지는 파생변수를 생성한다.
    -   **Feature의 데이터 타입 별 변환**
        -   문자열을 날짜 타입으로 변환, 범주형을 수치형으로 변환등과 같이 원래 데이터의 형식에 맞게 변환하는 작업.
        -   **수치형 데이터 Feature Scaling**
            -   수치형 컬럼들의 scale(척도) 를 맞춰 주는 작업.
        -   **범주형 데이터 인코딩**
            -   문자열 형태로 되어있는 범주형 데이터를 숫자 형태로 변경하는 작업.

### 결측치(Missing Value) 처리

-   결측치(Missing Value)
    -   수집하지 못한 값. 모르는 값. 없는 값
    -   결측치 값은 `NA, NaN, None, null` 로 표현한다. (언어마다 차이가 있다.)
-   결측치는 데이터 분석이나 머신러닝 모델링 전의 데이터 전처리 과정에서 처리해줘야 한다.


#### 결측치 처리 방법

결측치를 처리하기 전에 **"이 값이 기록되지 않아서 누락된 것인가, 아니면 존재하지 않아서 누락된 것인가?"** 를 확인해야 한다.  
존재하지 않아서 누락된 값이라면 이것은 어떤 값일까 추측할 필요 없이 결측치로 유지하면 되지만  
값이 기록되지 않아서(수집하지 못해서) 누락된 경우는 해당 열과 행의 다른 값을 기반으로 값이 무엇이었을지 추측해 볼 수 있다

- #### 결측치 삭제(Complete Case Analysis):

    -   리스트와이즈 삭제(Listwise Deletion)
        -   결측치가 있는 행들을 삭제한다.
        -   수집한 데이터도 같이 삭제되는 단점이 있다.
        -   데이터가 충분히 크고 결측치가 많지 않을 때 적합하다.
    -   컬럼 삭제 (Drop column)
        -   컬럼자체에 결측차가 너무 많을 경우 컬럼을 제거할 수도 있다.

In [None]:
import pandas as pd
import numpy as np
data = {
    "name":['김영희', '이명수', '박진우', '이수영', '오영미'],
    "age": [23, 18, 25, 32, np.nan], 
    "weight":[np.nan, 80, np.nan, 57, 48]
}
df = pd.DataFrame(data)
df

In [None]:
# 결측치 확인 - 전체
df.isna().sum() # 컬럼별 결측치 개수

In [None]:
## 결측치 값 확인
import numpy as np
print(pd.isna(None))
print(pd.isna(np.nan))
print(np.nan == None)
print(np.nan == np.nan)

In [None]:
# 제거 - 행단위(리스트와즈, 0축 기준 제거: default)
df.dropna()

In [None]:
# 컬럼단위 (1축 기준 삭제)
df.dropna(axis=1)

#### 2. 결측치 대체(imputation)

결측치가 수집하지 못해 누락된 경우 그 값일 가능성이 가장 높은 값으로 대체할 수 있다.  
대체할 값으로 일정한 값을 사용하는 경우와 분석을 통해 찾는 방법이 있다.

-   **평균/중앙값/최빈값 대체**
    -   수치형 변수의 경우 평균이나 중앙값으로, 범주형 변수의 경우 최빈값으로 결측치를 대체한다.
    -   **평균으로 대체** - 수치형 컬럼으로 outlier(극단치)의 영향을 받지 않는 모델이거나 컬럼의 데이터들이 **정규 분포를 따르거나 outlier(극단치)가 없는 경우** 적합.
    -   **중앙값으로 대체**
        -   수치형 컬럼으로 outlier(극단치)가 존재하거나 데이터 분포가 비대칭인 컬럼의 결측치 대체에 적합.
        -   보통 평균보다 중앙값을 사용한다.
    -   **최빈값으로 대체**
        -   범주형 컬럼의 경우 대푯값인 최빈값으로 대체한다.
    
-   **모델링 기반 대체**
    -   결측치가 있는 컬럼을 output(종속변수)으로 결측치가 없는 행들(독립변수)을 input으로 하여 결측치를 예측하는 모델을 정의한다.
    -   **K-최근접 이웃(K-NN) 대체**
        -   결측치가 있는 데이터 포인트와 가장 가까운 K개의 데이터 포인트를 찾아, 그 값들의 평균(수치형 데이터)이나 최빈값(범주형 데이터)으로 결측치를 대체한다.
-   **결측치를 표현하는 값으로 대체**
    -   예를 들어 나이컬럼의 nan을 -1, 혈액형의 nan을 "없음" 등과 같이 그 컬럼이 가질 수없는 값을 nan 대신 사용한다.
-   #### 다중 대체 (multiple imputation)
    -   여러 방식으로 결측치를 대체한 데이터셋을 만든다. 각 데이터셋마다 분석하고 추론한 뒤 그 결과들을 합쳐서 최종 결론을 낸다.
    

In [None]:
import pandas as pd
import numpy as np

df = pd.DataFrame([
        [0.1, 2.2, np.nan],
        [0.3, 4.1, 1], 
        [np.nan, 6, 1],
        [0.08, np.nan, 2],
        [0.12, 2.4, 1],
        [np.nan, 1.1, 3]
    ], columns=['A', 'B', 'C']
)
org = df.copy()

In [None]:
df

In [None]:
# 컬럼별(속성) 처리.
### 평균 대체
df['A']  = df['A'].fillna(df['A'].mean())
df

In [None]:
### 중앙값
df['B'] = df['B'].fillna(df['B'].median())
df

In [None]:
df['C'].mode()[0]

In [None]:
### 최빈값(범주형)
df['C'] = df['C'].fillna(df['C'].mode()[0])  # mode(): Series를 반환.
df

In [None]:
df = org.copy()
df

### scikit-learn 전처리기 이용한 대체

#### SimpleImputer

- **SimpleImputer**는 결측값을 대체하는 데 사용되는 전처리 클래스로  결측값을 평균, 중앙값, 최빈값 으로 대체한다.
- **메소드**
  - **initializer** 파라미터
    - **strategy**: 어떤 값으로 대체할지 지정. "median": 중앙값, "mean": 평균, "most_frequent": 최빈값, "constant": 상수(fill_value=채울값) 중 하나 사용.
  
  
#### KNNImputer
- KNN(K-최근접 이웃(K-Nearest Neighbors) **머신러닝 알고리즘을 이용해 결측치를 추정해서 대체**한다.
- 결측값이 있는 샘플의 최근접 이웃을 찾아 그 이웃들의 값을 평균내어 결측값을 대체한다.

##### 공통 메소드(모든 전처리기의 공통)
- fit()
  - 변환할 때 필요한 값들을 찾아서 instance변수에 저장. (컬럼별 평균, 중앙값)
- transform()
  - fit에서 찾은 값을 이용해 결측치를 대체한다.
- fit_transform() : fit(), transform()을 순서대로 한번에 처리.

In [None]:
df['C'].to_frame()

In [None]:
########################################################
# SimpleImputer 예제
########################################################
df = org.copy()

from sklearn.impute import SimpleImputer
# A, B (수치형) => 중앙값, C(범주형) => 최빈값
imputer1 = SimpleImputer(strategy="median")
imputer2 = SimpleImputer(strategy="most_frequent")

imputer1.fit(df[['A', 'B']])  # 결측치를 어떤 값으로 바꿀지 학습. (2차원 -> 0축 기준으로 계산)
result1 = imputer1.transform(df[['A', 'B']])  # 변환작업 (fit에서 찾은 중앙값으로 결측치를 대체)

result2 = imputer2.fit_transform(df['C'].to_frame()) #series.to_frame() : Series->DataFrame
# fit/transform 을 순서대로 실행. fit/transform을 같은 데이터셋으로 할 경우 사용.

# result1, result2 하나로 합치기.
## ndarray 합치는 함수: np.concatenate([대상 배열들], axis=합칠방향(default: 0))
result = np.concatenate([result1, result2], axis=1)
print(result.shape)
result