<center><img src='https://raw.githubusercontent.com/Jangrae/img/master/ml_python.png' width=600/></center>

# 실습 내용

- 머신러닝 모델링을 할 때 자주 사용되는 전처리 방법을 리뷰합니다.
- 익숙하지 않은 방법은 반복 실습을 통해 익숙해져야 합니다.
- 다룰 내용
    - 라이브러리 불러오기
    - 데이터 불러오기
    - 불필요한 변수 제거
    - NaN 조치
    - 가변수화

# 1.라이브러리, 데이터 불러오기

- 우선 사용할 라이브러와 분석 대상 데이터를 불러옵니다.

## 1.1. 라이브러리 불러오기

- 사용할 라이브러리를 불러옵니다.

In [None]:
# 라이브러리 불러오기
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

## 1.2. 데이터 읽어오기

- 분석 대상 데이터를 읽어옵니다.

In [None]:
# 데이터 읽어오기
path = "https://raw.githubusercontent.com/jangrae/csv/master/titanic.csv"
titanic = pd.read_csv(path)

In [None]:
# 상위 데이터 확인
titanic.head()

# 2.불필요한 변수 제거

- Cabin은 77.1%가 NaN이기에 채울 방법이 마땅치 않으니 제거합니다.
- PassengerId, Name, Ticket은 Unique 한 값이므로 제거합니다.
- axis=0는 행, axis=1은 열을 의미함을 기억하세요.

In [None]:
# 여러 열 동시 제거
drop_cols = ['Cabin', 'PassengerId', 'Name', 'Ticket']
titanic.drop(drop_cols, axis=1, inplace=True)

In [None]:
# 확인
titanic.head()

In [None]:
# 이후 반복 실습을 위해 원본 보관
titanic_bk = titanic.copy()

# 3.NaN 조치

- NaN 값이 포함되어 있으면 정확한 분석와 예측을 할 수 없으니 이에 대한 처리가 필요합니다.

<img src='https://raw.githubusercontent.com/Jangrae/img/master/nan.png' width=700 align="left"/>

## 3.1. NaN 확인

- NaN 값이 있는지 우선 확인합니다.

In [None]:
# 변수들의 NaN 포함 상태 화인
titanic.isna().sum()

## 3.2. NaN 삭제

- NaN 값이 포함된 행이나 열이 중요하지 않다면 해당 행이나 열을 제거합니다.
- NaN 값이 너무 많이 포함된 경우, 적절히 채울 수 없다면 해당 행과 열을 제거합니다.

### 3.2.1. 행 제거

- NaN 값이 포함된 행이 그리 많지 않다면 해당 행을 제거합니다.
- 모든 행을 제거하거나 일부 행을 제거할 수 있습니다.

**1) 모든 행 제거**

<img src='https://raw.githubusercontent.com/Jangrae/img/master/dropna_01.png' width=300 align="left"/>

In [None]:
# 처리전 확인
titanic.isna().sum()

In [None]:
# NaN이 포함된 모든 행(axis=0) 제거
titanic.dropna(axis=0, inplace=True)

# 확인
titanic.isna().sum()

In [None]:
# 데이터 크기 확인
titanic.shape

In [None]:
# 이후 실습을 위해 원복
titanic = titanic_bk.copy()

**2) 일부 행 제거**

<img src='https://raw.githubusercontent.com/Jangrae/img/master/dropna_02.png' width=300 align="left"/>

In [None]:
# 처리전 확인
titanic.isna().sum()

In [None]:
# Age 변수에 NaN이 포함된 행 제거
titanic.dropna(subset=['Age'], axis=0, inplace=True)

# 확인
titanic.isna().sum()

In [None]:
# 이후 실습을 위해 원복
titanic = titanic_bk.copy()

### 3.2.2. 변수 제거

- NaN 값이 포함된 변수가 그리 중요하지 않거나, NaN 값이 너무 많다면 해당 변수를 제거합니다.

<img src='https://raw.githubusercontent.com/Jangrae/img/master/dropna_03.png' width=300 align="left"/>

In [None]:
# 처리전 확인
titanic.isna().sum()

In [None]:
# NaN 열이 포함된 모든 변수(axis=1) 제거
titanic.dropna(axis=1, inplace=True)

# 확인
titanic.isna().sum()

In [None]:
# 이후 실습을 위해 원복
titanic = titanic_bk.copy()

## 3.3. NaN 채우기

- NaN 값이 포함된 행이나 열을 제거할 수 없다면 특정 값으로 채웁니다.

### 3.3.1. 특정 값으로 채우기

- 임의의 값을 지정해 NaN 값을 채웁니다.
- 평균값이나 최빈값으로 채우는 경우가 많습니다.

In [None]:
# 처리전 확인
titanic.isna().sum()

**1) 평균값으로 채우기**

In [None]:
# Age 평균 구하기
mean_age = titanic['Age'].mean()

# NaN을 평균값으로 채우기
titanic['Age'].fillna(mean_age, inplace=True)

# 확인
titanic.isna().sum()

**2) 최빈값으로 채우기**

In [None]:
# Embarked 변수 값 확인
titanic['Embarked'].value_counts(dropna=True)

In [None]:
# NaN 값을 가장 빈도가 높은 값으로 채우기
titanic['Embarked'].fillna('S', inplace=True)

# 확인
titanic.isna().sum()

### 3.3.2. 앞/뒤 값으로 채우기

- 시계열 데이터인 경우 많이 사용하는 방법입니다.
- method='ffill': 바로 앞의 값으로 채우기
- method='bfill': 바로 뒤의 값으로 채우기

<img src='https://raw.githubusercontent.com/Jangrae/img/master/ffill_bfill.png' width=600 align="left"/>

In [None]:
# 데이터 불러오기
path = 'https://raw.githubusercontent.com/jangrae/csv/master/airquality.csv'
air = pd.read_csv(path)

# 확인
air.head(10)

In [None]:
# 이후 반복 실습을 위해 원본 보관
air_bk = air.copy()

In [None]:
# 처리전 확인
air.isna().sum()

In [None]:
# Ozone 변수 NaN 값을 바로 앞의 값으로 채우기
air['Ozone'].fillna(method='ffill', inplace=True)

# Solar.R 변수 NaN 값을 바로 뒤의 값으로 채우기
air['Solar.R'].fillna(method='bfill', inplace=True)

# 확인
air.isna().sum()

In [None]:
# 이후 실습을 위해 원복
air = air_bk.copy()

### 3.3.3. 선형 보간법으로 채우기

- interpolate 메소드에 method='linear' 옵션을 지정해 선형 보간법으로 채웁니다.

<img src='https://raw.githubusercontent.com/Jangrae/img/master/interpolate.png' width=300 align="left"/>

In [None]:
# 처리전 확인
air.isna().sum()

In [None]:
# 선형 보간법으로 채우리
air['Ozone'].interpolate(method='linear', inplace=True)

# Solar.R 변수 NaN 값을 바로 뒤의 값으로 채우기
air['Solar.R'].interpolate(method='linear', inplace=True)

# 확인
air.isna().sum()

# 4.가변수화

- 범주형 값을 갖는 변수에 대한 One-Hot Encoding을 진행합니다.

<img src='https://raw.githubusercontent.com/Jangrae/img/master/get_dummies1.png' width=700 align="left"/>

- 다중공선성 문제를 없애기 위해 drop_first=True 옵션을 지정합니다.

<img src='https://raw.githubusercontent.com/Jangrae/img/master/get_dummies2.png' width=600 align="left"/>

<img src='https://raw.githubusercontent.com/Jangrae/img/master/multicollinearity.png' width=500 align="left"/>

In [None]:
# 처리전 확인
titanic.head()

In [None]:
# 가변수 대상 변수 식별
dumm_cols = ['Pclass', 'Sex', 'Embarked']

# 가변수화
titanic = pd.get_dummies(titanic, columns=dumm_cols, drop_first=True)

# 확인
titanic.head()