<center><img src='https://raw.githubusercontent.com/Jangrae/img/master/ml_python.png' width=600/></center>

# 실습 내용

- 머신러닝 모델링을 할 때 자주 사용되는 전처리 방법을 리뷰합니다.
- 익숙하지 않은 방법은 반복 실습을 통해 익숙해져야 합니다.
- 다룰 내용
    - 라이브러리 불러오기
    - 데이터 불러오기
    - 불필요한 변수 제거
    - NaN 조치
    - 가변수화

# 1.라이브러리, 데이터 불러오기

- 우선 사용할 라이브러리와 분석 대상 데이터를 불러옵니다.

## 1.1. 라이브러리 불러오기

- 사용할 라이브러리를 불러옵니다.

In [1]:
# 라이브러리 불러오기
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

## 1.2. 데이터 읽어오기

- 분석 대상 데이터를 읽어옵니다.

In [4]:
# 데이터 읽어오기
path = "https://raw.githubusercontent.com/jangrae/csv/master/titanic.csv"
titanic = pd.read_csv(path)

In [6]:
# 상위 데이터 확인
titanic.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


# 2.불필요한 변수 제거

- Cabin은 77.1%가 NaN이기에 채울 방법이 마땅치 않으니 제거합니다.
- PassengerId, Name, Ticket은 Unique 한 값이므로 제거합니다.
- axis=0는 행, axis=1은 열을 의미함을 기억하세요.

In [8]:
# 여러 열 동시 제거
drop_cols = ['Cabin', 'PassengerId', 'Name', 'Ticket']
titanic.drop(columns=drop_cols, inplace=True)

In [10]:
# 확인
titanic.head()

Unnamed: 0,Survived,Pclass,Sex,Age,SibSp,Parch,Fare,Embarked
0,0,3,male,22.0,1,0,7.25,S
1,1,1,female,38.0,1,0,71.2833,C
2,1,3,female,26.0,0,0,7.925,S
3,1,1,female,35.0,1,0,53.1,S
4,0,3,male,35.0,0,0,8.05,S


In [12]:
# 이후 반복 실습을 위해 원본 보관
titanic_bk = titanic.copy()

# 3.NaN 조치

- NaN 값이 포함되어 있으면 정확한 분석와 예측을 할 수 없으니 이에 대한 처리가 필요합니다.

<img src='https://raw.githubusercontent.com/Jangrae/img/master/nan.png' width=700 align="left"/>

## 3.1. NaN 확인

- NaN 값이 있는지 우선 확인합니다.

In [14]:
# 변수들의 NaN 포함 상태 확인
titanic.isna().sum()

Survived      0
Pclass        0
Sex           0
Age         177
SibSp         0
Parch         0
Fare          0
Embarked      2
dtype: int64

## 3.2. NaN 삭제

- NaN 값이 포함된 행이나 열이 중요하지 않다면 해당 행이나 열을 제거합니다.
- NaN 값이 너무 많이 포함된 경우, 적절히 채울 수 없다면 해당 행과 열을 제거합니다.

### 3.2.1. 행 제거

- NaN 값이 포함된 행이 그리 많지 않다면 해당 행을 제거합니다.
- 모든 행을 제거하거나 일부 행을 제거할 수 있습니다.

**1) 모든 행 제거**

<img src='https://raw.githubusercontent.com/Jangrae/img/master/dropna_01.png' width=300 align="left"/>

In [None]:
# 처리전 확인
titanic.isna().sum()

In [None]:
# NaN이 포함된 모든 행(axis=0) 제거
titanic.dropna(axis=0, inplace=True)

# 확인
titanic.isna().sum()

In [None]:
# 데이터 크기 확인
titanic.shape

In [None]:
# 이후 실습을 위해 원복
titanic = titanic_bk.copy()

**2) 일부 행 제거**

<img src='https://raw.githubusercontent.com/Jangrae/img/master/dropna_02.png' width=300 align="left"/>

In [None]:
# 처리전 확인
titanic.isna().sum()

In [None]:
# Age 변수에 NaN이 포함된 행 제거
titanic.dropna(subset=['Age'], axis=0, inplace=True)

# 확인
titanic.isna().sum()

In [None]:
# 이후 실습을 위해 원복
titanic = titanic_bk.copy()

### 3.2.2. 변수 제거

- NaN 값이 포함된 변수가 그리 중요하지 않거나, NaN 값이 너무 많다면 해당 변수를 제거합니다.

<img src='https://raw.githubusercontent.com/Jangrae/img/master/dropna_03.png' width=300 align="left"/>

In [None]:
# 처리전 확인
titanic.isna().sum()

In [None]:
# NaN 열이 포함된 모든 변수(axis=1) 제거
titanic.dropna(axis=1, inplace=True)

# 확인
titanic.isna().sum()

In [None]:
# 이후 실습을 위해 원복
titanic = titanic_bk.copy()

## 3.3. NaN 채우기

- NaN 값이 포함된 행이나 열을 제거할 수 없다면 특정 값으로 채웁니다.

### 3.3.1. 특정 값으로 채우기

- 임의의 값을 지정해 NaN 값을 채웁니다.
- 평균값이나 최빈값으로 채우는 경우가 많습니다.

In [None]:
# 처리전 확인
titanic.isna().sum()

**1) 평균값으로 채우기**

In [None]:
# Age 평균 구하기
mean_age = titanic['Age'].mean()

# NaN을 평균값으로 채우기
titanic['Age'].fillna(mean_age, inplace=True)

# 확인
titanic.isna().sum()

**2) 최빈값으로 채우기**

In [None]:
# Embarked 변수 값 확인
titanic['Embarked'].value_counts(dropna=True)

In [None]:
# NaN 값을 가장 빈도가 높은 값으로 채우기
titanic['Embarked'].fillna('S', inplace=True)

# 확인
titanic.isna().sum()

### 3.3.2. 앞/뒤 값으로 채우기

- 시계열 데이터인 경우 많이 사용하는 방법입니다.
- ffill() 메서드: 바로 앞의 값으로 채우기
- bfill() 메서드: 바로 뒤의 값으로 채우기

<img src='https://raw.githubusercontent.com/Jangrae/img/master/ffill_bfill.png' width=600 align="left"/>

In [None]:
# 데이터 불러오기
path = 'https://raw.githubusercontent.com/jangrae/csv/master/airquality.csv'
air = pd.read_csv(path)

# 확인
air.head(10)

In [None]:
# 이후 반복 실습을 위해 원본 보관
air_bk = air.copy()

In [None]:
# 처리전 확인
air.isna().sum()

In [None]:
# Ozone 변수 NaN 값을 바로 앞의 값으로 채우기
air['Ozone'] = air['Ozone'].ffill()

# Solar.R 변수 NaN 값을 바로 뒤의 값으로 채우기
air['Solar.R'] = air['Solar.R'].bfill()

# 확인
air.isna().sum()

In [None]:
# 이후 실습을 위해 원복
air = air_bk.copy()

### 3.3.3. 선형 보간법으로 채우기

- interpolate 메서드에 method='linear' 옵션을 지정해 선형 보간법으로 채웁니다.

<img src='https://raw.githubusercontent.com/Jangrae/img/master/interpolate.png' width=300 align="left"/>

In [None]:
# 처리전 확인
air.isna().sum()

In [None]:
# 선형 보간법으로 채우기
air['Ozone'] = air['Ozone'].interpolate(method='linear')
air['Solar.R'] = air['Solar.R'].interpolate(method='linear')

# 확인
air.isna().sum()

# 4.가변수화

- 범주형 값을 갖는 변수에 대한 One-Hot Encoding을 진행합니다.

<img src='https://raw.githubusercontent.com/Jangrae/img/master/get_dummies1.png' width=700 align="left"/>

- 다중공선성 문제를 없애기 위해 drop_first=True 옵션을 지정합니다.

<img src='https://raw.githubusercontent.com/Jangrae/img/master/get_dummies2.png' width=600 align="left"/>

<img src='https://raw.githubusercontent.com/Jangrae/img/master/multicollinearity.png' width=500 align="left"/>

In [None]:
# 처리전 확인
titanic.head()

In [None]:
# 가변수 대상 변수 식별
dumm_cols = ['Pclass', 'Sex', 'Embarked']

# 가변수화
titanic = pd.get_dummies(titanic, columns=dumm_cols, drop_first=True, dtype=int)

# 확인
titanic.head()