# [프로젝트2] 시계열 데이터 전처리 방법 알아보기
---


## 프로젝트 목표
---
- 데이터셋 내에 존재하는 결측치를 보간법을 활용하여 대체하는 방법을 알아봅니다.
- 데이터셋 내에 존재하는 변수값의 범위를 비슷하게 만들어주는 정규화와 표준화를 진행하는 방법을 알아봅니다.


## 프로젝트 목차
---

1. **데이터 불러오기:** 전처리를 진행할 데이터셋을 불러옵니다.

2. **결측치 처리하기 (보간법):** 데이터셋 내에 존재하는 결측치 개수를 확인하고, 보간법을 활용하여 결측치를 대체하는 방법을 알아봅니다.

3. **데이터 정규화와 표준화:** 변수 값의 범위를 유사하게 만들어주기 위한 정규화와 표준화를 진행하는 방법을 알아봅니다.



## 프로젝트 개요
---

cell id `1004_0`인 데이터를 활용하여 시계열 데이터 전처리(결측치 대체, 정규화, 표준화) 방법을 알아봅니다. 


## 1. 데이터 불러오기
---

전처리를 진행할 데이터셋을 불러오고, 기초 구조를 확인합니다. 

In [None]:
import numpy as np
import matplotlib.pyplot as plt 
import pandas as pd
import seaborn as sns

#plt.rcParams['axes.unicode_minus']=False

In [None]:
df=pd.read_csv('./1004_0.csv')

In [None]:
df.head(30)

## 2. 결측치 처리하기 (보간법)
---

데이터 분석 수학 분야에서 "보간법(Interpolation)은 데이터 포인트들의 이산형 집합의 범위에 기반해서 새로운 데이터 포인트들을 만들거나 찾는 추정(estimation)의 한 유형＂입니다. 이번 시간에는 이러한 보간법을 활용하여 데이터 셋 내에 존재하는 결측치를 직접 처리해보겠습니다. 

#### 결측값 갯수

In [None]:
df.isnull().sum()

#### df_temp 복제

In [None]:
df_temp=df.copy()

#### 보간법 

In [None]:
plt.figure(figsize=(6,5))
plt.plot(np.arange(30),df['dl_prb'][0:30])

plt.show()

In [None]:
dl_prb_inter=df['dl_prb'].interpolate()

In [None]:
dl_prb_inter_2=df['dl_prb'].interpolate(method='polynomial', order=2)

In [None]:
df_temp['dl_prb_2']=dl_prb_inter

In [None]:
df_temp['dl_prb_3']=dl_prb_inter_2

In [None]:
df_temp.isnull().sum()

In [None]:
plt.figure(figsize=(6,5))
plt.plot(np.arange(30),df_temp['dl_prb_2'][0:30])

plt.show()

In [None]:
plt.figure(figsize=(6,5))
plt.plot(np.arange(30),df_temp['dl_prb_3'][0:30])

plt.show()

In [None]:
plt.rcParams["figure.figsize"] = (20,8)
df_temp['dl_prb_3'][0:100].plot()

### [TODO] "interx2out_succ_rate" 변수를 0번부터 30번까지 시각화 하시오.

In [None]:
plt.figure(figsize=(6,5))
'code'

plt.show()

### [TODO] 보간법 함수(interpolate) 이용하여 "interx2out_succ_rate" 변수의 NaN 값을 채워넣으시오. 

In [None]:
interx2out_succ_rate_inter_test= 'code'

In [None]:
interx2out_succ_rate_inter_test.isnull().sum()

## 3. 데이터 정규화와 표준화
---

정규화와 표준화는 각각의 변수의 단위가 다르기 때문에 변수들의 값의 범위를 비슷하게 만들어주는 과정입니다. 

sklearn의 StandardScaler와 MinMaxScaler를 활용하여 데이터의 정규화와 표준화를 진행해보겠습니다. 

In [None]:
from sklearn.preprocessing import StandardScaler, MinMaxScaler

In [None]:
df_dl_prb=df_temp['dl_prb_3'].values.reshape(-1, 1)

In [None]:
# normalize
scaler_1 = MinMaxScaler()
df_scaled_1 = scaler_1.fit_transform(df_dl_prb)

# standardize
scaler_2 = StandardScaler()
df_scaled_2 = scaler_2.fit_transform(df_dl_prb)

In [None]:
df_temp['dl_prb_3'].shape

In [None]:
df_dl_prb.shape

In [None]:
# original
plt.style.use('ggplot')
plt.figure(figsize=(6,5))
plt.xlabel('time')
plt.ylabel('dl_prb value')
plt.plot(np.arange(100), df_temp['dl_prb_3'][0:100], color='b')
plt.show()

In [None]:
import numpy as np

In [None]:
# Normalize
scaler_2 = MinMaxScaler()
df_scaled_2 = scaler_2.fit_transform(df_dl_prb)

plt.style.use('ggplot')
plt.figure(figsize=(6,5))
plt.xlabel('time')
plt.ylabel('dl_prb value')
plt.plot(np.arange(100), df_scaled_2[:100], color='b')
#plt.ylim(0, 0.7)
plt.show()

In [None]:
# standardize
scaler_1 = StandardScaler()
df_scaled_1 = scaler_1.fit_transform(df_dl_prb)

plt.style.use('ggplot')
plt.figure(figsize=(6,5))
plt.xlabel('time')
plt.ylabel('dl_prb value')
plt.plot(np.arange(100), df_scaled_1[:100], color='b')
#plt.ylim(-3, 3)
plt.show()