# [프로젝트3] 시계열 데이터 전처리하기
---


## 프로젝트 목표
---
- 데이터셋 내에 존재하는 결측치를 보간법을 활용하여 대체합니다.
- 데이터셋 내에 존재하는 변수값의 범위를 비슷하게 만들어주는 표준화를 진행합니다.


## 프로젝트 목차
---

1. **데이터 불러오기:** 전처리를 진행할 데이터셋을 불러옵니다.

2. **결측치 처리하기 (보간법):** 데이터셋 내에 존재하는 결측치 개수를 확인하고, 보간법을 활용하여 결측치를 대체하여 csv 파일로 도출합니다.

3. **데이터 표준화:** 변수 값의 범위를 유사하게 만들어주기 위한 표준화를 진행하고, csv 파일로 도출합니다.



## 프로젝트 개요
---

cell id `1004_0`인 데이터를 활용하여 시계열 데이터 전처리(결측치 대체, 정규화, 표준화) 합니다.


## 1. 데이터 불러오기
---

전처리를 진행할 데이터셋을 불러오고, 기초 구조를 확인합니다. 

In [1]:
import numpy as np
import matplotlib.pyplot as plt 
import pandas as pd
import seaborn as sns
import os
from sklearn.preprocessing import StandardScaler
#plt.rcParams['axes.unicode_minus']=False

In [2]:
df=pd.read_csv('1004_0.csv')

FileNotFoundError: [Errno 2] No such file or directory: '1004_0.csv'

In [None]:
df

## 2. 결측치 처리하기 (보간법)
---

데이터 분석 수학 분야에서 "보간법(Interpolation)은 데이터 포인트들의 이산형 집합의 범위에 기반해서 새로운 데이터 포인트들을 만들거나 찾는 추정(estimation)의 한 유형＂입니다. 이번 시간에는 이러한 보간법을 활용하여 데이터 셋 내에 존재하는 결측치를 직접 처리해보겠습니다. 

#### 결측값 갯수

In [None]:
df.isnull().sum()

#### df_temp 복제

In [None]:
df_temp=df.copy()

#### spline interpolation 이용

#### 보간법 

In [None]:
#spline interpolation
dl_bler_inter_2=df_temp['dl_bler'].interpolate(method='polynomial', order=2)
ul_bler_inter_2=df_temp['ul_bler'].interpolate(method='polynomial', order=2)
conn_avg_inter_2=df_temp['conn_avg'].interpolate(method='polynomial', order=2)
conn_max_inter_2=df_temp['conn_max'].interpolate(method='polynomial', order=2)
interx2in_succ_rate_inter_2=df_temp['interx2in_succ_rate'].interpolate(method='polynomial', order=2)
interx2out_succ_rate_inter_2=df_temp['interx2out_succ_rate'].interpolate(method='polynomial', order=2)
intraenb_succ_rate_inter_2=df_temp['intraenb_succ_rate'].interpolate(method='polynomial', order=2)
dl_prb_inter_2=df_temp['dl_prb'].interpolate(method='polynomial', order=2)
ul_prb_inter_2=df_temp['ul_prb'].interpolate(method='polynomial', order=2)
reconfig_succ_rate_inter_2=df_temp['reconfig_succ_rate'].interpolate(method='polynomial', order=2)

In [None]:
df_preprocessed=pd.DataFrame()
df_preprocessed['dl_bler_inter']=dl_bler_inter_2
df_preprocessed['ul_bler_inter']=ul_bler_inter_2
df_preprocessed['conn_avg_inter']=conn_avg_inter_2
df_preprocessed['conn_max_inter']=conn_max_inter_2
df_preprocessed['interx2in_succ_rate_inter']=interx2in_succ_rate_inter_2
df_preprocessed['interx2out_succ_rate_inter']=interx2out_succ_rate_inter_2
df_preprocessed['intraenb_succ_rate_inter']=intraenb_succ_rate_inter_2
df_preprocessed['dl_prb_inter']=dl_prb_inter_2
df_preprocessed['ul_prb_inter']=ul_prb_inter_2
df_preprocessed['reconfig_succ_rate_inter']=reconfig_succ_rate_inter_2

In [None]:
df_preprocessed

In [None]:
df_preprocessed.isnull().sum()

In [None]:
df_preprocessed.to_csv('df_preprocessed(inter)_1004_0.csv', index=None)

## 3. 데이터 표준화
---

표준화는 각각의 변수의 단위가 다르기 때문에 변수들의 값의 범위를 비슷하게 만들어주는 과정입니다. 

sklearn의 StandardScaler를 활용하여 데이터의 표준화를 진행해보겠습니다. 

#### 표준화

In [None]:
from sklearn.preprocessing import StandardScaler

In [None]:
df_dl_bler=df_preprocessed['dl_bler_inter'].values.reshape(-1, 1)
df_ul_bler=df_preprocessed['ul_bler_inter'].values.reshape(-1, 1)
df_conn_avg=df_preprocessed['conn_avg_inter'].values.reshape(-1, 1)
df_conn_max=df_preprocessed['conn_max_inter'].values.reshape(-1, 1)
df_interx2in_succ_rate=df_preprocessed['interx2in_succ_rate_inter'].values.reshape(-1, 1)
df_interx2out_succ_rate=df_preprocessed['interx2out_succ_rate_inter'].values.reshape(-1, 1)
df_intraenb_succ_rate=df_preprocessed['intraenb_succ_rate_inter'].values.reshape(-1, 1)
df_dl_prb=df_preprocessed['dl_prb_inter'].values.reshape(-1, 1)
df_ul_prb=df_preprocessed['ul_prb_inter'].values.reshape(-1, 1)
df_reconfig_succ_rate=df_preprocessed['reconfig_succ_rate_inter'].values.reshape(-1, 1)

In [None]:
# standardize
scaler = StandardScaler()

df_dl_bler_inter_scaled= scaler.fit_transform(df_dl_bler)
df_ul_bler_inter_scaled= scaler.fit_transform(df_ul_bler)
df_conn_avg_inter_scaled= scaler.fit_transform(df_conn_avg)
df_conn_max_inter_scaled= scaler.fit_transform(df_conn_max)
df_interx2in_succ_rate_inter_scaled= scaler.fit_transform(df_interx2in_succ_rate)
df_interx2out_succ_rate_inter_scaled= scaler.fit_transform(df_interx2out_succ_rate)
df_intraenb_succ_rate_inter_scaled= scaler.fit_transform(df_intraenb_succ_rate)
df_dl_prb_inter_scaled= scaler.fit_transform(df_dl_prb)
df_ul_prb_inter_scaled= scaler.fit_transform(df_ul_prb)
df_reconfig_succ_rate_inter_scaled= scaler.fit_transform(df_reconfig_succ_rate)

In [None]:
df_preprocessed_2=pd.DataFrame()
df_preprocessed_2['dl_bler']=pd.Series(df_dl_bler_inter_scaled.reshape(-1))
df_preprocessed_2['ul_bler']=pd.Series(df_ul_bler_inter_scaled.reshape(-1))
df_preprocessed_2['conn_avg']=pd.Series(df_conn_avg_inter_scaled.reshape(-1))
df_preprocessed_2['conn_max']=pd.Series(df_conn_max_inter_scaled.reshape(-1))
df_preprocessed_2['interx2in_succ_rate']=pd.Series(df_interx2in_succ_rate_inter_scaled.reshape(-1))
df_preprocessed_2['interx2out_succ_rate']=pd.Series(df_interx2out_succ_rate_inter_scaled.reshape(-1))
df_preprocessed_2['intraenb_succ_rate']=pd.Series(df_intraenb_succ_rate_inter_scaled.reshape(-1))
df_preprocessed_2['dl_prb']=pd.Series(df_dl_prb_inter_scaled.reshape(-1))
df_preprocessed_2['ul_prb']=pd.Series(df_ul_prb_inter_scaled.reshape(-1))
df_preprocessed_2['reconfig_succ_rate']=pd.Series(df_reconfig_succ_rate_inter_scaled.reshape(-1))

In [None]:
df_preprocessed_2

전처리가 완료된 `1004_0` 장비 데이터를 csv로 도출합니다.

In [None]:
df_preprocessed_2.to_csv('df_preprocessed(inter&scaled)_1004_0.csv', index=None)

`1004_0` 외의 장비 데이터를 전처리하기 위해 전처리 과정을 함수로 구현합니다.

이 때, interpolate의 polynomial의 order는 사용자가 정의할 수 있도록 합니다. 

In [None]:
def fill_missing_value(df_temp, ordern):
    #spline interpolation
    dl_bler_inter_2=df_temp['dl_bler'].interpolate(method='polynomial', order=ordern)
    ul_bler_inter_2=df_temp['ul_bler'].interpolate(method='polynomial', order=ordern)
    conn_avg_inter_2=df_temp['conn_avg'].interpolate(method='polynomial', order=ordern)
    conn_max_inter_2=df_temp['conn_max'].interpolate(method='polynomial', order=ordern)
    interx2in_succ_rate_inter_2=df_temp['interx2in_succ_rate'].interpolate(method='polynomial', order=ordern)
    interx2out_succ_rate_inter_2=df_temp['interx2out_succ_rate'].interpolate(method='polynomial', order=ordern)
    intraenb_succ_rate_inter_2=df_temp['intraenb_succ_rate'].interpolate(method='polynomial', order=ordern)
    dl_prb_inter_2=df_temp['dl_prb'].interpolate(method='polynomial', order=ordern)
    ul_prb_inter_2=df_temp['ul_prb'].interpolate(method='polynomial', order=ordern)
    reconfig_succ_rate_inter_2=df_temp['reconfig_succ_rate'].interpolate(method='polynomial', order=ordern)
    
    df_preprocessed=pd.DataFrame()
    df_preprocessed['dl_bler_inter']=dl_bler_inter_2
    df_preprocessed['ul_bler_inter']=ul_bler_inter_2
    df_preprocessed['conn_avg_inter']=conn_avg_inter_2
    df_preprocessed['conn_max_inter']=conn_max_inter_2
    df_preprocessed['interx2in_succ_rate_inter']=interx2in_succ_rate_inter_2
    df_preprocessed['interx2out_succ_rate_inter']=interx2out_succ_rate_inter_2
    df_preprocessed['intraenb_succ_rate_inter']=intraenb_succ_rate_inter_2
    df_preprocessed['dl_prb_inter']=dl_prb_inter_2
    df_preprocessed['ul_prb_inter']=ul_prb_inter_2
    df_preprocessed['reconfig_succ_rate_inter']=reconfig_succ_rate_inter_2
    
    return df_preprocessed

In [None]:
def standard_value(df_preprocessed):
    df_dl_bler=df_preprocessed['dl_bler_inter'].values.reshape(-1, 1)
    df_ul_bler=df_preprocessed['ul_bler_inter'].values.reshape(-1, 1)
    df_conn_avg=df_preprocessed['conn_avg_inter'].values.reshape(-1, 1)
    df_conn_max=df_preprocessed['conn_max_inter'].values.reshape(-1, 1)
    df_interx2in_succ_rate=df_preprocessed['interx2in_succ_rate_inter'].values.reshape(-1, 1)
    df_interx2out_succ_rate=df_preprocessed['interx2out_succ_rate_inter'].values.reshape(-1, 1)
    df_intraenb_succ_rate=df_preprocessed['intraenb_succ_rate_inter'].values.reshape(-1, 1)
    df_dl_prb=df_preprocessed['dl_prb_inter'].values.reshape(-1, 1)
    df_ul_prb=df_preprocessed['ul_prb_inter'].values.reshape(-1, 1)
    df_reconfig_succ_rate=df_preprocessed['reconfig_succ_rate_inter'].values.reshape(-1, 1)
    
    # standardize
    scaler = StandardScaler()

    df_dl_bler_inter_scaled= scaler.fit_transform(df_dl_bler)
    df_ul_bler_inter_scaled= scaler.fit_transform(df_ul_bler)
    df_conn_avg_inter_scaled= scaler.fit_transform(df_conn_avg)
    df_conn_max_inter_scaled= scaler.fit_transform(df_conn_max)
    df_interx2in_succ_rate_inter_scaled= scaler.fit_transform(df_interx2in_succ_rate)
    df_interx2out_succ_rate_inter_scaled= scaler.fit_transform(df_interx2out_succ_rate)
    df_intraenb_succ_rate_inter_scaled= scaler.fit_transform(df_intraenb_succ_rate)
    df_dl_prb_inter_scaled= scaler.fit_transform(df_dl_prb)
    df_ul_prb_inter_scaled= scaler.fit_transform(df_ul_prb)
    df_reconfig_succ_rate_inter_scaled= scaler.fit_transform(df_reconfig_succ_rate)
    
    df_preprocessed_2=pd.DataFrame()
    df_preprocessed_2['dl_bler']=pd.Series(df_dl_bler_inter_scaled.reshape(-1))
    df_preprocessed_2['ul_bler']=pd.Series(df_ul_bler_inter_scaled.reshape(-1))
    df_preprocessed_2['conn_avg']=pd.Series(df_conn_avg_inter_scaled.reshape(-1))
    df_preprocessed_2['conn_max']=pd.Series(df_conn_max_inter_scaled.reshape(-1))
    df_preprocessed_2['interx2in_succ_rate']=pd.Series(df_interx2in_succ_rate_inter_scaled.reshape(-1))
    df_preprocessed_2['interx2out_succ_rate']=pd.Series(df_interx2out_succ_rate_inter_scaled.reshape(-1))
    df_preprocessed_2['intraenb_succ_rate']=pd.Series(df_intraenb_succ_rate_inter_scaled.reshape(-1))
    df_preprocessed_2['dl_prb']=pd.Series(df_dl_prb_inter_scaled.reshape(-1))
    df_preprocessed_2['ul_prb']=pd.Series(df_ul_prb_inter_scaled.reshape(-1))
    df_preprocessed_2['reconfig_succ_rate']=pd.Series(df_reconfig_succ_rate_inter_scaled.reshape(-1))
    
    return df_preprocessed_2

특정 장비를 전처리하고 csv 파일로 도출하는 함수는 다음과 같습니다. 

### [TODO] 구현한 함수를 활용하여 특정 정비를 전처리하고 csv 파일로 도출하는 함수를 구현합니다.

- 전달받은 df_new와 order를 활용하여 결측치를 보간합니다. 
- 결측치를 보간한 데이터를 표준화합니다.

In [None]:
def preprocess_file(df_new, order, machine_name):
    pre_df = 'code'
    std_df = 'code'
    std_df.to_csv("./df_preprocessed(inter&scaled)_" + machine_name + ".csv", index = None)

만약, 결측치만 보간한 데이터를 도출하고 싶을 경우, 위 함수에서 standard_value 라인만 주석처리하면 됩니다.

이 때, 파일명도 혼동되지 않도록, `df_preprocessed(inter)_machine_name.csv` 로 변경해주세요.

이제 데이터를 전처리하기 위해, 병합된 데이터를 가져와보겠습니다. 

병합된 데이터를 가져오기 위해선, 아래 모듈을 사용하시면 됩니다.

In [None]:
import data_load

`data_load` 의 `return_data(df_list, machine_name)` 메소드에 다음과 같이 data_list 와 원하는 장비 이름을 전달하여 병합된 데이터를 반환받습니다.

예를 들어, 1005_1 장비의 데이터를 병합하고 싶을 경우, 다음과 같이 작성합니다.

In [None]:
df_0=pd.read_csv('/mnt/elice/dataset/mySuni_PJT_1_Data_bler.csv')
df_1=pd.read_csv('/mnt/elice/dataset/mySuni_PJT_1_Data_connection.csv')
df_2=pd.read_csv('/mnt/elice/dataset/mySuni_PJT_1_Data_interx2in_succ_rate.csv')
df_3=pd.read_csv('/mnt/elice/dataset/mySuni_PJT_1_Data_interx2out_succ_rate.csv')
df_4=pd.read_csv('/mnt/elice/dataset/mySuni_PJT_1_Data_intraenb_succ_rate.csv')
df_5=pd.read_csv('/mnt/elice/dataset/mySuni_PJT_1_Data_PRB.csv')
df_6=pd.read_csv('/mnt/elice/dataset/mySuni_PJT_1_Data_reconfig.csv')

df_list = [df_0,df_1,df_2,df_3,df_4,df_5,df_6]

In [None]:
df_new = data_load.return_data(df_list, '1005_1')

병합된 `1005_1` 장비 데이터를 전처리하고 결과 파일을 csv로 도출하는 경우의 다음과 같이 함수를 호출합니다.

In [None]:
preprocess_file(df_new, 2, '1005_1')

In [None]:
df_new_preprocess = pd.read_csv('./df_preprocessed(inter&scaled)_1005_1.csv')

In [None]:
df_new_preprocess

장비명은 아래와 같이 확인할 수 있습니다. 

In [None]:
f = open('./machine_list.txt')
for i in f:
    print(i)