# [프로젝트6] 시계열 데이터 EDA를 통한 이상치 탐지 (3)
---


## 프로젝트 목표
---
- 여러 개의 변수를 한 공간에 시각화를 통해 관계를 확인합니다.
- 여러 변수에 대하여 행렬 프로파일을 통해 이상치를 탐지합니다.


## 프로젝트 목차
---

1. **데이터 불러오기:** 기계학습을 이용한 이상치 탐지를 위한 데이터셋을 불러옵니다. 

2. **4개의 변수 시각화:** 4가지 변수를 정해서 한 공간에 matplotlib로 보여줍니다..

3. **4개 변수 Matrix Profile 시각화:** 프로젝트5에서 배운 matrix profile를 4가지 변수에 적용하고 시각화합니다.

4. **1005_1 장비로 돌려보기:** :1004_0 장비 외 타 장비 데이터를 활용하여 지금까지 한 내용을 실행해봅니다.

## 프로젝트 개요
---

행렬 프로파일(Matrix Profile)을 통해 이상치를 탐지합니다. 행렬 프로파일이란, 데이터 부분 집합에서 가장 유사한 쌍를 찾아내는 Similarity Join 방법론 중 하나로, 모든 데이터의 쌍에 대하여 유사도 계산해야 하는 이전 방법론들의 단점을 개선한 알고리즘입니다.

---

## 1. 데이터 불러오기
---

In [1]:
import pandas as pd
import matplotlib.pyplot as plt
import os
plt.rcParams['axes.unicode_minus']=False

In [2]:
from sklearn.preprocessing import StandardScaler

In [3]:
df = pd.read_csv("df_preprocessed(inter)_1004_0.csv")

다른 장비의 데이터를 불러오기 위해서는, 아래와 같은 함수를 사용하실 수 있습니다. 

In [None]:
df_0=pd.read_csv('/mnt/elice/dataset/mySuni_PJT_1_Data_bler.csv')
df_1=pd.read_csv('/mnt/elice/dataset/mySuni_PJT_1_Data_connection.csv')
df_2=pd.read_csv('/mnt/elice/dataset/mySuni_PJT_1_Data_interx2in_succ_rate.csv')
df_3=pd.read_csv('/mnt/elice/dataset/mySuni_PJT_1_Data_interx2out_succ_rate.csv')
df_4=pd.read_csv('/mnt/elice/dataset/mySuni_PJT_1_Data_intraenb_succ_rate.csv')
df_5=pd.read_csv('/mnt/elice/dataset/mySuni_PJT_1_Data_PRB.csv')
df_6=pd.read_csv('/mnt/elice/dataset/mySuni_PJT_1_Data_reconfig.csv')

df_list = [df_0,df_1,df_2,df_3,df_4,df_5,df_6]

`preprocess_data` 모듈의 `return_preprocess_data(df_list, machine_name, order)` 함수를 활용하여 결측치가 보간된 데이터를 얻을 수 있습니다. 

machine_name 에는 원하는 장비명을, order에는 원하는 결측치 보간의 polynomial order 값을 입력해주세요.

예를 들어, `1005_1` 장비의 전처리된 데이터를 불러오기 위해서는 아래와 같은 코드를 사용할 수 있습니다. 

In [None]:
import preprocess_data

df_new = preprocess_data.return_preprocess_data(df_list, '1005_1', 2)

In [None]:
df_new

장비 명은 다음의 txt 파일에 저장되어있습니다. 

In [None]:
f = open('./machine_list.txt')
for i in f:
    print(i)

## 2. 4개 변수 시각화
---
각 변수에 따라 값의 범위가 다르므로 Standard scaler를 통해 표준화 후 시각화 진행

In [None]:
scaler_dl_prb = StandardScaler().fit_transform(df.dl_prb_inter.values.reshape(-1,1))
scaler_ul_prb = StandardScaler().fit_transform(df.ul_prb_inter.values.reshape(-1,1))
scaler_dl_bler = StandardScaler().fit_transform(df.dl_bler_inter.values.reshape(-1,1))
scaler_ul_bler = StandardScaler().fit_transform(df.ul_bler_inter.values.reshape(-1,1))

### [TODO] 4개 변수에 대한 시각화를 진행합니다.
- `dl_prb_inter`, `ul_prb_inter`, `dl_bler_inter`, `ul_bler_inter` 4개 변수의 시각화를 진행합니다.
- 시각화 시, 200개의 데이터를 활용합니다. 

In [None]:
fig = plt.subplots(figsize=(20,5))
'code'

plt.legend(loc='upper left')

plt.show()


## 3. 4개 변수 Matrix Profile 시각화
---

In [None]:
!pip install matrixprofile-ts

In [None]:
from matrixprofile import *

In [None]:
scaler_dl_prb.shape

In [None]:
window_size=50

mp_dl_prb = matrixProfile.scrimp_plus_plus(scaler_dl_prb.reshape(2184,),window_size)
mp_ul_prb = matrixProfile.scrimp_plus_plus(scaler_ul_prb.reshape(2184,),window_size)
mp_dl_bler = matrixProfile.scrimp_plus_plus(scaler_dl_bler.reshape(2184,),window_size)
mp_ul_bler = matrixProfile.scrimp_plus_plus(scaler_ul_bler.reshape(2184,),window_size)

### [TODO] 4개 변수에 대한 Matrix Profile 시각화를 진행합니다. 
- `dl_prb_inter`, `ul_prb_inter`, `dl_bler_inter`, `ul_bler_inter` 4개 변수의 Matrix Profile 시각화를 진행합니다.
- 시각화 시, 200개의 데이터를 활용합니다.

In [None]:
fig = plt.subplots(figsize=(20,5))
'code'

plt.legend(loc='upper left')

plt.show()

## 4. 1005_1 장비로 돌려보기
---

In [None]:
df_2 = pd.read_csv("df_preprocessed(inter)_1005_1.csv")

In [None]:
scaler_dl_prb = StandardScaler().fit_transform(df_2.dl_prb_inter.values.reshape(-1,1))
scaler_ul_prb = StandardScaler().fit_transform(df_2.ul_prb_inter.values.reshape(-1,1))
scaler_dl_bler = StandardScaler().fit_transform(df_2.dl_bler_inter.values.reshape(-1,1))
scaler_ul_bler = StandardScaler().fit_transform(df_2.ul_bler_inter.values.reshape(-1,1))

In [None]:
fig = plt.subplots(figsize=(20,5))
plt.plot(scaler_dl_prb[0:200], label='dl_prb_inter')
plt.plot(scaler_ul_prb[0:200], label='ul_prb_inter')
plt.plot(scaler_dl_bler[0:200], label='dl_bler_inter')
plt.plot(scaler_ul_bler[0:200], label='ul_bler_inter')

plt.legend(loc='upper left')

plt.show()


In [None]:
window_size=50

mp_dl_prb = matrixProfile.scrimp_plus_plus(scaler_dl_prb.reshape(2184,),window_size)
mp_ul_prb = matrixProfile.scrimp_plus_plus(scaler_ul_prb.reshape(2184,),window_size)
mp_dl_bler = matrixProfile.scrimp_plus_plus(scaler_dl_bler.reshape(2184,),window_size)
mp_ul_bler = matrixProfile.scrimp_plus_plus(scaler_ul_bler.reshape(2184,),window_size)

In [None]:
fig = plt.subplots(figsize=(20,5))
plt.plot(range(200), mp_dl_prb[0][0:200], label='dl_prb_inter_1005_1')
plt.plot(range(200), mp_ul_prb[0][0:200], label='ul_prb_inter_1005_1')
plt.plot(range(200), mp_dl_bler[0][0:200], label='dl_bler_inter_1005_1')
plt.plot(range(200), mp_ul_bler[0][0:200], label='ul_bler_inter_1005_1')

plt.legend(loc='upper left')

plt.show()