# Preprocessamento S4
___

Este notebook realiza um pré-processamento dos dados de S4 disponibilizados em data_s4. O preprocessamento consiste de uma conversão de indices para tratamento de séries temporais, uma reamostragem para amostras de 1s (nos dados orginais, o número de medidas a cada segundo, dependendo do número de satélites visíveis, porém, em geral é mais que um), interpolaçãos spline, seguido de suavização com um kernel gaussiano com janela de tamanho 25, seguindo como uma reamostragem para dados a cada 10 mim, e uma suavização usando um kernel gausiano de janela 25.

In [None]:
import os
import re
import sys

import pathos.multiprocessing as mulprocessing
import pandas as pd

from functools import partial
from scipy.signal import savgol_filter
from pathos.multiprocessing import ProcessPool

import utils
from utils import local_s4, local_s4_pre
from utils import window

In [None]:
files = os.listdir(local_s4)

In [None]:
print(files)

Inicialmente, os dados de S4 são tais que existe mais de uma amostra por minuto, decorrente dos múltiplos satélites de GPS que estavam no campo de visada da estão naquele intervalo.

O primeiro passo, assim, é combinar as várias medidas no intervalo de minuto gerando uma única medida por minuto, neste caso, tomou-se o valor m?dio de todos as medidas neste intervalo.

O segundo passo é tratar as entradas sem valores, aqui, decidiu-se por utilizar uma interpolação por spline de ordem 3.

O terceiro passo foi uma reamostragem dos dados para intervalores de 10 minutos, de forma, a compatibilizar com as taxas de amostragem dos demais dados a serem utilizados como o VTEC.

Segue-se então como uma suavização do sinal, por meio de uma aplicação de uma média móvel centrada com pesos gaussianos. Note, uma vez que trata-se de uma m?dia centrada:

\begin{equation}
y_t = \sum_{i=-n}^{+n}w_iy_{t+i}
\end{equation}

onde $n$  a srepresenta o tamanho da janela. A suavização definiada, assim, leva em conta pontos futuros, tornando-a inadequada para aplicações em tempo real, pontos no futuro não são conhecidos, e em previsões de séries temporais, a suavização adiciona contribuição do futuro aos dados.

In [None]:
def preprocessing(df_file, window):
    df_s4 = pd.read_pickle(os.path.join(local_s4, df_file), compression='xz')
    df_s4['eventdate'] = pd.to_datetime(df_s4['eventdate'], utc=True)
    df_s4.index = df_s4['eventdate']
    del df_s4['eventdate']
    
    # change for 1s
    df_s4 = df_s4.resample('1T').mean()
    df_s4 = df_s4.interpolate(method='spline', order=4) #4

    # change for 10min
    df_s4 = df_s4.resample('10T').mean()

    # aplay filter Savitzky-Golay
    # aplay a gaussian move average
    df_s4['s4'] = savgol_filter(df_s4.values.ravel(), window, 3)
    df_s4 = df_s4.rolling(window, win_type='gaussian', center=True).mean(std=1.0)
    
    return df_s4

preprocessing_window = partial(preprocessing, window=window)

In [None]:
%%time
df_s4_list = ProcessPool(nodes=mulprocessing.cpu_count()).map(preprocessing_window, files)

In [None]:
for name, df_s4 in zip(files, df_s4_list):
    df_s4.to_pickle(os.path.join(local_s4_pre,'pre_' + name.replace('.xz', '')))

In [None]:
list_files = [os.path.join(local_s4_pre, i) for i in os.listdir(local_s4_pre)]

In [None]:
def df_list(list_files): 
    for i in list_files:
        df_s4 = pd.read_pickle(i)
        pattern = re.compile(local_s4_pre + "/" + "pre_df_(.*)\.pkl")
        name = pattern.sub(r'\1', i)
        yield df_s4.rename(index=str, columns={"s4": name})
        
df_combine = partial(df_list, list_files=list_files)

df_s4 = pd.concat(df_combine(), axis=1, sort=True)

In [None]:
df_s4.head()

In [None]:
size = df_s4.columns.size
fig, ax = plt.subplots(size, 1)
for idx, i in enumerate(df_s4.columns):
    name = df_station.loc[df_station['identificationstation'] == i].index[0]
    df_series_vtec[i][0:512].plot(figsize=(24, 160), ax=ax[idx], label=name)
    ax[idx].legend(loc="upper right")