# Filtros de sinais

Neste *notebook*, trabalharemos com três espectros (A, B e C) obtidos por FTIR
relativos a uma amostra contendo 20ppm de óleos e graxa. Utilizaremos
dois filtros de sinais (de média e Savitzky-Golay) para pré-processar esses espectros.

Para tanto, utilizaremos a biblioteca *pandas*, a qual é extensivamente utilizada
na seara de Ciência de Dados com Python, permitindo carregar e manipular
dados de forma eficiente e fácil.

## Localização dos datasets

Colocaremos em um dicionário os caminhos dos arquivos em que nossos
datasets estão localizados:

In [0]:
data_files = {'A':'https://raw.githubusercontent.com/cs-ufrn/minicourse-python-chem/master/IR20ppmA.txt',
              'B':'https://raw.githubusercontent.com/cs-ufrn/minicourse-python-chem/master/IR20ppmB.txt',
              'C':'https://raw.githubusercontent.com/cs-ufrn/minicourse-python-chem/master/IR20ppmC.txt'}

## Importando a biblioteca `pandas`

In [0]:
import pandas as pd

## Carregando os datasets

Vejamos um exemplo de como carregar um dataset com o *pandas*, 
utilizando os dados referentes à amostra *A*:

In [0]:
# carregando o dataset referente à amostra A
datasetA = pd.read_csv(data_files['A'],
                       sep=' ',
                       header=None,
                       usecols=[0,1],
                       skiprows=1)
# imprimindo informações básicas
print(datasetA.info())
# imprimindo as primeiras 5 linhas
datasetA.head()

Vamos deixar o nome das colunas mais significativos:

In [0]:
datasetA.columns = ["wavenumber", "absorbance"]
datasetA.head()

### Exercício - carregamento de datasets

**Agora, sua vez!** Carregue, nas variáveis `datasetB` e `datasetC`, os dados
das amostras *B* e *C*, utilizando a mesma função `read_csv` do exemplo acima:

In [0]:
# carregando o dataset referente à amostra B
datasetB = #...
# carregando o dataset referente à amostra C
datasetC = #...

## Adicionando colunas: transmitância

Vamos adicionar uma coluna a esse DataFrame para expressar a transmitância ($T$, %), dada em função da absorbância ($A$):
$$T = 10^{(2-A)}$$

In [0]:
# definindo a função de transformação
def absorbance_to_transmittance(absorbance):
  return 10 ** (2-absorbance)

# adicionando a coluna nova
datasetA['transmittance'] = datasetA['absorbance'].apply(absorbance_to_transmittance)

# como implementar com lambda?

## Plotando os sinais

A fim de visualizar o aspecto dos sinais carregados nos dataframes, plotaremos
um gráfico de linha para cada um. Observe como eles variam, e então se tornará
mais claro a necessidade de uma filtragem!

In [0]:
import matplotlib.pyplot as plt

# plotando datasetA como uma linha
ax = datasetA.plot(x='wavenumber',
              y='absorbance',
              title="FTIR original - Amostra A")
# configurar a legenda
ax.legend(["Espectro - amostra A"])
# configurar as labels do eixos
ax.set_xlabel("Número de onda (1/cm)")
ax.set_ylabel("Absorbância")

### Exercício - Plotando a transmitância

In [0]:
# plotar a transmitância do datasetA


### Exercício - Plotando sinais
Novamente, sua vez! Plote os demais dataframes abaixo, seguindo o exemplo acima.

In [0]:
# plotando o datasetB

# plotando o datasetC

## Filtrando os sinais

Aplicaremos aos dados carregados nos dataframes dois filtros de sinais: o filtro de média e o filtro de Savitzky–Golay.

### Filtro de média móvel

O filtro de média móvel serve para suavizar o gráfico formado no plot dos sinais, por meio da média entre dois ou mais pontos consecutivos de todos os dados do dataset, realizando um espécie de varredura por todo o sinal. Perceba a intensidade da suavização após a filtragem!

In [0]:
# plotar o original e recuperar seu eixo
ax = datasetA.plot.line(x=0, y=1, title="FTIR e filtro de média - Amostra A")

# plote a média móvel
datasetA.rolling(window=7, center=False).mean().plot(x=0, y=1, kind='line', ax=ax)

# configurar a legenda
ax.legend(["Espectro original", "Espectro após média"])

# configurar as labels do eixos
ax.set_xlabel("Número de onda (1/cm)")
ax.set_ylabel("Absorbância")

#### Exercício - Filtro média móvel
Agora, aplique para os outros dois datasets e plote os resultados!!

In [0]:
# para o datasetB

# para o datasetC

### Filtro Savitzky-Golay

O filtro Savitzky–Golay é um filtro digital que pode ser aplicado a um conjunto de dados/pontos com o intuito de suavizar os dados (e o gráfico, consequentemente), isto é, para melhorar a precisão dos dados sem distorcer a tandência do sinal. Perceba a diminuição dos ruídos de forma mais suave que o filtro de média móvel!

In [0]:
# importar a função que realiza a filtragem
from scipy.signal import savgol_filter
# obter os dados da segunda coluna
dataA = datasetA['absorbance'].values
# fazer uma cópia profunda do datasetA para a variável datasetA_sav_gol
datasetA_sav_gol = datasetA.copy()
# aplicar o filtro nos dados extraídos
data_sav_gol = savgol_filter(dataA, 7, 2)
# substituir os novos dados na cópia criada do datasetA
datasetA_sav_gol['absorbance'] = data_sav_gol
# plotar os dois gráficos na mesma figura, como feito no exercício anterior
ax = datasetA.plot.line(x=0, y=1)
datasetA_sav_gol.plot(x=0, y=1, kind = 'line', ax=ax)

#### Exercício - Filtro Savitzky-Golay

Personalize o gráfico anterior, adicionando título, legendas apropriadas e nomes para os eixos (use `ax`):

In [0]:
# personalize o gráfico anterior

#### Exercício - Filtro Savitzky-Golay
Agora, aplique o filtro Savitzky-Golay para os outros datasets e plote os resultados!

In [0]:
# para o datasetB

# para o datasetC