<h1>Table of Contents<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#O-que-veremos?" data-toc-modified-id="O-que-veremos?-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>O que veremos?</a></span></li><li><span><a href="#Requisitos-Básicos" data-toc-modified-id="Requisitos-Básicos-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Requisitos Básicos</a></span><ul class="toc-item"><li><span><a href="#Teoria" data-toc-modified-id="Teoria-2.1"><span class="toc-item-num">2.1&nbsp;&nbsp;</span>Teoria</a></span></li><li><span><a href="#Técnico" data-toc-modified-id="Técnico-2.2"><span class="toc-item-num">2.2&nbsp;&nbsp;</span>Técnico</a></span></li></ul></li><li><span><a href="#Transformadores-e-pré-processadores" data-toc-modified-id="Transformadores-e-pré-processadores-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Transformadores e pré-processadores</a></span><ul class="toc-item"><li><span><a href="#Dissecando-pre_process.py" data-toc-modified-id="Dissecando-pre_process.py-3.1"><span class="toc-item-num">3.1&nbsp;&nbsp;</span>Dissecando pre_process.py</a></span></li></ul></li><li><span><a href="#Importante-1" data-toc-modified-id="Importante-1-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>Importante 1</a></span></li><li><span><a href="#Importante-2" data-toc-modified-id="Importante-2-5"><span class="toc-item-num">5&nbsp;&nbsp;</span>Importante 2</a></span></li><li><span><a href="#Esquema-dos-métodos-.fit(),-.transform()-e-fit_transform()" data-toc-modified-id="Esquema-dos-métodos-.fit(),-.transform()-e-fit_transform()-6"><span class="toc-item-num">6&nbsp;&nbsp;</span>Esquema dos métodos .fit(), .transform() e fit_transform()</a></span></li></ul></div>

# O que veremos?

Quando criamos um modelo de Machine Learning, este - praticamente 100% das vezes - é composto por mais do que apenas um estimador dando fit e predict. Geralmente, nós precisaremos transformar e pré-processar os dados de alguma maneira antes de usar um estimador.<br>

Neste notebook nós iremos usar o StandarScaler. Todos os outros pré-processadores e transformadores obedecem as mesmas regras.

# Requisitos Básicos 

## Teoria 

- Saber o que é e a importância de pré-processamento em modelos de Machine Learning

## Técnico 
- Python | Requisitos em **02-Python-Packages-Libraries/0-Python**
    - Básico de Orientação a Objetos. Somente saber o que são objetos, classes, métodos, atributos etc. Nomenclatura e terminologia básicas
    - Imports de bibliotecas
- NumPy | Requisitos em **02-Python-Packages-Libraries/01-NumPy**
    - Arrays
    - Manipulação básica de arrays
- Pandas | Requisitos em **02-Python-Packages-Libraries/02-Pandas**
    - Leitura de dados
    - Dataframes e Series
    - Manipulação básica dos dois acima

# Transformadores e pré-processadores 

No exemplo abaixo, nós usaremos o dataset *Pima Indians Diabetes*. Nesse dataset nós iremos pré-processar os dados com o **StandardScaler**. Não se preocupe em entender o que é e o motivo de usarmos esse passo de pré-processamento, concentre-se na técnica de como você pode fazê-lo. Mais tarde iremos destrinchar a teoria.

Link para a página do Kaggle com informações adicionais sobre o dataset: [Pima Indians Diabetes Database - Kaggle](https://www.kaggle.com/uciml/pima-indians-diabetes-database)

In [9]:
"""
------pre_process.py------

Script basico para leitura e pre-processamento
das features numericas com StandardScaler

"""
import pandas as pd
from sklearn.preprocessing import StandardScaler

PATH_FILE = 'data/diabetes.csv'
USE_COLS = ['Glucose', 'BloodPressure', 'BMI', 'DiabetesPedigreeFunction']

df_diabetes = pd.read_csv(PATH_FILE, usecols=USE_COLS)

print('Dataset que iremos trabalhar antes do pre-processamento')
print(df_diabetes)
print()

scaler = StandardScaler()
df_diabetes_t = scaler.fit_transform(df_diabetes)

print('Dataset apos o pre-processamento')
print(df_diabetes_t)
print()

Dataset que iremos trabalhar antes do pre-processamento
     Glucose  BloodPressure   BMI  DiabetesPedigreeFunction
0        148             72  33.6                     0.627
1         85             66  26.6                     0.351
2        183             64  23.3                     0.672
3         89             66  28.1                     0.167
4        137             40  43.1                     2.288
..       ...            ...   ...                       ...
763      101             76  32.9                     0.171
764      122             70  36.8                     0.340
765      121             72  26.2                     0.245
766      126             60  30.1                     0.349
767       93             70  30.4                     0.315

[768 rows x 4 columns]

Dataset apos o pre-processamento
[[ 0.84832379  0.14964075  0.20401277  0.46849198]
 [-1.12339636 -0.16054575 -0.68442195 -0.36506078]
 [ 1.94372388 -0.26394125 -1.10325546  0.60439732]
 ...
 [ 0.003

## Dissecando pre_process.py 

Vamos nos concentrar nas linhas 20 e 21, já que as outras fazem parte dos requisitos básicos para esse notebook.
Na linhas 20, nós instanciamos o StandardScaler. Caso você está aqui se aventurando e não faz ideia do que é isso, imagine que nós temos agora uma variável **scaler**, que representa o StandardScaler, olhe as duas saídas abaixo.

In [21]:
"""
Script para mostrar o tipo
e o que é devolvido quando 
rodamos a variavel scaler
"""

print(type(scaler))
print(scaler)

<class 'sklearn.preprocessing._data.StandardScaler'>
StandardScaler()


Qual a vantagem disso? Nossa variável agora poderá usar três métodos muito importantes e que usaremos com bastante frequência, são eles:
- .fit(): apenas aprende o que ele deve aprender com os dados que foram passados. No caso do StandardScaler é a média e o desvio padrão dos dados
- .transform(): efetivamente faz a transformação dos dados. Com o StandardScaler após o .fit() nós pegamos a média $\bar{u}$ e o desvio padrão $\bar{s}$ aprendidos e transformamos cada sample $x$ da feature da seguinte maneira $$z = \frac{(x - \bar{u})}{\bar{s}}$$
- .fit_transform(): treina e transforma o que você passa para ele. Ou seja, ela aprende o que deve aprender com os dados que foram passados e já realiza a transformação desses mesmos dados.

Veja o exemplo abaixo, nós usamos primeiro apenas o método .fit(), mostramos a média e o desvio padrão que ele calculou e depois em posse desses dois, nós fazemos a transformação $$z = \frac{(x - \bar{u})}{\bar{s}}$$ para cada feature com o método .transform()

In [29]:
"""
Script basico para mostrar a
media e o desvio padrao de uma unica 
feature.
O calculo foi feito para compararmos com
que e achado pelo StandardScaler

"""
import pandas as pd
from sklearn.preprocessing import StandardScaler

PATH_FILE = 'data/diabetes.csv'
USE_COLS = ['Glucose']

one_feature = pd.read_csv(PATH_FILE, usecols=USE_COLS)

mean = one_feature.mean()
std = one_feature.std()

print('Media e Desvio Padrao calculados na mao')
print(f'Media: {mean}')
print(f'Desv Pad: {std}')
print()

scaler = StandardScaler()

Media e Desvio Padrao calculados na mao
Media: Glucose    120.894531
dtype: float64
Desv Pad: Glucose    31.972618
dtype: float64



Acima temos o cálculo da média e do desvio padrão "na mão" da feature Glucose.<br> 
Vamos dar apenas um fit com StandardScaler, lembre-se, 99% das vezes você usará o fit_transform(), que já é o treino e a transformação dos dados. Usando apenas o fit() o StandardScaler apenas treina/aprende - no caso específico dessse pré-processador - a média e o desvio padrão dos dados. Veja abaixo.

In [32]:
"""
Dando apenas fit com o StandardScaler.
Nesse caso ele apenas aprende a media
e o desvio padrao dos dados que foram passados
e nao realiza nenhuma transformacao

"""
# treinando o StandardScaler
scaler.fit(one_feature)

print("O que foi aprendido pelo StandardScaler")
print(f"Media   : {scaler.mean_}")
print(f"Desv Pad: {scaler.scale_}")

O que foi aprendido pelo StandardScaler
Media   : [120.89453125]
Desv Pad: [31.95179591]


Veja que os resultados são os mesmos nas duas situações.

In [37]:
"""
Apos o scaler ser treinado
e aprender a media e o desvio padrao,
nos usamos o transform para efetivamente
mudar os dados

"""
# transformando os dados
one_feature_trans = scaler.transform(one_feature)
print('Print das 10 primeiras linhas transformadas')
print(one_feature_trans[:10])

Print das 10 primeiras linhas transformadas
[[ 0.84832379]
 [-1.12339636]
 [ 1.94372388]
 [-0.99820778]
 [ 0.5040552 ]
 [-0.15318486]
 [-1.34247638]
 [-0.184482  ]
 [ 2.38188392]
 [ 0.12848945]]


Nos exemplos acima, nós tivemos que fazer dois passos, primeiro nós treinamos com o método .fit(). Aqui, no caso do StandardScaler, nós aprendemos a média e o desvio padrão dos dados. Depois que aprendemos, nós usamos o método .transform() para efetivamente fazer uma transformação nos dados.<br>

Temos dois passos a serem feitos que podem ser juntados num único método, o fit_transform. O script pre-process.py mostra isso.<br>

Após a transformação, os dados ficam com média igual a zero e desvio padrão igual a um. Veja as saídas abaixo

In [40]:
"""
Apos a transformacao dos dados, estes passam
a ter media igual a zero e desvio padrao igual a um

"""
mean_pos_transf = one_feature_trans.mean()
std_pos_transf = one_feature_trans.std()

print(f'Media: {mean_pos_transf:.2f}')
print(f'Std: {std_pos_transf:.2f}')

Media: -0.00
Std: 1.00


# Importante 1
Vamos adiantar uma coisa aqui, você nunca deve usar o fit() ou o fit_transform() em dados de teste. REPITA COMIGO, NUNCA USAREI O FIT, ou seja, NUNCA TREINAREI/APRENDEREI COM OS DADOS DE TESTE, SOMENTE NOS DADOS DE TREINO. Por isso os dados de treino têm esse nome, servem para treinar.

# Importante 2 
Cada transformador e pré-processador aprende e transforma os dados de maneiras diferentes. No caso do StandardScaler temos uma coisa no caso do PowerTransform, temos outra.

# Esquema dos métodos .fit(), .transform() e fit_transform()

Vamos fazer um esquema para mostrar melhor como funciona um transformador/pré-processador no scikit-learn.<br>

Na imagem abaixo, nós instanciamos o StandardScaler e mostramos os dados que iremos trabalhar

![SCALE-DATA](images/03_01_scale_data.PNG)

Abaixo, temos:
- Passo 1: usamos o método .fit() nos dados que temos
- Passo 2: a média e o desvio padrão que foram aprendidos com os dados
- Passo 3: com os atributos .mean_ e .scale_, nós conseguimos acesasr a média e o desvio padrão calculados
- Passo 4: após treinarmos, usamos o .transform() nos dados
- Passo 5: método .transform() nos retorna os dados transformados

![SCALE-DATA](images/03_02_sc_fit_and_transf.PNG)