<h1>Table of Contents<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#O-que-veremos?" data-toc-modified-id="O-que-veremos?-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>O que veremos?</a></span></li><li><span><a href="#Requisitos-Básicos" data-toc-modified-id="Requisitos-Básicos-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Requisitos Básicos</a></span><ul class="toc-item"><li><span><a href="#Teoria" data-toc-modified-id="Teoria-2.1"><span class="toc-item-num">2.1&nbsp;&nbsp;</span>Teoria</a></span></li><li><span><a href="#Técnico" data-toc-modified-id="Técnico-2.2"><span class="toc-item-num">2.2&nbsp;&nbsp;</span>Técnico</a></span></li></ul></li><li><span><a href="#Transformadores-e-pré-processadores" data-toc-modified-id="Transformadores-e-pré-processadores-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Transformadores e pré-processadores</a></span></li></ul></div>

# O que veremos?

Quando criamos um modelo de Machine Learning, este - praticamente 100% das vezes - é composto por mais do que apenas um estimador dando fit e predict. Geralmente, nós precisaremos transformar e pré-processar os dados de alguma maneira antes de usar um estimador.<br>

Como veremos nesse notebook, fazer todos esses passos de maneira separada dá uma trabalheira e mais linhas de código do que o necessário. Para resolver esse problema, nós usaremos um um objeto especial. Nele, ficarão todas as transformações, pré-processamentos e o estimador final.

# Requisitos Básicos 

## Teoria 

- Saber o que é e a importância de pré-processamento em modelos de Machine Learning

## Técnico 
- Básico de Orientação a Objetos. Somente saber o que são objetos, classes, métodos etc. Nomenclatura e terminologia básicas
- Imports de bibliotecas

# Transformadores e pré-processadores 

No exemplo abaixo, nós usaremos o dataset *Pima Indians Diabetes*. Nesse dataset nós iremos pré-processar os dados com o **StandardScaler**. Não se preocupe em entender o que é e o motivo de usarmos esse passo de pré-processamento, concentre-se na técnica de como você pode fazê-lo. Mais tarde iremos destrinchar a teoria.

Link para a página do Kaggle com informações adicionais sobre o dataset: [Pima Indians Diabetes Database - Kaggle](https://www.kaggle.com/uciml/pima-indians-diabetes-database)

In [9]:
"""
------pre_process.py------

Script basico para leitura e pre-processamento
das features numericas com StandardScaler

"""
import pandas as pd
from sklearn.preprocessing import StandardScaler

PATH_FILE = 'data/diabetes.csv'
USE_COLS = ['Glucose', 'BloodPressure', 'BMI', 'DiabetesPedigreeFunction']

df_diabetes = pd.read_csv(PATH_FILE, usecols=USE_COLS)

print('Dataset que iremos trabalhar antes do pre-processamento')
print(df_diabetes)
print()

scaler = StandardScaler()
df_diabetes_t = scaler.fit_transform(df_diabetes)

print('Dataset apos o pre-processamento')
print(df_diabetes_t)
print()

Dataset que iremos trabalhar antes do pre-processamento
     Glucose  BloodPressure   BMI  DiabetesPedigreeFunction
0        148             72  33.6                     0.627
1         85             66  26.6                     0.351
2        183             64  23.3                     0.672
3         89             66  28.1                     0.167
4        137             40  43.1                     2.288
..       ...            ...   ...                       ...
763      101             76  32.9                     0.171
764      122             70  36.8                     0.340
765      121             72  26.2                     0.245
766      126             60  30.1                     0.349
767       93             70  30.4                     0.315

[768 rows x 4 columns]

Dataset apos o pre-processamento
[[ 0.84832379  0.14964075  0.20401277  0.46849198]
 [-1.12339636 -0.16054575 -0.68442195 -0.36506078]
 [ 1.94372388 -0.26394125 -1.10325546  0.60439732]
 ...
 [ 0.003