# Validação Cruzada - Cross Validation

Primeiro: Relembrando a técnica utilizada anteriormente...

## Técnica Holdout

- Vantagem: Grande quantidade de dados, é simples. Divide dados de treino e teste aleatoriamente.
- Desvantagem: Pequenas quantidades de dados. Às vezes, a variância nos dados pode deixar a avaliação fraca, ou seja, a posição de dados de teste e treino são muito parecidos.

## Técnica Cross Validation

- Vantagem: Pequena quantidade de dados. Evita problemas de aleatoriedade.
- Desvantagem: Problema de desempenho em grande quantidade de dados. Resultado mais robusto. 

### Funcionamento
A cada iteração muda a posição de dados treinados e testados.


## Colocando em prática


Passo a passo inicial:

In [None]:
import pandas as pd

# Lendo arquivo
data = pd.read_csv('../input/melbourne-housing-snapshot/melb_data.csv')

# Selecionando features e target
cols_to_use = ['Rooms', 'Distance', 'Landsize', 'BuildingArea', 'YearBuilt']
X = data[cols_to_use]
y = data.Price

Definindo o pipeline para preencher os valores NaN:

Nota: É muito difícil fazer validação cruzada sem pipelines.

In [None]:
from sklearn.ensemble import RandomForestRegressor
from sklearn.pipeline import Pipeline
from sklearn.impute import SimpleImputer

my_pipeline = Pipeline(steps=[('preprocessor', SimpleImputer()),
                              ('model', RandomForestRegressor(n_estimators=50,
                                                              random_state=0))])

Fazendo a validação cruzada:

Nota: A função cross_val_score retorna os scores de validação cruzada para cada fold. 

In [None]:
from sklearn.model_selection import cross_val_score

# Multiplicando por -1 o resultado já que o sklearn calcula o MAE "negativo"
scores = -1 * cross_val_score(my_pipeline, X, y,
                              cv=5,
                              scoring='neg_mean_absolute_error')

print("MAE scores:\n", scores)

Média do erro:

In [None]:
print("Average MAE score (across experiments):")
print(scores.mean())