# Cross-Validation
### Melhores medições da performance do modelo
Quanto maior o set de validação, menos aleatoriedade (noise) haverá na qulidade da mensuração do modelo, o tornando mais confiável
- Cross Validation: roda processo de modelagem em diferentes subsets dos dados para ter diferentes medidads da qualidade do modelo (divide os dados em partes e, para cada parte (ou algumas), as usa hora como validação e hora como parte do set de treinamento) 
    - Quando usar: pequenos datasets onde gasto computacional não é grande problema (poucos minutos ou menos para rodar); maiores datasets, apenas um set de validação é suficiente (código mais rápido e pode ter dados suficientes)

In [2]:
import pandas as pd

data = pd.read_csv("melb_data.csv")

cols_to_use = ["Rooms", "Distance", "Landsize", "BuildingArea", "YearBuilt"]
X = data[cols_to_use]

y = data.Price

In [4]:
from sklearn.ensemble import RandomForestRegressor
from sklearn.pipeline import Pipeline
from sklearn.impute import SimpleImputer

#  pipeline com omputer pra preencher dados faltando e Random Forest
# pode fazer sem pipeline, mas fica difícil

my_pipeline = Pipeline(
    steps=[
        ("preprocessor", SimpleImputer()),
        ("model", RandomForestRegressor(n_estimators=50, random_state=0)),
    ]
)

In [6]:
from sklearn.model_selection import cross_val_score

# multiplica por -1 porque sklearn calcula MAE negativo
# scilkit: quanto mais alto um número melhor
scores = -1 * cross_val_score(my_pipeline, X, y,
                              cv=5,  # cv = numero de folds ("divisoes")
                              scoring="neg_mean_absolute_error") # https://scikit-learn.org/stable/modules/model_evaluation.html

print("MAE: \n", scores)

MAE: 
 [301628.7893587  303164.4782723  287298.331666   236061.84754543
 260383.45111427]


In [9]:
print("Média de MAE: ", scores.mean())

Média de MAE:  277707.3795913405
