# Model Evaluation and Refinement
A avaliacao da amostra nos informa o quao bem o modelo se ajusta aos dados de treino. Porem, nao nos informa o quao bem o modelo performa em dados novos.

Para contornar isso, fazemos a divisao dos dados em treino e teste. Os dados de treino serao usado para alimentar o modelo e permiti-lo aprender os padroes apresentados pelos dados. Ja os dados de teste serao dados usados para alimentar os modelos apos realizado o treinamento. Dessa forma, podemos avaliar o quao bem o modelo se sai com dados nunca vistos anteriormente.

Eh uma pratica comum separar 70% dos dados para a etapa de treinamento, e 30% para a etapa de testes. Porem, isso nao eh uma regra e a separacao vai depender muito da quantidade de dados disponivel, e tambem da distribuicao dos mesmos.

Exemplo em codigo da divisao entre treino e teste:

```
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X_data, y_data, test_size=.3, random_state=42)
```

- x_data = caracteristicas, ou variaveis independentes, ou variaveis preditoras
- y_data = variavel target, ou variavel dependente.

__Validacao Cruzada__: Nesta tecnica, o dataset eh dividido em K grupos iguais, cada grupo sendo referido como uma "pasta". Para aplicar esta tecnica em codigo, eh da forma que segue abaixo:

```
from sklearn.model_selection import cross_val_score

scores = cross_val_score(lr, X_data, y_data, cv=5)
```
O primeiro parametro se refere ao modelo que estamos utilizando, e o parametro "cv" se refere a quantidade de folds a serem utilizados. Os outros dois parametros sao as variaveis preditoras e variavel target.

A funcao __cross_val_predict()__ retorna a predicao do que foi calculado para cada elemento no conjunto de teste. 

```
from sklearn.model_selection import cross_val_predict

yhat = cross_val_predict(lr2e, X_data, y_data, cv=5)
```
Os parametros que passamos para essa funcao sao os mesmos que passamos na funcao anterior, porem, o resultado exibido por esse funcao sera a previsao.

# Overfitting, Underfitting and Model Selection
Como vimos anteriormente, modelos lineares nem sempre sao a melhor opcao. O objetivo de selecionar o modelo correto era determinar a ordem do polinomio que melhor se ajustava aos dados. Naquele exemplo, se utilizassemos uma funcao linear e fosse tracada uma reta, nao haveria um bom ajuste aos dados pois nao temos complexidade o suficiente para isso. Ao avaliarmos isso graficamente, veriamos que haveria um caso de __underfitting__ nos dados.

__Underfitting__ ocorre quando o modelo nao apresenta um bom ajuste aos dados, de forma que nao consegue aprender os padroes apresentados nos dados de treino.

__Overfitting__ ocorre quando o modelo aprende tanto o padrao dos dados de treino, que acaba se "viciando" neles, fazendo com que nao consiga generalizar suas previsoes para os dados de teste. 

Queremos sempre um modelo que minimize os erros nos dados de teste, de forma que a gente nao tenha um modelo muito "overfittado" e nem "underfittado". Queremos o meio termo que permita ao modelo uma boa generalizacao para os dados de teste.

<br>

Codigo para testar diferentes ordens polinomiais:

```
rs_test = []

order = [1, 2, 3, 4]

for n in order:
    pr = PolynomialFeatures(degree=n)
    X_train_pr = pr.fit_transform(X_train[['horsepower']])
    X_test_pr = pr.fit_transform(X_test[['horsepower']])
    lr.fit(X_train, y_train)
    rs_test.append(lr.score(X_test_pr, y_test))
```

# Ridge Regression
A regressao Ridge introduz um parametro chamado __alpha__ que controla a magnitude dos polinomios. O alpha eh um parametro que especificamos antes de treinar o modelo. Conforme o alpha aumenta, a magnitude do polinomio diminui. Porem devemos ter cuidado ao selecionar o valor do alpha e fazer testes com diferentes valores. Isso deve ser feito pois um alpha muito grande pode levar o modelo a um __underfitting__, enquanto um alpha muito baixo pode levar o modelo a um __overfitting__.

Codigo para executar essa tarefa:

```
from sklearn.linear_model import Ridge
ridge = Ridge(alpha=.1)
ridge.fit(X, y)
yhat = ridge.predict(X)
```

# Grid Search
O parametro _alpha_ na regressao Ridge eh um __hiperparametro__ desse modelo.

No scikit-learn existe uma forma de iterar automaticamente por esses parametros usando validacao cruzada, que eh chamado de Grid Search. O __Grid Search__ pega o modelo que queremos treinar, e diferentes valores dos hiperparametros para esse modelo, apos isso, calcula o MSE ou R2 para varios valores dos hiperparametros, permitindo a escolha dos melhores parametros.

Para fazer a grid search, criamos um dicionario com os valores que queremos testar dentro de uma lista. A chave deste dicionario sera o nome do hiperparametro, e os valores no dicionario serao uma lista com os valores a serem testados.

Codigo para implementacao:

```
from sklearn.linear_model import Ridge
from sklearn.model_selection import GridSearchCV

param = [{'alpha'}: [0.001, 0.1, 1, 10, 100, 1000], 'normalize': [True, False]}] ---> parametros de alpha a serem testados, e a normalizacao.

ridge = Ridge() ---> modelo

grid = GridSearchCV(ridge, param, cv=5) ---> Aplicacao do modelo e dos parametros no GridSearchCV

grid.fit(X_data[['horsepower', 'curb-weight', 'engine-size', 'highway-mpg']], y_data) ---> Ajuste

grid.best_estimator_ ---> Encontra os melhores valores do parametro

scores = grid.cv_results_ ---> Informa o melhor valor de teste

scores['mean_test_score']
```