<h1>Table of Contents<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#O-que-veremos?" data-toc-modified-id="O-que-veremos?-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>O que veremos?</a></span></li><li><span><a href="#Requisitos-Básicos" data-toc-modified-id="Requisitos-Básicos-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Requisitos Básicos</a></span><ul class="toc-item"><li><span><a href="#Teoria" data-toc-modified-id="Teoria-2.1"><span class="toc-item-num">2.1&nbsp;&nbsp;</span>Teoria</a></span></li><li><span><a href="#Técnico" data-toc-modified-id="Técnico-2.2"><span class="toc-item-num">2.2&nbsp;&nbsp;</span>Técnico</a></span></li></ul></li><li><span><a href="#Avaliando-modelos" data-toc-modified-id="Avaliando-modelos-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Avaliando modelos</a></span><ul class="toc-item"><li><span><a href="#Avaliando-Regressão-com-Holdout" data-toc-modified-id="Avaliando-Regressão-com-Holdout-3.1"><span class="toc-item-num">3.1&nbsp;&nbsp;</span>Avaliando Regressão com Holdout</a></span></li><li><span><a href="#Avaliando-Classificação-com-Holdout" data-toc-modified-id="Avaliando-Classificação-com-Holdout-3.2"><span class="toc-item-num">3.2&nbsp;&nbsp;</span>Avaliando Classificação com Holdout</a></span></li><li><span><a href="#Avaliando-Regressão-e-Classificação-com-Cross-Validation" data-toc-modified-id="Avaliando-Regressão-e-Classificação-com-Cross-Validation-3.3"><span class="toc-item-num">3.3&nbsp;&nbsp;</span>Avaliando Regressão e Classificação com Cross-Validation</a></span></li></ul></li></ul></div>

# O que veremos? 

O objetivo maior de um modelo de Machine Learning é ele se sair bem - o bem aqui é mensurado por alguma medida - em dados que ele nunca viu.<br>

O problema é que nós só temos dados históricos, ou seja, dados de coisas que já aconteceram. Como podemos saber como o nosso modelo se sairá na vida real e em dados que ele nunca viu?<br>

É justamente isso que veremos aqui nesse notebook, obviamente de maneira superficial num primeiro momento, mas tenham calma.

# Requisitos Básicos 

## Teoria
- Machine Learning Theory | Requisitos em **01-Basic-Theory/03-Basic-ML-Theory**
    - Avaliação de modelos com holdout
    - Avaliação e seleção de modelos com Cross-Validation
    - Métricas para avaliar modelos
        - Mean Squared Error
        - Root Mean Squared Error
        - Accuracy
        - $R^2$

## Técnico 

- Python | Requisitos em **02-Python-Packages-Libraries/0-Python**
    - Imports de bibliotecas
- NumPy | Requisitos em **02-Python-Packages-Libraries/01-NumPy**
    - Arrays
    - Manipulação básica de arrays
- Pandas | Requisitos em **02-Python-Packages-Libraries/02-Pandas**
    - Leitura de dados
    - Dataframes e Series
    - Manipulação básica dos dois acima
- Scikit-Learn | Requisitos em **02-Python-Packages-Libraries/03-Scikit-Learn/00-Getting-Started**
    - Fit e predict com estimadores

# Avaliando modelos

Vamos avaliar dois modelos de Machine Learning Supervisionado, um em uma tarefa de classificação e outro em uma de regressão.<br>

Na tarefa de classificação, vamos usar o dataset [Pima Indians Diabetes Database](https://www.kaggle.com/uciml/pima-indians-diabetes-database) do [Kaggle](https://www.kaggle.com/) e na tarefa de regressão iremos usar [Boston Housing](https://www.kaggle.com/schirmerchad/bostonhoustingmlnd).<br>

Para maiores detalhes sobre cada problema, só entrar na página do [Kaggle](https://www.kaggle.com/) e ler a descrição de cada um.

## Avaliando Regressão com Holdout

Temos dois scripts, onde:
- eval_same_data.py faz o seguinte:
    - leitura dos dados com pd.read_csv()
    - treina uma DecisionTreeRegressor em todos os dados que temos
    - faz previsões nos mesmos dados que o algoritmo treinou
    - avalia com a métrica Root Mean Squared Error as previsões que são feitas nos mesmos dados que treinamos
- eval_diff_data.py faz o seguinte:
    - leitura dos dados com pd.read_csv()
    - separa aleatoriamente 30% dos dados
    - treina uma DecisionTreeRegressor em 70% que foram separados aleatoriamente
    - faz previsões nos 30% de dados que foram separados e que o modelo nunca viu
    - avalia com a métrica Root Mean Squared Error as previsões que foram feitas nos dados que ele nunca viu

In [19]:
"""
------eval_same_data.py------

Script que treina e avalia uma DecisionTreeRegresssor
nos mesmos dados. Veja que o erro eh zero
"""
import pandas as pd
from sklearn.tree import DecisionTreeRegressor
from sklearn.metrics import mean_squared_error


PATH_FILE = 'data/housing.csv'
TEST_SIZE = 0.3
RANDOM_STATE = 42

df_housing = pd.read_csv(PATH_FILE)

X = df_housing.drop(columns='MEDV')
y = df_housing.loc[:, 'MEDV']

dec_tree = DecisionTreeRegressor(random_state=RANDOM_STATE)
dec_tree.fit(X, y)

# fazendo previsoes nos mesmos dados que vimos
y_pred = dec_tree.predict(X)

# avaliando com a metrica RMSE 
rmse = mean_squared_error(y, y_pred, squared=False)

print(f'RMSE nos mesmos dados que treinamos: {rmse:.2f}')

RMSE nos mesmos dados que treinamos: 0.00


In [2]:
"""
------eval_diff_data.py------

Script que treina uma DecisionTreeRegressor em 70% dos
dados e avalia nos 30% restantes. Veja como o erro
ja eh diferente de zero.
"""
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeRegressor
from sklearn.metrics import mean_squared_error


PATH_FILE = 'data/housing.csv'
TEST_SIZE = 0.3
RANDOM_STATE = 42

df_housing = pd.read_csv(PATH_FILE)

X = df_housing.drop(columns='MEDV')
y = df_housing.loc[:, 'MEDV']

# divindo X e y em uma proporcao de 70% para treino e 30% para testar
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=TEST_SIZE, random_state=RANDOM_STATE)

dec_tree = DecisionTreeRegressor(random_state=RANDOM_STATE)

# aqui estamos treinado em apenas 70% dos dados
dec_tree.fit(X_train, y_train)

# fazendo previsoes nos outros 30% que o modelo nunca viu
y_pred = dec_tree.predict(X_test)

# avaliando com a metrica RMSE as previsoes feitas em dados que nunca vimos
rmse = mean_squared_error(y_test, y_pred, squared=False)
print(f'RMSE em dados nunca vistos: {rmse:.2f}')

RMSE em dados nunca vistos: 79448.66


## Avaliando Classificação com Holdout 

Temos dois scripts, onde:
- eval_same_data.py faz o seguinte:
    - leitura dos dados com pd.read_csv()
    - treina uma DecisionTreeClassifier em todos os dados que temos
    - faz previsões nos mesmos dados que o algoritmo treinou
    - avalia com a métrica Accuracy as previsões que são feitas nos mesmos dados que treinamos
- eval_diff_data.py faz o seguinte:
    - leitura dos dados com pd.read_csv()
    - separa aleatoriamente 30% dos dados
    - treina uma DecisionTreeClassifier em 70% que foram separados aleatoriamente
    - faz previsões nos 30% de dados que foram separados e que o modelo nunca viu
    - avalia com a métrica Accuracy as previsões que foram feitas nos dados que ele nunca viu

In [20]:
"""
------eval_same_data.py------

Script que treina e avalia uma DecisionTreeClassifier
nos mesmos dados. Veja que a acuracia eh 100%
"""
import pandas as pd
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score


PATH_FILE = 'data/diabetes.csv'
TEST_SIZE = 0.3
RANDOM_STATE = 42

df_housing = pd.read_csv(PATH_FILE)

X = df_housing.drop(columns='Outcome')
y = df_housing.loc[:, 'Outcome']

dec_tree = DecisionTreeClassifier(random_state=RANDOM_STATE)
dec_tree.fit(X, y)

# fazendo previsoes nos mesmos dados que vimos
y_pred = dec_tree.predict(X)

# avaliando com a metrica Accuracy as previsoes que foram feitas
# nos mesmos dados que treinamos
acc = accuracy_score(y, y_pred)*100

print(f'Acc nos mesmos dados que treinamos: {acc:.2f}%')

Acc nos mesmos dados que treinamos: 100.00%


In [21]:
"""
------eval_diff_data.py------

Script que treina uma DecisionTreeClassifier em 70% dos
dados e avalia nos 30% restantes. Veja como a acuracia 
eh diferente de 100%
"""
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score


PATH_FILE = 'data/diabetes.csv'
TEST_SIZE = 0.3
RANDOM_STATE = 42

df_housing = pd.read_csv(PATH_FILE)

X = df_housing.drop(columns='Outcome')
y = df_housing.loc[:, 'Outcome']

# divindo X e y em uma proporcao de 70% para treino e 30% para testar
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=TEST_SIZE, random_state=RANDOM_STATE)

dec_tree = DecisionTreeClassifier(random_state=RANDOM_STATE)

# aqui estamos treinado em apenas 70% dos dados
dec_tree.fit(X_train, y_train)

# fazendo previsoes nos outros 30% que o modelo nunca viu
y_pred = dec_tree.predict(X_test)

# avaliando com a metrica Accuracy as previsoes feitas em dados que nunca vimos
acc = accuracy_score(y_test, y_pred)*100

print(f'Acc em dados nunca vistos: {acc:.2f}%')

Acc em dados nunca vistos: 70.13%


## Avaliando Regressão e Classificação com Cross-Validation

Vamos usar a função cross_val_score para retornar os resultados de um cross-validation. Temos alguns detalhes sobre ela que já iremos adiantar aqui.

Sobre os parâmetros
- scoring: se você deixar igual a None, ele usa o score default do próprio estimador
    - no script cross_val_regression.py, usamos o estimador DecisionTreeRegressor, que tem como score default o $R^2$
    - no script cross_val_classification.py, usamos o estimador DecisionTreeClassifier, que tem como score default a accuracy
- cv: podemos passar muitas coisas para esse parâmetro, vamos ficar com o exemplo simples abaixo
    - no script cross_val_regression.py, usamos $cv=5$, assim temos 5 folders no cross-validation
    - no script cross_val_classification.py, usamos $cv=10$, assim temos 10 folders no cross-validation

In [46]:
"""
------cross_val_regression.py------

Usamos 
"""
import pandas as pd
from sklearn.tree import DecisionTreeRegressor
from sklearn.model_selection import cross_val_score


PATH_FILE = 'data/housing.csv'

df_housing = pd.read_csv(PATH_FILE)

X = df_housing.drop(columns='MEDV')
y = df_housing.loc[:, 'MEDV']

dec_tree = DecisionTreeRegressor(random_state=RANDOM_STATE)

# retornando resultado de um cross-validation com 5 folders
# e scoring default r2 do estimador DecisionTreeRegressor
scores = cross_val_score(dec_tree, X, y, scoring=None, cv=5)

print('Scores do Cross-validation')
print(scores.round(2))
print(f'Media   : {scores.mean():.2f}')
print(f'Desv Pad: {scores.std():.2f}')

Scores do Cross-validation
[0.42 0.58 0.56 0.52 0.08]
Media   : 0.43
Desv Pad: 0.18


In [49]:
"""
------cross_val_classification.py------

Usamos 
"""
import pandas as pd
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import cross_val_score


PATH_FILE = 'data/diabetes.csv'

df_housing = pd.read_csv(PATH_FILE)

X = df_housing.drop(columns='Outcome')
y = df_housing.loc[:, 'Outcome']

dec_tree = DecisionTreeClassifier(random_state=RANDOM_STATE)

# retornando resultado de um cross-validation com 10 folders
# e scoring default accuracy do estimador DecisionTreeClassifier
# ja multiplicamos por 100 para mostrar em porcentagem
scores = cross_val_score(dec_tree, X, y, scoring=None, cv=10)*100

print('Scores do Cross-validation')
print(scores.round(2))
print(f'Media   : {scores.mean():.2f}%')
print(f'Desv Pad: {scores.std():.2f}%')

Scores do Cross-validation
[67.53 72.73 67.53 59.74 68.83 67.53 80.52 76.62 65.79 75.  ]
Media   : 70.18%
Desv Pad: 5.74%
