# Deep Petro

## Preâmbulo

O código abaixo consiste dos imports comuns. Além do mais, configuramos as imagens para ficar de um tamanho aceitável e criamos algumas funções auxiliares. No geral, você pode ignorar a próxima célula.

In [None]:
# -*- coding: utf8

import matplotlib.pyplot as plt
import numpy as np
import pandas as ps

plt.rcParams['figure.figsize']  = (18, 10)
plt.rcParams['axes.labelsize']  = 20
plt.rcParams['axes.titlesize']  = 20
plt.rcParams['legend.fontsize'] = 20
plt.rcParams['xtick.labelsize'] = 20
plt.rcParams['ytick.labelsize'] = 20
plt.rcParams['lines.linewidth'] = 4

In [None]:
plt.ion()

plt.style.use('seaborn-colorblind')
plt.rcParams['figure.figsize']  = (12, 8)

## Aula 04 - Classificação e Regressão Clássica

Vamos para um pouco, por uma aula apenas, de usar mxnet para relembrar conceitos clássicos de aprendizado de máquina. Sua tarefa consiste de avaliar diferentes classificadores e algoritmos de regressão.

Lembre-se que um dos fatores mais importantes do aprendizado de máquina é a generalização. Portanto, geralmente fazemos uso de validação cruzada usando conjuntos de treino, validação e teste.

1. Treino: Onde treinamos nossos dados
2. Validação: Onde avaliamos nossa escolha de hyper-parameters
3. Teste: Nosso resultado final

Abaixo esquematizamos uma possível forma de fazer treino, validação e teste com 5-folds. Não é a única forma. A biblioteca de sklearn tem outras. Realize algum tipo de validação cruzada nos problemas abaixo.

![](./figs/cross-val.png)

## Conjunto de Problemas 1: Classificação

* [Avaliação de carros](http://archive.ics.uci.edu/ml/datasets/Car+Evaluation)
* [Avaliação de vinhos](http://archive.ics.uci.edu/ml/datasets/Wine+Quality)
* [Resultados de partidas do jogo Dota](http://archive.ics.uci.edu/ml/datasets/Dota2+Games+Results) (desafiador!)

Para cada base

* Realize treino, validação e teste
* Compare as métricas no teste
* Reporte a precisão, revocação, F1 e a matriz de confusão

Para esta tarefa, faça uso da biblioteca [scikit-learn](http://scikit-learn.org). Afinal, no dia a dia, não implementamos tudo do zero. Abaixo temos os imports que vocês precisam. Leiam a API da biblioteca para saber como fazer uso da mesma.

Caso esteja demorando muito tempo, faça ao menos um e pule para a regressão.

Recomendo testar ao menos:
1. LogisticRegressionCV
1. SVC
1. RandomForestClassifer
1. KNNClassifier

Lembre-se que alguns algoritmos funcionam melhor tratando (normalizando) os dados antes.

In [None]:
from sklearn.metrics import confusion_matrix
from sklearn.metrics import precision_recall_fscore_support

# Um fator importante é que o SKLearn não cria conjuntos de validação para você. Você tem algumas abordagens,
# uma é realizar um novo split no treino. Outra é fazer uso de classificadores com CV no fim.
# Tipo LogisticRegressionCV (ver na API). Por fim, você pode fazer uso da classe GridSearchCV.
# Leia a documentação da mesma.
from sklearn.model_selection import GridSearchCV
from sklearn.model_selection import RandomizedSearchCV
from sklearn.model_selection import train_test_split

In [None]:
# Seu código aqui
# . . .
# . . .
# . . .
# . . .
# . . .

## Conjunto de Problemas 2: Regressão


Agora compare algoritmos de classificação nos dados da [seção de regressão linear múltipla](http://college.cengage.com/mathematics/brase/understandable_statistics/7e/students/datasets/mlr/frames/frame.html) da página do *Livro Understandable Statistics* de Charles Brase e Corrinne Brase. Para o conjunto de dados que escolheu, execute a regressão linear múltipla para explicar o fator $X1$ dos dados ([ver descrição de um dos conjuntos](http://college.cengage.com/mathematics/brase/understandable_statistics/7e/students/datasets/mlr/frames/frame.html)) a partir dos outros fatores. 

Diferente do caso anterior, reporte o erro quadrado médio e o erro quadrado absoluto no conjunto de teste.

Recomendo testar ao menos:
1. ElasticNet
1. Linear Regression
1. SVR
1. RandomForestRegressor
1. KNNRegressor

Lembre-se que alguns algoritmos funcionam melhor tratando (normalizando) os dados antes.

In [None]:
from sklearn.metrics import mean_absolute_error
from sklearn.metrics import mean_squared_error

In [None]:
# Seu código aqui
# . . .
# . . .
# . . .
# . . .
# . . .