# Machine Learning

<img src=ml_def.png>

Basicamente, *machine learning*- ou  aprendizado de máquina - é o estudo que permite automatizar uma tarefa sem a intervenção direta de um humano, usando modelos para extrair as informações de bases de dados.

No jargão, o modelo "treina" com base nos dados de entrada, e depois "prevê" resultados a medida que encontra novas situações.

Os modelos podem ser:

- Supervisionados: se o treino é realizado com a disponibilidade de variáveis respostas da base de treino
- Não-supervisionados: se o próprio algortimo é capaz de extrair as relações relevantes e inferir a variável resposta. Geralmente utilizado em clusterização

In [2]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
plt.ion()
%matplotlib inline

## Modelos e algoritmos

Agora começamos algumas definições úteis

- Modelo: entendemos aqui como a formulação matemática que relaciona as variáveis de entrada com a(s) variável(is) de saída. Por exemplo, usaremos mais tarde o modelo $Y = \omega_0 + \omega_1 X$, onde X é uma matriz nxm com n pontos de m variáveis.
- Algoritmo: o processo matemático e estatítico usado para adequar - *fit* - o modelo aos dados.
- Métrica de sucesso: índice que será usado na avaliação da qualidade do resultado. Depende do modelo utilizado
- Preprocessamento, ou *data prep*: preparação da base de dados para uso no algoritmo (selecionar/extrair variáveis, tratar valores faltantes, etc)

## *Overfitting* e *Underfitting*

Dois fenômenos, totalmente opostos e igualmente desastrosos, podem ocorrer aos se realizar o *fit* do modelo.

- ***Overfitting***: quando o modelo acaba por se adequar *demais* dos dados de treino, como se o algortimo tivesse decorado que tal entrada tem tal saída. Resultados podem estar longe da realidade para pontos não utilizados no *fit*. Dizemos que o modelo tem alta **variância**.
- ***Underfitting***: pelo contrário, quando o modelo quase não se adequa aos dados de treino. Dizemos que tem alto **viés**, pois apesar das informações apresentadas, pouco concede

<img src=over_under.png>

### Validação Cruzada

Uma maneira de contornar os problemas de *over* e *underfitting* é, em primeiro lugar, separar os dados em dois tipos: para treino e para teste. Assim temos maior controle quanto a qualidade do modelo nesse sentido.

#### *Overfitting*:

- **Característica**: Boa performance no *set* de treino, baixa no de teste.
- **Causa**: muitas variáveis, modelo muito complexo
- **Solução**: reduzir número de variáveis, regularização\*, mais pontos

#### *Underfitting*

- **Característica**: Baixa performance tanto no *set* de treino quanto no de teste
- **Causa**: modelo simples demais, muito rígido (regularização\*)
- **Solução**: mais variáveis

### *Feature Selection*

É importante, então, decidir quais informações valem de fato a pena serem usadas no modelo

Algumas formas principais de selecionar as variáveis:

#### Filtro

Seleciona variáveis com base na relação com a variável resposta. Independe do modelo

<img src='filter.png'>

#### Wrapper

Utiliza o próprio modelo para determinar a importância das variáveis.

<img src='wrapper.png'>

#### Embedded

Utiliza, além do modelo em si, a sua performance

<img src='embedded.png'>



## Regressão Linear
<br>
<br>
<img src=linreg.png width=400>

### Formulação

Na regressão linear, representamos a relação entre as variáveis independentes e depentendes no seguinte modelo:

$$y = \theta_0 + \theta_1x_1 + \theta_2x_2 + ... + \theta_nx_n + \epsilon$$

Ou, de forma matricial

$$ y = \Theta^{\it{T}}X + \epsilon$$

Onde $\Theta^{\it{T}} = [\theta_0\hspace{1.5mm}\theta_1 ... \theta_n]\hspace{1mm}$ e $\hspace{1mm}X = [1\hspace{1.5mm}x_1 ... x_n]^{\it{T}}$, e $\epsilon$ é o erro, que admitimos ter distribuição normal de média 0.

Nota-se que o termo **linear** se refere à relação entre os coeficientes. Sendo assim, o modelo $ y = a_1x_1 +a_2x_1^2+ a_3\log{x_1}$ é linear, pois basta substituir $x_2=x_1^2\hspace{1mm}$ e $\hspace{1mm}x_3=\log{x_1}$

#### Algoritmos

Como definimos anteriormente, já temos o modelo, agora falta definir como encontrar os coeficientes que mais adequam esse modelo aos nossos dados. Como estamos falando de **modelos supervisionados**, basicamente cada algoritmo tentará minimizar uma **função custo**, que mensiona o quanto os pontos estimados $\hat{y}$ estão divergentes dos pontos reais $y$.

##### Mínimos Quadrados

O mais simples dos algortimos, tem como função de custo a soma do quadrado das diferenças entre real e estimado, ou seja:

$$ FC = \sum_{j=0}^{M} (\hat{y}_j-y_j)^2 $$

Como consequência, o algoritmo se torna relativamente sensível a *outliers*, pontos que por acaso de distanciam do comportamento normal, já que o custo cresce com o quadrado da distância.





##### Ridge - Regularização $L_2$

A regularização tem por objetivo limitar a exploração do algoritmo quanto ao espaço de soluções possíveis. No caso do que chamamos de regularização $L_2$, adicionamos o quadrado dos coeficientes à função custo:

$$ FC = \sum_{j=0}^{M} (\hat{y}_j-y_j)^2 + \alpha\sum_{i=0}^{N} |\theta_i|^2 $$

O novo termo enrigece a solução, pois aumentos nos coeficientes serão penalizados, o que aumenta o viés, podendo ser utilizao para remediar o problema de *overfitting*.

Porém, mais um parâmetro deve ser definido: o valor de $\alpha$ que traz o melhor comprometimento viés-variância para a qualidade do modelo - maior $\alpha$ implica maior viés, sendo $\alpha=0$ o equivalente aos Mínimos Quadrados. Uma solução é a criação de uma terceira partição nos dados, além de treino e teste.

Com a primeira achamos o melhor $\Theta$ dado $\alpha$, a segunda usamos para definir o $\alpha$ mais adequado, e a terceira nos dá a medida da qualidade do modelo em si. 



##### Lasso - Regularização $L_1$

De forma semelhante ao **Ridge**, utiliza uma penalidade para os valores dos coeficientes, mas com a norma $l_1$. Sendo assim, este algoritmo costuma achar soluções em que os coeficientes das variáveis menos importantes são zerados. É comum usá-lo para selecionar variáveis.

$$ FC = \sum_{j=0}^{M} (\hat{y}_j-y_j)^2 + \alpha\sum_{i=0}^{N} |\theta_i| $$

Mesmas observações sobre o novo parâmetro $\alpha$ no algoritmo anterior.
<br>
<img src='L1_L2.png' width=500>

In [27]:
from sklearn.datasets import make_regression

X, y = make_regression(n_samples=1000, n_features=10, n_informative=7, n_targets=1, random_state=33)

In [28]:
import pandas as pd
import numpy as np

dfx = pd.DataFrame(X, columns=['x1', 'x2', 'x3', 'x4', 'x5', 'x6', 'x7', 'x8', 'x9', 'x10'])
dfy = pd.DataFrame(y, columns=['y'])
df  = pd.concat([dfx, dfy], axis=1)

In [None]:
## Filtro



In [None]:
## Wrapper



In [None]:
## Embedded



### Padronização



### Métricas

Para avaliar a qualidade do modelo, temos a nosso dispor algumas métricas. No caso de regressões, as mais comuns são:

#### Variância explicada

Como o nome diz, nos dá o quanto o modelo consegue explicar da variação que observamos nos dados:

$$ VE(y,\hat{y}) = 1-\frac{Var(y-\hat{y})}{Var(y)}$$

#### Erro médio quadrado

Média no quadrado da diferença entre real e estimado

$$ EMQ = \frac{\sum_{j=1}^{M} (y-\hat{y})^2}{M+1}$$

#### Coeficiente de determinação - $R^2$

Nos trás o quão bem amostras futuras devem ser estimadas

$$ R^2=1-\frac{\sum_{j=0}^{M} (y-\hat{y})^2}{\sum_{j=0}^{M} (y-\bar{y})^2}$$

Notamos que $R^2$ é númericamente igual à variância explicada.

#### R ajustado - $R_{adj}^2$ ou $\bar{R^2}$

O coeficiente de determinação $R^2$ tende a aumentar com a adição de variáveis, independentemente de sua relevância para o modelo. Sendo assim, ao se comparar soluções com número diferente de *inputs*, devemos usar o R ajustado, que tenta controlar esse efeito (M: número de pontos; N: número de variáveis): 

$$ \bar{R^2}=1-(1-R^2)\frac{M-1}{M-N-1}$$




### Validação

Durante a decisão de escolha do modleo, é preciso ter controle da qualidade do que está sendo gerado. Se dependermos somente dos dados com que o algoritmo está treinando, corremos risco de *overfitting*, com muito erro ao se extrapolar para dados além do treino.

A solução mais simples é simular dados desconhecidos ao modelo, separando parte da base de treino, a ser usada somente na sua validação.


#### Hold-out

Método mais simples, dividem-se os dados históricos em *dataset* de treino e de validação. Apesar de se medir a qualidade do *fit* nos dados de treino, as decisões são tomadas com base na validação.

<img src=holdout.png>

#### Validação cruzada

Uma desvantagem do *hold-out* é a limitação que traz em termos de quantidade de pontos em que o modelo será treinado e validado. Se aumentarmos os pontos de treino, teremos menos pontos de validação, e vice-versa.

Como alternativa, podemos repetir a divisão treino-teste até passar por toda base de dados, efetuando a validação a cada passo. A performance geral do modelo é obtida da média da performance em cada divisão.

<img src=kfold.png>

#### Bootstrap (re-amostragem)

Com o *bootstrap*, um novo *dataset* é criado a partir de amostragens aleatórias - com reposição - dos dados que já temos.

Os dados históricos são entendidos como uma amostra da distribuição real dos dados, e o processo de *bootstrapping* procura recriar esse efeito.

<img src=bootstrap.png>
