# Machine Learning

![ML](Aula3/ml_def.png)

Basicamente, *machine learning*- ou  aprendizado de máquina - é o estudo que permite automatizar uma tarefa sem a intervenção direta de um humano, usando modelos para extrair as informações de bases de dados.

No jargão, o modelo "treina" com base nos dados de entrada, e depois "prevê" resultados a medida que encontra novas situações.

Os modelos podem ser:

- Supervisionados: se o treino é realizado com a disponibilidade de variáveis respostas da base de treino
- Não-supervisionados: se o próprio algortimo é capaz de extrair as relações relevantes e inferir a variável resposta. Geralmente utilizado em clusterização

## Modelos e algoritmos

Agora começamos algumas definições úteis

- Modelo: entendemos aqui como a formulação matemática que relaciona as variáveis de entrada com a(s) variável(is) de saída. Por exemplo, usaremos mais tarde o modelo $Y = \omega_0 + \omega_1 X$, onde X é uma matriz nxm com n pontos de m variáveis.
- Algoritmo: o processo matemático e estatítico usado para adequar - *fit* - o modelo aos dados.
- Métrica de sucesso: índice que será usado na avaliação da qualidade do resultado. Depende do modelo utilizado
- Preprocessamento, ou *data prep*: preparação da base de dados para uso no algoritmo (selecionar/extrair variáveis, tratar valores faltantes, etc)

## *Overfitting* e *Underfitting*

Dois fenômenos, totalmente opostos e igualmente desastrosos, podem ocorrer aos se realizar o *fit* do modelo.

- ***Overfitting***: quando o modelo acaba por se adequar *demais* dos dados de treino, como se o algortimo tivesse decorado que tal entrada tem tal saída. Resultados podem estar longe da realidade para pontos não utilizados no *fit*. Dizemos que o modelo tem alta **variância**.
- ***Underfitting***: pelo contrário, quando o modelo quase não se adequa aos dados de treino. Dizemos que tem alto **viés**, pois apesar das informações apresentadas, pouco concede

### Validação Cruzada

Uma maneira de contornar os problemas de *over* e *underfitting* é, em primeiro lugar, separar os dados em dois tipos: para treino e para teste. Assim temos maior controle quanto a qualidade do modelo nesse sentido.

#### *Overfitting*:

- **Característica**: Boa performance no *set* de treino, baixa no de teste.
- **Causa**: muitas variáveis, modelo muito complexo
- **Solução**: reduzir número de variáveis, regularização\*, mais pontos

#### *Underfitting*

- **Característica**: Baixa performance tanto no *set* de treino quanto no de teste
- **Causa**: modelo simples demais, muito rígido (regularização\*)
- **Solução**: mais variáveis

### *Feature Selection*

## Regressão Linear

### Formulação

Na regressão linear, representamos a relação entre as variáveis independentes e depentendes no seguinte modelo:

$$y = \theta_0 + \theta_1x_1 + \theta_2x_2 + ... + \theta_nx_n + \epsilon$$

Ou, de forma matricial

$$ y = \Theta^{\it{T}}X + \epsilon$$

Onde $\Theta^{\it{T}} = [\theta_0\hspace{1.5mm}\theta_1 ... \theta_n]\hspace{1mm}$ e $\hspace{1mm}X = [1\hspace{1.5mm}x_1 ... x_n]^{\it{T}}$, e $\epsilon$ é o erro, que admitimos ter distribuição normal de média 0.

Nota-se que o termo **linear** se refere à relação entre os coeficientes. Sendo assim, o modelo $ y = a_1x_1 +a_2x_1^2+ a_3\log{x_1}$ é linear, pois basta substituir $x_2=x_1^2\hspace{1mm}$ e $\hspace{1mm}x_3=\log{x_1}$

#### Algoritmos

Como definimos anteriormente, já temos o modelo, agora falta definir como encontrar os coeficientes que mais adequam esse modelo aos nossos dados. Como estamos falando de **modelos supervisionados**, basicamente cada algoritmo tentará minimizar uma **função custo**, que mensiona o quanto os pontos estimados $\hat{y}$ estão divergentes dos pontos reais $y$.

##### Mínimos Quadrados

O mais simples dos algortimos, tem como função de custo a soma do quadrado das diferenças entre real e estimado, ou seja:

$$ FC = \sum_{j=0}^{M} (\hat{y}_j-y_j)^2 $$

Como consequência, o algoritmo se torna relativamente sensível a *outliers*, pontos que por acaso de distanciam do comportamento normal, já que o custo cresce com o quadrado da distância.



**COLOCAR MINIMIZAÇÂO? (Derivadas parciais)**

##### Ridge - Regularização $L_2$

A regularização tem por objetivo limitar a exploração do algoritmo quanto ao espaço de soluções possíveis. No caso do que chamamos de regularização $L_2$, adicionamos o quadrado dos coeficientes à função custo:

$$ FC = \sum_{j=0}^{M} (\hat{y}_j-y_j)^2 + \alpha\sum_{i=0}^{N} |\theta_i|^2 $$

O novo termo enrigece a solução, pois aumentos nos coeficientes serão penalizados, o que aumenta o viés, podendo ser utilizao para remediar o problema de *overfitting*.

Porém, mais um parâmetro deve ser definido: o valor de $\alpha$ que traz o melhor comprometimento viés-variância para a qualidade do modelo - maior $\alpha$ implica maior viés, sendo $\alpha=0$ o equivalente aos Mínimos Quadrados. Uma solução é a criação de uma terceira partição nos dados, além de treino e teste.

Com a primeira achamos o melhor $\Theta$ dado $\alpha$, a segunda usamos para definir o $\alpha$ mais adequado, e a terceira nos dá a medida da qualidade do modelo em si. 

### Métricas

Para avaliar a qualidade do modelo, temos a nosso dispor algumas métricas. No caso de regressões, as mais comuns são:

#### Variância explicada

Como o nome diz, nos dá o quanto o modelo consegue explicar da variação que observamos nos dados:

$$ VE(y,\hat{y}) = 1-\frac{Var(y-\hat{y})}{Var(y)}$$

#### Erro médio quadrado

Média no quadrado da diferença entre real e estimado

$$ EMQ = \frac{\sum_{j=1}^{M} (y-\hat{y})^2}{M+1}$$

#### Coeficiente de determinação - $R^2$

Nos trás o quão bem amostras futuras devem ser estimadas

$$ R^2=1-\frac{\sum_{j=0}^{M} (y-\hat{y})^2}{\sum_{j=0}^{M} (y-\bar{y})^2}$$

Notamos que $R^2$ é númericamente igual à variância explicada.

### Implantação

Utilizaremos a implantação dos algoritmos da bilbioteca **sklearn**.

Para mais informações, pode-se acessar o guia em https://scikit-learn.org/stable/user_guide.html

In [2]:
from sklearn.linear_model import LinearRegression, Ridge
from sklearn.metrics import explained_variance_score, mean_squared_error, r2_score
from sklearn.model_selection import train_test_split
import pandas as pd

In [7]:
df=pd.read_csv('reglin.csv')

In [8]:
df=df.loc[:,['x','y']]

In [9]:
df.to_csv('reglin.csv', index=False)

In [10]:
df=pd.read_csv('reglin.csv')

In [11]:
p2=df
p2['x2']=df.x**2
p2['x0']=1

In [13]:
p2

Unnamed: 0,x,y,x2,x0
0,5.03,3.75,25.3009,1
1,3.9,2.94,15.21,1
2,3.07,4.99,9.4249,1
3,5.29,5.91,27.9841,1
4,1.35,3.01,1.8225,1
5,4.35,2.87,18.9225,1
6,1.09,1.17,1.1881,1
7,2.82,5.65,7.9524,1
8,2.16,5.71,4.6656,1
9,3.68,3.91,13.5424,1


In [14]:
p3=p2
p3['x3']=p2.x**3

In [15]:
p4=p3
p4['x4']=p3.x**4
p4['x5']=p3.x**5
p4['x6']=p3.x**6
p4['x7']=p3.x**7
p4['x8']=p3.x**8

In [16]:
p4.head()

Unnamed: 0,x,y,x2,x0,x3,x4,x5,x6,x7,x8
0,5.03,3.75,25.3009,1,127.263527,640.135541,3219.88177,16196.005304,81465.906682,409773.510608
1,3.9,2.94,15.21,1,59.319,231.3441,902.24199,3518.743761,13723.100668,53520.092605
2,3.07,4.99,9.4249,1,28.934443,88.82874,272.704232,837.201992,2570.210115,7890.545052
3,5.29,5.91,27.9841,1,148.035889,783.109853,4142.651121,21914.624432,115928.363245,613261.041568
4,1.35,3.01,1.8225,1,2.460375,3.321506,4.484033,6.053445,8.172151,11.032404


In [17]:
y2=p2.y
x2=p2.loc[:,['x0','x', 'x2']]

y3=p3.y
x3=p3.loc[:,['x0','x', 'x2', 'x3']]

y4=p4.y
x4=p4.loc[:,['x0','x', 'x2','x8']]

In [18]:
ln2 = LinearRegression()
ln3 = LinearRegression()
ln4 = LinearRegression()

In [19]:
x2tr, x2tt, y2tr, y2tt = train_test_split(x2, y2, test_size=0.33, random_state=42)
x3tr, x3tt, y3tr, y3tt = train_test_split(x3, y3, test_size=0.33, random_state=42)
x4tr, x4tt, y4tr, y4tt = train_test_split(x4, y4, test_size=0.33, random_state=42)

In [20]:
ln2.fit(x2tr, y2tr)
ln3.fit(x3tr, y3tr)
ln4.fit(x4tr, y4tr)

yp2=ln2.predict(x2tt)
yp3=ln3.predict(x3tt)
yp4=ln4.predict(x4tt)

yt2=ln2.predict(x2tr)
yt3=ln3.predict(x3tr)
yt4=ln4.predict(x4tr)

r12=r2_score(y2tr, yt2)
r13=r2_score(y3tr, yt3)
r14=r2_score(y4tr, yt4)

r22=r2_score(y2tt, yp2)
r23=r2_score(y3tt, yp3)
r24=r2_score(y4tt, yp4)

print('\nx2: Tr ', r12, 'Tt ', r22)
print('\nx3: Tr ', r13, 'Tt ', r23)
print('\nx4: Tr ', r14, 'Tt ', r24)


x2: Tr  0.4617531640577267 Tt  -2.312282247551737

x3: Tr  0.9975783415803265 Tt  0.9199891296287737

x4: Tr  0.9395869193493521 Tt  0.5059469417027891


x2: Underfitting
x3: Razoável
x4: Overfitting