# I.C.: Aprendizado estatístico

Robson Mesquita Gomes  
[<robson.mesquita56@gmail>](mailto:robson.mesquita56@gmail.com)

## Introdução

Lidando com a previsão de sistemas estocásticos é inevitável à nessessidade de compreender em algum nível o funcionamento de modelos probabilisticos. Nessa sessão iremos explorar brevemente alguns conceitos amplamente utilizados em Inteligência Computacional.

## Referências de Natureza dos Processos

#### Distribuição de Probabilidade

Uma distribuição de probabilidade é uma função que descreve a incerteza associada aos valores de uma variável aleatórea $X$.

$$X \sim P(parâmetros)$$

Ou seja, $X$ é distribuído de acordo com $P$ dados os $parâmetros$

##### Função de densidade de probabilidade (FDP)

A função de densidade de probabilidade (FDP) é uma função que associa à cada valor $x \in X$ um valor em $[0,1]$, tal que

$$P: X \rightarrow [0,1]$$

$$\sum_{x \in X} P(X) = 1$$

##### Exemplos de distribuições de probabilidade

|        Distribuição        |   Nome   |                           Densidade                            |
|----------------------------|----------|----------------------------------------------------------------|
| $\mathcal{U}({\min,\max})$ | Uniforme | $P(X) = {1 \over {(\max {- \min})}}$                           |
| $\mathcal{N}(\mu, \sigma)$ | Normal   | $P(X) = {1 \over {\sigma \sqrt{2}\pi e^{-1/2(X-\mu)/\sigma}}}$ |

## Distribuição de Probabilidade

![](distribuicoes-probabilidade.png)

### Momentos

#### Valor experado ($\mathbb{E}[Y]$)

Calcula o valor mais provável de acontecer em $Y$. Também é um estimador da média quando os dados são normalmente distribuídos, ou seja, quando $Y \sim \mathcal{N}(\mu, \sigma)$.

$$\mathbb{E}[Y] = \sum_{y \in U}y \cdot P(y)$$

#### Variância ($\mathbb{Var}[Y]$)

Calcula o quanto, em média, os valores em $Y$ estão distântes de $\mathbb{E}[Y]$. Estima "a média das distâncias para a média".

$$\mathbb{Var}[Y] = \mathbb{E}[\mathbb[Y] - Y]$$

## Características de treinamento e ajuste de modelos

## Referências de Aprendizado Supervisionado

#### Sinal e Ruído

$$Dados = Sinal + Ruído$$

#### Sinal

Trata-se da informação relevante contida nos dados que descreve o comportamento médio e generaliza os dados.

#### Ruído

É definido por pequenas variações no comportamento geral, características específicas de uma instância, que diferem (para mais ou para menos) do comportamento geral. Trata-se da variância em torno do comportamento médio.

### Sinal e ruído

![](sinal-ruido.png)

### Generalização 

Generalização é a capacidade de um modelo de, usando os **dados de treino**, encontrar o sinal e separar os ruídos nos **dados de teste**, ou seja, dados nunca "vistos" pelo modelo.

#### Indicadores

##### Viés

O viés indica o quanto o valor estimado $ỹ$ diverge do valor real $y$ e estima a capacidade do modelo de reconhecer o sinal.

##### Variância

A variância indica o quanto o valor estima $ỹ$ flutua em relação ao valor médio e estima a capacidade do modelo de se adaptar à complexidade dos dados e lidar com o ruído.

![](vies-variancia.png)

#### Tipos de modelo baseados na generalização

##### Ajustado (_fit_)
Há equilíbrio entre viés e variância

##### Sub-ajustado (_underfit_)
O modelo tem um viés muito grande, não conseguiu nem aprender o sinal dos dados.

##### Sobre-ajustado (_overfit_)
O modelo tem uma variância muito grande, aprendeu até o ruído dos dados.

## Metodologias de treinamento e ajuste de modelos

Para se ter certeza da utilidade do modelo é nessessária a criação de métricas que ajudem nessa tarefa.

### Validação cruzada (_Cross Validation_)

Na validação cruzada separamos os dados disponíveis em dois conjuntos, o conjunto de treino e o conjunto de teste.

|                    |          |                                                                                       |
|--------------------|----------|---------------------------------------------------------------------------------------|
| Conjunto de Treino | T        | Utilizado para ajustar os parâmetros no treinamento supervisionado                    |
| Conjunto de Teste  | 100% - T | Utilizado para avaliar a acurácia do modelo treinado (nunca utilizado no treinamento) |

O Método de Treinamento tem que ajustar os parâmetros usando os dados de treino de forma que eles generalizem e sejam capazes de prever dados nunca vistos antes (os dados de teste), partindo do pressuposto que os dados de teste têm o mesmo comportamento que os dados de treino.

### k-Fold Cross Validation

Vizando garantir o nível de qualidade do modelo é interessante ainda separar no conjunto de treino um conjunto de validação que será usado durante o Treinamento Supervisionado para avaliar a capacidade de generalização dos parâmetros.

Definiremos então:

- Fold: conjunto de dados
- k: número de subconjuntos

No exemplo abaixo V é um conjunto (Fold) de validação, T um conjunto de treinamento e TESTE o conjunto de teste. Os dados encontram-se particionados em 10 conjuntos, sendo somente um (1) de teste.

| | | | | | | | | |     |
|-|-|-|-|-|-|-|-|-|-----|
|T|T|T|T|T|T|T|T|V|TESTE|

Em uma próxima iteração do algoritmo hipotético ao qual nossos dados estão servindo o conjunto de validação muda e passa a ser outro fold. Assim o modelo é validado em situações diferentes ao menos um k número de vezes.

| | | | | | | | | |     |
|-|-|-|-|-|-|-|-|-|-----|
|T|T|T|T|T|T|T|V|T|TESTE|

#### Curvas de aprendizagem

Uma curva de aprendizagem avalia a convergência do modelo e como o erro diminui ao longo do
processo de aprendizagem.

![](curvas-aprendizagem.png)

##### Considerando a validação

![](curvas-aprendizagem-validacao.png)

##### Fit (ajustado)

Quando o modelo está ajustado ambas as curvas diminuem ao longo do tempo, isso significa que o modelo foi capaz de aprender o sinal sem reproduzir os ruídos contidos nos dados. Isso implica em uma boa generalização, pois os comportamentos aprendidos nos dados de treino foram plenamente capazes de serem aplicados aos dados de validação.

![](curva-aprendizagem-fit.png)

##### Underfit (sub ajustado)

Quando o modelo está sub ajustado as curvas de erro **não decrescem** ao longo do tempo de treinamento, pois o modelo não foi capaz de aprender os padrões presentes nos dados, implicando que o modelo não foi suficiente para aprender o sinal dos dados.

Nesses casos é interessante observar se:

- Os dados são mais complexos do que a capacidade de representação do modelo
- Hiperparâmetros ($\Omega$) estão incorretos no método de aprendizagem

![](curva-aprendizagem-underfit.png)

##### Overfit (sobre ajustado)

Quando o modelo está sobre ajustado a curva de erro dos dados de treinamento diminui, ou seja, o modelo aprendeu o sinal. Mas a curva de erro dos dados de validação não diminui ou diminui muito menos que a curva de erro de treinamento. Isso significa que o modelo aprendeu também os ruídos dos dados prejudicando a generalização, possivelmente o problema é mais simples que a complexidade do modelo.

![](curva-aprendizagem-overfit.png)

### Viés e Variância

#### Erro Quadrático

**MSE($\mathcal{D}, \theta$)**

$= {n^{-1}} \cdot {\sum_{i=0}^{n} \epsilon_i^2}$

$= {n^{-1}} \cdot {\sum_{i=0}^{n} (y_i - ỹ_i)^2}$

$= {n^{-1}} \cdot {\sum_{i=0}^{n} (y_i - f(x_i, \theta))^2}$

Como ${{n}^{-1} = {{1} \over {n}}}$ podemos afirmar que

$$\epsilon \sim \mathcal{U}(0,n)$$
$$P(\epsilon_i) = {{1}\over{n}}$$

Dessa forma

**MSE($\mathcal{D}, \theta$)**

$= {n^{-1}} \cdot {\sum_{i=0}^{n} (y_i - f(x_i, \theta))^2}$

$= {\sum_{i=0}^{n} (y_i - ỹ_i)^2} \cdot {P((y_i - ỹ_i)^2)}$

$= {\sum_{i=0}^{n} \epsilon^2} \cdot {P(\epsilon^2)}$

$= \mathbb{E}[\epsilon^2] $

Concluímos então que

**Erro Quadrático (Square Error - SE)**

$$SE = \epsilon^2 = (y_i - ỹ_i)^2$$

**Erro Médio Quadrático (Mean Square Error - MSE)**

$$MSE = \mathbb{E}[\epsilon^2]$$

#### Viés (Bias)

Viés indica tendência ou desvio, algo muito enviesado ou tendencioso, principalmente se tratando de análise de dados, torna-se "não confiável". Para verificar essa característica no modelo faz-se nessessário estimar esse valor, que representa o desvio médio (sistemático) de $ỹ$ em relação aos valores verdadeiros de $y$.

$$Viés = \mathbb{E}[ỹ] - y$$

#### Variância ($\mathbb{Var}$)

A variância reflete a variabilidade de $ỹ$ e reflete a adaptabilidade do modelo aos valores reais de $ỹ$, bem como à sensibilidade ao ruído em $x$.

**Variância**
$$\mathbb{Var}(ỹ) = \mathbb{E}[ (\mathbb{E}[ỹ] - y)^2 ]$$

## Bias & Variance Trade-off

Todo modelo possui um erro irredutível, esse erro está relacionado ao ruído intrínseco nos dados. Dessa forma não é possível minimizar totalmente Viés e Variância, pois ao minimizar o viés a variância aumenta e ao minimizar a variância o viés aumenta. 

Considerando isso, ao construir um modelo buscamos um equilíbrio entre ambas.

## Resumo

$$\text{MSE} = \mathbb{E}[(\text{Viés})^2 + \mathbb{Var}] + \sigma^2$$

$$\sigma^2 \sim \mathcal{N}(\mu,\sigma)$$

$$\text{Viés} = \mathbb{E}[ỹ] - y$$

$$\mathbb{Var}[ỹ] = \mathbb{E}[ (\mathbb{E}[ỹ] - y)^2 ]$$

[<< Tópico Anterior](03-aprendizado-supervisionado.ipynb)