
# Uma breve introdução ao Machine Learning: Dia 1

Gabriel Wendell Celestino Rocha

Material de um minicurso de introdução ao Machine Learning oferecido pelo [PET - Física](https://petfisica.home.blog).

O conteúdo é mantido no [GitHub](https://github.com/GabrielWendell/Intro_ML) e distribuídos sob uma [licença BSD3](https://opensource.org/licenses/BSD-3-Clause).

- [Veja a tabela de conteúdos](https://github.com/GabrielWendell/Intro_ML/blob/main/Infomações/Conteúdos.ipynb)

Este `Notebook` pode, opcionalmente, ser visto como uma [apresentação de slides](https://medium.com/learning-machine-learning/present-your-data-science-projects-with-jupyter-slides-75f20735eb0f). Para apresentar os slides localmente, use:

```Python
$ jupyter nbconvert Dia1.ipynb --to slides --post serve
```

---

## 1. Introdução teórica

### O que é *Machine Learning*?

O aprendizado de máquina (ou *machine learning*) consiste em usar **máquinas** para **aprender** a explicar dados com modelos.

As "máquinas" responsáveis pela maior parte do progresso no ML são:

- algorítmos de softwares;
- arquitetura de hardware;
- ingenuidade humana.

O "aprendizado" consiste em identificar passivamente as correlações estatísticas, o que é muito diferente de como aprendemos com a experimentação ativa e identificamos relações causais.

![image](https://media.giphy.com/media/DdEQhAyWEmXhMcZPiD/giphy.gif)

![image](https://media.giphy.com/media/6MGbVzyOy7e3sBkTuz/giphy.gif)

### O que são *dados*?

Dados são um conjunto finito de medidas:

- Geralmente vistos como uma tabela 2D, por exemplo, planilhas, [tabelas `FITS`](https://docs.astropy.org/en/stable/io/fits/usage/table.html), [dataframes `Pandas`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html), ...

- **Colunas = Características/Recursos (*features*)**

- **Linhas = Amostras/Observações (*samples*)**

- Estruturas de dados mais ricas (imagens, [árvores ROOT](https://root.cern/doc/master/#trees), etc) devem ser achatadas (*flattened*).

![image](img/data-table.png/)

Perguntas pertinentes a se fazer sobre os seus dados:

- Minhas características são categóricas/discretas/contínuas? O pedido das minhas amostras é significativo?

- Minhas amostras são estatisticamente independentes? São extraídas da mesma distribuição?

- Quais são minhas incertezas de medição?

- Meus dados estão armazenados/descombinados?

- Existe uma medida natural de similaridade/distância nas minhas amostras (linhas)?

### O que é um *modelo*?

Existem dois tipos importantes de modelos: *generativos* e *probabilísticos*.

Todos os algorítmos de ML usam um modelo para explicar os seus dados. 

Os modelos têm parâmetros.

![image](img/models1.png)

![image](img/models2.png)

### O que é o *aprendizado*?

Existem três grandes tipos de aprendizagem:

- **Sem supervisão: aprenda a prever novos dados.**
> - Dados fornecidos: que padrões estão presentes? (aprender um modelo)
> - Dados fornecidos e modelos: qual a probabilidade de novos dados serem do mesmo modelo? (gerar novos dados).

- **Supervisionado: Aprenda a prever recursos específicos de novos dados.**
> - Classificação: prever características discretas (aprender um modelo condicional).
> - Regressão: preveja recursos contínuos (aprenda um modelo condicional).

- **Inferência: explicar os dados observados.**
> - Assumindo um modelo: quais parâmetros (com quais incertezas) melhor descrevem meus dados? (aprender um modelo).
> - Dados os modelos concorrentes: qual melhor descreve meus dados? (seleção do modelo).

Há também o chamado de aprendizado por reforço!

### Problemas de benchmark no ML

O progresso no ML se beneficiou enormemente dos conjuntos de dados públicos padrão.

- MNIST.
> - Imagens em escala de cinza de 70K 23x23 pixels de dígitos manuscritos.
> - Rotulado como 0 - 9.

- CIFAR-10
> - Imagens naturais RGB de 60K 32x32 pixels.
> - Rotulado como aviões, carros, pássaros, gatos, veados, cães, sapos, cavalos, navios, caminhões, ...

- ImageNet
> - 200K de tamanho variável (média 469x387) de imagens naturais RGB.
> - Rotulado com 1000 categorias (incluindo 90 raças de cães!).

### Qual a linguaguem do ML?

- C++?
- Python?
- R?
- Julia?
- Javascript?
- Swift?

**RESPOSTA:** 
- Estatística!

![image](img/img.png)

- Kingma & Welling, "*Auto-Encoding Variational Bayes*", arxiv:**1312.6114**

### O que há de especial no ML em Física?

As aplicações científicas do ML se beneficiam muito dos avanços da indústria, mas trabalhamos em um contexto diferente:

- Somos produtores de dados, não consumidores de dados:
> - Projeto de experimento/pesquisa.
> - Otimização de erros estatísticos.
> - Controle de erros sistemáticos.

- Nossos dados medem processos físicos:
> - As medições geralmente se reduzem à contagem de fótons, etc., com erros aleatórios a priori conhecidos.
> - Dimensões e unidades são importantes.

- Nossos modelos geralmente são rastreáveis a uma teoria física subjacente:
> - Modelos limitados pela teoria e observações anteriores.
> - Os valores dos parâmetros geralmente são intrinsecamente interessantes.

- Uma estimativa de incerteza de parâmetro é tão importante quanto seu valor:
> - Prefira métodos que lidem com incertezas de dados de entrada (pesos) e forneçam estimativas de incerteza de parâmetros de saída.

### No que isso se diferencia de uma aula de Estatística Computacional?

Estudantes de física têm uma preparação diferente:

- Forte formação e experiência com ferramentas matemáticas (álgebra linear, cálculo multivariado) necessárias para uma discussão rigorosa de estatística.
- Experiência fraca / variada em tópicos tradicionais de estatística computacional de algoritmos fundamentais, bancos de dados, etc.

As diversas pesquisas também tem necessidades diferentes:

- Nossos dados e modelos geralmente são fundamentalmente diferentes daqueles em contextos típicos de CS.
- Fazemos diferentes tipos de perguntas sobre nossos dados, às vezes exigindo novos métodos.
- Temos diferentes prioridades para julgar um método "bom": interpretabilidade, estimativas de erro, etc.

![image](img/outline.png)

Leitura adicional:

- [Data mining and statistics: what's the connection?](https://jerryfriedman.su.domains/ftp/dm-stat.pdf)
- [The rise of the "data engineer"](https://medium.com/free-code-camp/the-rise-of-the-data-engineer-91be18f1e603)
- [The Actual Difference Between Statistics and Machine Learning](https://towardsdatascience.com/the-actual-difference-between-statistics-and-machine-learning-64b49f07ea3)
- [No, Machine Learning is not just glorified Statistics](https://towardsdatascience.com/no-machine-learning-is-not-just-glorified-statistics-26d3952234e3)

> - `Python` $\iff$ `R` $\iff$ `Julia` 

---

## 2. Colocando a mão na massa!

### Recapitulando...

### Categorias

**Supervisionado:**
- Classificação (ex: árvores de decisão)
- Regressão (ex: regressão linear)

**Não supervisionado:**

- Clusterização (ex: *$k$-means*)
- Redução de Dimensionalidade (ex: PCA)
- Detecção de Anomalias (ex: floresta de isolamento)

### Vocabulário

- *Samples* (Amostras): linhas
- *Features* (Características): colunas
- Matriz de *features*: `(n_samples, n_features)`
- *Label*/*Target* (Rótulo): variável dependente

### Python aplicado ao ML: `scikit-learn`

**Para todo tipo de dúvidas e informações adicionais, veja a documentação em <https://scikit-learn.org/stable/index.html>.**

#### Instalação:

- Usando o `pip`:
> ```
$ pip install scikit-learn
```

- Usando o `conda`:
> ```
$ !conda install scikit-learn
```

In [3]:
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np

%matplotlib notebook

def opt_plot():
    plt.style.use('dark_background')
    plt.grid(True, linestyle=':', color='0.50')
    plt.minorticks_on()
    plt.tick_params(axis='both',which='minor', direction = "in",
                        top = True,right = True, length=5,width=1,labelsize=15)
    plt.tick_params(axis='both',which='major', direction = "in",
                        top = True,right = True, length=8,width=1,labelsize=15)
    
sklearn.__version__

'1.0.2'

## 2.1 Regressão linear

Nesse exemplo, mostramos o caso comum de encontrar a reta que melhor representa um conjunto de dados $(x,y)$ para perceber o passo a passo geral para todos os metodos do `sklearn`.

### Passo 1: Escolher um modelo

### Passo 2: Inicializar modelo (hiperparâmetros)

- `LinearRegression` so tem dois hiperparametros ajustaveis: `fit_intercept` e `normalize`.
- Para cada modelo novo, confira a documentacao com o comando `?` para entender cada hiperparametro!

### Passo 3: Organizar os dados

### Passo 4: Treinar o modelo (fit)

Após o treino, alguns parametros da regressao passam a existir...

#### Coeficiente angular:

Note que o coeficiente angular bate com o esperado!

#### Coeficiente linear:

O impacto do ruído é maior no coeficiente linear!

### Passo 5: Prever saídas para entradas desconhecidas

O método `predict` também precisa que a entrada esteja no formato de uma matriz de `features`:

### Passo 6: Visualização

## 2.2 Classificação

Vários datasets simples podem ser encontrados no modulo `sklearn.datasets`

Este é um dataset de digitos escritos a mao, muito utilizado para aprender os princípios:

O atributo `DESCR` contém uma breve descrição do dataset.

O atributo `data` contém a matriz de `features` no formato adequado:

O atributo `images` contém a mesma informação de `data` (valores dos 64 pixels) mas ainda no formato de imagens 8x8:

Vamos dar uma olhada no nosso dataset...

### Passo 1: Escolher um modelo

### Passo 2: Inicializar modelo (hiperparâmetros)

### Passo 3: Organizar os dados

Separamos os dados em um conjunto para treino e outro para validação:

### Passo 4: Treinar o modelo (fit)

### Passo 5: Prever saídas para entradas desconhecidas

### Passo 6: Visualização

### Passo 7: Avaliar o desempenho do modelo

Os detalhes para cada classe individual podem ser observados na forma de um mini-relatorio:

### Matrix de Confusão

Essa matriz representa o nímero de vezes que uma classe foi prevista quando outra era a a "verdadeira". 

Dessa forma, a diagonal representa os acertos e todos os elementos fora da diagonal podem ser usados para identificar os casos de falha do modelo!

## Isomap

Vamos visualizar os dados 64-dimensionais das imagens em 2 dimensões usando um método de redução de dimensionalidade.

O `Isomap` é um método comum para fazer exatamente isso. Tais métodos permitem identificar a separabilidade das classes, de certa forma relacionada com os possiveis casos de falha.

Vamos dar uma visualizada nos nossos dados...

## Validação da forma errada

Vamos mostrar o porquê da necessidade de treinar e validar em conjuntos de dados separados.

O dataset `iris` consiste em medidas de tamanhos de petalas/sepalas de 3 espécies de flores.

O método dos $k$-*nearest neighbors* compara uma amostra nova com as amostras conhecidas e retorna a classe média entre as $k$ amostras conhecidas mais parecidas.

Um pouco de *insight* nas informações disponiveis:

Nosso modelo com `n_neighbors = 1` irá simplesmente retornar a classe do exemplo mais parecido que ele conheça.

Treinamos em todos os nossos dados...

... e prevemos também em todos os dados!

Vamos verificar a precisão do nosso modelo:

Uau! 100% de acerto!

Calma gafanhoto. Isso acontece porque o modelo "decora" o que ele já "viu", e provavelmente não vai generalizar tão bem quanto desejamos...

Para evitar essas avaliações excessivamente otimistas, é de extrema importância que você **SEMPRE** separe o conjunto de treino do conjunto de teste!

## Validação da forma correta.

Vamos usar o `train_test_split` para obter uma estimativa mais realista do desempenho desse mesmo modelo

**Validação cruzada (*cross-validation*):** quando os dados são poucos, podemos alternar qual conjunto é usado no treino e qual é usado no teste.

Essa tecnica permite ter dois *scores* distintos, e com isso podemos fazer uma média para ter uma estimativa mais precisa:

Isso ja é convenientemente implementado pela função `cross_val_score`...

Podemos especificar o numero de repartições que fazemos nos nossos dados através do argumento `cv`:

Ter uma media e uma incerteza associada são bons valores para reportar como desempenho em um projeto:

## 2.3 Pipelines

Vamos usar o dataset de preços de casas na California. 

- Ao usar o argumento `return_X_y`, já recebemos `X` e `y` diretamente. 
- Ao usar o argumento `as_frame`, `X` e `y` se tornam objetos `Pandas` (DataFrames).

Nossos dados consistem em 8 *features* (colunas), todos numéricos:

Como temos mais de 20 mil amostras, vamos usar uma versão reduzida com apenas 20% dos dados:

Para ilustrar o uso de imputação de dados, vamos artificialmente inserir `NaN`s na nossa tabela. Para isso, escolhemos colocar um `NaN` em cada linha, em colunas escolhidas aleatoriamente.

Usamos o *fancy indexing* do Numpy para usar a lista de indices de linhas e colunas selecionados e atribuir o valor `NaN`:

Note que agora temos exatamente um `NaN` por linha em alguma coluna aleatória.

Como o problema agora é de regressão, usamos o `Regressor` em vez do `Classifier`:

Além disso, vamos precisar de um *imputer* para preencher os `NaN`s em uma etapa de pre-processamento:

Para construir uma pipeline, temos duas possibilidades:

A função `make_pipeline` simplesmente recebe os passos em ordem:

Por outro lado, um objeto `Pipeline` pode ser construído com nomes customizados para cada passo:

Agora podemos usar nossa pipeline como se fosse um modelo comum, sem nos preocuparmos em executar o pre-processamento cada vez, isso se torna ainda mais util conforme sua pipeline se torna mais complexa. Além disso, como o problema é de regressão, em vez da `accuracy` usamos o erro absoluto médio (negativo) como *score* de validação.

Como nossos dados de preços estão em unidades de $\$ 100.000,00$, multiplicamos por `100_000`, isso significa que nossa regressão acaba errando, em média, o preço de uma casa por algo em torno de $\$ 55.000,00$.

Vamos calcular algumas previsões:

Agora vamos dar uma visualizada:

Vea que em geral, os pontos se concentram na reta 1:1 com uma certa dispersão. Além disso, existe uma fonte clara de erro para os precos acima de $\$500.000,00$, isso se deve ao fato de nossos dados serem truncados! 

Dessa forma, todas as casas com valores maiores que  $\$500.000,00$ tiveram seu preço truncado. Isso mostra a necessidade de conhecer a proveniencia e os vieses intrínsecos aos seus dados!

## 2.4 Série temporal

Vamos simular uma série temporal composta por duas oscilações bem definidas e um sinal de ruído:

Geramos 200 pontos na nossa curva entre 0 e 10 com nivel de ruido igual a 0.3:

Vamos visualizar nossa série temporal simulada:

Implementamos os passos 1, 2, 3 e 4:

Implementamos agora o passo 5:

Vejamos agora o que temos em "mãos"...

- Note que uma o método *random forest* não é útil para extrapolação. Entretanto, esse método captura as não-linearidades que um `LinearRegressor` por sua vez não seria capaz.

- Diante disso, experiência com métodos diferentes é de extrema importante para aprender qual é o método mais adequado para cada caso!

![image](https://c.tenor.com/hEOM8E4epvgAAAAC/hahaha-thats-all-folks.gif)

---

## Para se divertir!

- [Lista de problemas #01](https://github.com/GabrielWendell/Intro_ML/blob/main/Listas/Problemas1.ipynb)

---