
# Machine Learning e Python: SciKit Learn

- Gabriel Wendell Celestino Rocha
- 30 de novembro de 2022

---

## 1. Introdução teórica

### 1.1 O que é *Machine Learning*?

O aprendizado de máquina (ML, do inglês *machine learning*) consiste em usar **máquinas** para **aprender** a explicar dados com modelos.

As "máquinas" responsáveis pela maior parte do progresso no ML são:

- algorítmos de softwares;
- arquitetura de hardware;
- ingenuidade humana.

O "aprendizado" consiste em identificar passivamente as correlações estatísticas, o que é muito diferente de como aprendemos com a experimentação ativa e identificamos relações causais.

![image](https://media.giphy.com/media/DdEQhAyWEmXhMcZPiD/giphy.gif)

![image](https://media.giphy.com/media/6MGbVzyOy7e3sBkTuz/giphy.gif)

### 1.2 O que são *dados*?

Dados são um conjunto finito de medidas:

- Geralmente vistos como uma tabela 2D, por exemplo, planilhas, [tabelas `FITS`](https://docs.astropy.org/en/stable/io/fits/usage/table.html), [dataframes `Pandas`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html), ...

- **Colunas = Características/Recursos (*features*)**

- **Linhas = Amostras/Observações (*samples*)**

- Estruturas de dados mais ricas (imagens, [árvores ROOT](https://root.cern/doc/master/#trees), etc) devem ser achatadas (*flattened*).

![image](img/data-table.png/)

Perguntas pertinentes a se fazer sobre os seus dados:

- Minhas características são categóricas/discretas/contínuas? O pedido das minhas amostras é significativo?

- Minhas amostras são estatisticamente independentes? São extraídas da mesma distribuição?

- Quais são minhas incertezas de medição?

- Meus dados estão armazenados/descombinados?

- Existe uma medida natural de similaridade/distância nas minhas amostras (linhas)?

### 1.3 O que é um *modelo*?

Existem dois tipos importantes de modelos: *generativos* e *probabilísticos*.

Todos os algorítmos de ML usam um modelo para explicar os seus dados. 

Os modelos têm parâmetros.

![image](img/models1.png)

![image](img/models2.png)

### 1.4 O que é o *aprendizado*?

Existem três grandes tipos de aprendizagem:

- **Sem supervisão: aprenda a prever novos dados.**
> - Dados fornecidos: que padrões estão presentes? (aprender um modelo)
> - Dados fornecidos e modelos: qual a probabilidade de novos dados serem do mesmo modelo? (gerar novos dados).

- **Supervisionado: Aprenda a prever recursos específicos de novos dados.**
> - Classificação: prever características discretas (aprender um modelo condicional).
> - Regressão: preveja recursos contínuos (aprenda um modelo condicional).

- **Inferência: explicar os dados observados.**
> - Assumindo um modelo: quais parâmetros (com quais incertezas) melhor descrevem meus dados? (aprender um modelo).
> - Dados os modelos concorrentes: qual melhor descreve meus dados? (seleção do modelo).

Há também o chamado de aprendizado por reforço!

### 1.5 Problemas de *benchmark* no ML

O progresso no ML se beneficiou enormemente dos conjuntos de dados públicos padrão.

- MNIST.
> - Imagens em escala de cinza de 70K 23x23 pixels de dígitos manuscritos.
> - Rotulado como 0 - 9.

- CIFAR-10
> - Imagens naturais RGB de 60K 32x32 pixels.
> - Rotulado como aviões, carros, pássaros, gatos, veados, cães, sapos, cavalos, navios, caminhões, ...

- ImageNet
> - 200K de tamanho variável (média 469x387) de imagens naturais RGB.
> - Rotulado com 1000 categorias (incluindo 90 raças de cães!).

### 1.6 Qual a linguaguem do ML?

- C++?
- Python?
- R?
- Julia?
- Javascript?
- Swift?

**RESPOSTA:** 
- Estatística!

![image](img/img.png)

- Kingma & Welling, "*Auto-Encoding Variational Bayes*", arxiv: **1312.6114**

### 1.7 O que há de especial no ML em Física?

As aplicações científicas do ML se beneficiam muito dos avanços da indústria, mas trabalhamos em um contexto diferente:

- Somos produtores de dados, não consumidores de dados:
> - Projeto de experimento/pesquisa.
> - Otimização de erros estatísticos.
> - Controle de erros sistemáticos.

- Nossos dados medem processos físicos:
> - As medições geralmente se reduzem à contagem de fótons, etc., com erros aleatórios a priori conhecidos.
> - Dimensões e unidades são importantes.

- Nossos modelos geralmente são rastreáveis a uma teoria física subjacente:
> - Modelos limitados pela teoria e observações anteriores.
> - Os valores dos parâmetros geralmente são intrinsecamente interessantes.

- Uma estimativa de incerteza de parâmetro é tão importante quanto seu valor:
> - Prefira métodos que lidem com incertezas de dados de entrada (pesos) e forneçam estimativas de incerteza de parâmetros de saída.

### 1.8 No que isso se diferencia de uma aula de Estatística Computacional?

Estudantes de física têm uma preparação diferente:

- Forte formação e experiência com ferramentas matemáticas (álgebra linear, cálculo multivariado) necessárias para uma discussão rigorosa de estatística.
- Experiência fraca / variada em tópicos tradicionais de estatística computacional de algoritmos fundamentais, bancos de dados, etc.

As diversas pesquisas também tem necessidades diferentes:

- Nossos dados e modelos geralmente são fundamentalmente diferentes daqueles em contextos típicos de CS.
- Fazemos diferentes tipos de perguntas sobre nossos dados, às vezes exigindo novos métodos.
- Temos diferentes prioridades para julgar um método "bom": interpretabilidade, estimativas de erro, etc.

![image](img/outline.png)

Leitura adicional:

- [Data mining and statistics: what's the connection?](https://jerryfriedman.su.domains/ftp/dm-stat.pdf)
- [The rise of the "data engineer"](https://medium.com/free-code-camp/the-rise-of-the-data-engineer-91be18f1e603)
- [The Actual Difference Between Statistics and Machine Learning](https://towardsdatascience.com/the-actual-difference-between-statistics-and-machine-learning-64b49f07ea3)
- [No, Machine Learning is not just glorified Statistics](https://towardsdatascience.com/no-machine-learning-is-not-just-glorified-statistics-26d3952234e3)

> - `Python` $\iff$ `R` $\iff$ `Julia` 

---

## 2. Colocando a mão na massa!

### Categorias

**Supervisionado:**
- Classificação (ex: árvores de decisão)
- Regressão (ex: regressão linear)

**Não supervisionado:**

- Clusterização (ex: *$k$-means*)
- Redução de Dimensionalidade (ex: PCA)
- Detecção de Anomalias (ex: floresta de isolamento)

### Vocabulário

- *Samples* (Amostras): linhas
- *Features* (Características): colunas
- Matriz de *features*: `(n_samples, n_features)`
- *Label* / *Target* (Rótulo): variável dependente

### Python aplicado ao ML: `scikit-learn`

**Para todo tipo de dúvidas e informações adicionais, veja a documentação em <https://scikit-learn.org/stable/index.html>.**

#### Instalação:

- Usando o `conda`:
> ```
$ !conda install scikit-learn
```

- Usando o `pip`:
> ```
$ pip install scikit-learn
```

In [1]:
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np
import sklearn

%matplotlib notebook

def opt_plot():
    # plt.style.use('dark_background')
    plt.grid(True, linestyle=':', color='0.50')
    plt.minorticks_on()
    plt.tick_params(axis = 'both', which = 'minor', direction = "in",
                        top = True, right = True, length = 5,width = 1, labelsize = 15)
    plt.tick_params(axis = 'both', which='major', direction = "in",
                        top = True, right = True, length = 8,width = 1, labelsize = 15)
    
sklearn.__version__

'1.1.1'

## 2.1 Regressão linear

Nesse exemplo, mostramos o caso comum de encontrar a reta que melhor representa um conjunto de dados $(x,y)$ para perceber o passo a passo geral para todos os metodos do `sklearn`.

In [2]:
rng = np.random.default_rng(42)
x = 10 * rng.random(50)
y = 2 * x - 1 + rng.standard_normal(50)
plt.figure(figsize=(8,5))
plt.plot(x, y, 'o', color = 'blue')
opt_plot()

<IPython.core.display.Javascript object>

### Passo 1: Escolher um modelo

In [3]:
from sklearn.linear_model import LinearRegression

### Passo 2: Inicializar modelo (hiperparâmetros)

- `LinearRegression` só tem dois hiperparametros ajustaveis: `fit_intercept` e `normalize`.
- Para cada modelo novo, confira a documentacao com o comando `?` para entender cada hiperparametro!

In [4]:
model = LinearRegression(fit_intercept = True)
model

### Passo 3: Organizar os dados

In [5]:
x.shape

(50,)

In [6]:
X = x.reshape(-1, 1)
X.shape

(50, 1)

### Passo 4: Treinar o modelo (fit)

Após o treino, alguns parametros da regressao passam a existir...

#### Coeficiente angular:

In [7]:
model.fit(X, y)
print('Coeficiente angular =', model.coef_)

Coeficiente angular = [2.01207601]


Note que o coeficiente angular bate com o esperado!

#### Coeficiente linear:

In [8]:
print('Coeficiente linear =', model.intercept_)

Coeficiente linear = -1.2313410667136875


O impacto do ruído é maior no coeficiente linear!

### Passo 5: Prever saídas para entradas desconhecidas

O método `predict` também precisa que a entrada esteja no formato de uma matriz de `features`:

In [9]:
xfit = np.linspace(-1, 11, 12)
Xfit = xfit.reshape(-1, 1)
yfit = model.predict(Xfit)

### Passo 6: Visualização

In [10]:
plt.figure(figsize = (8, 5))
plt.plot(x, y, 'o', color = 'blue')
plt.plot(xfit, yfit, color = 'red')
opt_plot()

<IPython.core.display.Javascript object>

## 2.2 Classificação

Vários datasets simples podem ser encontrados no módulo `sklearn.datasets`

In [11]:
from sklearn import datasets

Este é um dataset de digitos escritos a mão, muito utilizado para aprender os princípios:

In [12]:
digits = datasets.load_digits()

O atributo `DESCR` contém uma breve descrição do dataset.

In [13]:
print(digits.DESCR)

.. _digits_dataset:

Optical recognition of handwritten digits dataset
--------------------------------------------------

**Data Set Characteristics:**

    :Number of Instances: 1797
    :Number of Attributes: 64
    :Attribute Information: 8x8 image of integer pixels in the range 0..16.
    :Missing Attribute Values: None
    :Creator: E. Alpaydin (alpaydin '@' boun.edu.tr)
    :Date: July; 1998

This is a copy of the test set of the UCI ML hand-written digits datasets
https://archive.ics.uci.edu/ml/datasets/Optical+Recognition+of+Handwritten+Digits

The data set contains images of hand-written digits: 10 classes where
each class refers to a digit.

Preprocessing programs made available by NIST were used to extract
normalized bitmaps of handwritten digits from a preprinted form. From a
total of 43 people, 30 contributed to the training set and different 13
to the test set. 32x32 bitmaps are divided into nonoverlapping blocks of
4x4 and the number of on pixels are counted in each blo

O atributo `data` contém a matriz de `features` no formato adequado:

In [14]:
digits.data.shape

(1797, 64)

O atributo `images` contém a mesma informação de `data` (valores dos 64 pixels) mas ainda no formato de imagens 8x8:

In [15]:
digits.images.shape

(1797, 8, 8)

Vamos dar uma olhada no nosso dataset...

In [16]:
fig, axes = plt.subplots(1, 4, figsize = (9, 3))
for i in range(len(axes)):
    axes[i].set_axis_off()
    axes[i].imshow(digits.images[i], cmap = 'binary')
    axes[i].set_title(digits.target[i])

<IPython.core.display.Javascript object>

### Passo 1: Escolher um modelo

In [17]:
from sklearn.ensemble import RandomForestClassifier

### Passo 2: Inicializar modelo (hiperparâmetros)

In [18]:
model = RandomForestClassifier(n_estimators = 100)

### Passo 3: Organizar os dados

In [19]:
X = digits.data
y = digits.target

Separamos os dados em um conjunto para treino e outro para validação:

In [20]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.5, shuffle = False)

### Passo 4: Treinar o modelo (fit)

In [21]:
model.fit(X_train, y_train)

### Passo 5: Prever saídas para entradas desconhecidas

In [22]:
y_pred = model.predict(X_test)

### Passo 6: Visualização

In [23]:
fig, axes = plt.subplots(1, 4, figsize = (9, 3))
for i in range(len(axes)):
    axes[i].set_axis_off
    image = X_test[i].reshape(8, 8)
    axes[i].imshow(image, cmap = 'binary')
    axes[i].set_title('Previu: ' + str(y_pred[i]) + '\nReal: ' + str(y_test[i]))

<IPython.core.display.Javascript object>

### Passo 7: Avaliar o desempenho do modelo

In [24]:
from sklearn.metrics import accuracy_score

print('Precisão =', accuracy_score(y_test, y_pred))

Precisão = 0.9310344827586207


Os detalhes para cada classe individual podem ser observados na forma de um mini-relatorio:

In [25]:
from sklearn.metrics import classification_report

print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       0.98      0.99      0.98        88
           1       0.95      0.88      0.91        91
           2       1.00      0.90      0.94        86
           3       0.88      0.87      0.87        91
           4       0.97      0.95      0.96        92
           5       0.90      0.93      0.92        91
           6       0.97      0.99      0.98        91
           7       0.94      0.98      0.96        89
           8       0.92      0.89      0.90        88
           9       0.84      0.95      0.89        92

    accuracy                           0.93       899
   macro avg       0.93      0.93      0.93       899
weighted avg       0.93      0.93      0.93       899



### Matriz de Confusão

Essa matriz representa o nímero de vezes que uma classe foi prevista quando outra era a "verdadeira". 

Dessa forma, a diagonal representa os acertos e todos os elementos fora da diagonal podem ser usados para identificar os casos de falha do modelo!

In [26]:
from sklearn.metrics import plot_confusion_matrix

plot_confusion_matrix(model, X_test, y_test)



<IPython.core.display.Javascript object>

<sklearn.metrics._plot.confusion_matrix.ConfusionMatrixDisplay at 0x1d948b778e0>

## Isomapeamento

Vamos visualizar os dados 64-dimensionais das imagens em 2 dimensões usando um método de redução de dimensionalidade.

O `Isomap` é um método comum para fazer exatamente isso. Tais métodos permitem identificar a separabilidade das classes, de certa forma relacionada com os possiveis casos de falha.

In [27]:
# Passo 1
from sklearn.manifold import Isomap

# Passo 2
iso = Isomap(n_components = 2)

# Passo 4
iso.fit(X)

# Passo 5
X_proj = iso.transform(X)
X_proj.shape

  self._fit_transform(X)
  self._set_intXint(row, col, x.flat[0])


(1797, 2)

Vamos dar uma visualizada nos nossos dados...

In [28]:
fig = plt.figure(figsize = (8, 5))
plt.scatter(X_proj[:,0], X_proj[:,1], c = y, alpha = 0.5, cmap = 'tab10')
plt.clim(-0.5, 9.5)
opt_plot()

<IPython.core.display.Javascript object>

## Validação da forma errada

Vamos mostrar o porquê da necessidade de treinar e validar em conjuntos de dados separados.

O dataset `iris` consiste em medidas de tamanhos de petalas/sepalas de 3 espécies de flores.

In [29]:
iris = datasets.load_iris()
X = iris.data
y = iris.target

O método dos $k$-*nearest neighbors* compara uma amostra nova com as amostras conhecidas e retorna a classe média entre as $k$ amostras conhecidas mais parecidas.

In [30]:
from sklearn.neighbors import KNeighborsClassifier

Um pouco de *insight* nas informações disponiveis:

In [31]:
iris.feature_names, iris.target_names

(['sepal length (cm)',
  'sepal width (cm)',
  'petal length (cm)',
  'petal width (cm)'],
 array(['setosa', 'versicolor', 'virginica'], dtype='<U10'))

Nosso modelo com `n_neighbors = 1` irá simplesmente retornar a classe do exemplo mais parecido que ele conheça.

In [32]:
model = KNeighborsClassifier(n_neighbors = 1)

Treinamos em todos os nossos dados...

In [33]:
model.fit(X, y)

... e prevemos também em todos os dados!

In [34]:
y_pred = model.predict(X)

Vamos verificar a precisão do nosso modelo:

In [35]:
print('Precisão =', accuracy_score(y, y_pred))

Precisão = 1.0


Uau! 100% de acerto!

Calma gafanhoto. Isso acontece porque o modelo "decora" o que ele já "viu", e provavelmente não vai generalizar tão bem quanto desejamos...

Para evitar essas avaliações excessivamente otimistas, é de extrema importância que você **SEMPRE** separe o conjunto de treino do conjunto de teste!

## Validação da forma correta.

Vamos usar o `train_test_split` para obter uma estimativa mais realista do desempenho desse mesmo modelo

In [36]:
X1, X2, y1, y2 = train_test_split(X, y, train_size = 0.5, random_state = 42)
model = KNeighborsClassifier(n_neighbors = 1)
model.fit(X1, y1)
y2_pred = model.predict(X2)
accuracy_score(y2, y2_pred)

0.9733333333333334

**Validação cruzada (*cross-validation*):** quando os dados são poucos, podemos alternar qual conjunto é usado no treino e qual é usado no teste.

In [37]:
y2_pred = model.fit(X1, y1).predict(X2)
y1_pred = model.fit(X2, y1).predict(X1)

Essa tecnica permite ter dois *scores* distintos, e com isso podemos fazer uma média para ter uma estimativa mais precisa:

In [38]:
accuracy_score(y1, y1_pred), accuracy_score(y2, y2_pred)

(0.3333333333333333, 0.9733333333333334)

Isso já é convenientemente implementado pela função `cross_val_score`...

In [39]:
from sklearn.model_selection import cross_val_score

scores = cross_val_score(model, X, y, cv = 5)
scores

array([0.96666667, 0.96666667, 0.93333333, 0.93333333, 1.        ])

Podemos especificar o numero de repartições que fazemos nos nossos dados através do argumento `cv`:

In [40]:
scores = cross_val_score(model, X, y, cv = 3)
scores

array([0.98, 0.94, 0.96])

Ter uma media e uma incerteza associada são bons valores para reportar como desempenho em um projeto:

In [41]:
scores.mean(), scores.std()

(0.96, 0.016329931618554536)

## 2.3 Pipelines

Vamos usar o dataset de preços de casas na California. 

In [42]:
houses, prices = datasets.fetch_california_housing(return_X_y = True, as_frame = True)

- Ao usar o argumento `return_X_y`, já recebemos `X` e `y` diretamente. 
- Ao usar o argumento `as_frame`, `X` e `y` se tornam objetos `Pandas` (DataFrames).

Nossos dados consistem em 8 *features* (colunas), todos numéricos:

In [43]:
houses.head()

Unnamed: 0,MedInc,HouseAge,AveRooms,AveBedrms,Population,AveOccup,Latitude,Longitude
0,8.3252,41.0,6.984127,1.02381,322.0,2.555556,37.88,-122.23
1,8.3014,21.0,6.238137,0.97188,2401.0,2.109842,37.86,-122.22
2,7.2574,52.0,8.288136,1.073446,496.0,2.80226,37.85,-122.24
3,5.6431,52.0,5.817352,1.073059,558.0,2.547945,37.85,-122.25
4,3.8462,52.0,6.281853,1.081081,565.0,2.181467,37.85,-122.25


Como temos mais de 20 mil amostras, vamos usar uma versão reduzida com apenas 20% dos dados:

In [44]:
X = houses[::5]
y = prices[::5]

n_samples, n_features = X.shape

Para ilustrar o uso de imputação de dados, vamos artificialmente inserir `NaN`s na nossa tabela. Para isso, escolhemos colocar um `NaN` em cada linha, em colunas escolhidas aleatoriamente.

In [45]:
index_rows_nan = np.arange(n_samples)
index_col_nan = np.random.choice(n_features, size = n_samples, replace = True)

Usamos o *fancy indexing* do Numpy para usar a lista de indices de linhas e colunas selecionados e atribuir o valor `NaN`:

In [46]:
X.values[index_rows_nan, index_col_nan] =  np.nan

Vamos olhar novamente nossos dados:

In [47]:
X.head()

Unnamed: 0,MedInc,HouseAge,AveRooms,AveBedrms,Population,AveOccup,Latitude,Longitude
0,,41.0,6.984127,1.02381,322.0,2.555556,37.88,-122.23
5,4.0368,52.0,4.761658,1.103627,413.0,2.139896,37.85,
10,3.2031,52.0,5.477612,1.079602,910.0,,37.85,-122.26
15,2.125,50.0,4.242424,1.07197,697.0,,37.85,-122.26
20,1.3578,40.0,,1.108434,409.0,2.463855,37.85,-122.27


Note que agora temos exatamente um `NaN` por linha em alguma coluna aleatória.

Como o problema agora é de regressão, usamos o `Regressor` em vez do `Classifier`:

In [48]:
from sklearn.ensemble import RandomForestRegressor

Além disso, vamos precisar de um *imputer* para preencher os `NaN`s em uma etapa de pre-processamento:

In [49]:
from sklearn.impute import SimpleImputer

Para construir uma pipeline, temos duas possibilidades:

In [50]:
from sklearn.pipeline import make_pipeline, Pipeline

A função `make_pipeline` simplesmente recebe os passos em ordem:

In [51]:
pipe = make_pipeline(SimpleImputer(strategy = 'mean'), RandomForestRegressor(n_estimators = 50))
pipe

Por outro lado, um objeto `Pipeline` pode ser construído com nomes customizados para cada passo:

In [52]:
my_pipe = Pipeline(steps = [('preprocessor', SimpleImputer(strategy = 'mean')), 
                            ('model', RandomForestRegressor(n_estimators = 50))])
my_pipe

Agora podemos usar nossa pipeline como se fosse um modelo comum, sem nos preocuparmos em executar o pre-processamento cada vez, isso se torna ainda mais util conforme sua pipeline se torna mais complexa. Além disso, como o problema é de regressão, em vez da `accuracy` usamos o erro absoluto médio (negativo) como *score* de validação.

In [53]:
scores = cross_val_score(pipe, X, y, cv = 5, scoring = 'neg_mean_absolute_error')
scores

array([-0.57103687, -0.47652978, -0.52629249, -0.61244766, -0.52830615])

Como nossos dados de preços estão em unidades de $\$ 100.000,00$, multiplicamos por `100_000`, isso significa que nossa regressão acaba errando, em média, o preço de uma casa por algo em torno de $\$ 55.000,00$.

In [54]:
-scores.mean() * 100_000

54292.25900255043

Vamos calcular algumas previsões:

In [55]:
X1, X2, y1, y2 = train_test_split(X, y, train_size = 0.7, random_state = 0)
y2_pred = my_pipe.fit(X1, y1).predict(X2)

Agora vamos dar uma visualizada:

In [56]:
plt.figure(figsize = (8, 5))
plt.plot(y2, y2_pred, 'k.')
opt_plot()

<IPython.core.display.Javascript object>

Vea que em geral, os pontos se concentram na reta 1:1 com uma certa dispersão. Além disso, existe uma fonte clara de erro para os precos acima de $\$500.000,00$, isso se deve ao fato de nossos dados serem truncados! 

Dessa forma, todas as casas com valores maiores que  $\$500.000,00$ tiveram seu preço truncado. Isso mostra a necessidade de conhecer a proveniencia e os vieses intrínsecos aos seus dados!

## 2.4 Série temporal

Vamos simular uma série temporal composta por duas oscilações bem definidas e um sinal de ruído:

In [57]:
def curve(x, sigma):
    fast = np.sin(5 * x)
    slow = np.sin(0.5 * x)
    noise = sigma * np.random.standard_normal(len(x))
    
    return fast + slow + noise

Geramos 200 pontos na nossa curva entre 0 e 10 com nivel de ruido igual a 0.3:

In [58]:
x = 10 * np.random.random(200)
y = curve(x, sigma = 0.3)

Vamos visualizar nossa série temporal simulada:

In [59]:
plt.figure(figsize = (8, 5))
plt.errorbar(x, y, 0.3, fmt = 'o', color = 'blue')
opt_plot()

<IPython.core.display.Javascript object>

Implementamos os passos 1, 2, 3 e 4:

In [60]:
forest = RandomForestRegressor(n_estimators=200)
forest.fit(x.reshape(-1, 1), y)

Implementamos agora o passo 5:

In [61]:
xfit = np.linspace(-1, 11, 1000)
yfit = forest.predict(xfit.reshape(-1, 1))

ytrue = curve(xfit, sigma = 0)

Vejamos agora o que temos em "mãos"...

In [62]:
plt.figure(figsize = (8, 5))

plt.errorbar(x, y, 0.3, fmt = 'o', color = 'blue', alpha = 0.5)
plt.plot(xfit, yfit, 'r-', color = 'red')
plt.plot(xfit, ytrue, 'k-', color = 'black', alpha = 0.5)
opt_plot()

<IPython.core.display.Javascript object>

  plt.plot(xfit, yfit, 'r-', color = 'red')
  plt.plot(xfit, ytrue, 'k-', color = 'black', alpha = 0.5)


- Note que uma o método *random forest* não é útil para extrapolação. Entretanto, esse método captura as não-linearidades que um `LinearRegressor` por sua vez não seria capaz.

- Diante disso, experiência com métodos diferentes é de extrema importante para aprender qual é o método mais adequado para cada caso!

![image](https://c.tenor.com/hEOM8E4epvgAAAAC/hahaha-thats-all-folks.gif)

---