---

Reconecte ao Drive.

In [None]:
from google.colab import drive
drive.mount('/content/drive')

In [None]:
import os
DRIVE_DIRECTORY = "curso_ml"
DRIVE_DIRECTORY = os.path.join("/content/drive/MyDrive", DRIVE_DIRECTORY)

---

In [None]:
!pip install ucimlrepo

In [None]:
import os
import pickle
import plotly.express as px

import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
import seaborn as sns

from sklearn.ensemble import RandomForestRegressor
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_absolute_error, mean_squared_error
from sklearn.model_selection import train_test_split
from sklearn.neural_network import MLPRegressor
from sklearn.preprocessing import PolynomialFeatures, StandardScaler
from sklearn.svm import SVR
from sklearn.tree import DecisionTreeRegressor
from ucimlrepo import fetch_ucirepo
from yellowbrick.regressor import ResidualsPlot

## Base de dados telemonitoramento de Parkinson

### Download e preparação dos dados

Assim como nos exercícios de classificação, aqui você também vai utilizar um dataset real. Vamos fazer o download e preparo desses dados, desta vez utilizando a biblioteca `ucimlrepo`.

Documentação do dataset: https://archive.ics.uci.edu/dataset/189/parkinsons+telemonitoring

> Este conjunto de dados é composto por uma variedade de medições biomédicas de voz de 42 pessoas com Parkinson em estágio inicial, recrutadas para um ensaio clínico de seis meses de um dispositivo de telemonitoramento para monitoramento remoto da progressão dos sintomas. As gravações foram capturadas automaticamente nas casas dos pacientes. As colunas da tabela contêm número do sujeito, idade do sujeito, gênero do sujeito, intervalo de tempo desde a data de recrutamento inicial, UPDRS motor, UPDRS total e 16 medidas biomédicas de voz. Cada linha corresponde a uma das 5.875 gravações de voz desses indivíduos. O principal objetivo dos dados é prever as pontuações do UPDRS motor e total ('motor_UPDRS' e 'total_UPDRS') a partir das 16 medidas de voz.

In [None]:
# Seguindo as instruções da própria página do dataset:

# fetch dataset
parkinsons_telemonitoring = fetch_ucirepo(id=189)

# data (as pandas dataframes)
X = parkinsons_telemonitoring.data.features
y = parkinsons_telemonitoring.data.targets

Este dataset vem separado em variáveis preditoras `X` e variáveis alvo `y`.

In [None]:
X

São 19 variáveis preditoras.

Perceba que `sex` está codificado de forma numérica, então vamos transformar em uma string para representar o dataset na forma mais natural possível. O mapeamento `int` -> `str` foi obtido na documentação do dataset (ver *Additional Variable Information*).

In [None]:
X.loc[:, "sex"] = X["sex"].map({0: "male", 1: "female"})

In [None]:
y

E neste caso são 2 variáveis alvo.

Agora vamos juntar as variáveis preditoras e alvo e um único dataframe. Como vamos utilizar somente uma variável alvo, estamos selecionando `total_UPDRS` para fazer parte de nosso dataset total.

In [None]:
data = pd.concat([X, y["total_UPDRS"]], axis=1)
data

Finalmente, vamos salvar os dados em um arquivo, para você utilizar como base no exercício.

In [None]:
data.to_csv(os.path.join(DRIVE_DIRECTORY, 'parkinson.csv'), index=False)

## Exploração dos dados

Recarregue os dados a partir da pasta do Drive.

In [None]:
base = ___
base

Utilize o método adequado no DataFrame para exibir algumas estatísticas básicas.

In [None]:
base.___

Verifique se esta base de dados possui valores faltantes.

In [None]:
base.___

Exiba a correção entre os dados numéricos.

In [None]:
base.___(numeric_only=True)

Plote a correlação como um heatmap.

In [None]:
fig = plt.figure(figsize=(20, 20))
sns.___(___, annot=___)

## Tratamento da variável categórica

A única variável categórica é `sex`. Por padrão, nós poderíamos utilizar One Hot Encoding para tratar ela, mas como nesta base ela só exibe dois valores possíveis, nós podemos codificar esta coluna para mostrar `0` se o valor for `male`, ou `1` se for `female`, já que a segunda coluna é redundante. Isto é possível com um simples dicionário.

(Na prática, estamos desfazendo a operação que fizemos na preparação dos dados.)

In [None]:
base["sex"] = base["sex"].map({"male": 0, "female": 1})

## Divisão entre previsores e classe

Separe os atributos preditores do atributo alvo (que está na última coluna). Garanta que os valores estejam no formato de NumPy array.

In [None]:
X = ___
X

In [None]:
y = ___
y

## Divisão em split de treinamento e teste

Separe os dados em um split de treinamento e um de teste (com 25% do total). Use `random_state=0` para garantir a reprodutibilidade da separação.

In [None]:
___, ___, ___, ___ = ___

Confirme com o atributo `shape` a quantidade de instâncias e atributos de `X` e `y` nos dois splits.

In [None]:
___

In [None]:
___

## Salvar as variáveis

Salve estas variáveis em um arquivo `parkinson.pkl` na pasta do Drive.

In [None]:
with open(os.path.join(DRIVE_DIRECTORY, ___), "wb") as f:
    pickle.___((X_tr___, y_tr___, ___, ___), f)

## Regressão linear

Neste exercício você vai fazer uma regressão linear múltiplia, já que a regressão linear simples é somente um caso especial da primeira.

Instancie um regressor linear e utilize os dados de treinamento para treiná-lo.

In [None]:
lr = ___
___

Exiba os coeficientes e o intercepto do regressor.

In [None]:
___

In [None]:
___

Calcule o score deste regressor com os dados de treinamento.

In [None]:
___

Agora repita com os dados de teste.

In [None]:
___

Isso indica que este algoritmo teve um desempenho muito ruim!

Agora utilize o modelo para predizer os dados de treinamento.

In [None]:
___

Como este é um problema de regressão linear múltipla, nós não conseguimos visualizar os dados plotando as variáveis preditoras no eixo x de um gráfico. Portanto, vamos utilizar a função `plt.plot`, que plota somente os valores `y`, na sequência em que aparecem no array. Assim podemos comparar as predições com os valores reais: se o algoritmo tivesse um bom desempenho, as duas linhas estariam sobrepostas.

Para reduzir o excesso de informação no gráfico, vamos exibir os valores de `y_train` e `y_pred` somente a cada 10 valores.

In [None]:
plt.figure(figsize=(20, 10))
plt.plot(y_tr___[::10], label="y_tr___")
plt.plot(y_pr___[::10], label="y_p___")
plt.legend()

Pela figura fica ainda mais evidente que as predições não foram boas.

Agora repita a predição e plote o gráfico para os dados de teste.

In [None]:
___

In [None]:
plt.figure(figsize=(20, 10))
plt.___
plt.___
plt.___

Calcule o erro absoluto médio dos dados de teste, primeiro com a função do `sklearn`, depois utilizando cálculos básicos.

In [None]:
___

In [None]:
___

Agora calcule o erro quadrado médio, e depois tire a raiz deste valor, para exibir o resultado na mesma escala de `y`.

In [None]:
___

In [None]:
___

Exiba um gráfico com os resíduos deste modelo.

In [None]:
visualizer = ___
visualizer.f___
___

Realmente este regressor não se saiu nada bem.