# Supervised Learning 

## Prevendo progressão de diabetes

O conjunto de dados diabetes é um conjunto de dados clássico usado em pesquisas de aprendizado de máquina e estatística. Ele contém dados de 442 pacientes diabéticos, coletados pelo Instituto Nacional de Diabetes e Doenças Digestivas e Renais (NIDDK). O conjunto de dados foi originalmente criado para prever a progressão do diabetes um ano após as medidas de linha de base terem sido coletadas.

O conjunto de dados contém 10 variáveis de linha de base:

<ul>
<li>idade: idade em anos</li>
<li>sexo: gênero (1 = masculino, 0 = feminino)</li>
<li>bmi: índice de massa corporal</li>
<li>bp: pressão sanguínea média</li>
<li>s1, s2, s3, s4, s5, s6: seis medidas de soro sanguíneo</li>
</ul>

A variável alvo é:

<ul><li>Y: uma medida quantitativa da progressão da doença um ano após a linha de base</li></ul>

In [10]:
from sklearn.datasets import load_diabetes
from sklearn.ensemble import RandomForestRegressor
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error
import pandas as pd

Carregando os dados

In [11]:
diabetes = load_diabetes()

Explorando os dados

In [12]:
df = pd.DataFrame(data=diabetes.data, columns=diabetes.feature_names)
df['target'] = diabetes.target
print(df.head(), end='\n\n')

        age       sex       bmi        bp        s1        s2        s3  \
0  0.038076  0.050680  0.061696  0.021872 -0.044223 -0.034821 -0.043401   
1 -0.001882 -0.044642 -0.051474 -0.026328 -0.008449 -0.019163  0.074412   
2  0.085299  0.050680  0.044451 -0.005670 -0.045599 -0.034194 -0.032356   
3 -0.089063 -0.044642 -0.011595 -0.036656  0.012191  0.024991 -0.036038   
4  0.005383 -0.044642 -0.036385  0.021872  0.003935  0.015596  0.008142   

         s4        s5        s6  target  
0 -0.002592  0.019907 -0.017646   151.0  
1 -0.039493 -0.068332 -0.092204    75.0  
2 -0.002592  0.002861 -0.025930   141.0  
3  0.034309  0.022688 -0.009362   206.0  
4 -0.002592 -0.031988 -0.046641   135.0  



Separando os dados para treino e teste

In [13]:
X_train, X_test, y_train, y_test = train_test_split(diabetes.data, diabetes.target, test_size=0.2, random_state=42)

Criando modelo de Machine Learning Supervisionado

In [14]:
rfr = RandomForestRegressor(n_estimators=100, random_state=42)

Treinando o modelo

In [15]:
rfr.fit(X_train, y_train)

Testando o modelo

In [16]:
y_pred = rfr.predict(X_test)
mse = mean_squared_error(y_test, y_pred)
print("Mean squared error: {:.2f}".format(mse))

Mean squared error: 2952.01
