In [5]:
# Importa as bibliotecas necessárias
import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import load_diabetes
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score
import pandas as pd
import altair as alt

# Carrega o dataset diabetes
diabetes = load_diabetes()
df = pd.DataFrame(diabetes.data, columns=diabetes.feature_names)
target = pd.DataFrame(diabetes.target, columns=['target'])
data = pd.concat([df, target], axis=1)

# Seleciona a coluna 'bmi' (IMC) como variável explicativa (X) e 'target' como variável resposta (y)
X = data[['bmi']]
y = data['target']

# Divide os dados em conjuntos de treino e teste (80% treino, 20% teste)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Cria e treina o modelo de regressão linear
model = LinearRegression()
model.fit(X_train, y_train)

# Realiza as predições no conjunto de teste
y_pred = model.predict(X_test)

# Calcula as métricas de avaliação: Erro Médio Quadrático (MSE) e Coeficiente de Determinação (R²)
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

# Imprime as métricas de avaliação
print(f'Erro Médio Quadrático (MSE): {mse:.2f}')
print(f'Coeficiente de Determinação (R²): {r2:.2f}')

# Cria um DataFrame para os dados de teste e as predições
plot_df = pd.DataFrame({'IMC': X_test['bmi'].values.flatten(), 'Progressão Real': y_test.values.flatten(), 'Progressão Predita': y_pred.flatten()})

# Gráfico de dispersão dos dados de teste
scatter = alt.Chart(plot_df).mark_circle().encode(
    x=alt.X('IMC', title='IMC'),
    y=alt.Y('Progressão Real', title='Progressão da Doença'),
    tooltip=['IMC', 'Progressão Real']
).properties(
    title='Dados de Teste: IMC vs. Progressão da Doença'
)

# Linha de regressão
regression_line = alt.Chart(plot_df).mark_line(color='red').encode(
    x=alt.X('IMC', title='IMC'),
    y=alt.Y('Progressão Predita', title='Progressão da Doença'),
    tooltip=['IMC', 'Progressão Predita']
).properties(
    title='Regressão Linear: IMC vs. Progressão da Doença'
)

# Combina os gráficos e os exibe
chart = scatter + regression_line
chart

Erro Médio Quadrático (MSE): 4061.83
Coeficiente de Determinação (R²): 0.23
