<a href="https://colab.research.google.com/github/JavaGenbu/Machine-Learning-JoseValero/blob/main/M02-Aprendizaje_supervisado/M2U2-Optimizaci%C3%B3n_por_descenso_de_gradiente/M2U2-9-Dataset_diabetes_real.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Regresión lineal: Ejemplo sobre dataset de diabetes real
M2U2 - Ejercicio 9

## ¿Qué vamos a hacer?
- Entrenar un modelo de ML de regresión lineal multivariable sobre un dataset real

Recuerda seguir las instrucciones para las entregas de prácticas indicadas en [Instrucciones entregas](https://github.com/Tokio-School/Machine-Learning/blob/main/Instrucciones%20entregas.md).

## Dataset de evolución de la diabetes

Este ejercicio complementa como 2º dataset real al ejercicio anterior.

Este dataset es un dataset pequeño, de sólo 442 ejemplos y 10 características, representando la evolución de diabetes en algunos pacientes.

Puedes encontrar el dataset y ejemplos de cómo descargarlo aquí: [Diabetes dataset](https://scikit-learn.org/stable/datasets/toy_dataset.html#diabetes-dataset)

Comprueba el dataset. Tal vez tengas que hacer alguna pequeña modificación sobre los datos o tu implementación para resolverlo según el método que hemos venido utilizando.

In [None]:
from sklearn.datasets import load_diabetes
import pandas as pd
import matplotlib.pyplot as plt

# Carga el dataset
diabetes = load_diabetes()

# Explora los nombres de las características
print("Nombres de características:", diabetes.feature_names)

# Convierte el conjunto de datos en un DataFrame de pandas
df = pd.DataFrame(diabetes.data, columns=diabetes.feature_names)
df['target'] = diabetes.target

# Muestra los primeros 5 ejemplos
print("\nPrimeros 5 ejemplos:")
print(df.head())

# Muestra información sobre el conjunto de datos
print("\nInformación del conjunto de datos:")
print(df.info())

# Describe el conjunto de datos
print("\nDescripción del conjunto de datos:")
print(df.describe())

# Representa la variable objetivo y al menos 3 características que consideres muy significativas con una gráfica boxplot
plt.figure(figsize=(10, 6))
plt.boxplot([df['target'], df['bmi'], df['s1'], df['s5']])
plt.xticks([1, 2, 3, 4], ['target', 'bmi', 's1', 's5'])
plt.title("Boxplot de la variable objetivo y características")
plt.show()

## Entrenar el modelo, comprobar su proceso de entrenamiento y evaluar su resultado final

Para este ejercicio no vas a tener instrucciones concretas, una guía o una plantilla de celdas de código, sino que queremos darte la libertad y la posibildad de enfrentarte a tu primer problema real, desde 0.

Los objetivos de este ejercicio son, de nuevo:
1. Descargarte el dataset para entrenar el modelo
1. Entrenar un modelo de regresión lineal multivariable sobre dicho dataset, que tratará de predecir las valoraciones inmobiliarias en Boston
1. Comprobar el proceso de entrenamiento del modelo
1. Evaluar el modelo comprobando su peso final y la gráfica de sus residuos

Para ello, fíjate en los pasos que has seguido en ejercicios anteriores y copia aquí las celdas y código que necesites para poder resolverlo.

¡Ánimo!

In [None]:
from sklearn.datasets import load_diabetes
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error

# Carga el dataset
diabetes = load_diabetes()

# Divide el conjunto de datos en conjunto de entrenamiento y conjunto de prueba
X_train, X_test, y_train, y_test = train_test_split(diabetes.data, diabetes.target, test_size=0.2, random_state=42)

# Entrena el modelo de regresión lineal multivariable
reg = LinearRegression().fit(X_train, y_train)

# Evalúa el modelo sobre el conjunto de entrenamiento
y_train_pred = reg.predict(X_train)
mse_train = mean_squared_error(y_train, y_train_pred)
print("Error cuadrático medio sobre el conjunto de entrenamiento:", mse_train)

# Evalúa el modelo sobre el conjunto de prueba
y_test_pred = reg.predict(X_test)
mse_test = mean_squared_error(y_test, y_test_pred)
print("Error cuadrático medio sobre el conjunto de prueba:", mse_test)

In [None]:
from sklearn.datasets import load_diabetes
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split

# Carga el dataset
diabetes = load_diabetes()

# Divide el conjunto de datos en conjunto de entrenamiento y conjunto de prueba
X_train, X_test, y_train, y_test = train_test_split(diabetes.data, diabetes.target, test_size=0.2, random_state=42)

# Entrena el modelo de regresión lineal multivariable
reg = LinearRegression().fit(X_train, y_train)

# Comprueba el coeficiente de determinación R² del modelo sobre el conjunto de entrenamiento y de prueba
r2_train = reg.score(X_train, y_train)
print("Coeficiente de determinación R² sobre el conjunto de entrenamiento:", r2_train)

r2_test = reg.score(X_test, y_test)
print("Coeficiente de determinación R² sobre el conjunto de prueba:", r2_test)

In [None]:
import matplotlib.pyplot as plt

# Obtiene el peso final de cada variable del modelo
features = diabetes.feature_names
weights = reg.coef_

# Visualiza los pesos finales de cada variable
plt.figure(figsize=(10, 5))
plt.bar(features, weights)
plt.title("Peso final de cada variable")
plt.xlabel("Variables")
plt.ylabel("Peso")
plt.show()

# Visualiza la gráfica de residuos del modelo
plt.figure(figsize=(10, 5))
plt.scatter(reg.predict(X_test), reg.predict(X_test) - y_test, c='b', s=40, alpha=0.5)
plt.hlines(y=0, xmin=0, xmax=350, colors='k', linewidth=2)
plt.title('Gráfica de residuos')
plt.xlabel('Valores predichos')
plt.ylabel('Residuos')
plt.show()

*BONUS:* Échale un vistazo a la fuente del dataset, que encontrarás en Scikit-learn, *¿de dónde viene? ¿Qué artículos, trabajos y tutoriales lo referencian?*