# Modelos de Regresión lineal

La regresión lineal es un método estadístico utilizado para modelar la relación entre una variable dependiente (respuesta) y una o más variables independientes (predictoras).

# Tipos de regresión lineal
Regresión lineal simple: Solo una variable independiente.
Ejemplo: predecir el peso según la altura.

Regresión lineal múltiple: Dos o más variables independientes.
Ejemplo: predecir el precio de una casa usando tamaño, número de habitaciones, ubicación, etc.


## 1. Regresión lineal simple

Esta es la forma más simple de regresión lineal y solo implica una variable independiente y una variable dependiente. La ecuación de la regresión lineal simple es:

$$
y = \beta_{0} + \beta_{1}X \\
$$

Donde:

- Y es la variable dependiente
- X es la variable independiente
- β0 es la intersección, es decir, el punto donde la línea de regresión interseca el eje y.
- β1 es la pendiente, que controla la inclinación de la línea. Si elegimos dos puntos cualesquiera en una línea, la pendiente es el cociente entre la distancia vertical y la horizontal entre esos puntos; esto se suele escribir como elevación/recorrido.
El siguiente gráfico muestra una línea con la ecuación y = 2x + 12:

## 2. Regresión lineal múltiple

Esto implica más de una variable independiente y una variable dependiente. La ecuación de la regresión lineal múltiple es:

$$
y = \beta_{0}+\beta_{1}X1+\beta_{2}X2+.........\beta_{n}Xp \\
$$

Donde:

- Y es la variable dependiente
- X1, X2, …, Xp son las variables independientes
- β0 es la intersección
- β1, β2, …, βn son las pendientes

El objetivo del algoritmo es encontrar la ecuación de la recta de ajuste óptima que prediga los valores basándose en las variables independientes.

In [None]:
# 1. Importar las bibliotecas necesarias

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.datasets import fetch_california_housing
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, r2_score



### Conjunto de datos: California Housing Dataset
Nombre en scikit-learn: fetch_california_housing()

Descripción: Predice el precio medio de casas en distritos de California usando variables como ingreso medio, número de habitaciones, etc.

In [None]:
# 2. Cargar datos
data = fetch_california_housing(as_frame=True)
df = data.frame  # DataFrame
df.head()

In [None]:
# 3. Inspeccionar los datos

print(df.info())
print(df.describe())


In [None]:
# 4. Visualizar la relación entre las variables
sns.pairplot(df[['MedInc', 'AveRooms', 'AveOccup', 'HouseAge', 'MedHouseVal']])
plt.suptitle("Relaciones entre variables", y=1.02)
plt.show()

In [None]:
# 5. Separar variables independientes y dependiente

X = df.drop(columns='MedHouseVal')  # variables independientes
y = df['MedHouseVal']  # variable dependiente


In [None]:
# 6. Separar datos en conjuntos de entrenamiento y prueba


X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)


In [None]:
# 7. Crear y entrenar el modelo de regresión lineal

modelo = LinearRegression()
modelo.fit(X_train, y_train)

In [None]:
# 8. Revisar coeficientes del modelo

coeficientes = pd.DataFrame({
    'Variable': X.columns,
    'Coeficiente': modelo.coef_
})
print(f"Intercepto: {modelo.intercept_:.4f}")
print(coeficientes)


### Ecuación del modelo de regresión lineal múltiple

El modelo entrenado tiene la siguiente forma:

MedHouseVal = intercepto + coef1 * MedInc + coef2 * HouseAge + coef3 * AveRooms + ...

In [None]:
# 10. Realizar predicciones sobre el conjunto de prueba

y_pred = modelo.predict(X_test)
y_pred

In [None]:
# 11. Evaluar el modelo

mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)
print(f"Error cuadrático medio (MSE): {mse:.4f}")
print(f"Coeficiente de determinación (R²): {r2:.4f}")


In [None]:
# 12. Visualizar predicciones frente a valores reales

plt.figure(figsize=(8, 6))
plt.scatter(y_test, y_pred, alpha=0.5)
plt.plot([y.min(), y.max()], [y.min(), y.max()], '--r')
plt.xlabel('Valor real')
plt.ylabel('Valor predicho')
plt.title('Valor real vs. valor predicho')
plt.show()

In [None]:
# 13. Conclusión
# - Se ha entrenado un modelo de regresión lineal múltiple con datos reales.
# - Se evaluó usando el error cuadrático medio y el coeficiente de determinación.
# - La visualización permite comparar los valores predichos con los reales.
# - Este modelo puede mejorarse usando técnicas como regularización, selección de variables o modelos no lineales.

# Podrías probar con modelos como RandomForestRegressor o XGBoost u otros???


# Agrupamiento con K-Means usando el conjunto de datos Iris

 
Este notebook explica paso a paso cómo funciona el algoritmo K-Means con un conjunto de datos disponible en scikit-learn.


In [None]:
# 1. Importar bibliotecas necesarias

import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.datasets import load_iris
from sklearn.cluster import KMeans
from sklearn.decomposition import PCA


In [None]:
# 2. Cargar el conjunto de datos Iris

data = load_iris()
df = pd.DataFrame(data.data, columns=data.feature_names)
df['target'] = data.target
print(df.head())

In [None]:
# 3. Visualizar los datos con las verdaderas etiquetas

sns.pairplot(df, hue='target', vars=data.feature_names)
plt.suptitle("Visualización de clases reales del conjunto Iris", y=1.02)
plt.show()


In [None]:
df

In [None]:
# 4. Aplicar el algoritmo K-Means

x = df[data.feature_names]  # Solo usamos las características
kmeans = KMeans(n_clusters=3, random_state=42)
kmeans.fit(x)
df['cluster'] = kmeans.labels_  # Guardar los grupos asignados


In [None]:
# 5. Visualizar los clusters asignados por K-Means con reducción de dimensiones (PCA)

pca = PCA(n_components=2)
x_pca = pca.fit_transform(x)
df['pca1'] = x_pca[:, 0]
df['pca2'] = x_pca[:, 1]
plt.figure(figsize=(8, 6))
sns.scatterplot(x='pca1', y='pca2', hue='cluster', data=df, palette='Set1')
plt.title("Clusters encontrados por K-Means en 2D")
plt.show()


In [None]:

# 6. Comparar con las etiquetas reales

plt.figure(figsize=(8, 6))
sns.scatterplot(x='pca1', y='pca2', hue='target', data=df, palette='Set2')
plt.title("Etiquetas reales del conjunto Iris en 2D")
plt.show()



In [None]:

# 7. Conclusión
# - K-Means logró identificar patrones en los datos sin usar las etiquetas reales.
# - La visualización con PCA permitió observar qué tan bien se formaron los grupos.
# - El número de clusters debe elegirse con base en el problema; en este caso usamos 3 porque conocemos que hay tres especies.
