<a href="https://colab.research.google.com/github/rubuntu/Taller_Introduccion_a_Ciencia_de_Datos_IA_e_Ingenieria_de_Datos/blob/main/sesion_05_regresion_y_clasificacion_scikit_learn.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Sesi√≥n 05 ‚Äî Regresi√≥n y Clasificaci√≥n con scikit‚Äëlearn


# Comparativo: Regresi√≥n Lineal vs Regresi√≥n Log√≠stica

# üìò Regresi√≥n Lineal

## Concepto

* Modelo estad√≠stico que **predice un valor num√©rico continuo** en funci√≥n de variables independientes.
* Supone una **relaci√≥n lineal** entre variables:

$$
Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \dots + \beta_n X_n + \epsilon
$$

* Donde:

  * $Y$ = variable dependiente (lo que queremos predecir).
  * $X_i$ = variables independientes (predictoras).
  * $\beta_i$ = coeficientes (pendientes).
  * $\epsilon$ = error.

---

## Ejemplo

* Predecir el **precio de una casa** en funci√≥n de su superficie.

$$
Precio = \beta_0 + \beta_1 \cdot Superficie
$$

Si $\beta_0 = 50,000$ y $\beta_1 = 1,000$,
una casa de 100 m¬≤ tendr√≠a precio ‚âà 150,000.

---

## Animaci√≥n
https://phet.colorado.edu/es/simulations/least-squares-regression

---

## Gr√°fico Intuitivo

Una **l√≠nea recta** que mejor ajusta los puntos de datos.
La idea es minimizar el error cuadr√°tico medio (**MSE**).

---

## Aplicaciones

* Predicci√≥n de ingresos en funci√≥n de a√±os de educaci√≥n.
* Forecast de ventas seg√∫n inversi√≥n en marketing.
* Estimar el riesgo crediticio (como variable continua, ej. probabilidad).

---

In [None]:
# Ejemplo en Python

import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import make_regression
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score

X, y = make_regression(n_samples=300, n_features=1, noise=15.0, random_state=42)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=42)

lin_model = LinearRegression().fit(X_train, y_train)
y_pred = lin_model.predict(X_test)

rmse = np.sqrt(mean_squared_error(y_test, y_pred))
r2 = r2_score(y_test, y_pred)

plt.scatter(X_test, y_test, alpha=0.5)
order = np.argsort(X_test[:, 0])
plt.plot(X_test[order], y_pred[order], color="red")
plt.title(f"Regresi√≥n Lineal: RMSE={rmse:.2f}, R¬≤={r2:.3f}")
plt.xlabel("X"); plt.ylabel("y")
plt.show()


In [None]:
# --- Gr√°fico Predicci√≥n vs Realidad ---
plt.scatter(y_test, y_pred, alpha=0.5)
plt.plot([y_test.min(), y_test.max()],
         [y_test.min(), y_test.max()],
         'r--', lw=2)  # l√≠nea ideal
plt.xlabel("Valor Real (y_test)")
plt.ylabel("Predicci√≥n (y_pred)")
plt.title("Predicci√≥n vs Realidad")
plt.show()

# üìò Regresi√≥n Log√≠stica

## Concepto

* Variante que sirve para **clasificaci√≥n binaria** (S√≠/No, 0/1).
* En lugar de predecir valores continuos, predice **probabilidades**:

$$
P(Y=1|X) = \frac{1}{1 + e^{-(\beta_0 + \beta_1X_1 + \dots + \beta_nX_n)}}
$$

* La funci√≥n **sigmoide** transforma cualquier valor en un n√∫mero entre 0 y 1.

---

## Ejemplo

* Predecir si un cliente **har√° churn** (1) o no (0).

$$
Logit(P) = \ln\left(\frac{P}{1-P}\right) = \beta_0 + \beta_1 X
$$

Si el modelo predice $P=0.8$, interpretamos: **80% de probabilidad de churn**.

---

## Gr√°fico Intuitivo

* La curva de la regresi√≥n log√≠stica es en forma de **S (sigmoide)**.
* Para valores bajos de X ‚Üí P cercano a 0.
* Para valores altos de X ‚Üí P cercano a 1.
* Punto de corte (threshold, usualmente 0.5) ‚Üí decide clase 0 o 1.

---

## Aplicaciones

* Detecci√≥n de fraude (fraude = 1, no fraude = 0).
* Diagn√≥stico m√©dico (enfermo = 1, sano = 0).
* Predicci√≥n de abandono (churn).

---

In [None]:
# Ejemplo en Python

import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, f1_score, roc_auc_score, RocCurveDisplay

# Dataset binario 1D (v√°lido)
Xc, yc = make_classification(
    n_samples=10000,
    n_features=1,
    n_redundant=0,
    n_informative=1,
    n_classes=2,
    n_clusters_per_class=1,
    class_sep=0.8,      # ‚Üì separa menos las clases
    flip_y=0.2,         # 20% de etiquetas ruidosas
    random_state=42
)

Xc_train, Xc_test, yc_train, yc_test = train_test_split(
    Xc, yc, test_size=0.25, stratify=yc, random_state=42
)

# Modelo
log_model = LogisticRegression().fit(Xc_train, yc_train)

y_pred = log_model.predict(Xc_test)
y_proba = log_model.predict_proba(Xc_test)[:, 1]

print("Accuracy:", accuracy_score(yc_test, y_pred))
print("F1:", f1_score(yc_test, y_pred))
print("AUC:", roc_auc_score(yc_test, y_proba))

In [None]:
# Curva sigmoide
xs = np.linspace(Xc_test.min(), Xc_test.max(), 200).reshape(-1, 1)
sig = log_model.predict_proba(xs)[:, 1]

plt.scatter(Xc_test, yc_test, alpha=0.5)
plt.plot(xs, sig)
plt.title("Regresi√≥n Log√≠stica: Probabilidad P(Y=1|X)")
plt.xlabel("X"); plt.ylabel("Probabilidad")
plt.show()

In [None]:
# Curva ROC
RocCurveDisplay.from_predictions(yc_test, y_proba)
plt.title("Curva ROC")
plt.show()

In [None]:
from sklearn.metrics import (
    classification_report, confusion_matrix, ConfusionMatrixDisplay,
    PrecisionRecallDisplay, average_precision_score
)

# --- Reporte de clasificaci√≥n ---
print("\n=== Classification Report ===")
print(classification_report(yc_test, y_pred, digits=3))

# --- Matriz de confusi√≥n (texto + plot) ---
cm = confusion_matrix(yc_test, y_pred)
print("\n=== Confusion Matrix ===\n", cm)

disp = ConfusionMatrixDisplay(confusion_matrix=cm)
disp.plot()
plt.title("Matriz de Confusi√≥n")
plt.show()

# --- Curva Precision-Recall + Average Precision ---
ap = average_precision_score(yc_test, y_proba)
PrecisionRecallDisplay.from_predictions(yc_test, y_proba)
plt.title(f"Curva Precision-Recall (AP = {ap:.3f})")
plt.show()


# üìä Diferencias Clave

| Aspecto         | Regresi√≥n Lineal      | Regresi√≥n Log√≠stica        |
| --------------- | --------------------- | -------------------------- |
| Tipo de salida  | Variable continua (‚Ñù) | Probabilidad (0 a 1)       |
| Funci√≥n         | Recta                 | Sigmoide (S)               |
| Problema t√≠pico | Predicci√≥n de valores | Clasificaci√≥n binaria      |
| Ejemplo         | Precio de casas       | ¬øEl cliente abandona o no? |
| M√©trica com√∫n   | MSE, R¬≤               | AUC, F1, LogLoss           |

---

üëâ Una buena forma de recordarlo:

* **Lineal = l√≠nea recta = predecir n√∫meros**.
* **Log√≠stica = l√≥gica binaria = predecir s√≠/no con probabilidades**.

# Introducci√≥n al Machine Learning con Scikit-learn

## Objetivos
- Comprender qu√© es aprendizaje supervisado.
- Diferenciar entre regresi√≥n y clasificaci√≥n.
- Usar Scikit-learn para entrenar un primer modelo.

---

## 1. Aprendizaje Supervisado
- **Regresi√≥n**: predice valores num√©ricos (ej: precio de una casa).  
- **Clasificaci√≥n**: predice categor√≠as (ej: churn = s√≠/no).  

Pipeline general:
1. Preparar datos.  
2. Dividir en train/test.  
3. Entrenar modelo.  
4. Evaluar resultados.  

---

## 2. Dataset de Ejemplo: Boston Housing (Regresi√≥n)

In [None]:
from sklearn.datasets import fetch_california_housing
import pandas as pd

data = fetch_california_housing(as_frame=True)
df = data.frame
df.head()

---

## 3. Dataset de Ejemplo: Telco Churn (Clasificaci√≥n)
Este c√≥digo es un **preprocesamiento b√°sico para un modelo de machine learning** sobre el dataset de *Telco Customer Churn* (abandono de clientes).

In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split

url = "https://raw.githubusercontent.com/Geo-y20/Telco-Customer-Churn-/refs/heads/main/Telco%20Customer%20Churn.csv"
df = pd.read_csv(url, index_col=0)
df["TotalCharges"] = pd.to_numeric(df["TotalCharges"], errors="coerce")
df["TotalCharges"] = df["TotalCharges"].fillna(df["MonthlyCharges"])
df.head()

In [None]:
# One-Hot Encoding con pandas
df = pd.get_dummies(df, drop_first=True)

In [None]:
df.dtypes

In [None]:
# Separar variables y target
X = df.drop("Churn_Yes", axis=1)  # porque get_dummies crea Churn_No y Churn_Yes
y = df["Churn_Yes"]

# Train/Test split
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.3, random_state=42
)

print(X_train.shape, X_test.shape, y_train.shape, y_test.shape)

### 3.1. Importaci√≥n de librer√≠as

```python
import pandas as pd
from sklearn.model_selection import train_test_split
```

* **pandas**: para manipular datos en forma de tablas (dataframes).
* **train\_test\_split**: funci√≥n de Scikit-learn para dividir los datos en conjuntos de entrenamiento y prueba.

---

### 3.2. Cargar el dataset

```python
url = "https://raw.githubusercontent.com/Geo-y20/Telco-Customer-Churn-/refs/heads/main/Telco%20Customer%20Churn.csv"
df = pd.read_csv(url, index_col=0)
```

* Se descarga un CSV desde GitHub.
* `index_col=0` indica que la primera columna del CSV debe usarse como √≠ndice del dataframe.

---

### 3.3. One-Hot Encoding (variables categ√≥ricas a num√©ricas)

```python
df = pd.get_dummies(df, drop_first=True)
```

* `pd.get_dummies()` convierte las variables categ√≥ricas en variables num√©ricas binarias (0/1).
* `drop_first=True` elimina una de las categor√≠as para evitar la **trampa de la multicolinealidad** (cuando una categor√≠a es redundante).

Ejemplo: si hay una columna `Gender` con valores `Male` y `Female`, se crear√° solo `Gender_Male` (0 o 1), y se elimina `Gender_Female` porque es redundante.

---

### 3.4. Separar variables predictoras (X) y la variable objetivo (y)

```python
X = df.drop("Churn_Yes", axis=1)  
y = df["Churn_Yes"]
```

* `Churn` es la variable objetivo (si el cliente se dio de baja o no).
* Como `get_dummies` crea `Churn_No` y `Churn_Yes`, se toma `Churn_Yes` como target.
* `X` son todas las dem√°s columnas (variables explicativas).

---

### 3.5. Dividir en entrenamiento y prueba

```python
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.3, random_state=42
)
```

* Divide los datos en:

  * **70%** entrenamiento (`X_train`, `y_train`)
  * **30%** prueba (`X_test`, `y_test`)
* `random_state=42` asegura que la divisi√≥n sea **reproducible** (si corres el c√≥digo varias veces, el resultado ser√° el mismo).

---

### 3.6. Mostrar las dimensiones

```python
print(X_train.shape, X_test.shape, y_train.shape, y_test.shape)
```

* Muestra el n√∫mero de **filas (observaciones)** y **columnas (features)** en cada conjunto.
* Sirve para verificar que la divisi√≥n se hizo correctamente.

---

‚úÖ **Resumen**:
Este script descarga un dataset de clientes, transforma las variables categ√≥ricas en num√©ricas, separa la variable objetivo (*churn*), divide los datos en entrenamiento y prueba, y finalmente imprime las dimensiones resultantes.

---

## 4. Ejemplo: Clasificaci√≥n (Logistic Regression)

In [None]:
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report, confusion_matrix
import seaborn as sns
import matplotlib.pyplot as plt

# Definir y entrenar modelo
clf = LogisticRegression(max_iter=5000)
clf.fit(X_train, y_train)

# Predicciones
y_pred = clf.predict(X_test)

# Reporte de m√©tricas
print(classification_report(y_test, y_pred))

# Matriz de confusi√≥n
cm = confusion_matrix(y_test, y_pred)
print("Matriz de confusi√≥n:\n", cm)

# Visualizar con mapa de calor
sns.heatmap(cm, annot=True, fmt="d", cmap="Blues",
            xticklabels=clf.classes_,
            yticklabels=clf.classes_)
plt.xlabel("Predicciones")
plt.ylabel("Valores reales")
plt.title("Matriz de Confusi√≥n")
plt.show()


### üìå Recordatorio de la f√≥rmula

1. **Logit (score lineal):**

$$
z = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \dots + \beta_n x_n
$$

2. **Sigmoide:**

$$
p = \sigma(z) = \frac{1}{1 + e^{-z}}
$$

---


In [None]:
# --- Coeficientes, intercepto, logit y probabilidad

import numpy as np

# 1) Extraer par√°metros del modelo (asumiendo clf = LogisticRegression ya entrenado)
beta  = np.asarray(clf.coef_, dtype=float).ravel()   # (n_features,)
beta0 = float(np.asarray(clf.intercept_, dtype=float).ravel()[0])

print("Intercepto (beta0):", beta0)
print("Coeficientes (beta):", beta)

# 2) Nombres de features si X_test es DataFrame; si no, nombres gen√©ricos
try:
    feature_names = list(X_test.columns)
except AttributeError:
    # Si es ndarray/sparse, construimos nombres gen√©ricos
    n_features = X_test.shape[1]
    feature_names = [f"x{i}" for i in range(n_features)]

# 3) Asegurar que X_test sea num√©rico ndarray (maneja DataFrame/ndarray)
if hasattr(X_test, "values"):   # DataFrame/Series de pandas
    X_mat = X_test.values
else:
    X_mat = X_test

# Si X_mat es sparse, convi√©rtelo a denso de forma segura (o usa operaciones sparse si prefieres)
try:
    import scipy.sparse as sp
    if sp.issparse(X_mat):
        X_mat = X_mat.toarray()
except Exception:
    # Si no hay scipy o no es sparse, seguimos
    pass

X_mat = np.asarray(X_mat, dtype=float)

# 4) C√°lculo del logit (score lineal) y probabilidad con estabilidad num√©rica
z = beta0 + X_mat @ beta

# Evitar overflow en exp: recorta z a [-709, 709] (aprox. l√≠mite de np.exp para float64)
z_clipped = np.clip(z, -709, 709)
p = 1.0 / (1.0 + np.exp(-z_clipped))  # sigmoide

# 5) Chequeo contra predict_proba de scikit-learn
p_sklearn = clf.predict_proba(X_test)[:, 1]
print("Max |p - p_sklearn|:", float(np.max(np.abs(p - p_sklearn))))

# 6) Impresi√≥n ordenada de coeficientes
print("\nCoeficientes por feature:")
for name, b in zip(feature_names, beta):
    print(f"{name:20s}: {b: .6f} ")
    #print(f"{name:20s}: {b: .6f}   (odds ratio: {np.exp(b):.6f})")

# 7) (Opcional) Mostrar algunos ejemplos de salida
print("\nPrimeras 5 probabilidades calculadas manualmente:", p[:5])
print("Primeras 5 probabilidades de predict_proba()   :", p_sklearn[:5])


In [None]:
order = np.argsort(z)
plt.figure(figsize=(7,5))
plt.scatter(z, y_test, alpha=0.35, label="Observaciones (0/1)")
plt.plot(z[order], p[order], label="Sigmoide sobre z")
plt.xlabel("Logit (z = Œ≤0 + XŒ≤)")
plt.ylabel("P(Y=1|X)")
plt.title("Sigmoide respecto al logit (score lineal)")
plt.legend()
plt.show()

### Qu√© hace el c√≥digo

```python
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report, confusion_matrix
import seaborn as sns
import matplotlib.pyplot as plt

# Definir y entrenar modelo
clf = LogisticRegression(max_iter=5000)
clf.fit(X_train, y_train)

# Predicciones
y_pred = clf.predict(X_test)

# Reporte de m√©tricas
print(classification_report(y_test, y_pred))

# Matriz de confusi√≥n
cm = confusion_matrix(y_test, y_pred)
print("Matriz de confusi√≥n:\n", cm)

# Visualizar con mapa de calor
sns.heatmap(cm, annot=True, fmt="d", cmap="Blues",
            xticklabels=clf.classes_,
            yticklabels=clf.classes_)
plt.xlabel("Predicciones")
plt.ylabel("Valores reales")
plt.title("Matriz de Confusi√≥n")
plt.show()
```

* **`LogisticRegression(max_iter=5000)`**: clasificador para problemas binarios/multiclase. `max_iter` alto evita warnings de no convergencia.
* **`.fit(X_train, y_train)`**: entrena con el set de entrenamiento.
* **`.predict(X_test)`**: predice etiquetas en el set de prueba.
* **`classification_report`**: imprime *precision, recall, f1-score, support* por clase, m√°s promedios (macro/weighted) y *accuracy* global.
* **`confusion_matrix`**: devuelve la tabla de aciertos/errores por clase.
* **`sns.heatmap(...)`**: dibuja la matriz; las etiquetas de ejes usan `clf.classes_` (en tu caso, `['False','True']`).

---

### Reporte

```
              precision    recall  f1-score   support
False             0.85      0.90      0.87      1539
True              0.68      0.57      0.62       574
accuracy                               0.81      2113
macro avg         0.77      0.74      0.75      2113
weighted avg      0.80      0.81      0.81      2113
```

* **Accuracy = 0.81**: el 81% de las predicciones totales fue correcto.
* **Clase `False` (no churn)**: muy buen *recall* (0.90) ‚áí el modelo identifica bien a quienes **se quedan**.
* **Clase `True` (churn)**: *recall* 0.57 ‚áí detecta **57%** de quienes se van; *precision* 0.68 ‚áí de los que predijo como churn, el **68%** realmente se va.
* **Macro avg**: promedio simple entre clases (√∫til si est√°n desbalanceadas).
* **Weighted avg**: promedio ponderado por *support* (tama√±o de cada clase).

### Matriz de confusi√≥n

```
[[1386  153]
 [ 245  329]]
```

* Filas = **valores reales** (`y_test`)
* Columnas = **predicciones** (`y_pred`)
* Orden: `False` primero, `True` despu√©s

Entonces:

* **TN (True Negative) = 1386** ‚Üí Reales **False** (no churn) predichos **False**.
  Aciertos en ‚Äúno se va‚Äù.
* **FP (False Positive) = 153** ‚Üí Reales **False**, predichos **True**.
  ‚ÄúFalsa alarma‚Äù: el modelo dijo churn pero no se fueron.
  *Impacto*: podr√≠as ofrecer incentivos innecesarios.
* **FN (False Negative) = 245** ‚Üí Reales **True**, predichos **False**.
  ‚ÄúSe te escapan‚Äù: se fueron y no los detectaste.
  *Impacto*: p√©rdida de clientes sin acci√≥n preventiva (suele ser el error m√°s costoso en churn).
* **TP (True Positive) = 329** ‚Üí Reales **True**, predichos **True**.
  Aciertos detectando quienes se van.

### M√©tricas derivadas desde la matriz

Con TN=1386, FP=153, FN=245, TP=329 (total=2113):

* **Accuracy** = (TP+TN)/total ‚âà **0.812** (‚âà 0.81)
* **Precision (churn=True)** = TP/(TP+FP) ‚âà **0.683**
* **Recall (churn=True)** = TP/(TP+FN) ‚âà **0.573**
* **F1 (churn=True)** ‚âà **0.623**

### ¬øQu√© puede hacerse para mejorar la detecci√≥n de churn (reducir FN)?

* **Ajustar el umbral de decisi√≥n**: en lugar de `predict` (umbral 0.5), usa `predict_proba` y mueve el umbral para priorizar *recall* en la clase `True`.
  *M√°s recall* ‚áí menos FN (pero suben FP).
* **`class_weight='balanced'`** en la Regresi√≥n Log√≠stica si hay desbalance.
* **Estandarizar** las variables num√©ricas (`StandardScaler`) antes de entrenar.
* **Curvas ROC y Precision-Recall** para elegir el umbral √≥ptimo seg√∫n tu coste FP/FN.
* **Ingenier√≠a de variables / modelos alternativos** (√°rboles/boosting) si procede.


---

## 5. Ejemplo: Regresi√≥n Lineal

In [None]:
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.datasets import fetch_california_housing
import pandas as pd

data = fetch_california_housing(as_frame=True)
df = data.frame

# Definir modelo
model = LinearRegression()
model.fit(data.data, data.target)

# Predicciones
preds = model.predict(data.data)

# M√©tricas
print("MSE:", mean_squared_error(data.target, preds))
print("R2:", r2_score(data.target, preds))

In [None]:
# Intercepto y coeficientes
print("\nIntercepto (Œ≤0):", model.intercept_)
print("\nCoeficientes por variable:")
for name, coef in zip(data.feature_names, model.coef_):
    print(f"{name:15s}: {coef:.6f}")

### Recordatorio del modelo

El modelo ajustado es:

$$
\hat{y} = \beta_0 + \beta_1 \cdot x_1 + \beta_2 \cdot x_2 + \dots + \beta_p \cdot x_p
$$

donde:

* $\hat{y}$ = valor medio de la vivienda (en **cientos de miles de d√≥lares**),
* $x_j$ = variables predictoras,
* $\beta_j$ = coeficiente de la variable $j$.

---

### C√≥mo leer los coeficientes

* **Intercepto (Œ≤‚ÇÄ)**: valor esperado de la variable objetivo cuando todas las features son 0. (No suele tener interpretaci√≥n realista en datasets como este, porque ‚Äú0 habitaciones‚Äù o ‚Äú0 latitud‚Äù no son escenarios v√°lidos).
* **Coeficientes (Œ≤)**: representan el **cambio promedio en el valor de la vivienda (en 100k USD)** por un incremento de 1 unidad en la variable, manteniendo las dem√°s constantes.

Ejemplo con las variables m√°s relevantes del dataset:

| Variable                                       | Interpretaci√≥n del coeficiente (ejemplo con valores t√≠picos)                                                                            |
| ---------------------------------------------- | --------------------------------------------------------------------------------------------------------------------------------------- |
| **MedInc** (ingreso medio)                     | Si el ingreso medio en un bloque sube en 1 (es decir, 10.000 USD anuales), el precio medio de las casas aumenta en ‚âà `Œ≤` √ó 100k USD.    |
| **HouseAge** (edad de la casa en a√±os)         | Un a√±o adicional en la antig√ºedad promedio de las casas se asocia con `Œ≤` √ó 100k USD en el precio, manteniendo todo lo dem√°s constante. |
| **AveRooms** (habitaciones promedio por hogar) | Cada habitaci√≥n adicional promedio est√° asociada con un cambio de `Œ≤` √ó 100k USD en el precio medio.                                    |
| **Population** (poblaci√≥n en el bloque)        | Cada incremento de 1 persona se asocia con un cambio muy peque√±o en el valor (`Œ≤` cercano a 0).                                         |
| **Latitude / Longitude**                       | Tienen coeficientes negativos grandes porque la ubicaci√≥n (m√°s al norte/sur/oeste/este) influye fuertemente en el valor.                |

---

### Ejemplo con valores concretos

Si el coeficiente de `MedInc` fuera ‚âà **0.437**, significa que:

* Aumentar el ingreso medio en **10.000 USD** se asocia con un aumento de:

  $$
  0.437 \times 100{,}000 = 43{,}700 \, \text{USD}
  $$

  en el valor medio de la vivienda.

---

### üìä Interpretaci√≥n del modelo

### Intercepto (Œ≤‚ÇÄ)

* **-36.94** ‚Üí el valor esperado de una vivienda ser√≠a negativo si todas las variables fueran 0.
  üëâ Esto no tiene sentido pr√°ctico (ninguna casa tiene 0 habitaciones, ingreso = 0, latitud = 0, etc.).
  El intercepto solo asegura que el modelo ‚Äúpase‚Äù cerca de los datos reales.

---

### Coeficientes

| Variable                                               | Coeficiente (Œ≤) | Interpretaci√≥n pr√°ctica                                                                                                                                                                                                              |
| ------------------------------------------------------ | --------------- | ------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------ |
| **MedInc** (ingreso medio, en decenas de miles de USD) | **0.4367**      | Por cada **+10,000 USD** de ingreso medio en el distrito, el valor medio de las casas aumenta en **‚âà 43,700 USD**.                                                                                                                   |
| **HouseAge** (edad promedio en a√±os)                   | **0.0094**      | Cada **+1 a√±o** de antig√ºedad promedio est√° asociado con **‚âà 940 USD m√°s** en el precio medio (un efecto peque√±o).                                                                                                                   |
| **AveRooms** (habitaciones promedio por hogar)         | **-0.1073**     | Una **habitaci√≥n adicional en promedio** se asocia con **‚âà -10,732 USD** en el valor. ‚ö†Ô∏è Esto puede sonar raro, pero refleja multicolinealidad: distritos con muchas habitaciones por hogar tienden a ser m√°s baratos en California. |
| **AveBedrms** (dormitorios promedio por hogar)         | **0.6451**      | Cada dormitorio adicional en promedio se asocia con **‚âà 64,506 USD m√°s**.                                                                                                                                                            |
| **Population** (n√∫mero de personas en el distrito)     | **-0.000004**   | Cada persona adicional reduce el valor en apenas **‚âà -0.40 USD** (efecto casi nulo).                                                                                                                                                 |
| **AveOccup** (personas promedio por hogar)             | **-0.0038**     | Cada persona extra por hogar est√° asociada con **‚âà -378 USD** en el valor medio.                                                                                                                                                     |
| **Latitude** (latitud del distrito)                    | **-0.4213**     | Moverse 1 grado al norte (‚âà 111 km) reduce el valor medio en **‚âà -42,131 USD**.                                                                                                                                                      |
| **Longitude** (longitud del distrito)                  | **-0.4345**     | Moverse 1 grado al este (‚âà 85 km en California) reduce el valor medio en **‚âà -43,451 USD**.                                                                                                                                          |

---

## üîë Claves de interpretaci√≥n

* **MedInc** es el predictor m√°s fuerte y l√≥gico: m√°s ingreso ‚áí casas m√°s caras.
* **Latitude / Longitude** capturan la ubicaci√≥n: en California, estar m√°s al norte o este (lejos de la costa sur/Los √Ångeles/San Francisco) reduce el valor.
* **AveRooms** negativo y **AveBedrms** positivo reflejan correlaciones internas: distritos con muchas habitaciones suelen estar en zonas rurales/suburbanas m√°s baratas.
* **Population** tiene un efecto pr√°cticamente nulo.

---


### Qu√© hace el c√≥digo

### 5.1. Importar librer√≠as

```python
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score
```

* **LinearRegression**: el modelo de regresi√≥n lineal de scikit-learn.
* **mean\_squared\_error**: funci√≥n para calcular el **error cuadr√°tico medio (MSE)**.
* **r2\_score**: funci√≥n para calcular el **coeficiente de determinaci√≥n (R¬≤)**.

---

### 5.2. Definir y entrenar el modelo

```python
model = LinearRegression()
model.fit(data.data, data.target)
```

* Se crea un objeto `LinearRegression`.
* `.fit(X, y)` entrena el modelo:

  * `X = data.data` ‚Üí las variables predictoras (caracter√≠sticas).
  * `y = data.target` ‚Üí la variable objetivo (lo que queremos predecir).

El modelo busca la mejor l√≠nea (o hiperplano) que se ajuste a los datos.

---

### 5.3. Hacer predicciones

```python
preds = model.predict(data.data)
```

* Se usan las mismas variables (`data.data`) para generar predicciones.
* `preds` es un array con los valores estimados por el modelo para cada observaci√≥n.

---

### 5.4. Evaluar el modelo con m√©tricas

```python
print("MSE:", mean_squared_error(data.target, preds))
print("R2:", r2_score(data.target, preds))
```

* **MSE (Mean Squared Error)**:

  * Calcula el promedio de los errores al cuadrado:

    $$
    MSE = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2
    $$
  * Cuanto m√°s bajo, mejor es el ajuste.

* **R¬≤ (Coeficiente de determinaci√≥n)**:

  * Mide qu√© porcentaje de la variabilidad en `y` es explicado por el modelo.
  * Valores:

    * **1** ‚Üí ajuste perfecto.
    * **0** ‚Üí el modelo no explica nada.
    * **Negativo** ‚Üí el modelo es peor que predecir la media.

---

‚úÖ **Resumen:**
Este c√≥digo entrena un modelo de **regresi√≥n lineal** con los datos (`data.data`, `data.target`), genera predicciones, y luego eval√∫a el modelo mostrando dos m√©tricas:

* **MSE** (qu√© tan lejos est√°n las predicciones de los valores reales).
* **R¬≤** (qu√© tan bien explica el modelo la variaci√≥n de los datos).


---

## 6. Preguntas de Discusi√≥n

1. ¬øQu√© diferencias hay entre regresi√≥n y clasificaci√≥n?
2. ¬øQu√© tan importante es separar train/test?
3. ¬øPor qu√© no debemos evaluar un modelo solo con accuracy?


### 1. ¬øQu√© diferencias hay entre **regresi√≥n** y **clasificaci√≥n**?

* **Regresi√≥n**:

  * Predice un **valor continuo** (num√©rico).
  * Ejemplo: predecir el precio de una casa, la temperatura, las ventas mensuales.
  * M√©tricas comunes: MSE, RMSE, MAE, R¬≤.

* **Clasificaci√≥n**:

  * Predice una **categor√≠a** (discreta).
  * Puede ser binaria (s√≠/no, churn/no churn) o multiclase (tipo de flor, enfermedad A/B/C).
  * M√©tricas comunes: accuracy, precision, recall, F1, ROC AUC.

üëâ Diferencia clave: **regresi√≥n = valores continuos**, **clasificaci√≥n = clases o categor√≠as**.

---

### 2. ¬øQu√© tan importante es separar **train/test**?

* **Fundamental** ‚úÖ.
* Si entrenas y eval√∫as en los mismos datos ‚Üí el modelo se "aprende de memoria" (overfitting) y obtienes m√©tricas artificialmente buenas.
* El **conjunto de entrenamiento (train)** se usa para ajustar los par√°metros del modelo.
* El **conjunto de prueba (test)** simula datos nuevos nunca vistos, y te da una estimaci√≥n real de c√≥mo rendir√° el modelo en producci√≥n.
* A veces tambi√©n se usa un **validation set** o **cross-validation** para afinar hiperpar√°metros antes de probar en test.

---

### 3. ¬øPor qu√© no debemos evaluar un modelo solo con **accuracy**?

* El accuracy mide:

  $$
  \text{Accuracy} = \frac{\text{Aciertos}}{\text{Total de ejemplos}}
  $$

  Es √∫til cuando las clases est√°n balanceadas.

* Pero en problemas **desbalanceados** puede ser enga√±oso:

  * Ejemplo: dataset de churn con 90% clientes que se quedan y 10% que se van.
  * Si el modelo predice **siempre ‚Äúse queda‚Äù**, tendr√° **90% accuracy** pero **0% recall para churn** (nunca detecta a quienes se van).
  * En este caso, m√©tricas como **precision, recall, F1-score, ROC-AUC** son m√°s informativas.

üëâ En tareas cr√≠ticas (fraude, churn, c√°ncer), **recall y precision son m√°s importantes que accuracy**.

---

‚úÖ **Resumen**:

1. Regresi√≥n predice valores continuos, clasificaci√≥n categor√≠as.
2. Separar train/test evita sobreajuste y mide rendimiento real.
3. Accuracy puede ser enga√±oso, especialmente con clases desbalanceadas: hay que mirar m√©tricas adicionales.


## üìä Comparaci√≥n: Regresi√≥n vs Clasificaci√≥n

| Aspecto                             | **Regresi√≥n** (valores continuos)                                                                                              | **Clasificaci√≥n** (clases/categor√≠as)                                           |
| ----------------------------------- | ------------------------------------------------------------------------------------------------------------------------------ | ------------------------------------------------------------------------------- |
| **Ejemplo**                         | Predecir el precio de una casa, la temperatura, ventas mensuales                                                               | Predecir si un cliente har√° churn, si un email es spam/no spam                  |
| **Variable objetivo (y)**           | Num√©rica continua (ej. 250.45, 32.7)                                                                                           | Discreta (ej. {0,1} o {Rojo, Azul, Verde})                                      |
| **Algoritmos t√≠picos**              | Regresi√≥n lineal, regresi√≥n polin√≥mica, SVR, Random Forest Regressor                                                           | Regresi√≥n log√≠stica, SVM, √Årboles de decisi√≥n, Random Forest, Redes Neuronales  |
| **M√©tricas comunes**                | - MSE (Error Cuadr√°tico Medio)<br>- RMSE (Ra√≠z del MSE)<br>- MAE (Error Absoluto Medio)<br>- R¬≤ (Coeficiente de determinaci√≥n) | - Accuracy<br>- Precision<br>- Recall (Sensibilidad)<br>- F1-score<br>- AUC-ROC |
| **Interpretaci√≥n**                  | Cu√°n cerca est√°n las predicciones de los valores reales (se mide error en unidades del target)                                 | Qu√© tan bien clasifica ejemplos en sus categor√≠as correctas                     |
| **Riesgo al usar solo una m√©trica** | Usar solo R¬≤ puede ser enga√±oso si los datos no son lineales                                                                   | Usar solo Accuracy es peligroso si las clases est√°n desbalanceadas              |

---

‚úÖ Con esta tabla queda claro que:

* En **regresi√≥n** interesa **minimizar el error num√©rico**.
* En **clasificaci√≥n** interesa **equilibrar precisi√≥n, recall y F1**, sobre todo en datasets desbalanceados.
