<a href="https://colab.research.google.com/github/culiacanai/Aprende_Python_con_GoogleColab/blob/main/notebooks/13_Intro_a_Machine_Learning.ipynb" target="_parent">
  <img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/>
</a>

# ü§ñ Intro a Machine Learning

### Aprende Python con Google Colab ‚Äî por [Culiacan.AI](https://culiacan.ai)

**Nivel:** üî¥ Avanzado  
**Duraci√≥n estimada:** 90 minutos  
**Requisitos:** Haber completado los Notebooks [11 NumPy](11_Intro_a_NumPy.ipynb) y [12 An√°lisis de Datos Real](12_Analisis_de_Datos_Real.ipynb)

---

En este notebook vas a:
- Entender qu√© es Machine Learning y los tipos que existen
- Conocer Scikit-learn, la librer√≠a #1 de ML en Python
- Entrenar tu primer modelo de regresi√≥n lineal
- Entrenar tu primer modelo de clasificaci√≥n
- Evaluar modelos con m√©tricas reales
- Entender el flujo completo: datos ‚Üí entrenamiento ‚Üí evaluaci√≥n ‚Üí predicci√≥n

> üí° **Machine Learning** es darle a una computadora la capacidad de aprender patrones a partir de datos, sin programar reglas expl√≠citas. Es la base de la Inteligencia Artificial moderna.


---

## 0. Preparaci√≥n


In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from warnings import filterwarnings
filterwarnings("ignore")

# Scikit-learn (ya viene instalado en Colab)
import sklearn
print(f"‚úÖ Scikit-learn versi√≥n: {sklearn.__version__}")

---

## 1. ¬øQu√© es Machine Learning?

### Programaci√≥n tradicional vs Machine Learning

```
Programaci√≥n tradicional:
  Datos + Reglas ‚Üí Programa ‚Üí Resultado

Machine Learning:
  Datos + Resultados ‚Üí Algoritmo ‚Üí Reglas (modelo)
```

### Tipos de Machine Learning

| Tipo | Qu√© hace | Ejemplo |
|------|----------|---------|
| **Supervisado** | Aprende de datos etiquetados | Predecir precio de casa seg√∫n sus caracter√≠sticas |
| **No supervisado** | Encuentra patrones sin etiquetas | Agrupar clientes similares |
| **Refuerzo** | Aprende por prueba y error | Un robot que aprende a caminar |

En este notebook nos enfocaremos en **aprendizaje supervisado**, que tiene dos grandes categor√≠as:

| Categor√≠a | Variable objetivo | Ejemplo |
|-----------|------------------|---------|
| **Regresi√≥n** | N√∫mero continuo | Predecir ventas, precios, temperaturas |
| **Clasificaci√≥n** | Categor√≠a | Predecir si un cliente compra o no, tipo de producto |

### El flujo de Machine Learning

```
1. Obtener datos
2. Explorar y limpiar
3. Dividir en entrenamiento y prueba
4. Elegir un modelo
5. Entrenar el modelo
6. Evaluar el modelo
7. Hacer predicciones
```


---

## 2. Nuestros datos: prediciendo esperanza de vida

Vamos a usar el dataset Gapminder para predecir la esperanza de vida de un pa√≠s bas√°ndonos en su PIB per c√°pita y poblaci√≥n.


In [None]:
# Cargar datos de Gapminder
import plotly.express as px
gapminder = px.data.gapminder()

# Usar datos de 2007 para nuestro primer modelo
df = gapminder[gapminder["year"] == 2007].copy()
df = df.rename(columns={
    "country": "pais", "continent": "continente", "year": "anio",
    "lifeExp": "esperanza_vida", "pop": "poblacion", "gdpPercap": "pib_per_capita",
})

print(f"üìä Dataset: {len(df)} pa√≠ses en 2007")
print(f"\nColumnas: {list(df.columns)}")
df.head()

In [None]:
# Exploraci√≥n r√°pida
fig, axes = plt.subplots(1, 3, figsize=(15, 4))

axes[0].hist(df["esperanza_vida"], bins=20, color="#2E86AB", edgecolor="white")
axes[0].set_title("Distribuci√≥n: Esperanza de Vida", fontweight="bold")
axes[0].set_xlabel("A√±os")

axes[1].hist(np.log10(df["pib_per_capita"]), bins=20, color="#A23B72", edgecolor="white")
axes[1].set_title("Distribuci√≥n: log(PIB per c√°pita)", fontweight="bold")
axes[1].set_xlabel("log‚ÇÅ‚ÇÄ(USD)")

axes[2].scatter(df["pib_per_capita"], df["esperanza_vida"], alpha=0.6, color="#F18F01", edgecolors="white")
axes[2].set_title("PIB vs Esperanza de Vida", fontweight="bold")
axes[2].set_xlabel("PIB per c√°pita (USD)")
axes[2].set_ylabel("Esperanza de vida (a√±os)")

for ax in axes:
    ax.spines["top"].set_visible(False)
    ax.spines["right"].set_visible(False)

plt.tight_layout()
plt.show()

---

## 3. Dividir datos: entrenamiento y prueba

**¬øPor qu√© dividir?** Si evaluamos el modelo con los mismos datos que usamos para entrenarlo, no sabemos si realmente aprendi√≥ o si solo "memoriz√≥". Es como estudiar con el examen ya resuelto.

```
Datos totales (100%)
‚îú‚îÄ‚îÄ Entrenamiento (80%) ‚Üí El modelo aprende de estos
‚îî‚îÄ‚îÄ Prueba (20%) ‚Üí Evaluamos con estos (el modelo nunca los vio)
```


In [None]:
from sklearn.model_selection import train_test_split

# Preparar datos
# X = features (variables predictoras)
# y = target (variable a predecir)

# Usamos log del PIB porque la relaci√≥n es m√°s lineal as√≠
df["log_pib"] = np.log10(df["pib_per_capita"])
df["log_pop"] = np.log10(df["poblacion"])

X = df[["log_pib"]].values  # Una sola feature por ahora
y = df["esperanza_vida"].values

# Dividir: 80% entrenamiento, 20% prueba
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42
)

print(f"üìä Divisi√≥n de datos:")
print(f"  Total:        {len(X)} pa√≠ses")
print(f"  Entrenamiento: {len(X_train)} pa√≠ses ({len(X_train)/len(X)*100:.0f}%)")
print(f"  Prueba:        {len(X_test)} pa√≠ses ({len(X_test)/len(X)*100:.0f}%)")

---

## 4. Tu primer modelo: Regresi√≥n Lineal

La regresi√≥n lineal busca la mejor l√≠nea recta que explique la relaci√≥n entre las variables.

$$y = mx + b$$

Donde:
- $y$ = esperanza de vida (lo que queremos predecir)
- $x$ = log(PIB per c√°pita) (lo que usamos para predecir)
- $m$ = pendiente (cu√°nto cambia $y$ por cada unidad de $x$)
- $b$ = intercepto (valor de $y$ cuando $x = 0$)


In [None]:
from sklearn.linear_model import LinearRegression

# Crear y entrenar el modelo
modelo_lr = LinearRegression()
modelo_lr.fit(X_train, y_train)

# Par√°metros aprendidos
pendiente = modelo_lr.coef_[0]
intercepto = modelo_lr.intercept_

print(f"üìê Modelo entrenado:")
print(f"  Pendiente (m): {pendiente:.2f}")
print(f"  Intercepto (b): {intercepto:.2f}")
print(f"\n  F√≥rmula: esperanza_vida = {pendiente:.2f} √ó log(PIB) + ({intercepto:.2f})")
print(f"\n  Interpretaci√≥n: por cada 10x aumento en PIB per c√°pita,")
print(f"  la esperanza de vida aumenta ~{pendiente:.1f} a√±os")

In [None]:
# Hacer predicciones
y_pred_train = modelo_lr.predict(X_train)
y_pred_test = modelo_lr.predict(X_test)

# Visualizar
fig, axes = plt.subplots(1, 2, figsize=(14, 5))

# Datos de entrenamiento
axes[0].scatter(X_train, y_train, alpha=0.6, color="#2E86AB", edgecolors="white", label="Datos reales")
axes[0].plot(np.sort(X_train, axis=0), modelo_lr.predict(np.sort(X_train, axis=0)),
             color="#C73E1D", linewidth=2.5, label="Modelo")
axes[0].set_title("Entrenamiento", fontweight="bold")
axes[0].set_xlabel("log‚ÇÅ‚ÇÄ(PIB per c√°pita)")
axes[0].set_ylabel("Esperanza de vida (a√±os)")
axes[0].legend()

# Datos de prueba
axes[1].scatter(X_test, y_test, alpha=0.6, color="#F18F01", edgecolors="white", label="Datos reales")
axes[1].plot(np.sort(X_test, axis=0), modelo_lr.predict(np.sort(X_test, axis=0)),
             color="#C73E1D", linewidth=2.5, label="Modelo")
axes[1].set_title("Prueba (datos nuevos)", fontweight="bold")
axes[1].set_xlabel("log‚ÇÅ‚ÇÄ(PIB per c√°pita)")
axes[1].set_ylabel("Esperanza de vida (a√±os)")
axes[1].legend()

for ax in axes:
    ax.spines["top"].set_visible(False)
    ax.spines["right"].set_visible(False)

plt.suptitle("Regresi√≥n Lineal: PIB vs Esperanza de Vida", fontsize=14, fontweight="bold")
plt.tight_layout()
plt.show()

---

## 5. Evaluar el modelo: ¬øqu√© tan bueno es?

### M√©tricas de regresi√≥n

| M√©trica | Qu√© mide | Ideal |
|---------|----------|-------|
| **R¬≤** | % de variaci√≥n explicada por el modelo | Cercano a 1 |
| **MAE** | Error promedio absoluto | Cercano a 0 |
| **RMSE** | Error promedio (penaliza errores grandes) | Cercano a 0 |


In [None]:
from sklearn.metrics import r2_score, mean_absolute_error, mean_squared_error

# M√©tricas en datos de PRUEBA (lo que importa)
r2 = r2_score(y_test, y_pred_test)
mae = mean_absolute_error(y_test, y_pred_test)
rmse = np.sqrt(mean_squared_error(y_test, y_pred_test))

print(f"üìä Evaluaci√≥n del modelo (datos de prueba):")
print(f"  R¬≤ Score:  {r2:.3f}  ({r2*100:.1f}% de la variaci√≥n explicada)")
print(f"  MAE:       {mae:.2f} a√±os  (error promedio)")
print(f"  RMSE:      {rmse:.2f} a√±os  (error promedio penalizado)")

# Comparar train vs test
r2_train = r2_score(y_train, y_pred_train)
print(f"\n  R¬≤ Train:  {r2_train:.3f}")
print(f"  R¬≤ Test:   {r2:.3f}")
if r2_train - r2 > 0.1:
    print("  ‚ö†Ô∏è Posible overfitting (el modelo memoriza en vez de aprender)")
else:
    print("  ‚úÖ El modelo generaliza bien")

In [None]:
# Visualizar errores
errores = y_test - y_pred_test

fig, axes = plt.subplots(1, 2, figsize=(12, 5))

# Predicci√≥n vs Real
axes[0].scatter(y_test, y_pred_test, alpha=0.6, color="#2E86AB", edgecolors="white")
lim = [min(y_test.min(), y_pred_test.min()) - 2, max(y_test.max(), y_pred_test.max()) + 2]
axes[0].plot(lim, lim, "--", color="#C73E1D", linewidth=2, label="Predicci√≥n perfecta")
axes[0].set_xlabel("Valor real (a√±os)")
axes[0].set_ylabel("Predicci√≥n (a√±os)")
axes[0].set_title("Predicci√≥n vs Realidad", fontweight="bold")
axes[0].legend()

# Distribuci√≥n de errores
axes[1].hist(errores, bins=10, color="#A23B72", edgecolor="white", alpha=0.8)
axes[1].axvline(0, color="#C73E1D", linestyle="--", linewidth=2)
axes[1].set_xlabel("Error (a√±os)")
axes[1].set_ylabel("Frecuencia")
axes[1].set_title("Distribuci√≥n de Errores", fontweight="bold")

for ax in axes:
    ax.spines["top"].set_visible(False)
    ax.spines["right"].set_visible(False)

plt.tight_layout()
plt.show()

print(f"Error m√°ximo: {np.max(np.abs(errores)):.1f} a√±os")
print(f"Error promedio: {np.mean(np.abs(errores)):.1f} a√±os")

---

## 6. Mejorar el modelo: m√°s features

Un solo feature (PIB) no captura toda la historia. Agreguemos m√°s variables.


In [None]:
# Preparar datos con m√°s features
# Usaremos datos de TODOS los a√±os para tener m√°s datos de entrenamiento
df_full = gapminder.copy()
df_full = df_full.rename(columns={
    "country": "pais", "continent": "continente", "year": "anio",
    "lifeExp": "esperanza_vida", "pop": "poblacion", "gdpPercap": "pib_per_capita",
})

# Crear features
df_full["log_pib"] = np.log10(df_full["pib_per_capita"])
df_full["log_pop"] = np.log10(df_full["poblacion"])

# One-hot encoding para continentes (convertir categor√≠as a n√∫meros)
continentes_dummies = pd.get_dummies(df_full["continente"], prefix="cont", drop_first=True)
df_full = pd.concat([df_full, continentes_dummies], axis=1)

# Features
feature_cols = ["log_pib", "log_pop", "anio"] + list(continentes_dummies.columns)
X_full = df_full[feature_cols].values
y_full = df_full["esperanza_vida"].values

print(f"Features utilizados ({len(feature_cols)}):")
for i, col in enumerate(feature_cols):
    print(f"  {i+1}. {col}")

print(f"\nDatos totales: {len(X_full)} registros")

# Dividir
X_train_f, X_test_f, y_train_f, y_test_f = train_test_split(
    X_full, y_full, test_size=0.2, random_state=42
)

In [None]:
# Entrenar modelo con m√°s features
modelo_multi = LinearRegression()
modelo_multi.fit(X_train_f, y_train_f)

# Evaluar
y_pred_multi = modelo_multi.predict(X_test_f)
r2_multi = r2_score(y_test_f, y_pred_multi)
mae_multi = mean_absolute_error(y_test_f, y_pred_multi)
rmse_multi = np.sqrt(mean_squared_error(y_test_f, y_pred_multi))

print(f"üìä Modelo con m√∫ltiples features:")
print(f"  R¬≤:   {r2_multi:.3f} (antes: {r2:.3f})")
print(f"  MAE:  {mae_multi:.2f} a√±os (antes: {mae:.2f})")
print(f"  RMSE: {rmse_multi:.2f} a√±os (antes: {rmse:.2f})")
print(f"\n  {'‚úÖ Mejor√≥!' if r2_multi > r2 else '‚ùå No mejor√≥'}")

# Importancia de cada feature (coeficientes)
print(f"\nüìê Coeficientes del modelo:")
for col, coef in zip(feature_cols, modelo_multi.coef_):
    print(f"  {col:<25} {coef:>8.3f}")

---

## 7. M√°s all√° de la regresi√≥n lineal

Scikit-learn tiene muchos modelos. Vamos a comparar varios:


In [None]:
from sklearn.linear_model import LinearRegression, Ridge, Lasso
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import RandomForestRegressor, GradientBoostingRegressor
from sklearn.neighbors import KNeighborsRegressor
from sklearn.svm import SVR
from sklearn.preprocessing import StandardScaler

# Escalar features (necesario para algunos modelos)
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train_f)
X_test_scaled = scaler.transform(X_test_f)

# Definir modelos
modelos = {
    "Regresi√≥n Lineal": LinearRegression(),
    "Ridge": Ridge(alpha=1.0),
    "Lasso": Lasso(alpha=0.1),
    "√Årbol de Decisi√≥n": DecisionTreeRegressor(max_depth=5, random_state=42),
    "Random Forest": RandomForestRegressor(n_estimators=100, max_depth=10, random_state=42),
    "Gradient Boosting": GradientBoostingRegressor(n_estimators=100, max_depth=3, random_state=42),
    "KNN (K=5)": KNeighborsRegressor(n_neighbors=5),
    "SVR": SVR(kernel="rbf", C=100),
}

# Entrenar y evaluar todos
resultados = []
for nombre, modelo in modelos.items():
    # Usar datos escalados para KNN y SVR
    if nombre in ["KNN (K=5)", "SVR"]:
        modelo.fit(X_train_scaled, y_train_f)
        y_pred = modelo.predict(X_test_scaled)
    else:
        modelo.fit(X_train_f, y_train_f)
        y_pred = modelo.predict(X_test_f)

    r2 = r2_score(y_test_f, y_pred)
    mae = mean_absolute_error(y_test_f, y_pred)
    rmse = np.sqrt(mean_squared_error(y_test_f, y_pred))

    resultados.append({
        "Modelo": nombre,
        "R¬≤": r2,
        "MAE": mae,
        "RMSE": rmse,
    })

df_resultados = pd.DataFrame(resultados).sort_values("R¬≤", ascending=False)
df_resultados.index = range(1, len(df_resultados) + 1)
print("üèÜ Comparativa de modelos de regresi√≥n:")
print(df_resultados.to_string())

In [None]:
# Visualizar comparativa
fig, ax = plt.subplots(figsize=(10, 5))

colores = ["#2E86AB" if r > 0.8 else "#F18F01" if r > 0.7 else "#C73E1D"
           for r in df_resultados["R¬≤"]]

bars = ax.barh(df_resultados["Modelo"], df_resultados["R¬≤"], color=colores, edgecolor="white")

for bar, r2 in zip(bars, df_resultados["R¬≤"]):
    ax.text(bar.get_width() + 0.005, bar.get_y() + bar.get_height()/2,
            f"{r2:.3f}", va="center", fontweight="bold", fontsize=10)

ax.set_xlabel("R¬≤ Score", fontsize=12)
ax.set_title("Comparativa de Modelos de Regresi√≥n", fontsize=14, fontweight="bold")
ax.axvline(x=0.8, color="gray", linestyle="--", alpha=0.5, label="R¬≤ = 0.80")
ax.legend()
ax.spines["top"].set_visible(False)
ax.spines["right"].set_visible(False)
ax.set_xlim(0, 1.05)

plt.tight_layout()
plt.show()

mejor = df_resultados.iloc[0]
print(f"\nüèÜ Mejor modelo: {mejor['Modelo']} (R¬≤ = {mejor['R¬≤']:.3f}, MAE = {mejor['MAE']:.2f} a√±os)")

---

## 8. Clasificaci√≥n: predecir categor√≠as

Ahora vamos a cambiar de tarea: en vez de predecir un n√∫mero (regresi√≥n), vamos a **predecir una categor√≠a** (clasificaci√≥n).

**Problema:** dado el PIB per c√°pita, la poblaci√≥n y el a√±o, ¬øen qu√© continente se encuentra un pa√≠s?


In [None]:
from sklearn.preprocessing import LabelEncoder
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix

# Preparar datos para clasificaci√≥n
df_clf = gapminder.copy()
df_clf["log_pib"] = np.log10(df_clf["gdpPercap"])
df_clf["log_pop"] = np.log10(df_clf["pop"])

# Features y target
X_clf = df_clf[["log_pib", "log_pop", "year"]].values
y_clf = df_clf["continent"].values

# Dividir
X_train_c, X_test_c, y_train_c, y_test_c = train_test_split(
    X_clf, y_clf, test_size=0.2, random_state=42, stratify=y_clf
)

print(f"üìä Clasificaci√≥n: predecir continente")
print(f"  Clases: {np.unique(y_clf)}")
print(f"  Train: {len(X_train_c)}, Test: {len(X_test_c)}")
print(f"\n  Distribuci√≥n de clases (test):")
for cont in np.unique(y_test_c):
    count = np.sum(y_test_c == cont)
    print(f"    {cont}: {count} ({count/len(y_test_c)*100:.1f}%)")

In [None]:
# Entrenar Random Forest para clasificaci√≥n
modelo_clf = RandomForestClassifier(n_estimators=100, max_depth=10, random_state=42)
modelo_clf.fit(X_train_c, y_train_c)

# Predecir
y_pred_c = modelo_clf.predict(X_test_c)

# Accuracy
accuracy = accuracy_score(y_test_c, y_pred_c)
print(f"üéØ Accuracy: {accuracy:.3f} ({accuracy*100:.1f}%)")

# Reporte detallado
print(f"\nüìä Reporte de clasificaci√≥n:")
print(classification_report(y_test_c, y_pred_c))

In [None]:
# Matriz de confusi√≥n
cm = confusion_matrix(y_test_c, y_pred_c)
labels = sorted(np.unique(y_test_c))

fig, ax = plt.subplots(figsize=(8, 6))
im = ax.imshow(cm, cmap="Blues")

ax.set_xticks(range(len(labels)))
ax.set_yticks(range(len(labels)))
ax.set_xticklabels(labels, rotation=45, ha="right")
ax.set_yticklabels(labels)
ax.set_xlabel("Predicci√≥n", fontsize=12)
ax.set_ylabel("Real", fontsize=12)
ax.set_title("Matriz de Confusi√≥n", fontsize=14, fontweight="bold")

# Agregar n√∫meros
for i in range(len(labels)):
    for j in range(len(labels)):
        color = "white" if cm[i, j] > cm.max() / 2 else "black"
        ax.text(j, i, str(cm[i, j]), ha="center", va="center",
                fontsize=14, fontweight="bold", color=color)

plt.colorbar(im, ax=ax, shrink=0.8)
plt.tight_layout()
plt.show()

# Interpretaci√≥n
print("üìñ C√≥mo leer la matriz:")
print("  Filas = clase real, Columnas = clase predicha")
print("  La diagonal = predicciones correctas")
print("  Fuera de la diagonal = errores")

---

## 9. ¬øQu√© features importan m√°s?

Los modelos basados en √°rboles nos pueden decir qu√© variables fueron m√°s √∫tiles para hacer predicciones.


In [None]:
# Importancia de features en Random Forest (regresi√≥n)
modelo_rf = RandomForestRegressor(n_estimators=100, max_depth=10, random_state=42)
modelo_rf.fit(X_train_f, y_train_f)

importancias = pd.DataFrame({
    "feature": feature_cols,
    "importancia": modelo_rf.feature_importances_
}).sort_values("importancia", ascending=True)

fig, ax = plt.subplots(figsize=(8, 5))
ax.barh(importancias["feature"], importancias["importancia"], color="#2E86AB", edgecolor="white")
ax.set_title("Importancia de Features (Random Forest)", fontsize=14, fontweight="bold")
ax.set_xlabel("Importancia")
ax.spines["top"].set_visible(False)
ax.spines["right"].set_visible(False)

for i, (_, row) in enumerate(importancias.iterrows()):
    ax.text(row["importancia"] + 0.005, i, f"{row['importancia']:.3f}",
            va="center", fontsize=10)

plt.tight_layout()
plt.show()

print(f"\nüèÜ Feature m√°s importante: {importancias.iloc[-1]['feature']} ({importancias.iloc[-1]['importancia']:.3f})")

---

## 10. Predicciones para M√©xico üá≤üáΩ


In [None]:
# Usar el mejor modelo de regresi√≥n para predecir
# Entrenar Gradient Boosting con todos los features
mejor_modelo = GradientBoostingRegressor(n_estimators=100, max_depth=3, random_state=42)
mejor_modelo.fit(X_train_f, y_train_f)

# Datos hist√≥ricos de M√©xico
mexico = gapminder[gapminder["country"] == "Mexico"].copy()
mexico["log_pib"] = np.log10(mexico["gdpPercap"])
mexico["log_pop"] = np.log10(mexico["pop"])

# Crear features para M√©xico
continentes_dummies_mx = pd.get_dummies(mexico["continent"], prefix="cont", drop_first=True)
for col in [c for c in feature_cols if c.startswith("cont_")]:
    if col not in continentes_dummies_mx.columns:
        continentes_dummies_mx[col] = 0

mexico_features = pd.concat([
    mexico[["log_pib", "log_pop", "year"]].rename(columns={"year": "anio"}).reset_index(drop=True),
    continentes_dummies_mx[sorted(continentes_dummies_mx.columns)].reset_index(drop=True)
], axis=1)[feature_cols].values

# Predicciones
predicciones_mx = mejor_modelo.predict(mexico_features)

# Comparar predicci√≥n vs realidad
print(f"üá≤üáΩ M√©xico ‚Äî Predicci√≥n vs Realidad")
print(f"{'A√±o':>6} {'Real':>8} {'Predicci√≥n':>12} {'Error':>8}")
print("-" * 40)
for i, (_, row) in enumerate(mexico.iterrows()):
    error = predicciones_mx[i] - row["lifeExp"]
    print(f"{row['year']:>6} {row['lifeExp']:>7.1f} {predicciones_mx[i]:>11.1f} {error:>+7.1f}")

mae_mx = np.mean(np.abs(predicciones_mx - mexico["lifeExp"].values))
print(f"\n  Error promedio para M√©xico: {mae_mx:.2f} a√±os")

---

## 11. üèÜ Mini Proyecto: Pipeline completo de ML

Vamos a construir un pipeline profesional de principio a fin para predecir si un pa√≠s tiene esperanza de vida alta o baja:


In [None]:
# üèÜ Pipeline completo: clasificar pa√≠ses en "Alta" o "Baja" esperanza de vida

from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.model_selection import cross_val_score
from sklearn.metrics import accuracy_score, classification_report

# 1. Preparar datos
df_pipe = gapminder.copy()
df_pipe["log_pib"] = np.log10(df_pipe["gdpPercap"])
df_pipe["log_pop"] = np.log10(df_pipe["pop"])

# Crear target binario: esperanza de vida >= mediana global = "Alta"
mediana_global = df_pipe["lifeExp"].median()
df_pipe["categoria_ev"] = np.where(df_pipe["lifeExp"] >= mediana_global, "Alta", "Baja")

print(f"Mediana global de esperanza de vida: {mediana_global:.1f} a√±os")
print(f"Alta (>= {mediana_global:.1f}): {(df_pipe['categoria_ev'] == 'Alta').sum()}")
print(f"Baja (< {mediana_global:.1f}): {(df_pipe['categoria_ev'] == 'Baja').sum()}")

# Features
X_pipe = df_pipe[["log_pib", "log_pop", "year"]].values
y_pipe = df_pipe["categoria_ev"].values

# 2. Dividir
X_train_p, X_test_p, y_train_p, y_test_p = train_test_split(
    X_pipe, y_pipe, test_size=0.2, random_state=42, stratify=y_pipe
)

# 3. Crear pipeline (escalar + modelo en un solo paso)
pipeline = Pipeline([
    ("scaler", StandardScaler()),
    ("modelo", GradientBoostingClassifier(n_estimators=100, max_depth=3, random_state=42)),
])

# 4. Validaci√≥n cruzada (m√°s robusto que un solo train/test split)
scores_cv = cross_val_score(pipeline, X_train_p, y_train_p, cv=5, scoring="accuracy")
print(f"\nüìä Validaci√≥n cruzada (5-fold):")
print(f"  Scores: {scores_cv.round(3)}")
print(f"  Media: {scores_cv.mean():.3f} ¬± {scores_cv.std():.3f}")

# 5. Entrenar con todos los datos de entrenamiento
pipeline.fit(X_train_p, y_train_p)
y_pred_p = pipeline.predict(X_test_p)

# 6. Evaluar
print(f"\nüéØ Accuracy en test: {accuracy_score(y_test_p, y_pred_p):.3f}")
print(f"\n{classification_report(y_test_p, y_pred_p)}")

In [None]:
# 7. Predicciones para pa√≠ses espec√≠ficos
paises_prueba = {
    "Mexico": {"pib": 8000, "pop": 130_000_000, "year": 2025},
    "Nigeria": {"pib": 2000, "pop": 220_000_000, "year": 2025},
    "Jap√≥n": {"pib": 40000, "pop": 125_000_000, "year": 2025},
    "Chile": {"pib": 15000, "pop": 19_500_000, "year": 2025},
}

print("üîÆ Predicciones del modelo:")
print(f"  (Mediana global: {mediana_global:.1f} a√±os)")
print()

for pais, datos in paises_prueba.items():
    features = np.array([[np.log10(datos["pib"]), np.log10(datos["pop"]), datos["year"]]])
    prediccion = pipeline.predict(features)[0]
    proba = pipeline.predict_proba(features)[0]
    confianza = max(proba) * 100

    emoji = "‚úÖ" if prediccion == "Alta" else "‚ö†Ô∏è"
    print(f"  {emoji} {pais}: {prediccion} (confianza: {confianza:.0f}%)")
    print(f"     PIB: ${datos['pib']:,}, Poblaci√≥n: {datos['pop']:,}")
    print()

---

## üî• Retos

1. **Predictor de PIB:** Invierte el problema ‚Äî usa esperanza de vida, poblaci√≥n, continente y a√±o para predecir el PIB per c√°pita de un pa√≠s. Compara al menos 3 modelos diferentes.

2. **Detector de continente mejorado:** Mejora el clasificador de continentes agregando m√°s features (por ejemplo, crear features como PIB/habitante √ó a√±o, o ratio poblaci√≥n/PIB). Intenta superar el accuracy del modelo base.

3. **Sistema de recomendaci√≥n de pol√≠ticas:** Entrena un modelo que prediga la esperanza de vida, luego √∫salo para simular: "Si M√©xico duplica su PIB per c√°pita, ¬øcu√°ntos a√±os de esperanza de vida ganar√≠a?". Haz la misma simulaci√≥n para otros 5 pa√≠ses.


In [None]:
# Reto 1: Predictor de PIB
# Tu c√≥digo aqu√≠ üëá


In [None]:
# Reto 2: Detector de continente mejorado
# Tu c√≥digo aqu√≠ üëá


In [None]:
# Reto 3: Sistema de recomendaci√≥n de pol√≠ticas
# Tu c√≥digo aqu√≠ üëá


---

## üìã Resumen

### Flujo de Machine Learning
| Paso | C√≥digo |
|------|--------|
| Dividir datos | `train_test_split(X, y, test_size=0.2)` |
| Crear modelo | `modelo = RandomForestRegressor()` |
| Entrenar | `modelo.fit(X_train, y_train)` |
| Predecir | `y_pred = modelo.predict(X_test)` |
| Evaluar | `r2_score(y_test, y_pred)` |

### Modelos principales
| Modelo | Tipo | Cu√°ndo usarlo |
|--------|------|--------------|
| Regresi√≥n Lineal | Regresi√≥n | Relaciones lineales simples |
| √Årbol de Decisi√≥n | Ambos | Datos no lineales, interpretabilidad |
| Random Forest | Ambos | Buen rendimiento general |
| Gradient Boosting | Ambos | M√°ximo rendimiento |
| KNN | Ambos | Datos peque√±os, sin entrenamiento |

### M√©tricas
| M√©trica | Regresi√≥n | Clasificaci√≥n |
|---------|-----------|--------------|
| R¬≤ | ‚úÖ | |
| MAE / RMSE | ‚úÖ | |
| Accuracy | | ‚úÖ |
| Precision / Recall | | ‚úÖ |
| Matriz de confusi√≥n | | ‚úÖ |

### Conceptos clave
| Concepto | Significado |
|----------|------------|
| **Overfitting** | El modelo memoriza en vez de aprender |
| **Train/Test split** | Separar datos para evaluar honestamente |
| **Cross-validation** | Evaluar con m√∫ltiples divisiones |
| **Feature engineering** | Crear mejores variables para el modelo |
| **Pipeline** | Encadenar pasos de preprocesamiento + modelo |

---

## ‚è≠Ô∏è ¬øQu√© sigue?

En el siguiente notebook exploraremos **Proyecto Final con IA** ‚Äî donde aplicar√°s todo lo aprendido en un proyecto completo de principio a fin.

üëâ [14 ‚Äî Proyecto Final con IA](14_Proyecto_Final_con_IA.ipynb)

---

<p align="center">
  Hecho con ‚ù§Ô∏è por <a href="https://culiacan.ai">Culiacan.AI</a> ‚Äî Culiac√°n reconocida en el mundo por su talento y emprendimiento en Inteligencia Artificial
</p>
