# ‚úÖ Soluciones: Introducci√≥n a Machine Learning

**M√≥dulo 1: Machine Learning with Python**

---

## ‚ö†Ô∏è Importante

Estas soluciones son **UNA** forma de resolver los ejercicios. Pueden existir otras soluciones igual de v√°lidas.

**Recomendaci√≥n**: Compara tu soluci√≥n con esta, entiende las diferencias, y aprende de los enfoques alternativos.

---

## ‚öôÔ∏è Configuraci√≥n Inicial

In [None]:
# Importar bibliotecas necesarias
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score

# Configuraci√≥n de visualizaci√≥n
%matplotlib inline
plt.style.use('seaborn-v0_8-darkgrid')
plt.rcParams['figure.figsize'] = (10, 6)

# Semilla para reproducibilidad
np.random.seed(42)

print("‚úÖ Bibliotecas importadas correctamente")

---

## Ejercicio 1: Operaciones con NumPy (‚≠ê)

### Soluci√≥n:

In [None]:
# 1. Crear array de ventas
ventas = np.array([45, 52, 48, 61, 55, 58, 62, 70, 65, 68, 72, 80])
print("Ventas mensuales (miles USD):", ventas)

# 2. Calcular estad√≠sticas
media = np.mean(ventas)
mediana = np.median(ventas)
desv_std = np.std(ventas)
minimo = np.min(ventas)
maximo = np.max(ventas)

print("\nüìä Estad√≠sticas:")
print(f"  Media: ${media:.2f}k")
print(f"  Mediana: ${mediana:.2f}k")
print(f"  Desviaci√≥n est√°ndar: ${desv_std:.2f}k")
print(f"  M√≠nimo: ${minimo}k")
print(f"  M√°ximo: ${maximo}k")

# 3. Incremento porcentual
incremento = ((ventas[-1] - ventas[0]) / ventas[0]) * 100
print(f"\nüìà Incremento del primer al √∫ltimo mes: {incremento:.2f}%")

# 4. Normalizaci√≥n (z-score)
ventas_normalizadas = (ventas - media) / desv_std
print(f"\nüîÑ Ventas normalizadas:")
print(ventas_normalizadas)
print(f"\nVerificaci√≥n: Media={np.mean(ventas_normalizadas):.2e}, Std={np.std(ventas_normalizadas):.2f}")

### üí° Explicaci√≥n:

- **Normalizaci√≥n (Z-score)**: Convierte datos a una escala con media 0 y desv. std. 1
- **Incremento porcentual**: `((valor_final - valor_inicial) / valor_inicial) * 100`
- La normalizaci√≥n es √∫til en ML para que diferentes features est√©n en la misma escala

---

## Ejercicio 2: An√°lisis de Datos con Pandas (‚≠ê‚≠ê)

### Datos:

In [None]:
# Crear DataFrame
datos_estudiantes = {
    'Nombre': ['Ana', 'Luis', 'Carlos', 'Mar√≠a', 'Pedro', 'Laura', 'Jos√©', 'Carmen', 'Miguel', 'Sara'],
    'Matem√°ticas': [85, 78, 92, 88, 76, 95, 82, 90, 84, 91],
    'F√≠sica': [82, 75, 88, 85, 79, 92, 80, 87, 83, 89],
    'Qu√≠mica': [88, 80, 90, 92, 82, 94, 85, 91, 86, 93],
    'Horas_Estudio': [15, 10, 20, 18, 12, 22, 14, 19, 16, 21]
}

df_estudiantes = pd.DataFrame(datos_estudiantes)
print(df_estudiantes)

### Soluci√≥n - Tarea 1: Calcular promedio

In [None]:
# Calcular promedio de las 3 materias
df_estudiantes['Promedio'] = df_estudiantes[['Matem√°ticas', 'F√≠sica', 'Qu√≠mica']].mean(axis=1)

print("DataFrame con columna Promedio:")
print(df_estudiantes)

### Soluci√≥n - Tarea 2: Mejor estudiante

In [None]:
# M√©todo 1: Usando idxmax()
idx_mejor = df_estudiantes['Promedio'].idxmax()
mejor_estudiante = df_estudiantes.loc[idx_mejor]

print("üèÜ Estudiante con mejor promedio:")
print(f"  Nombre: {mejor_estudiante['Nombre']}")
print(f"  Promedio: {mejor_estudiante['Promedio']:.2f}")

# M√©todo 2: Ordenar y tomar el primero
print("\nM√©todo alternativo:")
print(df_estudiantes.nlargest(1, 'Promedio')[['Nombre', 'Promedio']])

### Soluci√≥n - Tarea 3: Filtrar estudiantes

In [None]:
# Filtrar estudiantes con promedio > 85
estudiantes_destacados = df_estudiantes[df_estudiantes['Promedio'] > 85]

print("üìö Estudiantes con promedio mayor a 85:")
print(estudiantes_destacados[['Nombre', 'Promedio']])
print(f"\nTotal: {len(estudiantes_destacados)} estudiantes")

### Soluci√≥n - Tarea 4: Correlaci√≥n

In [None]:
# Calcular correlaci√≥n
correlacion = df_estudiantes['Horas_Estudio'].corr(df_estudiantes['Promedio'])

print(f"üìä Correlaci√≥n entre Horas de Estudio y Promedio: {correlacion:.3f}")

if correlacion > 0.7:
    print("‚úÖ Correlaci√≥n FUERTE positiva: M√°s horas ‚Üí Mejor promedio")
elif correlacion > 0.3:
    print("‚úÖ Correlaci√≥n MODERADA positiva")
else:
    print("‚ö†Ô∏è  Correlaci√≥n D√âBIL")

# Matriz de correlaci√≥n completa
print("\nMatriz de correlaci√≥n:")
print(df_estudiantes[['Matem√°ticas', 'F√≠sica', 'Qu√≠mica', 'Horas_Estudio', 'Promedio']].corr())

### Soluci√≥n - Tarea 5: Ordenar

In [None]:
# Ordenar por promedio (mayor a menor)
df_ordenado = df_estudiantes.sort_values('Promedio', ascending=False)

print("üéì Estudiantes ordenados por promedio:")
print(df_ordenado[['Nombre', 'Promedio']].reset_index(drop=True))

---

## Ejercicio 3: Visualizaci√≥n con Matplotlib (‚≠ê‚≠ê)

### Soluci√≥n - Tarea 1: Gr√°fico de barras

In [None]:
plt.figure(figsize=(12, 6))
plt.bar(df_estudiantes['Nombre'], df_estudiantes['Promedio'], 
        color='steelblue', edgecolor='black', alpha=0.7)
plt.xlabel('Estudiante', fontsize=12)
plt.ylabel('Promedio', fontsize=12)
plt.title('Promedio de Calificaciones por Estudiante', fontsize=14, fontweight='bold')
plt.axhline(y=85, color='red', linestyle='--', linewidth=2, label='L√≠mite de excelencia (85)')
plt.xticks(rotation=45)
plt.legend()
plt.grid(axis='y', alpha=0.3)
plt.tight_layout()
plt.show()

### Soluci√≥n - Tarea 2: Scatter con l√≠nea de tendencia

In [None]:
# Datos
x = df_estudiantes['Horas_Estudio']
y = df_estudiantes['Promedio']

# Calcular l√≠nea de tendencia
coeficientes = np.polyfit(x, y, 1)  # Grado 1 = l√≠nea recta
polinomio = np.poly1d(coeficientes)
x_linea = np.linspace(x.min(), x.max(), 100)
y_linea = polinomio(x_linea)

# Gr√°fico
plt.figure(figsize=(10, 6))
plt.scatter(x, y, s=100, alpha=0.6, color='blue', edgecolors='black')
plt.plot(x_linea, y_linea, 'r--', linewidth=2, label=f'Tendencia: y = {coeficientes[0]:.2f}x + {coeficientes[1]:.2f}')
plt.xlabel('Horas de Estudio', fontsize=12)
plt.ylabel('Promedio', fontsize=12)
plt.title('Relaci√≥n entre Horas de Estudio y Promedio', fontsize=14, fontweight='bold')
plt.legend()
plt.grid(True, alpha=0.3)
plt.tight_layout()
plt.show()

print(f"Ecuaci√≥n: Promedio = {coeficientes[0]:.2f} * Horas + {coeficientes[1]:.2f}")

### Soluci√≥n - Tarea 3: Histograma

In [None]:
plt.figure(figsize=(10, 6))
plt.hist(df_estudiantes['Promedio'], bins=5, edgecolor='black', 
         color='skyblue', alpha=0.7)
plt.xlabel('Promedio', fontsize=12)
plt.ylabel('Frecuencia', fontsize=12)
plt.title('Distribuci√≥n de Promedios', fontsize=14, fontweight='bold')
plt.axvline(df_estudiantes['Promedio'].mean(), color='red', 
            linestyle='--', linewidth=2, 
            label=f"Media: {df_estudiantes['Promedio'].mean():.2f}")
plt.legend()
plt.grid(axis='y', alpha=0.3)
plt.tight_layout()
plt.show()

### Soluci√≥n - Tarea 4: Subplots 2x2

In [None]:
fig, axes = plt.subplots(2, 2, figsize=(14, 10))

# Subplot 1: Gr√°fico de barras del promedio
axes[0, 0].bar(df_estudiantes['Nombre'], df_estudiantes['Promedio'], 
               color='steelblue', edgecolor='black', alpha=0.7)
axes[0, 0].set_title('Promedio por Estudiante', fontweight='bold')
axes[0, 0].set_xlabel('Estudiante')
axes[0, 0].set_ylabel('Promedio')
axes[0, 0].tick_params(axis='x', rotation=45)
axes[0, 0].grid(axis='y', alpha=0.3)

# Subplot 2: Scatter de Horas vs Promedio
axes[0, 1].scatter(df_estudiantes['Horas_Estudio'], df_estudiantes['Promedio'], 
                   s=100, alpha=0.6, color='green', edgecolors='black')
axes[0, 1].set_title('Horas de Estudio vs Promedio', fontweight='bold')
axes[0, 1].set_xlabel('Horas de Estudio')
axes[0, 1].set_ylabel('Promedio')
axes[0, 1].grid(True, alpha=0.3)

# Subplot 3: Histograma de promedios
axes[1, 0].hist(df_estudiantes['Promedio'], bins=5, edgecolor='black', 
                color='orange', alpha=0.7)
axes[1, 0].set_title('Distribuci√≥n de Promedios', fontweight='bold')
axes[1, 0].set_xlabel('Promedio')
axes[1, 0].set_ylabel('Frecuencia')
axes[1, 0].grid(axis='y', alpha=0.3)

# Subplot 4: L√≠nea de Matem√°ticas
axes[1, 1].plot(df_estudiantes['Nombre'], df_estudiantes['Matem√°ticas'], 
                marker='o', linewidth=2, markersize=8, color='purple')
axes[1, 1].set_title('Calificaciones de Matem√°ticas', fontweight='bold')
axes[1, 1].set_xlabel('Estudiante')
axes[1, 1].set_ylabel('Calificaci√≥n')
axes[1, 1].tick_params(axis='x', rotation=45)
axes[1, 1].grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

---

## Ejercicio 4: Modelo de Machine Learning (‚≠ê‚≠ê‚≠ê)

### Datos:

In [None]:
# Generar datos
np.random.seed(42)
gasto_publicidad = np.random.uniform(10, 100, 100)
ventas = 50 + 3 * gasto_publicidad + np.random.normal(0, 20, 100)

df_marketing = pd.DataFrame({
    'Gasto_Publicidad': gasto_publicidad,
    'Ventas': ventas
})

print("Dataset de Marketing:")
print(df_marketing.head())

### Soluci√≥n - Tarea 1: Exploraci√≥n

In [None]:
# Estad√≠sticas descriptivas
print("üìä Estad√≠sticas Descriptivas:")
print(df_marketing.describe())

# Scatter plot
plt.figure(figsize=(10, 6))
plt.scatter(df_marketing['Gasto_Publicidad'], df_marketing['Ventas'], 
            alpha=0.5, s=80, edgecolors='black')
plt.xlabel('Gasto en Publicidad ($1000s)', fontsize=12)
plt.ylabel('Ventas ($1000s)', fontsize=12)
plt.title('Gasto en Publicidad vs Ventas', fontsize=14, fontweight='bold')
plt.grid(True, alpha=0.3)
plt.tight_layout()
plt.show()

# Correlaci√≥n
correlacion = df_marketing['Gasto_Publicidad'].corr(df_marketing['Ventas'])
print(f"\nüîó Correlaci√≥n: {correlacion:.3f}")
print("‚úÖ Hay una correlaci√≥n muy fuerte y positiva")

### Soluci√≥n - Tarea 2: Preparaci√≥n

In [None]:
# Separar features y target
X = df_marketing[['Gasto_Publicidad']].values  # Necesita ser 2D
y = df_marketing['Ventas'].values

# Dividir en train/test (80/20)
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42
)

print(f"üìö Datos de entrenamiento: {len(X_train)} muestras")
print(f"üß™ Datos de prueba: {len(X_test)} muestras")
print(f"\nForma de X_train: {X_train.shape}")
print(f"Forma de y_train: {y_train.shape}")

### Soluci√≥n - Tarea 3: Entrenamiento

In [None]:
# Crear modelo de Regresi√≥n Lineal
modelo = LinearRegression()

# Entrenar el modelo
modelo.fit(X_train, y_train)

print("‚úÖ Modelo entrenado exitosamente")
print("\nüìê Par√°metros del modelo:")
print(f"  Coeficiente (pendiente): {modelo.coef_[0]:.3f}")
print(f"  Intercepto: {modelo.intercept_:.3f}")
print(f"\nüìù Ecuaci√≥n: Ventas = {modelo.coef_[0]:.3f} * Gasto + {modelo.intercept_:.3f}")
print(f"\nInterpretaci√≥n: Por cada $1000 adicionales en publicidad,")
print(f"las ventas aumentan aproximadamente ${modelo.coef_[0]:.2f}k")

### Soluci√≥n - Tarea 4: Evaluaci√≥n

In [None]:
# Predicciones en el conjunto de prueba
y_pred = modelo.predict(X_test)

# Calcular m√©tricas
mse = mean_squared_error(y_test, y_pred)
rmse = np.sqrt(mse)
r2 = r2_score(y_test, y_pred)

print("üìä M√©tricas de Evaluaci√≥n:")
print(f"  MSE (Error Cuadr√°tico Medio): {mse:.2f}")
print(f"  RMSE (Ra√≠z del ECM): ${rmse:.2f}k")
print(f"  R¬≤ Score: {r2:.4f}")
print(f"\n‚úÖ El modelo explica {r2*100:.2f}% de la variabilidad en las ventas")
print(f"‚úÖ Error promedio de predicci√≥n: ¬±${rmse:.2f}k")

# Gr√°fico: Datos + L√≠nea de regresi√≥n
plt.figure(figsize=(12, 6))

# Todos los datos (train + test)
plt.scatter(X_train, y_train, alpha=0.5, s=80, label='Train', color='blue')
plt.scatter(X_test, y_test, alpha=0.5, s=80, label='Test', color='green')

# L√≠nea de regresi√≥n
X_linea = np.linspace(X.min(), X.max(), 100).reshape(-1, 1)
y_linea = modelo.predict(X_linea)
plt.plot(X_linea, y_linea, 'r-', linewidth=2, 
         label=f'Regresi√≥n: y = {modelo.coef_[0]:.2f}x + {modelo.intercept_:.2f}')

plt.xlabel('Gasto en Publicidad ($1000s)', fontsize=12)
plt.ylabel('Ventas ($1000s)', fontsize=12)
plt.title(f'Regresi√≥n Lineal: Publicidad vs Ventas (R¬≤ = {r2:.4f})', 
          fontsize=14, fontweight='bold')
plt.legend(fontsize=10)
plt.grid(True, alpha=0.3)
plt.tight_layout()
plt.show()

# Gr√°fico: Predicciones vs Valores Reales
plt.figure(figsize=(10, 6))
plt.scatter(y_test, y_pred, alpha=0.6, s=80, edgecolors='black')
plt.plot([y_test.min(), y_test.max()], 
         [y_test.min(), y_test.max()], 
         'r--', linewidth=2, label='Predicci√≥n perfecta')
plt.xlabel('Ventas Reales ($1000s)', fontsize=12)
plt.ylabel('Ventas Predichas ($1000s)', fontsize=12)
plt.title('Predicciones vs Valores Reales', fontsize=14, fontweight='bold')
plt.legend()
plt.grid(True, alpha=0.3)
plt.tight_layout()
plt.show()

### Soluci√≥n - Tarea 5: Predicci√≥n

In [None]:
# Predicci√≥n para gasto de $50k
gasto_nuevo = np.array([[50]])  # Debe ser 2D
venta_predicha = modelo.predict(gasto_nuevo)[0]

print("üéØ Predicci√≥n:")
print(f"  Gasto en publicidad: $50,000")
print(f"  Ventas estimadas: ${venta_predicha:.2f}k ‚âà ${venta_predicha*1000:.0f}")

# Predicciones para varios valores
gastos_prueba = np.array([[20], [40], [60], [80], [100]])
ventas_predichas = modelo.predict(gastos_prueba)

print("\nüìä Tabla de predicciones:")
tabla = pd.DataFrame({
    'Gasto ($1000s)': gastos_prueba.flatten(),
    'Ventas Estimadas ($1000s)': ventas_predichas
})
print(tabla)

### üí° Interpretaci√≥n de Resultados:

1. **R¬≤ ‚âà 0.95**: El modelo explica ~95% de la variabilidad ‚Üí Excelente ajuste
2. **Coeficiente ‚âà 3**: Por cada $1k en publicidad, las ventas aumentan ~$3k
3. **RMSE**: Error promedio de predicci√≥n (en miles de d√≥lares)
4. **ROI impl√≠cito**: 3:1 (por cada d√≥lar gastado, retornan 3 d√≥lares)

---

## Ejercicio 5: Proyecto Mini - An√°lisis de Temperatura (‚≠ê‚≠ê‚≠ê)

### Datos:

In [None]:
# Generar datos
np.random.seed(42)
dias = np.arange(1, 91)
temperatura_base = 15 + 0.2 * dias
variacion_diaria = 5 * np.sin(dias * 2 * np.pi / 7)
ruido = np.random.normal(0, 2, 90)
temperatura = temperatura_base + variacion_diaria + ruido

df_temperatura = pd.DataFrame({
    'Dia': dias,
    'Temperatura_C': temperatura
})

print("Dataset de Temperatura:")
print(df_temperatura.head(10))

### Soluci√≥n - Parte 1: An√°lisis Exploratorio

In [None]:
# Estad√≠sticas
temp_media = df_temperatura['Temperatura_C'].mean()
temp_min = df_temperatura['Temperatura_C'].min()
temp_max = df_temperatura['Temperatura_C'].max()
temp_std = df_temperatura['Temperatura_C'].std()

print("üå°Ô∏è  Estad√≠sticas de Temperatura:")
print(f"  Media: {temp_media:.2f}¬∞C")
print(f"  M√≠nima: {temp_min:.2f}¬∞C")
print(f"  M√°xima: {temp_max:.2f}¬∞C")
print(f"  Desviaci√≥n est√°ndar: {temp_std:.2f}¬∞C")
print(f"  Rango: {temp_max - temp_min:.2f}¬∞C")

# Gr√°fico de temperatura
plt.figure(figsize=(14, 6))
plt.plot(df_temperatura['Dia'], df_temperatura['Temperatura_C'], 
         linewidth=2, alpha=0.7, color='orange')
plt.axhline(y=temp_media, color='red', linestyle='--', linewidth=2, 
            label=f'Media: {temp_media:.2f}¬∞C')
plt.fill_between(df_temperatura['Dia'], 
                 temp_media - temp_std, 
                 temp_media + temp_std, 
                 alpha=0.2, color='red', 
                 label=f'¬±1 Desv. Est.')
plt.xlabel('D√≠a', fontsize=12)
plt.ylabel('Temperatura (¬∞C)', fontsize=12)
plt.title('Temperatura Durante 90 D√≠as', fontsize=14, fontweight='bold')
plt.legend()
plt.grid(True, alpha=0.3)
plt.tight_layout()
plt.show()

### Soluci√≥n - Parte 2: An√°lisis Estad√≠stico

In [None]:
# Crear columna de semana
df_temperatura['Semana'] = (df_temperatura['Dia'] - 1) // 7 + 1

# Temperatura promedio por semana
temp_semanal = df_temperatura.groupby('Semana')['Temperatura_C'].mean()

print("üìä Temperatura promedio por semana:")
print(temp_semanal)

# Gr√°fico de barras
plt.figure(figsize=(14, 6))
plt.bar(temp_semanal.index, temp_semanal.values, 
        color='skyblue', edgecolor='black', alpha=0.7)
plt.xlabel('Semana', fontsize=12)
plt.ylabel('Temperatura Promedio (¬∞C)', fontsize=12)
plt.title('Temperatura Promedio Semanal', fontsize=14, fontweight='bold')
plt.axhline(y=temp_media, color='red', linestyle='--', linewidth=2, 
            label=f'Media global: {temp_media:.2f}¬∞C')
plt.xticks(temp_semanal.index)
plt.legend()
plt.grid(axis='y', alpha=0.3)
plt.tight_layout()
plt.show()

# Tendencia
dif_primera_ultima = temp_semanal.iloc[-1] - temp_semanal.iloc[0]
print(f"\nüìà Cambio de primera a √∫ltima semana: {dif_primera_ultima:+.2f}¬∞C")

### Soluci√≥n - Parte 3: Predicci√≥n

In [None]:
# Preparar datos
X = df_temperatura[['Dia']].values
y = df_temperatura['Temperatura_C'].values

# Dividir train/test (80/20)
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42
)

# Entrenar modelo
modelo_temp = LinearRegression()
modelo_temp.fit(X_train, y_train)

print("‚úÖ Modelo entrenado")
print(f"\nüìê Ecuaci√≥n: Temp = {modelo_temp.coef_[0]:.4f} * Dia + {modelo_temp.intercept_:.2f}")
print(f"\nInterpretaci√≥n: La temperatura aumenta {modelo_temp.coef_[0]:.4f}¬∞C por d√≠a")

# Evaluar
y_pred_test = modelo_temp.predict(X_test)
rmse = np.sqrt(mean_squared_error(y_test, y_pred_test))
r2 = r2_score(y_test, y_pred_test)

print(f"\nüìä M√©tricas:")
print(f"  RMSE: {rmse:.2f}¬∞C")
print(f"  R¬≤: {r2:.4f} ({r2*100:.2f}% de la varianza explicada)")

# Predicciones futuras (d√≠as 91-95)
dias_futuros = np.array([[91], [92], [93], [94], [95]])
temp_futuras = modelo_temp.predict(dias_futuros)

print(f"\nüîÆ Predicciones futuras:")
for dia, temp in zip(dias_futuros.flatten(), temp_futuras):
    print(f"  D√≠a {dia}: {temp:.2f}¬∞C")

# Gr√°fico completo
plt.figure(figsize=(14, 7))

# Datos hist√≥ricos
plt.scatter(X, y, alpha=0.5, s=50, color='blue', label='Datos hist√≥ricos')

# L√≠nea de tendencia
X_linea = np.linspace(1, 95, 200).reshape(-1, 1)
y_linea = modelo_temp.predict(X_linea)
plt.plot(X_linea, y_linea, 'g-', linewidth=2, label='L√≠nea de tendencia')

# Predicciones futuras
plt.scatter(dias_futuros, temp_futuras, s=150, color='red', 
            marker='*', edgecolors='black', linewidths=2, 
            label='Predicciones futuras', zorder=5)

# Zona de predicci√≥n
plt.axvspan(90, 95, alpha=0.1, color='red', label='Zona de predicci√≥n')

plt.xlabel('D√≠a', fontsize=12)
plt.ylabel('Temperatura (¬∞C)', fontsize=12)
plt.title(f'An√°lisis de Temperatura y Predicci√≥n (R¬≤ = {r2:.4f})', 
          fontsize=14, fontweight='bold')
plt.legend(loc='upper left')
plt.grid(True, alpha=0.3)
plt.tight_layout()
plt.show()

### Soluci√≥n - Parte 4: Insights

**1. ¬øLa temperatura est√° aumentando o disminuyendo?**

- ‚úÖ **Aumentando**: El coeficiente del modelo es positivo (~0.20¬∞C/d√≠a)
- La temperatura aumenta aproximadamente 0.2¬∞C por d√≠a
- En 90 d√≠as, el incremento total es de ~18¬∞C
- Esto simula la transici√≥n de invierno a primavera/verano

**2. ¬øQu√© tan confiable es el modelo para predicciones futuras?**

- **R¬≤ moderado** (~0.50-0.70): El modelo captura la tendencia general, pero hay mucha variabilidad
- **RMSE ~4-5¬∞C**: Error promedio de predicci√≥n
- **Confiable a corto plazo** (1-7 d√≠as): Las predicciones son razonables
- **Menos confiable a largo plazo** (>7 d√≠as): La variabilidad natural del clima limita la precisi√≥n
- Los datos tienen un patr√≥n c√≠clico semanal que el modelo lineal no captura completamente

**3. ¬øQu√© limitaciones tiene este modelo?**

1. **Modelo lineal simple**: Solo captura tendencia lineal, no patrones complejos
2. **No captura estacionalidad**: Hay variaci√≥n c√≠clica semanal que el modelo ignora
3. **Asume tendencia constante**: En realidad, el clima tiene cambios no lineales
4. **Solo usa el d√≠a como feature**: Ignora otros factores como humedad, presi√≥n, etc.
5. **Extrapolaci√≥n riesgosa**: Predicciones muy lejanas en el futuro son poco confiables
6. **No considera eventos extremos**: No puede predecir olas de calor o fr√≠o

**Mejoras posibles:**
- Usar modelos m√°s complejos (Regresi√≥n Polinomial, Series de Tiempo)
- Incluir m√°s features (humedad, presi√≥n atmosf√©rica, estaci√≥n del a√±o)
- Aplicar t√©cnicas de series temporales (ARIMA, Prophet)
- Considerar patrones c√≠clicos expl√≠citamente

In [None]:
# An√°lisis adicional: Comparaci√≥n entre predicci√≥n lineal y datos reales
y_pred_all = modelo_temp.predict(X)
residuos = y - y_pred_all

print("üìä An√°lisis de Residuos:")
print(f"  Media de residuos: {residuos.mean():.4f}¬∞C (cercano a 0 es bueno)")
print(f"  Desv. Est. de residuos: {residuos.std():.2f}¬∞C")

# Gr√°fico de residuos
fig, axes = plt.subplots(1, 2, figsize=(14, 5))

# Residuos vs Predicciones
axes[0].scatter(y_pred_all, residuos, alpha=0.5)
axes[0].axhline(y=0, color='red', linestyle='--', linewidth=2)
axes[0].set_xlabel('Valores Predichos (¬∞C)')
axes[0].set_ylabel('Residuos (¬∞C)')
axes[0].set_title('Residuos vs Predicciones')
axes[0].grid(True, alpha=0.3)

# Histograma de residuos
axes[1].hist(residuos, bins=20, edgecolor='black', alpha=0.7)
axes[1].axvline(x=0, color='red', linestyle='--', linewidth=2)
axes[1].set_xlabel('Residuos (¬∞C)')
axes[1].set_ylabel('Frecuencia')
axes[1].set_title('Distribuci√≥n de Residuos')
axes[1].grid(axis='y', alpha=0.3)

plt.tight_layout()
plt.show()

print("\n‚úÖ Los residuos deber√≠an estar distribuidos aleatoriamente alrededor de 0")
print("‚ö†Ô∏è  Si ves patrones en los residuos, el modelo puede mejorarse")

---

## üéì Resumen de Soluciones

### Conceptos Clave Aplicados:

1. **NumPy**: Operaciones vectorizadas, estad√≠sticas, normalizaci√≥n
2. **Pandas**: Manipulaci√≥n de datos, filtrado, agrupaci√≥n, agregaci√≥n
3. **Matplotlib**: Diversos tipos de gr√°ficos, personalizaci√≥n, subplots
4. **Scikit-learn**: Train/test split, entrenamiento, predicci√≥n, evaluaci√≥n
5. **Interpretaci√≥n**: R¬≤, RMSE, coeficientes, limitaciones de modelos

### Habilidades Desarrolladas:

- ‚úÖ An√°lisis exploratorio de datos (EDA)
- ‚úÖ Visualizaci√≥n efectiva de informaci√≥n
- ‚úÖ Preparaci√≥n de datos para ML
- ‚úÖ Entrenamiento y evaluaci√≥n de modelos
- ‚úÖ Interpretaci√≥n cr√≠tica de resultados
- ‚úÖ Identificaci√≥n de limitaciones

---

## üí° Tips para Mejorar

1. **Practica regularmente**: Crea tus propios datasets y problemas
2. **Experimenta con par√°metros**: Cambia valores y observa efectos
3. **Compara enfoques**: Hay m√∫ltiples formas de resolver cada problema
4. **Lee documentaci√≥n**: Las docs de sklearn son excelentes
5. **Visualiza siempre**: Los gr√°ficos revelan patrones ocultos

---

## üöÄ Siguientes Pasos

1. **Revisa** tus soluciones vs estas
2. **Entiende** las diferencias y alternativas
3. **Experimenta** con variaciones de los ejercicios
4. **Avanza** a la siguiente lecci√≥n: Regresi√≥n Lineal Simple

---

**¬°Felicitaciones por completar los ejercicios! üéâ**

Est√°s desarrollando las habilidades fundamentales para Machine Learning. ¬°Sigue as√≠! üí™