# Modelado Predictivo en *Machine Learning*

## Introducción a Modelos en Machine Learning

### Definición de Modelo
Un **modelo** es una representación simplificada de la realidad creada para un propósito específico. En ciencia de datos, distinguimos:

- **Modelos predictivos**: Conjuntos de fórmulas o reglas que permiten estimar valores desconocidos (ej: predecir ventas futuras).
- **Modelos descriptivos**: Ayudan a descubrir patrones subyacentes en los datos (ej: segmentación de clientes).

### Proceso de Aprendizaje Automático
El proceso típico incluye:
1. **Preparación de datos**: Carga, limpieza, transformación y división
2. **Selección de técnica**: Elección del tipo de tarea (clasificación, regresión, clustering)
3. **Ajuste de hiperparámetros**: Configuraciones no aprendidas de los datos
4. **Evaluación del modelo**: Validación con métricas apropiadas


## Ejemplo Práctico: Clasificación con SVM

### Planteamiento del Problema
**Objetivo**: Clasificar la población de hongos según sus características.

**Tipo de problema**:
- **Aprendizaje supervisado** (tenemos etiquetas conocidas)
- **Clasificación multiclase** (6 categorías de población)

### Ejemplo

In [1]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder
from sklearn.svm import SVC
from sklearn.metrics import classification_report, accuracy_score

# Crear dataset sintético para demostración (simulando datos categóricos)
np.random.seed(42)
n_samples = 1000

# Características simuladas (todas categóricas)
data = {
    'clase': np.random.choice(['e', 'p'], n_samples),
    'forma_sombrero': np.random.choice(['c', 'x', 'f', 'k', 's'], n_samples),
    'olor': np.random.choice(['a', 'l', 'c', 'y', 'f'], n_samples),
    'color_tallo': np.random.choice(['w', 'p', 'g', 'e', 'n'], n_samples),
    'poblacion': np.random.choice(['a', 'c', 'n', 's', 'v', 'y'], n_samples)
}

df = pd.DataFrame(data)

# Separar características (X) y variable objetivo (y)
X = df.drop('poblacion', axis=1)
y = df['poblacion']

In [2]:
# SVM requiere variables numéricas, por lo que codificamos las categóricas
le = LabelEncoder()

# Aplicar LabelEncoder a cada columna categórica
X_encoded = X.copy()
for col in X_encoded.columns:
    X_encoded[col] = le.fit_transform(X_encoded[col])

# También codificamos la variable objetivo
y_encoded = le.fit_transform(y)

In [3]:
X_train, X_test, y_train, y_test = train_test_split(
    X_encoded, y_encoded, 
    test_size=0.2, 
    random_state=42,
    stratify=y_encoded  # Mantiene proporción de clases
)

print(f"Tamaño del conjunto de entrenamiento: {X_train.shape}")
print(f"Tamaño del conjunto de prueba: {X_test.shape}")

Tamaño del conjunto de entrenamiento: (800, 4)
Tamaño del conjunto de prueba: (200, 4)


In [None]:
# Crear y entrenar el clasificador SVM
svm_clf = SVC(
    C=1.0,           # Parámetro de regularización
    kernel='linear', # Tipo de kernel
    random_state=42,
    verbose=False
)

svm_clf.fit(X_train, y_train)

In [5]:
# Realizar predicciones
y_pred = svm_clf.predict(X_test)

# Evaluar el modelo
print("\n" + "="*60)
print("REPORTE DE CLASIFICACIÓN")
print("="*60)
print(classification_report(y_test, y_pred, target_names=le.classes_))

accuracy = accuracy_score(y_test, y_pred)
print(f"Exactitud (Accuracy): {accuracy:.4f}")


REPORTE DE CLASIFICACIÓN
              precision    recall  f1-score   support

           a       0.19      0.18      0.18        34
           c       0.18      0.39      0.24        31
           n       0.30      0.54      0.39        37
           s       0.00      0.00      0.00        30
           v       0.33      0.12      0.17        34
           y       0.22      0.15      0.18        34

    accuracy                           0.23       200
   macro avg       0.20      0.23      0.19       200
weighted avg       0.21      0.23      0.20       200

Exactitud (Accuracy): 0.2350


  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))


#### Explicación del Código

**Transformación de Variables Categóricas**
- **Problema**: SVM solo funciona con variables numéricas.
- **Solución**: Usamos `LabelEncoder` para convertir categorías a números.
- **Limitación**: Esta codificación asume un orden arbitrario que puede no existir.
- **Alternativa mejor**: `OneHotEncoder` (ver sección 2.4).

**Parámetros Clave de SVM**
1. **`C`** (Parámetro de regularización):
   - Controla el trade-off entre maximizar el margen y minimizar el error.
   - Valores altos: Menor regularización, posible sobreajuste.
   - Valores bajos: Mayor regularización, posible subajuste.

2. **`kernel`** (Tipo de kernel):
   - `'linear'`: Separación lineal, rápido y interpretable.
   - `'rbf'`: Separación no lineal, más flexible pero lento.
   - `'poly'`: Separación polinomial, intermedio en flexibilidad.

**División Train/Test**
- `test_size=0.2`: 20% para prueba, 80% para entrenamiento.
- `random_state=42`: Semilla para reproducibilidad.
- `stratify=y`: Mantiene proporción original de clases en ambos conjuntos.


### *One-Hot Encoding*

In [6]:
from sklearn.preprocessing import OneHotEncoder
from sklearn.compose import ColumnTransformer

# Ejemplo con OneHotEncoder
ct = ColumnTransformer(
    transformers=[
        ('encoder', OneHotEncoder(handle_unknown='ignore'), list(range(X.shape[1])))
    ],
    remainder='passthrough'
)

X_ohe = ct.fit_transform(X)

# Dividir y entrenar (similar al ejemplo anterior)
X_train_ohe, X_test_ohe, y_train_ohe, y_test_ohe = train_test_split(
    X_ohe, y_encoded, test_size=0.2, random_state=42
)

svm_ohe = SVC(kernel='linear', random_state=42)
svm_ohe.fit(X_train_ohe, y_train_ohe)
y_pred_ohe = svm_ohe.predict(X_test_ohe)

print(f"Accuracy con One-Hot Encoding: {accuracy_score(y_test_ohe, y_pred_ohe):.4f}")

Accuracy con One-Hot Encoding: 0.1700


**Ventajas de One-Hot Encoding**:
- No asume orden entre categorías.
- Evita que el modelo interprete relaciones numéricas inexistentes.

## Métricas de Evaluación para Clasificación

### Definiciones Matemáticas

#### **Matriz de Confusión**
Para un problema binario:

$$
\text{Matriz de Confusión} = \begin{pmatrix}
TP & FN \\
FP & TN
\end{pmatrix}
$$

Donde:
- **TP** (True Positives): Correctamente clasificados como positivos
- **FN** (False Negatives): Positivos clasificados como negativos
- **FP** (False Positives): Negativos clasificados como positivos
- **TN** (True Negatives): Correctamente clasificados como negativos

#### **Métricas Principales**

1. **Exactitud (Accuracy)**:
   $$
   \text{Accuracy} = \frac{TP + TN}{TP + TN + FP + FN}
   $$

2. **Precisión (Precision)**:
   $$
   \text{Precision} = \frac{TP}{TP + FP}
   $$

3. **Exhaustividad (Recall/Sensitivity)**:
   $$
   \text{Recall} = \frac{TP}{TP + FN}
   $$

4. **Puntuación F1 (F1-Score)**:
   $$
   F_1 = 2 \times \frac{\text{Precision} \times \text{Recall}}{\text{Precision} + \text{Recall}}
   $$

### Código de Cálculo de Métricas

In [7]:
from sklearn.metrics import confusion_matrix, precision_score, recall_score, f1_score

# Calcular todas las métricas para nuestro ejemplo SVM
y_pred = svm_clf.predict(X_test)

In [8]:
# Matriz de confusión
cm = confusion_matrix(y_test, y_pred)
print("Matriz de Confusión:")
print(cm)

Matriz de Confusión:
[[ 6 12 10  0  3  3]
 [ 3 12  7  0  1  8]
 [ 6  9 20  0  0  2]
 [ 5 11  8  0  2  4]
 [ 7 11 11  0  4  1]
 [ 4 13 10  0  2  5]]


In [10]:
# Métricas individuales (promediado para multiclase)
precision = precision_score(y_test, y_pred, average='weighted')
recall = recall_score(y_test, y_pred, average='weighted')
f1 = f1_score(y_test, y_pred, average='weighted')

print(f"\nPrecisión (weighted): {precision:.4f}")
print(f"Recall (weighted): {recall:.4f}")
print(f"F1-Score (weighted): {f1:.4f}")


Precisión (weighted): 0.2099
Recall (weighted): 0.2350
F1-Score (weighted): 0.2002


  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))


In [11]:
# Métricas por clase
precision_per_class = precision_score(y_test, y_pred, average=None)
print(f"\nPrecisión por clase: {precision_per_class}")


Precisión por clase: [0.19354839 0.17647059 0.3030303  0.         0.33333333 0.2173913 ]


  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))


#### Interpretación de Métricas

- **Accuracy**: Útil cuando las clases están balanceadas. Engañosa con desbalance.
- **Precision**: Importante cuando los falsos positivos son costosos (ej: diagnóstico médico).
- **Recall**: Crítico cuando los falsos negativos son peligrosos (ej: detección de fraudes).
- **F1-Score**: Balance entre precisión y recall. Útil con clases desbalanceadas.

**Nota de examen**: En problemas multiclase, especificar el tipo de promediado (`macro`, `micro`, `weighted`).



## Evaluación de Modelos de Regresión

### Métricas Principales

1. **Error Cuadrático Medio (MSE)**:
   $$
   \text{MSE} = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2
   $$

2. **Error Absoluto Medio (MAE)**:
   $$
   \text{MAE} = \frac{1}{n} \sum_{i=1}^{n} |y_i - \hat{y}_i|
   $$

3. **Coeficiente de Determinación (R²)**:
   $$
   R^2 = 1 - \frac{\sum_{i=1}^{n} (y_i - \hat{y}_i)^2}{\sum_{i=1}^{n} (y_i - \bar{y})^2}
   $$

### Ejemplo

In [12]:
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score
from sklearn.datasets import make_regression

# Crear datos sintéticos para regresión
X_reg, y_reg = make_regression(
    n_samples=100, 
    n_features=3, 
    noise=10, 
    random_state=42
)

# Dividir datos
X_train_reg, X_test_reg, y_train_reg, y_test_reg = train_test_split(
    X_reg, y_reg, test_size=0.2, random_state=42
)

In [13]:
# Entrenar modelo de regresión lineal
lr = LinearRegression()
lr.fit(X_train_reg, y_train_reg)


In [14]:
# Predecir
y_pred_reg = lr.predict(X_test_reg)

In [15]:
# Calcular métricas
mse = mean_squared_error(y_test_reg, y_pred_reg)
mae = mean_absolute_error(y_test_reg, y_pred_reg)
r2 = r2_score(y_test_reg, y_pred_reg)

print(f"MSE: {mse:.4f}")
print(f"MAE: {mae:.4f}")
print(f"R²: {r2:.4f}")

MSE: 123.8468
MAE: 8.9610
R²: 0.9820


In [16]:
# Interpretación de R²
print(f"\nInterpretación R²: El modelo explica el {r2*100:.2f}% de la varianza")


Interpretación R²: El modelo explica el 98.20% de la varianza


#### Interpretación de R²
- **R² = 1**: Ajuste perfecto
- **R² = 0**: Modelo no explica nada de la variabilidad
- **R² < 0**: Modelo peor que usar la media
- **R² ajustado**: Penaliza variables innecesarias

## Rendimiento Computacional

### Medición del Tiempo

In [17]:
import time
from time import perf_counter

# Medir tiempo de entrenamiento
t0 = perf_counter()
svm_clf.fit(X_train, y_train)
t1 = perf_counter()
tiempo_entrenamiento = t1 - t0

# Medir tiempo de predicción
t0 = perf_counter()
y_pred = svm_clf.predict(X_test)
t1 = perf_counter()
tiempo_prediccion = t1 - t0

print(f"Tiempo de entrenamiento: {tiempo_entrenamiento:.4f} segundos")
print(f"Tiempo de predicción: {tiempo_prediccion:.4f} segundos")
print(f"Tiempo por predicción: {tiempo_prediccion/len(X_test):.6f} segundos")


Tiempo de entrenamiento: 0.0296 segundos
Tiempo de predicción: 0.0051 segundos
Tiempo por predicción: 0.000026 segundos


### Factores que Afectan el Rendimiento
1. **Complejidad del algoritmo**: SVM con kernel RBF es O(n³) en el peor caso
2. **Tamaño del dataset**: Número de muestras y características
3. **Representación de datos**: Matrices densas vs. sparse
4. **Hardware**: CPU vs GPU, número de núcleos

## Notas Típicas de Examen

### Preguntas Conceptuales Comunes

1. **¿Cuándo usar SVM?**
   - Datos de alta dimensión
   - Cuando el número de características > número de muestras
   - Para problemas de clasificación binaria o multiclase

2. **Ventajas de SVM:**
   - Efectivo en espacios de alta dimensión
   - Versátil mediante diferentes kernels
   - Robustos frente al sobreajuste (con C adecuado)

3. **Desventajas de SVM:**
   - No escalan bien con datasets muy grandes
   - Requieren tuning cuidadoso de hiperparámetros
   - Difícil interpretación con kernels no lineales

### Errores Comunes a Evitar

1. **No escalar características**: SVM es sensible a la escala
2. **Usar LabelEncoder sin considerar orden**: Mejor usar OneHotEncoder
3. **Ignorar el desbalance de clases**: Usar `class_weight='balanced'`
4. **No validar con múltiples métricas**: Accuracy puede ser engañosa

### Fórmulas para Memorizar

1. **Hiperplano de SVM**:
   $$
   w \cdot x + b = 0
   $$
   Donde $w$ es el vector normal y $b$ el sesgo.

2. **Función objetivo de SVM**:
   $$
   \min_{w,b} \frac{1}{2}||w||^2 + C \sum_{i=1}^{n} \xi_i
   $$
   Sujeto a $y_i(w \cdot x_i + b) \geq 1 - \xi_i$

3. **Kernel RBF**:
   $$
   K(x_i, x_j) = \exp\left(-\gamma ||x_i - x_j||^2\right)
   $$


## Ejercicio práctico

In [18]:
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import cross_val_score

# Crear pipeline
pipeline = Pipeline([
    ('scaler', StandardScaler()),      # Escalado de características
    ('svm', SVC(kernel='rbf', C=1.0))  # SVM con kernel RBF
])

In [19]:
# Validación cruzada de 5 folds
scores = cross_val_score(
    pipeline, X_encoded, y_encoded,
    cv=5, scoring='accuracy'
)

print(f"Accuracy por fold: {scores}")
print(f"Accuracy promedio: {scores.mean():.4f} (+/- {scores.std()*2:.4f})")

Accuracy por fold: [0.23  0.2   0.2   0.185 0.2  ]
Accuracy promedio: 0.2030 (+/- 0.0294)


**Preguntas de seguimiento**:
1. ¿Por qué es importante escalar los datos antes de SVM?
2. ¿Qué ventaja tiene la validación cruzada sobre train/test split simple?
3. ¿Cómo interpretar la desviación estándar en los resultados?

## Glosario de Términos Clave

| Término | Definición |
|---------|------------|
| **Hiperparámetro** | Parámetro del modelo que no se aprende de los datos (ej: C en SVM) |
| **Kernel trick** | Método para aplicar SVM a problemas no linealmente separables |
| **Overfitting** | Modelo que se ajusta demasiado a datos de entrenamiento |
| **Underfitting** | Modelo demasiado simple que no captura patrones |
| **Regularización** | Técnica para prevenir overfitting penalizando coeficientes grandes |