## 3.2. Clasificación

La clasificación es una técnica de aprendizaje supervisado utilizada para predecir etiquetas categóricas. A diferencia de la regresión, donde el objetivo es predecir valores continuos, la clasificación se enfoca en asignar datos a categorías discretas. A continuación, exploraremos la regresión logística y los árboles de decisión junto con técnicas avanzadas como bosques aleatorios y métodos de boosting.

### 3.2.1. Regresión logística

La regresión logística es un modelo utilizado para la clasificación binaria, es decir, cuando la variable de salida tiene dos posibles valores (0 o 1, verdadero o falso, etc.). Se basa en la función sigmoide para mapear cualquier valor real a un rango entre 0 y 1.

#### 3.2.1.1. Función sigmoide y máxima verosimilitud

**Función sigmoide:** La función sigmoide transforma una entrada lineal en una probabilidad.

$$ \sigma(z) = \frac{1}{1 + e^{-z}} $$

Donde $z$ es una combinación lineal de las características del modelo.

**Máxima verosimilitud:** En la regresión logística, los parámetros se estiman mediante la maximización de la función de verosimilitud.

$$ L(\beta) = \prod_{i=1}^{n} \sigma(x_i \cdot \beta)^{y_i} (1 - \sigma(x_i \cdot \beta))^{1 - y_i} $$

Maximizar esta función equivale a encontrar los mejores coeficientes $\beta$ que expliquen los datos observados.

##### 3.2.1.1.1. Interpretación de coeficientes

Cada coeficiente $\beta_j$ en la regresión logística representa el cambio en el logit (log-odds) por unidad de cambio en la característica $x_j$. Si $\beta_j$ es positivo, un aumento en $x_j$ incrementa la probabilidad de $y = 1$; si es negativo, la reduce.

##### 3.2.1.1.2. Odds ratio y probabilidades

El odds ratio es una forma de interpretar los coeficientes en términos de probabilidades.

$$ \text{Odds ratio} = e^{\beta_j} $$

Un odds ratio mayor que 1 indica que la variable $x_j$ está asociada con mayores probabilidades de que $y = 1$.

#### 3.2.1.2. Implementación y evaluación en Python

##### 3.2.1.2.1. Uso de scikit-learn para clasificación

In [3]:
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import confusion_matrix, accuracy_score, precision_score, recall_score, f1_score
import numpy as np
import pandas as pd
# Datos de ejemplo
data = {
    'x1': np.random.rand(100),
    'x2': np.random.rand(100),
    'y': np.random.randint(0, 2, 100)
}
df = pd.DataFrame(data)

# División de datos en entrenamiento y prueba
X = df[['x1', 'x2']]
y = df['y']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)

# Entrenamiento del modelo
model = LogisticRegression()
model.fit(X_train, y_train)

# Predicción
y_pred = model.predict(X_test)

# Evaluación del modelo
print(f"Precisión: {accuracy_score(y_test, y_pred)}")
print(f"Precisión (Precision): {precision_score(y_test, y_pred)}")
print(f"Sensibilidad (Recall): {recall_score(y_test, y_pred)}")
print(f"F1-Score: {f1_score(y_test, y_pred)}")

Precisión: 0.35
Precisión (Precision): 0.35
Sensibilidad (Recall): 1.0
F1-Score: 0.5185185185185185


##### 3.2.1.2.2. Métricas de evaluación (precisión, recall, F1-score)

- **Precisión (Accuracy):** Proporción de predicciones correctas sobre el total de predicciones.
- **Precisión (Precision):** Proporción de verdaderos positivos sobre el total de positivos predichos.
- **Sensibilidad (Recall):** Proporción de verdaderos positivos sobre el total de positivos reales.
- **F1-Score:** Media armónica de la precisión y la sensibilidad.

### 3.2.2. Árboles de decisión y bosques aleatorios

Los árboles de decisión son modelos predictivos que dividen iterativamente los datos en subconjuntos más pequeños basados en características, formando una estructura similar a un árbol.

#### 3.2.2.1. Criterios de división y poda

**Criterios de división:** Determinan cómo se dividen los nodos en un árbol de decisión.

- **Ganancia de información:** Mide la reducción de la incertidumbre (entropía) al dividir los datos.

  $$ \text{Ganancia de información} = \text{Entropía}(S) - \sum_{i=1}^{m} \frac{|S_i|}{|S|} \text{Entropía}(S_i) $$

- **Índice Gini:** Mide la pureza de una división. Un valor de Gini más bajo indica una mayor pureza.

  $$ \text{Índice Gini} = 1 - \sum_{i=1}^{c} p_i^2 $$

##### 3.2.2.1.1. Ganancia de información y índice Gini

La ganancia de información y el índice Gini son utilizados para seleccionar las divisiones en los nodos de un árbol de decisión. La ganancia de información se basa en la teoría de la información, mientras que el índice Gini es una medida de pureza.

##### 3.2.2.1.2. Técnicas de poda para evitar sobreajuste

La poda reduce el tamaño de los árboles de decisión eliminando ramas que no contribuyen significativamente a la predicción, lo que ayuda a prevenir el sobreajuste.

- **Poda temprana (Pre-pruning):** Detiene el crecimiento del árbol antes de que se ajuste demasiado a los datos.
- **Poda tardía (Post-pruning):** Elimina nodos del árbol después de que se haya creado completamente, basándose en su contribución a la precisión del modelo.

#### 3.2.2.2. Bagging y boosting

**Bagging (Bootstrap Aggregating):** Combina múltiples modelos entrenados en diferentes subconjuntos de datos para reducir la varianza y mejorar la precisión. Un ejemplo es Random Forest.

**Boosting:** Combina modelos secuenciales donde cada modelo intenta corregir los errores del anterior. Un ejemplo es Gradient Boosting.

##### 3.2.2.2.1. Random Forests y su implementación

Random Forests es un algoritmo de bagging que construye múltiples árboles de decisión y promedia sus predicciones.


In [4]:
from sklearn.ensemble import RandomForestClassifier

# Entrenamiento del modelo Random Forest
rf_model = RandomForestClassifier(n_estimators=100, random_state=0)
rf_model.fit(X_train, y_train)

# Predicción
y_pred_rf = rf_model.predict(X_test)

# Evaluación del modelo
print(f"Precisión (Random Forest): {accuracy_score(y_test, y_pred_rf)}")
print(f"Precisión (Precision - RF): {precision_score(y_test, y_pred_rf)}")
print(f"Sensibilidad (Recall - RF): {recall_score(y_test, y_pred_rf)}")
print(f"F1-Score (RF): {f1_score(y_test, y_pred_rf)}")

Precisión (Random Forest): 0.65
Precisión (Precision - RF): 0.5
Sensibilidad (Recall - RF): 0.8571428571428571
F1-Score (RF): 0.631578947368421


##### 3.2.2.2.2. Gradient Boosting y XGBoost

**Gradient Boosting:** Construye modelos secuenciales donde cada modelo intenta corregir los errores del anterior utilizando gradientes.


In [5]:
from sklearn.ensemble import GradientBoostingClassifier

# Entrenamiento del modelo Gradient Boosting
gb_model = GradientBoostingClassifier(n_estimators=100, random_state=0)
gb_model.fit(X_train, y_train)

# Predicción
y_pred_gb = gb_model.predict(X_test)

# Evaluación del modelo
print(f"Precisión (Gradient Boosting): {accuracy_score(y_test, y_pred_gb)}")
print(f"Precisión (Precision - GB): {precision_score(y_test, y_pred_gb)}")
print(f"Sensibilidad (Recall - GB): {recall_score(y_test, y_pred_gb)}")
print(f"F1-Score (GB): {f1_score(y_test, y_pred_gb)}")

Precisión (Gradient Boosting): 0.45
Precisión (Precision - GB): 0.375
Sensibilidad (Recall - GB): 0.8571428571428571
F1-Score (GB): 0.5217391304347826


**XGBoost:** Una implementación optimizada de Gradient Boosting que mejora la velocidad y el rendimiento.

In [6]:
import xgboost as xgb
import numpy as np
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score

# Datos de ejemplo para XGBoost
dtrain = xgb.DMatrix(X_train, label=y_train)
dtest = xgb.DMatrix(X_test, label=y_test)

# Parámetros del modelo
params = {
    'max_depth': 3,
    'eta': 0.1,
    'objective': 'binary:logistic'
}

# Entrenamiento del modelo
num_round = 100
bst = xgb.train(params, dtrain, num_round)

# Predicción
y_pred_xgb = bst.predict(dtest)
y_pred_xgb = np.round(y_pred_xgb)

# Evaluación del modelo
print(f"Precisión (XGBoost): {accuracy_score(y_test, y_pred_xgb)}")
print(f"Precisión (Precision - XGBoost): {precision_score(y_test, y_pred_xgb)}")
print(f"Sensibilidad (Recall - XGBoost): {recall_score(y_test, y_pred_xgb)}")
print(f"F1-Score (XGBoost): {f1_score(y_test, y_pred_xgb)}")

Precisión (XGBoost): 0.65
Precisión (Precision - XGBoost): 0.5
Sensibilidad (Recall - XGBoost): 0.8571428571428571
F1-Score (XGBoost): 0.631578947368421
