<img src="udea.png">

<div style="text-align: center;">
  <h1>ANALÍTICA DE DATOS Y MACHINE LEARNING APLICADO A LAS CIENCIAS POLÍTICAS</h1>
</div>

# Scikit-Learn Cheatsheet para el Proyecto Titanic

Una guía rápida de referencia con todos los códigos de scikit-learn necesarios para el proyecto de clasificación del Titanic.


## Imports Básicos


In [None]:
# ============================================================================
# IMPORTS BÁSICOS DE SCIKIT-LEARN
# ============================================================================

# train_test_split: Función para dividir el dataset en conjuntos de 
# entrenamiento y prueba. Esencial para evaluar el modelo correctamente.
from sklearn.model_selection import train_test_split

# Modelos de clasificación disponibles en scikit-learn:
# - LogisticRegression: Modelo de regresión logística para clasificación binaria
# - RandomForestClassifier: Modelo de ensamble basado en múltiples árboles de decisión
# - SVC: Support Vector Classifier, modelo basado en máquinas de vectores de soporte
# - DecisionTreeClassifier: Clasificador basado en un único árbol de decisión
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.svm import SVC
from sklearn.tree import DecisionTreeClassifier

# Métricas de evaluación para medir el desempeño del modelo:
# - accuracy_score: Calcula el porcentaje de predicciones correctas
# - precision_score: Calcula la precisión (predicciones positivas correctas)
# - recall_score: Calcula la sensibilidad (casos positivos identificados)
# - f1_score: Calcula el F1-score (balance entre precisión y recall)
# - confusion_matrix: Genera la matriz de confusión
# - classification_report: Genera un reporte completo con todas las métricas
from sklearn.metrics import (
    accuracy_score,
    precision_score,
    recall_score,
    f1_score,
    confusion_matrix,
    classification_report
)

# Herramientas de preprocesamiento (opcional, para proyectos avanzados):
# - StandardScaler: Estandariza los datos (media=0, desviación estándar=1)
# - LabelEncoder: Convierte etiquetas categóricas a numéricas
# - SimpleImputer: Rellena valores faltantes con estrategias como media, mediana, etc.
from sklearn.preprocessing import StandardScaler, LabelEncoder
from sklearn.impute import SimpleImputer


## 1. División de Datos (Train/Test Split)

### Función: `train_test_split()`

**Propósito**: Divide el dataset en conjuntos de entrenamiento y prueba.

**Parámetros importantes**:
- `X`: Características (features)
- `y`: Variable objetivo (target)
- `test_size`: Tamaño del conjunto de prueba (0.0 a 1.0)
- `random_state`: Semilla aleatoria para reproducibilidad
- `stratify`: Mantiene la distribución de clases


In [None]:
from sklearn.model_selection import train_test_split

# ============================================================================
# DIVISIÓN BÁSICA DE DATOS
# ============================================================================
# train_test_split divide el dataset en dos partes:
# - X_train, y_train: Datos para entrenar el modelo (80% por defecto)
# - X_test, y_test: Datos para evaluar el modelo (20% por defecto)
# 
# Parámetros:
# - X: Matriz de características (features) del dataset
# - y: Vector de etiquetas objetivo (lo que queremos predecir)
# - test_size=0.2: Especifica que el 20% de los datos será para prueba
# - random_state=42: Semilla aleatoria para garantizar resultados reproducibles
X_train, X_test, y_train, y_test = train_test_split(
    X, y, 
    test_size=0.2,        # 20% de los datos para prueba, 80% para entrenamiento
    random_state=42       # Semilla para reproducibilidad (mismo resultado cada vez)
)

# ============================================================================
# DIVISIÓN CON ESTRATIFICACIÓN (RECOMENDADO)
# ============================================================================
# La opción stratify=y mantiene la misma proporción de clases en ambos conjuntos
# Esto es importante cuando hay desbalance de clases (ej: 70% no sobrevivieron, 30% sí)
# Sin stratify, podría pasar que el conjunto de prueba tenga una proporción diferente
X_train, X_test, y_train, y_test = train_test_split(
    X, y,
    test_size=0.2,        # 20% para prueba
    random_state=42,      # Semilla para reproducibilidad
    stratify=y            # Mantiene la misma proporción de clases en train y test
)


NameError: name 'X' is not defined

## 2. Modelos de Clasificación

### 2.1 Regresión Logística

**Parámetros comunes**:
- `max_iter`: Número máximo de iteraciones (default: 100)
- `random_state`: Semilla aleatoria
- `C`: Parámetro de regularización (default: 1.0)


In [None]:
from sklearn.linear_model import LogisticRegression

# ============================================================================
# CREACIÓN DEL MODELO DE REGRESIÓN LOGÍSTICA
# ============================================================================
# LogisticRegression es un modelo lineal que estima probabilidades usando 
# la función logística. Es ideal para clasificación binaria.
# 
# max_iter=200: Aumenta el número máximo de iteraciones del algoritmo de 
# optimización (por defecto es 100, pero a veces necesita más)
model = LogisticRegression(max_iter=200)

# ============================================================================
# ENTRENAMIENTO DEL MODELO
# ============================================================================
# El método fit() entrena el modelo con los datos de entrenamiento.
# Durante el entrenamiento, el modelo aprende los patrones y relaciones
# entre las características (X_train) y las etiquetas (y_train).
# 
# IMPORTANTE: Solo se usa X_train y y_train, nunca los datos de prueba
model.fit(X_train, y_train)

# ============================================================================
# PREDICCIONES DEL MODELO
# ============================================================================
# El método predict() genera predicciones de clase (0 o 1) para cada muestra
# en X_test. Retorna un array con las clases predichas.
y_pred = model.predict(X_test)

# ============================================================================
# PROBABILIDADES DE PREDICCIÓN
# ============================================================================
# El método predict_proba() retorna las probabilidades de cada clase.
# Útil para análisis más detallados o cuando necesitas el nivel de confianza
# del modelo en sus predicciones.
# Retorna un array de forma (n_samples, n_classes) con probabilidades
y_pred_proba = model.predict_proba(X_test)


### 2.2 Random Forest


In [None]:
from sklearn.ensemble import RandomForestClassifier

# ============================================================================
# CREACIÓN DEL MODELO RANDOM FOREST
# ============================================================================
# RandomForestClassifier es un modelo de ensamble que combina múltiples
# árboles de decisión. Cada árbol vota y la clase más votada gana.
# 
# Parámetros:
# - n_estimators=100: Número de árboles de decisión en el bosque
#   (más árboles = mejor rendimiento pero más lento)
# - random_state=42: Semilla para reproducibilidad
# - max_depth=10: Profundidad máxima de cada árbol (evita sobreajuste)
model = RandomForestClassifier(
    n_estimators=100,     # Número de árboles en el bosque
    random_state=42,      # Semilla para reproducibilidad
    max_depth=10          # Profundidad máxima de cada árbol
)

# Entrenar el modelo con los datos de entrenamiento
model.fit(X_train, y_train)

# Generar predicciones en el conjunto de prueba
y_pred = model.predict(X_test)


### 2.3 Support Vector Machine (SVM)


In [None]:
from sklearn.svm import SVC

# ============================================================================
# CREACIÓN DEL MODELO SUPPORT VECTOR MACHINE (SVM)
# ============================================================================
# SVC (Support Vector Classifier) encuentra el hiperplano óptimo que separa
# las clases maximizando el margen entre ellas.
# 
# Parámetros:
# - kernel='rbf': Tipo de kernel (Radial Basis Function)
#   Otros kernels: 'linear', 'poly', 'sigmoid'
# - random_state=42: Semilla para reproducibilidad
model = SVC(kernel='rbf', random_state=42)

# Entrenar el modelo con los datos de entrenamiento
model.fit(X_train, y_train)

# Generar predicciones en el conjunto de prueba
y_pred = model.predict(X_test)


### 2.4 Árbol de Decisión


In [None]:
from sklearn.tree import DecisionTreeClassifier

# ============================================================================
# CREACIÓN DEL MODELO ÁRBOL DE DECISIÓN
# ============================================================================
# DecisionTreeClassifier crea un árbol de decisión que divide los datos
# basándose en reglas simples (if-else) hasta llegar a una predicción.
# 
# Parámetros:
# - max_depth=5: Profundidad máxima del árbol
#   (limitar la profundidad previene sobreajuste)
# - random_state=42: Semilla para reproducibilidad
model = DecisionTreeClassifier(max_depth=5, random_state=42)

# Entrenar el modelo con los datos de entrenamiento
model.fit(X_train, y_train)

# Generar predicciones en el conjunto de prueba
y_pred = model.predict(X_test)


## 3. Métricas de Evaluación

### 3.1 Accuracy (Precisión)

**Qué mide**: Porcentaje total de predicciones correctas.


In [None]:
from sklearn.metrics import accuracy_score

# ============================================================================
# CÁLCULO DE ACCURACY (PRECISIÓN)
# ============================================================================
# Accuracy mide el porcentaje total de predicciones correctas.
# Fórmula: (Verdaderos Positivos + Verdaderos Negativos) / Total
# 
# Parámetros:
# - y_test: Valores reales (ground truth) del conjunto de prueba
# - y_pred: Valores predichos por el modelo
# 
# Retorna: Un valor entre 0 y 1 (o entre 0% y 100%)
# Ejemplo: 0.81 significa que el 81% de las predicciones fueron correctas
accuracy = accuracy_score(y_test, y_pred)

# Mostrar el resultado formateado
print(f"Accuracy: {accuracy:.4f} ({accuracy*100:.2f}%)")


### 3.2 Precision (Precisión)

**Qué mide**: De las predicciones positivas, cuántas son realmente correctas.


In [None]:
from sklearn.metrics import precision_score

# ============================================================================
# CÁLCULO DE PRECISION
# ============================================================================
# Precision mide: De todas las predicciones positivas que hizo el modelo,
# ¿cuántas eran realmente positivas?
# Fórmula: Verdaderos Positivos / (Verdaderos Positivos + Falsos Positivos)
# 
# Es útil cuando los falsos positivos son costosos.
# Ejemplo: Si el modelo predice "sobrevivió" 100 veces, y 80 realmente 
# sobrevivieron, la precision es 0.80 (80%)
# 
# Parámetros:
# - y_test: Valores reales del conjunto de prueba
# - y_pred: Valores predichos por el modelo
precision = precision_score(y_test, y_pred)

# Mostrar el resultado
print(f"Precision: {precision:.4f}")


### 3.3 Recall (Sensibilidad)

**Qué mide**: De los casos reales positivos, cuántos identificó el modelo.


In [None]:
from sklearn.metrics import recall_score

# ============================================================================
# CÁLCULO DE RECALL (SENSIBILIDAD)
# ============================================================================
# Recall mide: De todos los casos que realmente son positivos,
# ¿cuántos identificó correctamente el modelo?
# Fórmula: Verdaderos Positivos / (Verdaderos Positivos + Falsos Negativos)
# 
# También se conoce como "Sensibilidad" o "True Positive Rate"
# Es útil cuando los falsos negativos son costosos.
# Ejemplo: Si 100 personas realmente sobrevivieron, y el modelo identificó
# 75 de ellas, el recall es 0.75 (75%)
# 
# Parámetros:
# - y_test: Valores reales del conjunto de prueba
# - y_pred: Valores predichos por el modelo
recall = recall_score(y_test, y_pred)

# Mostrar el resultado
print(f"Recall: {recall:.4f}")


### 3.4 F1-Score

**Qué mide**: Balance entre Precision y Recall (media armónica).


In [None]:
from sklearn.metrics import f1_score

# ============================================================================
# CÁLCULO DE F1-SCORE
# ============================================================================
# F1-Score es la media armónica entre Precision y Recall.
# Fórmula: 2 * (Precision * Recall) / (Precision + Recall)
# 
# Es útil cuando necesitas un balance entre Precision y Recall.
# El F1-Score es especialmente importante cuando hay desbalance de clases.
# Valores más altos indican mejor balance entre ambas métricas.
# 
# Parámetros:
# - y_test: Valores reales del conjunto de prueba
# - y_pred: Valores predichos por el modelo
f1 = f1_score(y_test, y_pred)

# Mostrar el resultado
print(f"F1-Score: {f1:.4f}")


### 3.5 Matriz de Confusión

**Interpretación**:
- `cm[0,0]`: Verdaderos Negativos (TN)
- `cm[0,1]`: Falsos Positivos (FP)
- `cm[1,0]`: Falsos Negativos (FN)
- `cm[1,1]`: Verdaderos Positivos (TP)


In [None]:
from sklearn.metrics import confusion_matrix

# ============================================================================
# MATRIZ DE CONFUSIÓN
# ============================================================================
# La matriz de confusión muestra todos los tipos de predicciones:
# - Verdaderos Negativos (TN): Predijo negativo y era negativo
# - Falsos Positivos (FP): Predijo positivo pero era negativo
# - Falsos Negativos (FN): Predijo negativo pero era positivo
# - Verdaderos Positivos (TP): Predijo positivo y era positivo
# 
# Estructura de la matriz:
#                 Predicción
#              Negativo  Positivo
# Real Negativo   TN       FP
# Real Positivo   FN       TP
# 
# Parámetros:
# - y_test: Valores reales del conjunto de prueba
# - y_pred: Valores predichos por el modelo
cm = confusion_matrix(y_test, y_pred)

# Mostrar la matriz en formato array
print("Matriz de confusión (formato array):")
print(cm)

# ============================================================================
# FORMATO MÁS LEGIBLE DE LA MATRIZ DE CONFUSIÓN
# ============================================================================
# Mostrar la matriz con etiquetas para mejor interpretación
print("\n                    Predicción")
print("                 No Sobrevivió  Sobrevivió")
print(f"Real No Sobrevivió      {cm[0,0]:4d}        {cm[0,1]:4d}")
print(f"Real Sobrevivió         {cm[1,0]:4d}        {cm[1,1]:4d}")


### 3.6 Classification Report (Reporte Completo)

**Muestra**: Precision, Recall, F1-Score para cada clase y promedios.


In [None]:
from sklearn.metrics import classification_report

# ============================================================================
# CLASSIFICATION REPORT (REPORTE COMPLETO)
# ============================================================================
# classification_report genera un reporte con todas las métricas principales
# para cada clase y promedios:
# - Precision para cada clase
# - Recall para cada clase
# - F1-Score para cada clase
# - Support: Número de muestras de cada clase
# - Promedios (macro avg, weighted avg)
# 
# Es muy útil para tener una visión completa del desempeño del modelo
# en un solo lugar.
# 
# Parámetros:
# - y_test: Valores reales del conjunto de prueba
# - y_pred: Valores predichos por el modelo
report = classification_report(y_test, y_pred)

# Mostrar el reporte completo
print(report)


## 4. Preprocesamiento (Opcional - Avanzado)

### 4.1 Estandarización de Datos


In [None]:
from sklearn.preprocessing import StandardScaler

# ============================================================================
# ESTANDARIZACIÓN DE DATOS
# ============================================================================
# StandardScaler transforma los datos para que tengan media=0 y desviación=1
# Esto es importante para modelos sensibles a la escala (SVM, regresión logística)
# 
# Proceso:
# 1. fit_transform() en X_train: Calcula la media y desviación de entrenamiento
#    y aplica la transformación
# 2. transform() en X_test: Aplica la misma transformación usando los parámetros
#    calculados en el entrenamiento
# 
# IMPORTANTE: Nunca uses fit() o fit_transform() en X_test, solo transform()
# Esto evita "data leakage" (filtrado de información del conjunto de prueba)
scaler = StandardScaler()

# Calcular parámetros (media, desviación) y transformar datos de entrenamiento
X_train_scaled = scaler.fit_transform(X_train)

# Aplicar la misma transformación a los datos de prueba (sin recalcular parámetros)
X_test_scaled = scaler.transform(X_test)


### 4.2 Imputación de Valores Faltantes

**Estrategias**: `'mean'`, `'median'`, `'most_frequent'`, `'constant'`


In [None]:
from sklearn.impute import SimpleImputer

# ============================================================================
# IMPUTACIÓN DE VALORES FALTANTES
# ============================================================================
# SimpleImputer rellena valores faltantes (NaN) usando una estrategia específica.
# 
# Estrategias disponibles:
# - 'mean': Rellena con la media de la columna
# - 'median': Rellena con la mediana de la columna (recomendado para datos con outliers)
# - 'most_frequent': Rellena con el valor más frecuente
# - 'constant': Rellena con un valor constante especificado
# 
# Proceso:
# 1. fit_transform() en X_train: Calcula el valor de imputación (ej: mediana)
#    y rellena los valores faltantes
# 2. transform() en X_test: Rellena usando el mismo valor calculado en entrenamiento
# 
# IMPORTANTE: Usa la misma estrategia en train y test para mantener consistencia
imputer = SimpleImputer(strategy='median')

# Calcular valor de imputación (mediana) y rellenar datos de entrenamiento
X_train_imputed = imputer.fit_transform(X_train)

# Rellenar datos de prueba usando la misma mediana calculada en entrenamiento
X_test_imputed = imputer.transform(X_test)


### 4.3 Codificación de Etiquetas


In [None]:
from sklearn.preprocessing import LabelEncoder

# ============================================================================
# CODIFICACIÓN DE ETIQUETAS CATEGÓRICAS
# ============================================================================
# LabelEncoder convierte etiquetas categóricas (texto) a números.
# Útil cuando tienes variables objetivo o características en formato texto.
# 
# Ejemplo:
# - Antes: ['male', 'female', 'male', 'female']
# - Después: [0, 1, 0, 1]
# 
# Proceso:
# 1. fit(): Aprende el mapeo entre categorías y números
# 2. transform(): Aplica el mapeo a los datos
# 3. fit_transform(): Hace ambos pasos a la vez
# 
# NOTA: Para características (X), es mejor usar OneHotEncoder o get_dummies()
# de pandas. LabelEncoder es más común para la variable objetivo (y).
encoder = LabelEncoder()

# Aprender el mapeo y transformar las etiquetas categóricas a números
y_encoded = encoder.fit_transform(y)


## 5. Métodos Comunes de Modelos

Todos los modelos de scikit-learn comparten estos métodos:


In [None]:
# ============================================================================
# MÉTODOS COMUNES DE TODOS LOS MODELOS DE SCIKIT-LEARN
# ============================================================================

# ----------------------------------------------------------------------------
# fit(): Entrenar el modelo
# ----------------------------------------------------------------------------
# Ajusta el modelo a los datos de entrenamiento.
# Durante este proceso, el modelo aprende los patrones y relaciones
# entre las características (X_train) y las etiquetas (y_train).
# 
# IMPORTANTE: Solo se usa con datos de entrenamiento, nunca con datos de prueba
model.fit(X_train, y_train)

# ----------------------------------------------------------------------------
# predict(): Hacer predicciones de clase
# ----------------------------------------------------------------------------
# Genera predicciones de clase (0 o 1 para clasificación binaria) para
# cada muestra en X_test. Retorna un array con las clases predichas.
# 
# Ejemplo: [0, 1, 0, 1, 0] significa que predice: no sobrevivió, sobrevivió, etc.
y_pred = model.predict(X_test)

# ----------------------------------------------------------------------------
# predict_proba(): Obtener probabilidades (solo modelos de clasificación)
# ----------------------------------------------------------------------------
# Retorna las probabilidades de cada clase para cada muestra.
# Útil para análisis de confianza o cuando necesitas umbrales personalizados.
# 
# Retorna un array de forma (n_samples, n_classes)
# Ejemplo: [[0.8, 0.2], [0.3, 0.7]] significa:
#   - Primera muestra: 80% probabilidad clase 0, 20% clase 1
#   - Segunda muestra: 30% probabilidad clase 0, 70% clase 1
y_proba = model.predict_proba(X_test)

# ----------------------------------------------------------------------------
# Atributos específicos de algunos modelos
# ----------------------------------------------------------------------------
# coef_: Coeficientes del modelo (solo modelos lineales como LogisticRegression)
# Muestra la importancia/contribución de cada característica
coefficients = model.coef_  # Disponible en LogisticRegression

# feature_importances_: Importancia de características (solo modelos basados en árboles)
# Muestra qué características son más importantes para las predicciones
feature_importance = model.feature_importances_  # Disponible en RandomForest, DecisionTree


## Tips y Mejores Prácticas

1. **Siempre usa `random_state`** para reproducibilidad
2. **Nunca uses `fit()` en datos de prueba** - solo `transform()` o `predict()`
3. **Evalúa siempre en datos de prueba**, no en datos de entrenamiento
4. **Usa múltiples métricas** - no solo accuracy
5. **Mantén la proporción de clases** con `stratify=y` en `train_test_split`


## Referencias Rápidas

### Orden de Operaciones:
1. Cargar datos → 2. Explorar → 3. Preprocesar → 4. Dividir → 5. Entrenar → 6. Predecir → 7. Evaluar

### Métricas en Resumen:
- **Accuracy**: ¿Qué tan bien predice en general?
- **Precision**: ¿Las predicciones positivas son correctas?
- **Recall**: ¿Encuentra todos los casos positivos?
- **F1-Score**: Balance entre Precision y Recall
