<img src="udea.png">

<div style="text-align: center;">
  <h1>ANALÍTICA DE DATOS Y MACHINE LEARNING APLICADO A LAS CIENCIAS POLÍTICAS</h1>
</div>

<p align="center">
  <img src="titanic.png">
</p>

# Trabajo 2: Clasificación con el dataset del Titanic

Siga las instrucciones que se presentan a continuación y respondan todas las preguntas. El objetivo de este segundo trabajo es que se apropien del modelo de clasificación perteneciente a la familia de modelos supervisados de Machine Learning. La actividad corresponde a la identificación de las personas que sobrevivieron el accidente del Titanic a partir de algunas características personales.

El archivo debe estar marcado con el nombre: trabajo_2, seguido del nombre de la persona que lo entrega. Ejemplo: **trabajo_2_Emilio_Henao.ipynb**.

La fecha máxima de entrega es el viernes 28 de noviembre de 2025 a la media noche. Todo trabajo enviado posterior a esta fecha **no será calificado**.


## Archivos necesarios

Para completar este taller, necesitas descargar los siguientes archivos:

### Dataset del Titanic

**Archivos requeridos**: 
- `train.csv`: descarga el archivo y colocalo en la misma carpeta que este notebook.

**Descripción del archivo**:
- **`train.csv`**: Contiene información de pasajeros del Titanic con sus características y la variable objetivo `Survived` (si sobrevivieron o no). Este archivo se usa para entrenar y evaluar el modelo.



## Descripción de variables del dataset

Antes de comenzar, es importante entender qué representa cada variable en el dataset del Titanic:

### Variables del dataset

**`PassengerId`** (ID del Pasajero)
- Tipo: Entero
- Descripción: Identificador único para cada pasajero
- Uso: Generalmente no se usa como característica para el modelo (solo identificación)

**`Survived`** (Sobrevivió) - **VARIABLE OBJETIVO**
- Tipo: Binaria (0 o 1)
- Descripción: Indica si el pasajero sobrevivió al naufragio
- Valores: 
  - `0` = No sobrevivió
  - `1` = Sobrevivió
- Uso: Esta es la variable que queremos predecir

**`Pclass`** (Clase del Ticket)
- Tipo: Entero (1, 2, o 3)
- Descripción: Clase socioeconómica del pasajero
- Valores:
  - `1` = Primera clase (más cara)
  - `2` = Segunda clase
  - `3` = Tercera clase (más económica)
- Uso: Característica importante para el modelo

**`Name`** (Nombre)
- Tipo: Texto
- Descripción: Nombre completo del pasajero
- Uso: Generalmente no se usa directamente, pero puede extraerse información como títulos (Mr., Mrs., Miss, etc.)

**`Sex`** (Sexo)
- Tipo: Categórica (texto)
- Descripción: Sexo del pasajero
- Valores: `'male'` (hombre) o `'female'` (mujer)
- Uso: Característica muy importante (necesita convertirse a números: male=0, female=1)

**`Age`** (Edad)
- Tipo: Numérica (puede tener valores faltantes)
- Descripción: Edad del pasajero en años
- Rango: De bebés (0.42 años) hasta adultos mayores (80 años)
- Uso: Característica importante para el modelo (necesita manejar valores faltantes)

**`SibSp`** (Hermanos/Esposos a bordo)
- Tipo: Entero
- Descripción: Número de hermanos (siblings) o cónyuges (spouses) a bordo del Titanic
- Rango: 0 a 8
- Uso: Característica para el modelo

**`Parch`** (Padres/Hijos a bordo)
- Tipo: Entero
- Descripción: Número de padres (parents) o hijos (children) a bordo del Titanic
- Rango: 0 a 6
- Uso: Característica para el modelo

**`Ticket`** (Número de Ticket)
- Tipo: Texto/Alfanumérico
- Descripción: Número de ticket del pasajero
- Uso: Generalmente no se usa directamente en modelos simples

**`Fare`** (Tarifa)
- Tipo: Numérica (puede tener valores faltantes)
- Descripción: Precio pagado por el ticket
- Rango: Varía significativamente (de 0 hasta más de 500)
- Uso: Característica importante para el modelo (necesita manejar valores faltantes)

**`Cabin`** (Cabina)
- Tipo: Texto (tiene muchos valores faltantes)
- Descripción: Número de cabina del pasajero
- Uso: Generalmente no se usa en modelos básicos debido a la gran cantidad de valores faltantes

**`Embarked`** (Puerto de Embarque)
- Tipo: Categórica (texto)
- Descripción: Puerto donde el pasajero embarcó
- Valores: `'C'` (Cherbourg), `'Q'` (Queenstown), `'S'` (Southampton)
- Uso: Puede ser útil como característica adicional (necesita convertirse a números)

### Variables que usaremos en el modelo

Para este taller, usaremos las siguientes características:
- `Pclass`: Clase del ticket
- `Sex`: Sexo (convertido a números)
- `Age`: Edad (con valores faltantes rellenados)
- `SibSp`: Hermanos/Esposos
- `Parch`: Padres/Hijos
- `Fare`: Tarifa (con valores faltantes rellenados)

Y la variable objetivo:
- `Survived`: Si sobrevivió o no (0 o 1)


## Pregunta 1: Carga de datos (0.3)

**Objetivo**: Cargar el dataset del Titanic y explorar su estructura básica.

### Instrucciones:

1. Importa las bibliotecas necesarias:
   - `pandas` para manipulación de datos
   - `numpy` para operaciones numéricas
   - `train_test_split` de `sklearn.model_selection` para dividir datos
   - `LogisticRegression` de `sklearn.linear_model` para el modelo
   - `accuracy_score`, `precision_score`, `recall_score`, `f1_score`, `confusion_matrix` de `sklearn.metrics` para evaluación

2. Carga el dataset usando `pd.read_csv("train.csv")` y asígnalo a una variable `df`

3. Explora la estructura básica del dataset:
   - Muestra la forma del dataset (número de filas y columnas) usando `df.shape`
   - Muestra las columnas disponibles usando `df.columns`
   - Muestra las primeras filas del dataset usando `df.head()`

### Variables importantes:
- `df`: DataFrame de pandas que contiene todo el dataset del Titanic
- Cada fila representa un pasajero
- Cada columna representa una característica del pasajero (ver descripción de variables arriba)

### Preguntas a responder:

- ¿Cuántas filas (pasajeros) y columnas tiene el dataset?
- ¿Cuál es el nombre de la columna que queremos predecir (la variable objetivo)?
- ¿Qué valores puede tomar esta columna objetivo? ¿Qué significa cada valor?


In [None]:
# Escribe tu código aquí para la Pregunta 1


Escribe tus respuestas a las preguntas de la primera sección aquí:

## Pregunta 2: Estadísticas descriptivas (0.5)

**Objetivo**: Explorar los datos para entender su distribución y detectar valores faltantes.

### Instrucciones:

1. Analiza los valores faltantes:
   - Calcula cuántos valores faltantes hay en cada columna usando `df.isnull().sum()`
   - Calcula el porcentaje de valores faltantes por columna

2. Calcula estadísticas descriptivas de las variables numéricas:
   - Usa las columnas: `['Survived', 'Pclass', 'Age', 'SibSp', 'Parch', 'Fare']`
   - Usa el método `.describe()` para obtener estadísticas básicas (media, mediana, desviación estándar, etc.)

3. Analiza la distribución de la variable objetivo:
   - Cuenta cuántos casos hay de cada valor (0 y 1) usando `df['Survived'].value_counts()`
   - Calcula el porcentaje de supervivencia usando `df['Survived'].mean()`

4. Analiza estadísticas por grupos:
   - Estadísticas de supervivencia por sexo usando `df.groupby('Sex')['Survived'].agg(['count', 'mean'])`
   - Estadísticas de supervivencia por clase de ticket (Pclass) usando `df.groupby('Pclass')['Survived'].agg(['count', 'mean'])`

### Variables importantes:
- `Survived`: Variable objetivo (0 = no sobrevivió, 1 = sobrevivió)
- `Pclass`: Clase del ticket (1, 2, o 3)
- `Age`: Edad del pasajero (puede tener valores faltantes)
- `SibSp`: Número de hermanos/esposos a bordo
- `Parch`: Número de padres/hijos a bordo
- `Fare`: Precio del ticket (puede tener valores faltantes)

### Preguntas a responder:

- ¿Qué columnas tienen valores faltantes? ¿Qué porcentaje de valores faltan?
- ¿Qué porcentaje de pasajeros sobrevivió en total?
- ¿Qué grupo tuvo mayor tasa de supervivencia: hombres o mujeres? ¿Qué clase de ticket?
- ¿Qué información útil puedes obtener de estas estadísticas?


In [None]:
# Escribe tu código aquí para la Pregunta 2


Escribe tus respuestas a las preguntas de la primera sección aquí:

## Pregunta 3: Preprocesamiento de datos (0.5)

**Objetivo**: Preparar los datos para que el modelo pueda usarlos.

### Instrucciones:

El modelo necesita que todas las características sean números. Realiza las siguientes transformaciones:

1. Crea una copia del dataset original para no modificar los datos originales:
   - `df_processed = df.copy()`

2. Convierte la columna `Sex` de texto a números:
   - `'male'` → `0`
   - `'female'` → `1`
   - Usa el método `.map()`: `df_processed['Sex'] = df_processed['Sex'].map({'male': 0, 'female': 1})`

3. Maneja los valores faltantes:
   - Calcula la mediana de `Age` y `Fare` usando `.median()`
   - Guarda las medianas en variables: `age_median` y `fare_median`
   - Rellena los valores faltantes en `Age` con su mediana usando `.fillna(age_median)`
   - Rellena los valores faltantes en `Fare` con su mediana usando `.fillna(fare_median)`

4. Separa las características (X) de la variable objetivo (y):
   - Selecciona las siguientes características: `['Pclass', 'Sex', 'Age', 'SibSp', 'Parch', 'Fare']`
   - Asigna estas características a `X`: `X = df_processed[features]`
   - Asigna la columna `'Survived'` a `y`: `y = df_processed['Survived']`

5. Verifica las dimensiones de X e y usando `.shape`

### Variables importantes:
- `df_processed`: Copia del dataset original con las transformaciones aplicadas
- `age_median`: Mediana de la edad (usada para rellenar valores faltantes)
- `fare_median`: Mediana de la tarifa (usada para rellenar valores faltantes)
- `X`: Matriz de características (features) - contiene las variables de entrada para el modelo
- `y`: Vector de la variable objetivo (target) - contiene lo que queremos predecir (Survived)
- `features`: Lista con los nombres de las columnas que usaremos como características

### Preguntas a responder:

- ¿Por qué necesitamos convertir `Sex` de texto a números?
- ¿Qué pasaría si no rellenáramos los valores faltantes en `Age` y `Fare`?
- ¿Qué representa `X` y qué representa `y`?
- ¿Por qué usamos la mediana en lugar de simplemente poner 0?


In [None]:
# Escribe tu código aquí para la Pregunta 3


Escribe tus respuestas a las preguntas de la primera sección aquí:

## Pregunta 4: División de datos (Train/Test Split) (0.5)

**Objetivo**: Dividir los datos en conjuntos de entrenamiento y prueba.

### Instrucciones:

1. Importa `train_test_split` de `sklearn.model_selection` (si no lo has hecho ya)

2. Divide los datos usando `train_test_split`:
   - Usa `test_size=0.2` (20% para prueba, 80% para entrenamiento)
   - Usa `random_state=42` para reproducibilidad
   - Asigna los resultados a: `X_train`, `X_test`, `y_train`, `y_test`
   - Ejemplo: `X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)`

### Variables importantes:
- `X_train`: Características (features) para entrenar el modelo (80% de los datos)
- `X_test`: Características (features) para evaluar el modelo (20% de los datos)
- `y_train`: Etiquetas reales (target) para entrenar el modelo (80% de los datos)
- `y_test`: Etiquetas reales (target) para evaluar el modelo (20% de los datos)

**Nota**: El modelo se entrena con `X_train` y `y_train`, y luego se evalúa con `X_test` y `y_test` para ver qué tan bien generaliza a datos nuevos.

### Preguntas a responder:

- ¿Por qué dividimos los datos en dos conjuntos (entrenamiento y prueba)?
- ¿Qué porcentaje de datos se usa para entrenar y qué porcentaje para probar?
- ¿Qué representa cada variable: `X_train`, `X_test`, `y_train`, `y_test`?
- ¿Por qué es importante usar `random_state=42`?


In [None]:
# Escribe tu código aquí para la Pregunta 4


Escribe tus respuestas a las preguntas de la primera sección aquí:

## Pregunta 5: Entrenamiento del modelo (0.7)

**Objetivo**: Crear y entrenar un modelo de clasificación.

### Instrucciones:

1. Importa `LogisticRegression` de `sklearn.linear_model` (si no lo has hecho ya)

2. Crea una instancia del modelo:
   - Usa `LogisticRegression(max_iter=200)` y asígnalo a `model`
   - `max_iter=200` aumenta el número máximo de iteraciones del algoritmo

3. Entrena el modelo:
   - Usa el método `.fit()` con `X_train` y `y_train`
   - Ejemplo: `model.fit(X_train, y_train)`

### Variables importantes:
- `model`: Instancia del modelo de regresión logística
  - Después de `fit()`, el modelo ha aprendido los patrones de los datos de entrenamiento
  - El modelo ahora puede hacer predicciones sobre nuevos datos

**Nota**: Durante el entrenamiento, el modelo aprende la relación entre las características (X_train) y las etiquetas (y_train) para poder predecir si un pasajero sobrevivió o no.

### Preguntas a responder:

- ¿Qué hace el método `fit()`?
- ¿Qué información necesita el modelo para aprender (qué le pasamos a `fit()`)?
- ¿Qué "aprende" el modelo durante el entrenamiento?


In [None]:
# Escribe tu código aquí para la Pregunta 5


Escribe tus respuestas a las preguntas de la primera sección aquí:

## Pregunta 6: Hacer predicciones en el conjunto de prueba (0.5)

**Objetivo**: Usar el modelo entrenado para predecir sobre datos que no ha visto.

### Instrucciones:

1. Usa el método `.predict()` del modelo entrenado:
   - Pasa `X_test` como argumento
   - Asigna las predicciones a `y_pred`
   - Ejemplo: `y_pred = model.predict(X_test)`

### Variables importantes:
- `y_pred`: Array con las predicciones del modelo para cada pasajero en el conjunto de prueba
  - Contiene valores 0 (no sobrevivió) o 1 (sobrevivió)
  - Tiene la misma longitud que `y_test`
  - Cada predicción corresponde a un pasajero en `X_test`

**Nota**: Compararemos `y_pred` (predicciones) con `y_test` (valores reales) para evaluar qué tan bien funciona el modelo.

### Preguntas a responder:

- ¿Qué contiene la variable `y_pred`?
- ¿Qué valores puede tener cada predicción (0 o 1)?
- ¿Por qué usamos `X_test` y no `X_train` para hacer estas predicciones?


In [None]:
# Escribe tu código aquí para la Pregunta 6


Escribe tus respuestas a las preguntas de la primera sección aquí:

## Pregunta 7: Calcular métricas de desempeño (0.5)

**Objetivo**: Evaluar qué tan bien funciona el modelo usando múltiples métricas.

### Instrucciones:

1. Calcula las siguientes métricas (asegúrate de haber importado las funciones necesarias):
   - `accuracy_score(y_test, y_pred)` → Asigna a `accuracy`
   - `precision_score(y_test, y_pred)` → Asigna a `precision`
   - `recall_score(y_test, y_pred)` → Asigna a `recall`
   - `f1_score(y_test, y_pred)` → Asigna a `f1`
   - `confusion_matrix(y_test, y_pred)` → Asigna a `cm`

2. Muestra los resultados de forma clara:
   - Imprime cada métrica con formato legible (porcentajes)
   - Muestra la matriz de confusión en un formato legible con etiquetas

### Variables importantes:
- `accuracy`: Porcentaje total de predicciones correctas (valor entre 0 y 1)
- `precision`: De las predicciones positivas, cuántas eran realmente positivas (valor entre 0 y 1)
- `recall`: De los casos reales positivos, cuántos identificó el modelo (valor entre 0 y 1)
- `f1`: Balance entre precision y recall - media armónica (valor entre 0 y 1)
- `cm`: Matriz de confusión (array 2x2) que muestra:
  - `cm[0,0]`: Verdaderos Negativos (TN)
  - `cm[0,1]`: Falsos Positivos (FP)
  - `cm[1,0]`: Falsos Negativos (FN)
  - `cm[1,1]`: Verdaderos Positivos (TP)

### Preguntas a responder:

- ¿Qué es el **accuracy**? Si es 0.81, ¿qué significa en términos prácticos?
- ¿Qué es la **precision**? ¿Qué nos dice sobre las predicciones positivas del modelo?
- ¿Qué es el **recall** (sensibilidad)? ¿Qué nos dice sobre la capacidad del modelo para encontrar sobrevivientes?
- ¿Qué es el **F1-Score**? ¿Por qué es útil tener una métrica que combine precision y recall?
- Observa la **matriz de confusión**: ¿Cuántos falsos positivos y falsos negativos tiene el modelo?
- ¿Es 0.81 de accuracy un buen resultado? ¿Cómo lo sabes?


In [None]:
# Escribe tu código aquí para la Pregunta 7


Escribe tus respuestas a las preguntas de la primera sección aquí:

## Pregunta 8: Análisis de errores (0.5)

**Objetivo**: Analizar los casos donde el modelo se equivocó para entender mejor su desempeño.

### Instrucciones:

1. Crea un DataFrame con los resultados para análisis:
   - Copia `X_test` a un nuevo DataFrame `results_df`
   - Agrega una columna `'Survived_Real'` con los valores de `y_test`
   - Agrega una columna `'Survived_Predicho'` con los valores de `y_pred`

2. Identifica los errores:
   - Crea una columna `'Correcto'` que indique si la predicción fue correcta
   - Crea una columna `'Error'` que indique si la predicción fue incorrecta

3. Muestra estadísticas de errores:
   - Total de predicciones
   - Predicciones correctas
   - Predicciones incorrectas

4. Analiza los tipos de errores:
   - Identifica los **falsos positivos**: predijo sobrevivió (1) pero no sobrevivió (0)
   - Identifica los **falsos negativos**: predijo no sobrevivió (0) pero sí sobrevivió (1)
   - Cuenta cuántos hay de cada tipo

### Variables importantes:
- `results_df`: DataFrame que combina las características de prueba con las predicciones y valores reales
- `falsos_positivos`: Casos donde el modelo predijo "sobrevivió" (1) pero realmente no sobrevivió (0)
- `falsos_negativos`: Casos donde el modelo predijo "no sobrevivió" (0) pero realmente sobrevivió (1)

### Preguntas a responder:

- ¿Qué son los **falsos positivos**? ¿En qué situaciones serían problemáticos?
- ¿Qué son los **falsos negativos**? ¿En qué situaciones serían problemáticos?
- ¿Qué tipo de error comete más el modelo? ¿Por qué crees que pasa esto?


In [None]:
# Escribe tu código aquí para la Pregunta 8


In [None]:
Escribe tus respuestas a las preguntas de la primera sección aquí:

## Pregunta 9: Interpretación y reflexión (1.0)

**Objetivo**: Reflexionar sobre el proceso completo y los resultados.

### Instrucciones:

Esta pregunta no requiere código, solo reflexión y análisis. Responde las siguientes preguntas en una celda de texto (markdown) o en comentarios.

### Preguntas a responder:

- Describe en tus propias palabras el flujo completo que seguiste: ¿qué pasos realizaste desde cargar los datos hasta obtener las métricas?
- Si el modelo tiene un accuracy de 0.50 (50%), ¿qué significa esto? ¿Sería útil este modelo?
- ¿Por qué es importante evaluar el modelo con datos que no usó para entrenar?
- ¿Qué ventajas tiene usar múltiples métricas (accuracy, precision, recall, F1) en lugar de solo accuracy?
- ¿Qué limitaciones tiene este modelo? ¿Qué información adicional del Titanic podría mejorar las predicciones?


# Escribe tus respuestas aquí para la Pregunta 9

## Respuestas:

### 1. Flujo completo del proceso:

[Escribe tu respuesta aquí]

### 2. Interpretación de accuracy 0.50:

[Escribe tu respuesta aquí]

### 3. Importancia de evaluar con datos de prueba:

[Escribe tu respuesta aquí]

### 4. Ventajas de usar múltiples métricas:

[Escribe tu respuesta aquí]

### 5. Limitaciones del modelo y mejoras posibles:

[Escribe tu respuesta aquí]


<p align="center">
  <img src="jackrose.jpg" width="500">
</p>