# Introducción

En esta clase, continuaremos explorando las capacidades de `pandas` para la manipulación y análisis de datos. Usaremos el dataset Titanic para aprender sobre el tratamiento de datos faltantes, la conversión de tipos de datos, la transformación de datos usando Z-score y la creación de nuevas variables derivadas.

## Carga y Exploración del Dataset Titanic

Cargaremos el dataset Titanic utilizando la biblioteca `seaborn` y realizaremos una exploración inicial para entender su estructura y contenido.

In [None]:
import seaborn as sns
import pandas as pd

# Cargar el dataset Titanic
titanic = sns.load_dataset('titanic')

# Mostrar las primeras filas del dataset
titanic.head()

In [None]:
type(titanic)

## Descripción de las Columnas del Conjunto de Datos Titanic

El conjunto de datos del Titanic contiene información sobre los pasajeros del famoso barco que se hundió en 1912. A continuación se describen las columnas de este conjunto de datos:

- **survived**: Indica si el pasajero sobrevivió (1) o no (0).
- **pclass**: Clase del billete del pasajero, donde 1 es la primera clase, 2 es la segunda clase y 3 es la tercera clase.
- **sex**: Género del pasajero (`male` o `female`).
- **age**: Edad del pasajero.
- **sibsp**: Número de hermanos/esposos a bordo del Titanic.
- **parch**: Número de padres/hijos a bordo del Titanic.
- **fare**: Tarifa pagada por el billete del pasajero.
- **embarked**: Puerto de embarque del pasajero, donde `C` es Cherburgo, `Q` es Queenstown y `S` es Southampton.
- **class**: Clase del billete del pasajero (como categoría), similar a `pclass`.
- **who**: Descripción simplificada del pasajero (`man`, `woman`, `child`).
- **adult_male**: Indica si el pasajero es un hombre adulto (`True` o `False`).
- **deck**: Cubierta en la que se encontraba el camarote del pasajero (identificada por una letra).
- **embark_town**: Nombre del puerto de embarque (`Cherbourg`, `Queenstown`, `Southampton`).
- **alive**: Indica si el pasajero sobrevivió (`yes`) o no (`no`).
- **alone**: Indica si el pasajero estaba solo (`True`) o no (`False`).

In [None]:
# Información básica sobre el dataset
titanic.info()

In [None]:
# Estadísticas descriptivas
titanic.describe(include='all')

## Tratamiento de Datos Faltantes

### Problema de los Datos Faltantes

En cualquier conjunto de datos del mundo real, es común encontrar datos faltantes. Estos pueden ocurrir por diversas razones, como errores en la recolección de datos, datos perdidos o no registrados, o simplemente porque la información no está disponible.

### Importancia de Tratar los Datos Faltantes

Los datos faltantes pueden afectar el análisis y la interpretación de los datos de varias maneras:
- **Bias en los Resultados:** Los análisis pueden ser sesgados si se ignoran los datos faltantes.
- **Reducción del Poder Estadístico:** Menos datos disponibles pueden llevar a resultados menos confiables.
- **Problemas con Algoritmos de Machine Learning:** Muchos algoritmos no pueden manejar datos faltantes y fallarán si no se tratan adecuadamente.

### Estrategias para Tratar Datos Faltantes

Hay varias estrategias para tratar los datos faltantes, cada una con sus ventajas y desventajas. Las más comunes incluyen:

1. **Eliminación de Filas o Columnas:**
    - **Pros:** Sencillo y fácil de implementar.
    - **Contras:** Puede resultar en la pérdida de una cantidad significativa de datos.
    - **Uso:** Cuando hay pocos datos faltantes y no se pierde información crítica.

2. **Imputación de Datos:**
    - **Imputación con la Media:**
        - **Pros:** Simple y mantiene el tamaño del dataset.
        - **Contras:** Puede introducir bias si los datos faltantes no son aleatorios.
        - **Uso:** Cuando los datos faltantes son relativamente pocos y se distribuyen aleatoriamente.

    - **Imputación con la Mediana:**
        - **Pros:** Útil para datos con outliers, ya que la mediana no es sensible a valores extremos.
        - **Contras:** Similar a la imputación con la media, puede no ser apropiada para datos no aleatorios.
        - **Uso:** Para datos con distribución asimétrica.

    - **Imputación con un Valor Constante:**
        - **Pros:** Útil para ciertas variables categóricas.
        - **Contras:** Puede introducir bias significativo.
        - **Uso:** Cuando se quiere marcar claramente los datos imputados.

    - **Imputación con Métodos Avanzados (por ejemplo, K-Nearest Neighbors, Regresión):**
        - **Pros:** Más precisos, pueden utilizar la correlación entre variables.
        - **Contras:** Más complejos y requieren más tiempo computacional.
        - **Uso:** Para datasets grandes y cuando la precisión es crucial.

### Ejemplo Práctico: Tratamiento de Datos Faltantes en el Dataset Titanic

Usaremos el dataset Titanic para demostrar cómo identificar y tratar datos faltantes. Primero, identificaremos los datos faltantes y luego probaremos la imputación con la media.

In [None]:
# Identificar datos faltantes
titanic.isnull().sum()

El código anterior carga el dataset Titanic y utiliza el método `.isnull().sum()` para contar el número de valores faltantes en cada columna.

### Descripción de la Columna 'age'

Para tomar una decisión informada sobre cómo tratar los datos faltantes en la columna `age`, primero describimos la distribución de los datos en esta columna.

In [None]:
# Describir la columna 'age' para entender su distribución
print(titanic['age'].describe())

El método `.describe()` genera estadísticas descriptivas que incluyen la cuenta (count), la media (mean), la desviación estándar (std), los valores mínimo (min) y máximo (max), así como los cuartiles (25%, 50%, 75%).

### Cálculo de la Media de la Columna 'age'

Calculamos la media de la columna `age`. La media es un valor útil para imputar datos faltantes si se asume que los valores faltantes están distribuidos aleatoriamente alrededor de la media.

In [None]:
# Calcular la media de la columna 'age'
media_edad = titanic['age'].mean()
print(media_edad)

### Imputación de Datos Faltantes con la Media

Usamos la media calculada para rellenar los valores faltantes en la columna `age`. Esto se hace con el método `fillna()` de pandas.

In [None]:
# Rellenar valores faltantes en la columna 'age' con la media
titanic['age'].fillna(media_edad, inplace=True)

- `fillna(value)` reemplaza los valores faltantes (NA/NaN) con un valor especificado (`value`), en este caso, la media de la columna `age`.

- `inplace=True` significa que la operación se realiza en el mismo DataFrame, sin necesidad de asignar el resultado a una nueva variable. Esto modifica el DataFrame original directamente.

#### Verificación de la Imputación

Finalmente, verificamos que no queden valores faltantes en la columna `age`.

In [None]:
# Identificar datos faltantes
titanic.isnull().sum()

### Imputación de Datos Faltantes en la Columna `deck`

#### Razonamiento detrás de la Imputación

La columna `deck` en el dataset Titanic indica la cubierta en la que se encontraba cada pasajero. Sin embargo, esta información no siempre se registraba, resultando en un alto número de valores faltantes. Los datos faltantes pueden afectar negativamente cualquier análisis que desee realizarse, ya que la falta de datos puede sesgar los resultados y reducir la precisión de cualquier modelo predictivo.

#### Estrategias para Imputar Valores Faltantes

1. **Imputación con un Valor Constante:**
    - **Pros:** Es una estrategia sencilla y fácil de implementar. Rellenar los valores faltantes con una categoría como `'Desconocido'` permite mantener el tamaño del dataset y no pierde información sobre los registros con datos faltantes.
    - **Contras:** Esta estrategia puede introducir un sesgo si los datos faltantes no son aleatorios. No aporta información adicional, pero permite que el análisis continúe sin errores debido a valores nulos.

2. **Imputación Basada en Frecuencia:**
    - **Pros:** Rellenar con el valor más frecuente puede ser apropiado si se asume que los datos faltantes se distribuyen de manera similar a los datos no faltantes.
    - **Contras:** Puede no ser preciso si la frecuencia del valor más común no representa correctamente los datos faltantes.

3. **Imputación Basada en Agrupación:**
    - **Pros:** Utiliza información adicional de otras columnas para inferir los valores faltantes, lo que puede proporcionar una imputación más precisa.
    - **Contras:** Es más complejo y requiere un análisis detallado de las relaciones entre las columnas.

4. **Eliminar la Columna:**
    - **Pros:** Útil si la columna no es crítica para el análisis.
    - **Contras:** Se pierde la información contenida en la columna, aunque esté incompleta.

#### Decisión

Dado el alto número de valores faltantes en la columna `deck`, optamos por la imputación con un valor constante, `'Desconocido'`. Esta decisión se basa en la simplicidad y la claridad que aporta esta estrategia, especialmente en un contexto educativo donde el objetivo es aprender técnicas de manejo de datos faltantes. Además, este enfoque permite que la columna `deck` siga estando presente en el análisis sin causar problemas debido a los valores nulos.

#### Implementación en Python

A continuación, se muestra cómo imputar los valores faltantes en la columna `deck` con el valor `'Desconocido'` utilizando `pandas`.

In [None]:
titanic.info()

In [None]:
# Agregar 'Desconocido' a las categorías de la columna 'deck'
titanic['deck'] = titanic['deck'].cat.add_categories('Desconocido')

In [None]:
# Rellenar valores faltantes en la columna 'deck' con el valor constante 'Desconocido'
titanic['deck'].fillna('Desconocido', inplace=True)

# Verificar que no hay valores faltantes en 'deck'
titanic.isnull().sum()

### Eliminación de Filas con Valores Faltantes en `embarked` y `embark_town`

#### Razonamiento detrás de la Eliminación de Filas

Las columnas `embarked` y `embark_town` en el dataset Titanic contienen información sobre el puerto de embarque de los pasajeros. Aunque estos datos son importantes, el número de valores faltantes es muy pequeño (solo 2 en cada columna). En este caso, eliminar las filas con valores faltantes es una estrategia razonable por varias razones:

1. **Impacto Mínimo en el Análisis:** Dado que solo hay 2 filas con valores faltantes, eliminarlas no afectará significativamente el tamaño del dataset ni los resultados del análisis.
2. **Simplicidad:** La eliminación de filas es una estrategia simple y directa que no introduce sesgo adicional ni requiere supuestos sobre los datos faltantes.
3. **Integridad de los Datos:** Asegura que todas las filas restantes tengan datos completos, lo cual es importante para ciertos tipos de análisis y modelos predictivos que no manejan bien los valores faltantes.

#### Implementación en Python

A continuación, se muestra cómo eliminar las filas con valores faltantes en las columnas `embarked` y `embark_town` utilizando `pandas`.


In [None]:
# Eliminar filas con cualquier valor faltante
titanic.dropna(subset=['embarked', 'embark_town'], inplace=True)

# Verificar que no hay valores faltantes en 'embarked' y 'embark_town'
titanic.isnull().sum()

## Conversión de Tipos de Datos

### Importancia de la Conversión de Tipos de Datos

La conversión de tipos de datos es una práctica importante en el análisis de datos, ya que permite:
1. **Optimización de Memoria:** Reducir el uso de memoria al cambiar a tipos de datos más eficientes.
2. **Facilidad de Análisis:** Garantizar que los datos estén en el formato correcto para realizar análisis y operaciones matemáticas.
3. **Mejor Rendimiento:** Aumentar la velocidad de procesamiento de datos, especialmente en grandes conjuntos de datos.

### Información del DataFrame

Antes de realizar cualquier conversión, es útil revisar la estructura y tipos de datos del DataFrame. Aquí mostramos un resumen del DataFrame Titanic:

In [None]:
# Información básica sobre el dataset
titanic.info()

Este resumen nos muestra los tipos de datos actuales de cada columna y el uso de memoria del DataFrame.

### Estrategias para la Conversión de Tipos de Datos

1. **Conversión de Tipos Categóricos:**
   - Convertir columnas que contienen un número limitado de valores únicos (categóricos) a tipo `category`. Esto puede reducir significativamente el uso de memoria.

2. **Conversión de Tipos Numéricos:**
   - Convertir tipos de datos numéricos a tipos más eficientes, como `int8`, `int16`, `float32`, etc., cuando los valores en la columna lo permiten.

### Implementación en Python

A continuación, se muestran ejemplos de cómo convertir algunos tipos de datos en el dataset Titanic para optimizar el uso de memoria.

#### Conversión de Columnas Categóricas

Las columnas `sex`, `embarked`, `who`, `embark_town` y `alive` son buenas candidatas para ser convertidas a tipo `category`.

In [None]:
# Ver los valores únicos en esta columna
titanic['alive'].unique()

In [None]:
# Convertir columnas categóricas a tipo 'category'
titanic['sex'] = titanic['sex'].astype('category')
titanic['embarked'] = titanic['embarked'].astype('category')
titanic['who'] = titanic['who'].astype('category')
titanic['embark_town'] = titanic['embark_town'].astype('category')
titanic['alive'] = titanic['alive'].astype('category')

# Verificar los cambios
titanic.info()

#### Conversión de Columnas Numéricas

Las columnas `pclass`, `sibsp`, `parch` y `alone` pueden ser convertidas a tipos de enteros más pequeños (`int8`), ya que sus valores son pequeños y no requieren el rango completo de un `int64`.

In [None]:
# Convertir columnas numéricas a tipos más eficientes
titanic['pclass'] = titanic['pclass'].astype('int8')
titanic['sibsp'] = titanic['sibsp'].astype('int8')
titanic['parch'] = titanic['parch'].astype('int8')
titanic['alone'] = titanic['alone'].astype('int8')

# Verificar los cambios
titanic.info()

In [None]:
# cambien el tipo de datos de las 
# variables que consideren hace falta trabajar
print(titanic['survived'].unique())
titanic['survived'] = titanic['survived'].astype(bool)

In [None]:
print(titanic['fare'].max())
titanic['fare'] = titanic['fare'].astype('float16')

In [None]:
print(titanic['age'].max())
titanic['age'] = titanic['age'].astype('int8')

In [None]:
titanic.info()

## Creación de Nuevas Columnas Derivadas

### Importancia de la Creación de Nuevas Variables

La creación de nuevas variables derivadas de las columnas existentes puede proporcionar información adicional y mejorar el análisis de datos. Algunas técnicas incluyen:
1. **Estandarización de Datos:** Ajustar los datos para que tengan una media de 0 y una desviación estándar de 1 utilizando el Z-score.
2. **Transformaciones Matemáticas:** Aplicar funciones matemáticas (por ejemplo, logarítmica, exponencial) a las columnas.
3. **Combinaciones de Columnas:** Crear nuevas variables combinando múltiples columnas (por ejemplo, la relación entre hermanos y padres).

### Estandarización de Datos con Z-score

La estandarización de datos es una técnica que ajusta los datos para que tengan una media de 0 y una desviación estándar de 1. Esto es útil cuando se trabaja con algoritmos que son sensibles a la escala de los datos, como la regresión lineal, K-means, y redes neuronales.

La fórmula del Z-score es:
$$ Z = \frac{(X - \mu)}{\sigma} $$
donde:
- $ X $ es el valor original.
- $ \mu $ es la media de la columna.
- $ \sigma $ es la desviación estándar de la columna.

### Implementación en Python

A continuación, estandarizaremos la columna `age` y crearemos nuevas columnas derivadas de las existentes.


In [None]:
# Crear una nueva columna 'age_zscore' con el Z-score de 'age'
titanic['age_zscore'] = (titanic['age'] - titanic['age'].mean()) / titanic['age'].std()

titanic.head()

In [None]:
# Verificar variables estadísticas
titanic['age_zscore'].describe()

In [None]:
# Crear una nueva columna que combine 'sibsp' y 'parch' en 'family_size'
titanic['family_size'] = titanic['sibsp'] + titanic['parch'] + 1  # +1 para incluir el propio pasajero

titanic.tail()

## Definición de una Función Personalizada para Categorizar Edades

### Función `apply()` en `pandas`

La función `apply()` de `pandas` se utiliza para aplicar una función a lo largo de un eje del DataFrame (filas o columnas). En este caso, aplicaremos una función personalizada a la columna `age` para crear una nueva columna `age_category` que categoriza las edades de los pasajeros.

#### ¿Cómo funciona?

1. **Definición de la Función Personalizada:**
   - Creamos una función que toma un valor de edad y devuelve una categoría basada en ese valor.

2. **Aplicación de la Función:**
   - Usamos `apply()` para aplicar la función a cada valor de la columna `age` y creamos una nueva columna `age_category` para almacenar los resultados.

In [None]:
def age_category(age):
    if age < 18:
        return 'Niño'
    elif age < 65:
        return 'Adulto'
    else:
        return 'Anciano'
    
# Aplicar la función a la columna 'age' y crear una nueva columna 'age_category'
titanic['age_category'] = titanic['age'].apply(age_category)

# Mostrar las primeras filas con la nueva columna
titanic[['age', 'age_category']].head()

## Agrupación por `pclass` y Cálculo de la Media de `fare` y `age`

### Función `groupby()` en `pandas`

La función `groupby()` de `pandas` permite agrupar los datos según los valores de una o más columnas y aplicar funciones de agregación a los datos agrupados. Este método es útil para realizar análisis de resumen.

#### ¿Cómo funciona?

1. **Agrupación:**
   - Usamos `groupby()` para agrupar los datos por la columna `pclass`.

2. **Agregación:**
   - Aplicamos la función `agg()` para calcular la media de las columnas `fare` y `age` para cada grupo.

3. **Reset Index:**
   - Usamos `reset_index()` para convertir el resultado en un DataFrame estándar.


In [None]:
# Agrupar por 'pclass' y calcular la media de 'fare' y 'age'
grouped = titanic.groupby('pclass').agg({'fare': 'mean', 'age': 'mean'}).reset_index()

# Mostrar el DataFrame agrupado
grouped

## Creación de una Tabla Dinámica para Resumir la Media de `fare` por `sex` y `pclass`

### Función `pivot_table()` en `pandas`

La función `pivot_table()` de `pandas` es similar a las tablas dinámicas en Excel. Permite resumir y reorganizar los datos en una tabla, aplicando funciones de agregación a las combinaciones de valores de las columnas seleccionadas.

#### ¿Cómo funciona?

1. **Definición de Índices y Columnas:**
   - Especificamos las columnas que queremos usar como índices y columnas de la tabla dinámica (`sex` y `pclass`).

2. **Función de Agregación:**
   - Especificamos la función de agregación a aplicar (`mean` en este caso).

In [None]:
# Crear una tabla dinámica para resumir la media de 'fare' por 'sex' y 'pclass'
pivot = titanic.pivot_table(values='fare', index='sex', columns='pclass', aggfunc='mean')

# Mostrar la tabla dinámica
pivot

## Conclusiones

En esta clase, hemos explorado varias técnicas avanzadas de manipulación de datos utilizando `pandas`. Los conceptos clave que cubrimos incluyen:

1. **Tratamiento de Datos Faltantes:**
   - Identificación y manejo de datos faltantes mediante imputación y eliminación de filas.
   - Uso de `fillna()` para rellenar valores faltantes y `dropna()` para eliminar filas incompletas.

2. **Conversión de Tipos de Datos:**
   - Optimización del uso de memoria mediante la conversión de columnas a tipos de datos más eficientes como `category` e `int8`.

3. **Creación de Nuevas Columnas Derivadas:**
   - Uso de funciones personalizadas con `apply()` para crear nuevas columnas basadas en datos existentes.
   - Estandarización de datos utilizando el Z-score.

4. **Agrupación y Agregación:**
   - Agrupación de datos utilizando `groupby()` y aplicación de funciones de agregación con `agg()`.

5. **Tablas Dinámicas:**
   - Creación de tablas dinámicas con `pivot_table()` para resumir y analizar datos de manera eficiente.

Estas técnicas son fundamentales para preparar y analizar datos de manera efectiva, lo que es esencial para cualquier proyecto de análisis de datos o machine learning.

## Ejercicio: Efecto de Ser Adulto Masculino en la Tasa de Supervivencia

### Objetivo

El objetivo de este ejercicio es utilizar las habilidades de manipulación de datos aprendidas para crear una nueva columna que identifique si un pasajero es un hombre adulto y luego usar esa columna para calcular la tasa de supervivencia.

### Instrucciones

1. **Crear la Columna `is_adult_male`**

Primero, queremos identificar si cada pasajero es un hombre adulto. Para ello, crearemos una nueva columna llamada `is_adult_male` que será `True` si el pasajero es un hombre adulto, y `False` en caso contrario.

2. **Calcular la Tasa de Supervivencia**

Una vez que hayamos creado la columna `is_adult_male`, utilizaremos esta nueva columna para calcular la tasa de supervivencia de los hombres adultos comparada con la de otros pasajeros.