# Análisis Exploratorio de Datos del Titanic

En esta libreta, realizaremos un análisis exploratorio de datos utilizando el famoso conjunto de datos del Titanic. Exploraremos cómo cargar, limpiar y visualizar los datos para obtener información valiosa.

## Importación de Bibliotecas

Primero, importemos las bibliotecas necesarias.

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import warnings

# Configuración para ignorar warnings
warnings.filterwarnings('ignore')

# Configuración de gráficos en línea
%matplotlib inline
# %matplotlib notebook

# Configuración de estilo de gráficos
sns.set_theme(style="whitegrid")

## Carga de Datos

Carguemos el conjunto de datos del Titanic proporcionado por `seaborn`.

In [None]:
# Cargar el conjunto de datos
df = sns.load_dataset('titanic') # DataFrame

# Mostrar las primeras filas del conjunto de datos
df.head()

## Descripción de las Columnas del Conjunto de Datos Titanic

El conjunto de datos del Titanic contiene información sobre los pasajeros del famoso barco que se hundió en 1912. A continuación se describen las columnas de este conjunto de datos:

- **survived**: Indica si el pasajero sobrevivió (1) o no (0).
- **pclass**: Clase del billete del pasajero, donde 1 es la primera clase, 2 es la segunda clase y 3 es la tercera clase.
- **sex**: Género del pasajero (`male` o `female`).
- **age**: Edad del pasajero.
- **sibsp**: Número de hermanos/esposos a bordo del Titanic.
- **parch**: Número de padres/hijos a bordo del Titanic.
- **fare**: Tarifa pagada por el billete del pasajero.
- **embarked**: Puerto de embarque del pasajero, donde `C` es Cherburgo, `Q` es Queenstown y `S` es Southampton.
- **class**: Clase del billete del pasajero (como categoría), similar a `pclass`.
- **who**: Descripción simplificada del pasajero (`man`, `woman`, `child`).
- **adult_male**: Indica si el pasajero es un hombre adulto (`True` o `False`).
- **deck**: Cubierta en la que se encontraba el camarote del pasajero (identificada por una letra).
- **embark_town**: Nombre del puerto de embarque (`Cherbourg`, `Queenstown`, `Southampton`).
- **alive**: Indica si el pasajero sobrevivió (`yes`) o no (`no`).
- **alone**: Indica si el pasajero estaba solo (`True`) o no (`False`).

### Notas Importantes:

- **survived** y **alive**: Ambas columnas indican la supervivencia del pasajero, pero `survived` es numérica mientras que `alive` es categórica.
- **pclass** y **class**: Ambas columnas indican la clase del billete, pero `pclass` es numérica mientras que `class` es categórica.
- **embarked** y **embark_town**: Ambas columnas indican el puerto de embarque, pero `embarked` usa abreviaturas (`C`, `Q`, `S`) mientras que `embark_town` usa nombres completos (`Cherbourg`, `Queenstown`, `Southampton`).

Este conjunto de datos es ampliamente utilizado para practicar técnicas de análisis de datos y aprendizaje automático debido a su riqueza y diversidad de información.

## Exploración de Datos

Antes de comenzar con la limpieza y el análisis de los datos, es importante entender la estructura del conjunto de datos. Utilizaremos algunas funciones de Pandas para obtener una visión general de nuestros datos.

In [None]:
# Describir las estadísticas básicas
print("Estadísticas básicas del conjunto de datos:")
df.describe()

In [None]:
# Información general del DataFrame
print("\nInformación general del DataFrame:")
df.info()

In [None]:
# Verifica que celdas no tienen un valor válido
df.isnull().head()

In [None]:
# Verificar valores nulos
print("\nConteo de valores nulos en cada columna:")
df.isnull().sum()

## Limpieza de Datos

Llenemos los valores nulos en las columnas 'age' y 'embarked'.

In [None]:
# Mostrar elementos de una columna
df['age']

In [None]:
# Calcular la mediana de los valores de una columna
df['age'].median()

In [None]:
df['embarked'].mode()

In [None]:
# Llenar valores nulos en la columna 'age' con la mediana
df['age'] = df['age'].fillna(df['age'].median())

# Llenar valores nulos en la columna 'embarked' con el modo
df['embarked'] = df['embarked'].fillna(df['embarked'].mode()[0])

# Eliminar filas con valores nulos restantes
df = df.dropna()

# Verificar nuevamente valores nulos
df.isnull().sum()

In [None]:
df.info()

In [None]:
# Número de filas en el DataFrame
len(df)

In [None]:
# Asegurarse de que no haya valores infinitos en la columna 'age'
df['age'] = df['age'].replace([np.inf, -np.inf], np.nan)

# Verificar si hay valores nulos resultantes de la eliminación de infinitos
print("\nConteo de valores nulos después de reemplazar infinitos:")
df.isnull().sum()

## Análisis Exploratorio de Datos (EDA)

Realicemos algunas visualizaciones para entender mejor los datos.

In [None]:
# Distribución de edades
plt.figure(figsize=(10, 6))
sns.histplot(df['age'], bins=30, kde=True)
plt.title('Distribución de Edades')
plt.xlabel('Edad')
plt.ylabel('Frecuencia')
plt.show()

In [None]:
# Distribución de supervivientes
plt.figure(figsize=(10, 6))
sns.countplot(x='survived', data=df)
plt.title('Distribución de Supervivientes')
plt.xlabel('Sobrevivió (1=Sí, 0=No)')
plt.ylabel('Frecuencia')
plt.show()

In [None]:
# Relación entre edad y tarifa
plt.figure(figsize=(10, 6))
sns.scatterplot(x='age', y='fare', data=df, hue='survived')
plt.title('Relación entre Edad y Tarifa')
plt.xlabel('Edad')
plt.ylabel('Tarifa')
plt.legend(title='Sobrevivió')
plt.show()

In [None]:
# Relación entre clase y supervivencia
plt.figure(figsize=(10, 6))
sns.countplot(x='class', hue='survived', data=df)
plt.title('Supervivencia por Clase')
plt.xlabel('Clase')
plt.ylabel('Frecuencia')
plt.legend(title='Sobrevivió')
plt.show()

In [None]:
# Supervivencia por género
plt.figure(figsize=(10, 6))
sns.countplot(x='sex', hue='survived', data=df)
plt.title('Supervivencia por Género')
plt.xlabel('Género')
plt.ylabel('Frecuencia')
plt.legend(title='Sobrevivió')
plt.show()

In [None]:
# Relación entre clase y edad
plt.figure(figsize=(10, 6))
sns.boxplot(x='pclass', y='age', data=df)
plt.title('Relación entre Clase y Edad')
plt.xlabel('Clase')
plt.ylabel('Edad')
plt.show()