# Ejercicios con el dataset del Titanic
Este notebook contiene varios ejercicios para practicar `numpy`, `pandas` y `matplotlib` usando el archivo `titanic.csv` proporcionado.
Ejecuta cada celda en orden. Las celdas de código incluyen soluciones comentadas; intenta resolver primero los enunciados antes de ejecutar las soluciones.

In [None]:
# Importar librerías y cargar el CSV
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline

# Cargar el dataset (archivo 'titanic.csv' en la misma carpeta del notebook)
df = pd.read_csv('titanic.csv')
df.head()

## Ejercicio 1 — Exploración básica
- Mostrar las primeras 10 filas.
- Mostrar la forma del DataFrame (`shape`) y el número de valores faltantes por columna.

In [None]:
# EJERCICIO 1 - EXPLOTACIÓN BÁSICA (sin solución)
# Tareas:
# 1) Mostrar las primeras 10 filas del DataFrame
print(df.head(10))
# 2) Mostrar la forma del DataFrame (shape)
print(df.shape)
# 3) Mostrar el número de valores faltantes por columna
print(df.isnull().sum())

# Escribe tu código aquí:


## Ejercicio 2 — Estadísticas con NumPy y Pandas
- Calcular la edad media, mediana y desviación estándar usando `numpy` sobre la columna `Age` (ten en cuenta valores nulos).
- Comparar con `df['Age'].describe()` de pandas.

In [None]:
# EJERCICIO 2 - ESTADÍSTICAS con NumPy y Pandas (sin solución)
# Tareas:
# 1) Calcular media, mediana y desviación estándar de la columna 'Age' usando numpy (ignorar nulos)
ages = df['Age'].dropna().values
mean_age = np.mean(ages)
median_age = np.median(ages)
std_age = np.std(ages)
print(f"Mean Age: {mean_age}, Median Age: {median_age}, Std Dev Age: {std_age}")
# 2) Comparar con df['Age'].describe() de pandas

# Escribe tu código aquí:


## Ejercicio 3 — Filtrado y selección
- Seleccionar todos los pasajeros mujeres (`Sex == 'female'`) de primera clase (`Pclass == 1`).
- Mostrar cuántas son y las primeras 5 filas.

In [None]:
# EJERCICIO 3 - FILTRADO Y SELECCIÓN (sin solución)
# Tareas:
# 1) Seleccionar pasajeros mujeres ('Sex' == 'female') de primera clase ('Pclass' == 1)
females_first_class = df[(df['Sex'] == 'female') & (df['Pclass'] == 1)]
# 2) Mostrar cuántas son y las primeras 5 filas
print(f"Number of females in first class: {len(females_first_class)}")
print(females_first_class.head())
# Escribe tu código aquí:


## Ejercicio 4 — Agrupación y pivot
- Calcular la tasa de supervivencia (`Survived`) por `Sex` y por `Pclass`.
- Crear una tabla pivote (`pivot_table`) que muestre la tasa de supervivencia por `Pclass` (filas) y `Sex` (columnas).

In [None]:
# EJERCICIO 4 - AGRUPACIÓN Y PIVOT (sin solución)
# Tareas:
# 1) Calcular la tasa de supervivencia ('Survived') por 'Sex' y por 'Pclass'
survival_rate = df.groupby(['Pclass', 'Sex'])['Survived'].mean().unstack()
print(survival_rate)

# 2) Crear una tabla pivote que muestre la tasa de supervivencia por 'Pclass' (filas) y 'Sex' (columnas)
print(df.pivot_table(index='Pclass', columns='Sex', values='Survived', aggfunc='mean')) 

# Escribe tu código aquí:


## Ejercicio 5 — Visualización (barras)
- Crear un gráfico de barras que muestre la tasa de supervivencia por `Pclass`.
- Crear otro gráfico comparando la tasa de supervivencia por `Sex`.

In [None]:
# EJERCICIO 5 - VISUALIZACIÓN (barras) (sin solución)
# Tareas:
# 1) Crear un gráfico de barras que muestre la tasa de supervivencia por 'Pclass'

plt.figure(figsize=(8,6))
df.groupby('Pclass')['Survived'].mean().plot(kind='bar', color='skyblue')
plt.title('Tasa de Supervivencia por Pclass')
plt.show()
# 2) Crear otro gráfico comparando la tasa de supervivencia por 'Sex'

# Escribe tu código aquí:


## Ejercicio 6 — Histograma de edades
- Dibujar un histograma de la columna `Age` limpiando los valores nulos (por ejemplo, usando `dropna()`).
- Probar distintos tamaños de bins.

In [None]:
# EJERCICIO 6 - HISTOGRAMA DE EDADES (sin solución)
# Tareas:
# 1) Dibujar un histograma de la columna 'Age' limpiando los valores nulos
ages = df['Age'].dropna()
plt.figure(figsize=(8,6))
plt.hist(ages, bins=30, color='lightgreen', edgecolor='black')
plt.show()
# 2) Probar distintos tamaños de bins

# Escribe tu código aquí:


## Ejercicio 7 — Scatter plot Fare vs Age
- Dibujar un scatter plot de `Fare` vs `Age` coloreando los puntos según `Survived`.
- Manejar valores nulos en `Age` filtrándolos.

In [None]:
# EJERCICIO 7 - SCATTER PLOT Fare vs Age (sin solución)
# Tareas:
# 1) Dibujar un scatter plot de 'Fare' vs 'Age' coloreando por 'Survived'
plt.figure(figsize=(8,6))
survived = df['Survived'] == 1
plt.scatter(df.loc[~survived, 'Age'], df.loc[~survived, 'Fare'], color='red', label='Not Survived', alpha=0.5)
plt.scatter(df.loc[survived, 'Age'], df.loc[survived, 'Fare'], color='green', label='Survived', alpha=0.5)
plt.xlabel('Age')
plt.ylabel('Fare')
plt.legend()
plt.title('Fare vs Age by Survival Status')
plt.show()
# 2) Manejar valores nulos en 'Age' y 'Fare' filtrándolos
# Escribe tu código aquí:


## Ejercicio 8 — Feature engineering y análisis
- Crear una nueva columna `FamilySize = SibSp + Parch + 1` (incluye al propio pasajero).
- Calcular la tasa de supervivencia agrupada por `FamilySize`.
- Dibujar un gráfico de línea o barras mostrando la tasa según `FamilySize`.

In [None]:
# EJERCICIO 8 - FEATURE ENGINEERING (sin solución)
# Tareas:
# 1) Crear la columna 'FamilySize' = SibSp + Parch + 1

# 2) Calcular la tasa de supervivencia agrupada por 'FamilySize'
# 3) Dibujar un gráfico que muestre la tasa según 'FamilySize'


# Escribe tu código aquí:


---
Si quieres, puedo:
- Ejecutar las primeras celdas aquí y mostrar resultados rápidos.
- Añadir más ejercicios (por ejemplo, limpieza avanzada, imputación, o visualizar correlaciones).
- Guardar una versión con las soluciones 'ocultas' en celdas colapsables.
Dime qué prefieres que haga a continuación.