# 🧪 Ejercicio de Análisis de Datos con el Dataset del Titanic
En este ejercicio, utilizarás `pandas`, `matplotlib`, `sqlite3`, y `openpyxl` para explorar y visualizar datos.

## 📋 Instrucciones
1. Carga un subconjunto del dataset del Titanic.
2. Guarda el dataset como `.xlsx`.
3. Cárgalo desde una base de datos SQLite.
4. Realiza un análisis descriptivo con pandas.
5. Visualiza los datos con matplotlib.

> **Objetivo**: Identificar relaciones entre características como edad, clase y supervivencia.

In [None]:
# Importar librerías necesarias
import pandas as pd
import sqlite3
from io import StringIO
import matplotlib.pyplot as plt

## 🔹 Paso 1: Cargar un subconjunto del dataset Titanic

In [None]:
# Simulamos una pequeña parte del dataset del Titanic
titanic_data = '''Nombre,Edad,Genero,Clase,Superviviente
Allen,29,female,1,1
Braund,22,male,3,0
Cumings,38,female,1,1
Heikkinen,26,female,3,1
Futrelle,35,female,1,0
Moran,,male,3,0
Nasser,21,female,1,1'''

df_titanic = pd.read_csv(StringIO(titanic_data))
df_titanic

## 🔹 Paso 2: Guardar y leer como archivo Excel

In [None]:
# Guardamos el DataFrame en formato Excel
df_titanic.to_excel("/mnt/data/titanic_pequeno.xlsx", index=False)

# Lo leemos de nuevo para validar que se guardó correctamente
df_excel = pd.read_excel("/mnt/data/titanic_pequeno.xlsx")
df_excel

## 🔹 Paso 3: Guardar y leer desde una base de datos SQLite

In [None]:
# Conexión a base de datos SQLite en memoria
conn = sqlite3.connect(":memory:")

# Guardamos el DataFrame en la base de datos
df_excel.to_sql("titanic", conn, index=False, if_exists="replace")

# Leemos los datos desde la tabla usando SQL
df_sql = pd.read_sql("SELECT * FROM titanic", conn)
df_sql

## 🔹 Paso 4: Análisis con pandas

In [None]:
# Promedio de edad por clase
df_sql.groupby("Clase")["Edad"].mean()

In [None]:
# Conteo de sobrevivientes por género
df_sql.groupby("Genero")["Superviviente"].sum()

## 🔹 Paso 5: Visualización con matplotlib

In [None]:
# Histograma de edades
plt.figure(figsize=(8,5))
df_sql["Edad"].dropna().plot(kind='hist', bins=5, color='skyblue', edgecolor='black')
plt.title("Distribución de Edad de Pasajeros")
plt.xlabel("Edad")
plt.grid(True)
plt.tight_layout()
plt.show()

In [None]:
# Gráfico de barras de sobrevivientes por clase
sobrevivientes_clase = df_sql.groupby("Clase")["Superviviente"].sum()

plt.figure(figsize=(8,5))
sobrevivientes_clase.plot(kind='bar', color='green', edgecolor='black')
plt.title("Sobrevivientes por Clase")
plt.xlabel("Clase")
plt.ylabel("Cantidad de Sobrevivientes")
plt.grid(True, axis='y')
plt.tight_layout()
plt.show()