<a href="https://colab.research.google.com/github/dtoralg/IE_Calidad_ML/blob/main/Ejercicios/Modulo%202/Modulo_2_Ejercicio_3_Resuelto.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Ejercicio 3: Integración y Consolidación de Datos

## Objetivo
En este ejercicio aprenderás a:
- Cargar dos datasets online usando Pandas.
- Explorar y comparar la estructura de ambos conjuntos de datos.
- Verificar la existencia de una clave común (en este caso, `PassengerId`).
- Fusionar ambos DataFrames utilizando esa clave para consolidar la información.
- Validar la integración mediante pruebas automatizadas.

Utilizaremos dos datasets relacionados con el Titanic:

1. **Dataset Principal:**  
   Información básica de los pasajeros del Titanic.  
   **URL:**  
   `https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv`

2. **Dataset Extra:**  
   Información adicional de los pasajeros (por ejemplo, el título extraído del nombre, tamaño de la familia, etc.).  
   **URL:**  
   `https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic_extra.csv`

> **Pregunta de Reflexión:**  
> ¿Qué información adicional te gustaría tener para complementar el análisis de los pasajeros? ¿Cómo crees que esto puede ayudar a mejorar un modelo predictivo?

¡Comencemos con la integración de datos!


In [None]:
# Paso 1: Importa las librerías necesarias y carga ambos datasets.

# TODO: Importa pandas y, si lo consideras útil, matplotlib o seaborn para visualizaciones.
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# Define las URLs de ambos datasets
url_titanic = "https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv"
url_extra   = "https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic_extra.csv"

# TODO: Carga el dataset principal usando pd.read_csv() y almacénalo en un DataFrame llamado 'df_titanic'
df_titanic = pd.read_csv(url_titanic)

# TODO: Carga el dataset extra usando pd.read_csv() y almacénalo en un DataFrame llamado 'df_extra'
df_extra = pd.read_csv(url_extra)

# Visualiza las primeras filas de cada DataFrame para comprobar la carga
print("Primeras filas del dataset Titanic:")
display(df_titanic.head())

print("Primeras filas del dataset Extra:")
display(df_extra.head())


In [None]:
# Paso 2: Explora y compara la estructura de ambos datasets

# TODO: Muestra la lista de columnas y los tipos de datos para df_titanic y df_extra
print("Columnas y tipos de datos en df_titanic:")
print(df_titanic.dtypes)

print("Columnas y tipos de datos en df_extra:")
print(df_extra.dtypes)

# Opcional: Usa df.info() para ver información general de cada DataFrame
print("Información general de df_titanic:")
display(df_titanic.info())

print("Información general de df_extra:")
display(df_extra.info())


In [None]:
# Paso 3: Verificar que ambos datasets contienen la clave común 'PassengerId'

# Se usará 'PassengerId' como clave para la integración.
clave_comun = 'PassengerId'

# TODO: Verifica que 'PassengerId' exista en df_titanic y df_extra, e imprime un mensaje confirmándolo.
if clave_comun in df_titanic.columns and clave_comun in df_extra.columns:
    print(f"La clave común '{clave_comun}' se encuentra en ambos datasets.")
else:
    print(f"Error: La columna '{clave_comun}' no se encuentra en ambos datasets. Revisa las columnas disponibles.")

# Reflexiona: ¿Qué harías si la clave tuviera nombres distintos en cada dataset?


In [None]:
# Paso 4: Fusiona los DataFrames utilizando la clave común

# TODO: Usa pd.merge() para fusionar df_titanic y df_extra en un nuevo DataFrame llamado 'df_integrado'.
# Se recomienda usar un merge de tipo 'inner' para conservar solamente los registros que existen en ambos conjuntos.
df_integrado = pd.merge(df_titanic, df_extra, on=clave_comun, how='inner')

# Muestra las primeras filas y un resumen del DataFrame integrado para verificar la fusión.
print("Primeras filas del DataFrame integrado:")
display(df_integrado.head())

print("Información del DataFrame integrado:")
display(df_integrado.info())

# Reflexiona: ¿Qué diferencias notarías si hubieras utilizado un merge 'left'? ¿En qué situaciones podría ser útil?


In [None]:
# Paso 6: Sistema de testeo para verificar la integración

# Este bloque de código verificará:
# 1. Que la fusión se haya realizado sin errores.
# 2. Que el número de filas del DataFrame integrado sea el esperado.
# 3. Que se haya incorporado al menos una columna del dataset extra (por ejemplo, 'Title').

# Supongamos que ambos datasets contienen 891 filas y que el dataset extra tiene una columna llamada 'Title'.
expected_rows = 891  # Ajusta este valor si el dataset extra contiene menos registros.
column_extra = 'Title'  # Se asume que esta columna está presente en df_extra

# Test 1: Verificar número de filas (para un merge 'inner', debería ser igual al número de registros comunes)
actual_rows = df_integrado.shape[0]
assert actual_rows == expected_rows, f"Test fallido: Se esperaban {expected_rows} filas, pero se encontraron {actual_rows}."

# Test 2: Verificar que la columna extra 'Title' esté presente en el DataFrame integrado
assert column_extra in df_integrado.columns, f"Test fallido: La columna '{column_extra}' no se encontró en el DataFrame integrado."

print("Todos los tests se han pasado correctamente. La integración de datos se realizó como se esperaba.")


## Reflexión Final

1. ¿Qué diferencias observaste entre la estructura del dataset principal y el dataset extra?
2. ¿Qué información adicional aporta el dataset extra y cómo puede mejorar el análisis o la predicción?
3. ¿Qué dificultades encontraste al fusionar ambos conjuntos de datos y cómo las resolviste?
4. ¿En qué casos utilizarías un merge 'inner' frente a un merge 'left' o 'outer'?

_Responde estas preguntas en una celda Markdown adicional o en un comentario._
