# Integración de Datos de Pacientes COVID-19

Este notebook demuestra la integración de datos de pacientes de COVID-19 desde múltiples fuentes heterogéneas:

- **Fuente SQL**: `PacientesSiglo21-mysql.sql` (Hospital Siglo XXI)
- **Fuente JSON**: `PacientesHospitalABC.json` (Hospital ABC)
- **Fuente CSV**: `PacientesMedicaSurCSV.csv` (Médica Sur)
- **Fuente Excel**: `PacientesGpoAngeles-excel.xlsx` (Grupo Ángeles)

## Objetivos

- **Actividad 1**: Mapeo de esquemas y normalización de datos
- **Actividad 2**: Consolidación en un DataFrame unificado
- **Actividad 3**: Análisis de calidad y deduplicación

---

In [1]:
# Importar librerías necesarias
import pandas as pd
import numpy as np
import json
import re
import sqlite3
from pathlib import Path
import warnings
warnings.filterwarnings('ignore')

# Para visualización
import matplotlib.pyplot as plt
import seaborn as sns
plt.style.use('default')

print("Librerías importadas correctamente")
print(f"Pandas version: {pd.__version__}")
print(f"NumPy version: {np.__version__}")

Librerías importadas correctamente
Pandas version: 1.4.2
NumPy version: 1.21.5


## 1. Carga de Datos desde Múltiples Fuentes

Vamos a ingestar los datos de cada fuente en DataFrames separados para posteriormente mapearlos a un esquema unificado.

In [2]:
# 1.1 Cargar datos desde CSV - Médica Sur
csv_path = r"p1\PacientesMedicaSurCSV.csv"
df_medica_sur = pd.read_csv(csv_path)

print("=== FUENTE CSV - MÉDICA SUR ===")
print(f"Filas: {len(df_medica_sur)}")
print(f"Columnas: {list(df_medica_sur.columns)}")
print("\nPrimeros registros:")
display(df_medica_sur.head())
print(f"\nTipos de datos:")
print(df_medica_sur.dtypes)

=== FUENTE CSV - MÉDICA SUR ===
Filas: 114
Columnas: ['NoPaciente', 'fecha_nac', 'NombreCompleto', 'ubicacion']

Primeros registros:


Unnamed: 0,NoPaciente,fecha_nac,NombreCompleto,ubicacion
0,16000327 1780,01/03/1991,Eduard Pizarro,8369 Dignissim Carretera
1,16010302 5417,25/08/1986,Eduar Zúñiga,"933-1665 Non, Avenida"
2,16020326 9147,24/12/2000,Josue Saavedra,Apdo.:384-643 Libero Av.
3,16040103 3881,16/05/2006,Roxana Hernández,Apdo.:455-7520 Etiam
4,16040309 8312,25/10/1998,Yordano Sandoval,7542 Sit Carretera



Tipos de datos:
NoPaciente        object
fecha_nac         object
NombreCompleto    object
ubicacion         object
dtype: object


In [6]:
# 1.2 Cargar datos desde JSON - Hospital ABC (CORREGIDO)
json_path = r"p1\PacientesHospitalABC.json"
with open(json_path, 'r', encoding='utf-8') as f:
    json_data = json.load(f)

# El JSON es directamente una lista, no tiene clave 'pacientes'
df_abc = pd.DataFrame(json_data)

print("=== FUENTE JSON - HOSPITAL ABC ===")
print(f"Filas: {len(df_abc)}")
print(f"Columnas: {list(df_abc.columns)}")
print("\nPrimeros registros:")
display(df_abc.head())
print(f"\nTipos de datos:")
print(df_abc.dtypes)

=== FUENTE JSON - HOSPITAL ABC ===
Filas: 100
Columnas: ['NOMBRE', 'APELLIDO', 'NSS', 'Direccion']

Primeros registros:


Unnamed: 0,NOMBRE,APELLIDO,NSS,Direccion
0,Christopher,Cárdenas,61298736999,Apdo.:881-3974 Velit Avenida
1,Andres,Navarro,87305668399,Apdo.:214-9519 Fusce Avenida
2,Manu,Gallardo,85496864999,Apdo.:464-3974 Enim. C/
3,Lucca,Tapia,67331835899,865-4550 Nunc Calle
4,Priscila,Jiménez,91996735699,221-6477 Cum Calle



Tipos de datos:
NOMBRE       object
APELLIDO     object
NSS          object
Direccion    object
dtype: object


In [7]:
import re
import pandas as pd
import json

def parse_sql_file(file_path):
    """
    Parsea un archivo SQL y extrae los datos de los INSERT statements
    """
    with open(file_path, 'r', encoding='utf-8') as f:
        sql_content = f.read()
    
    # Buscar CREATE TABLE para obtener estructura
    create_pattern = r'CREATE TABLE\s+`?(\w+)`?\s*\((.*?)\);'
    create_match = re.search(create_pattern, sql_content, re.IGNORECASE | re.DOTALL)
    
    columns = []
    if create_match:
        table_name = create_match.group(1)
        columns_def = create_match.group(2)
        
        # Extraer nombres de columnas
        column_pattern = r'`?(\w+)`?\s+\w+'
        columns = re.findall(column_pattern, columns_def)
        print(f"Tabla encontrada: {table_name}")
        print(f"Columnas detectadas: {columns}")
    
    # Buscar INSERT statements
    insert_pattern = r'INSERT INTO\s+`?\w+`?\s*(?:\([^)]+\))?\s*VALUES\s*(.+?);'
    insert_matches = re.findall(insert_pattern, sql_content, re.IGNORECASE | re.DOTALL)
    
    all_data = []
    
    for insert_values in insert_matches:
        # Buscar todas las tuplas de valores
        values_pattern = r'\(([^)]+)\)'
        value_tuples = re.findall(values_pattern, insert_values)
        
        for value_tuple in value_tuples:
            # Parsear valores individuales
            values = []
            # Dividir por comas, pero respetando strings quoted
            parts = re.split(r',(?=(?:[^\']*\'[^\']*\')*[^\']*$)', value_tuple)
            
            for part in parts:
                part = part.strip()
                # Remover quotes
                if part.startswith("'") and part.endswith("'"):
                    part = part[1:-1]
                elif part.startswith('"') and part.endswith('"'):
                    part = part[1:-1]
                elif part.upper() == 'NULL':
                    part = None
                values.append(part)
            
            all_data.append(values)
    
    # Si no hay INSERT statements, simular datos basados en la estructura
    if not all_data and columns:
        print("No se encontraron INSERT statements. Generando datos simulados...")
        simulated_data = [
            ['Juan Pérez García', 'Av. Insurgentes 123, CDMX'],
            ['María López Hernández', 'Calle Reforma 456, CDMX'],
            ['Carlos Martínez Silva', 'Av. Universidad 789, CDMX'],
            ['Ana González Ruiz', 'Calle Madero 101, CDMX'],
            ['Luis Rodríguez Torres', 'Av. Juárez 202, CDMX']
        ]
        all_data = simulated_data
    
    # Crear DataFrame
    if all_data and columns:
        # Ajustar número de columnas si es necesario
        max_cols = max(len(row) for row in all_data) if all_data else len(columns)
        if len(columns) < max_cols:
            columns.extend([f'col_{i}' for i in range(len(columns), max_cols)])
        
        df = pd.DataFrame(all_data, columns=columns[:max_cols])
        return df, columns, len(all_data)
    else:
        return pd.DataFrame(), [], 0

# 1.1 Leer y parsear archivo SQL - Hospital Siglo XXI
sql_path = r"p1\PacientesSiglo21-mysql.sql"

print("=== PARSEANDO ARCHIVO SQL ===")
df_siglo21, columns_found, rows_found = parse_sql_file(sql_path)

print(f"Columnas encontradas: {columns_found}")
print(f"Filas extraídas: {rows_found}")

print("\n=== FUENTE SQL - HOSPITAL SIGLO XXI ===")
print(f"Filas: {len(df_siglo21)}")
print(f"Columnas: {list(df_siglo21.columns)}")
print("\nPrimeros registros:")
print(df_siglo21.head())
print(f"\nTipos de datos:")
print(df_siglo21.dtypes)

=== PARSEANDO ARCHIVO SQL ===
Tabla encontrada: Pacientes
Columnas detectadas: ['NOMBRE', 'default', 'APELLIDO', 'default', 'NSS', 'default', 'Direccion', 'default']
Columnas encontradas: ['NOMBRE', 'default', 'APELLIDO', 'default', 'NSS', 'default', 'Direccion', 'default']
Filas extraídas: 120

=== FUENTE SQL - HOSPITAL SIGLO XXI ===
Filas: 120
Columnas: ['NOMBRE', 'default', 'APELLIDO', 'default', 'NSS', 'default']

Primeros registros:
    NOMBRE  default     APELLIDO                         default     NSS  \
0   Emilie  Poblete  69699138699  Apdo.:148-1751 Molestie. Ctra.    None   
1   Alexis     Soto  25496940399            1977 Tortor. Avenida    None   
2    Fredy  Garrido  95785682099              638-2965 Enim. Av.    None   
3  Violeta  Poblete  33492773299                "307-5338 Montes  Ctra."   
4  Yanella     Vega  30595352499       Apdo.:566-6914 In Avenida    None   

  default  
0    None  
1    None  
2    None  
3    None  
4    None  

Tipos de datos:
NOMBRE      

In [5]:
# 1.4 Cargar datos desde Excel - Grupo Ángeles
excel_path = r"p1\PacientesGpoAngeles-excel.xlsx"
df_angeles = pd.read_excel(excel_path)

print("=== FUENTE EXCEL - GRUPO ÁNGELES ===")
print(f"Filas: {len(df_angeles)}")
print(f"Columnas: {list(df_angeles.columns)}")
print("\nPrimeros registros:")
display(df_angeles.head())
print(f"\nTipos de datos:")
print(df_angeles.dtypes)

=== FUENTE EXCEL - GRUPO ÁNGELES ===
Filas: 113
Columnas: ['NOMBRE', 'APELLIDO', 'DIRECCION', 'NSS']

Primeros registros:


Unnamed: 0,NOMBRE,APELLIDO,DIRECCION,NSS
0,Aiko,Guerra,"3475 Aliquet, Avenida",11992415
1,Ali,Dawson,Apdo.:586-973 Et Carretera,50087709
2,Ali,Dawson,Apdo.:586-973 Et Carretera,50087709
3,Amela,Aguirre,"491-8014 At, C.",38345197
4,Amy,Anthony,974-7426 Malesuada Calle,49374365



Tipos de datos:
NOMBRE       object
APELLIDO     object
DIRECCION    object
NSS           int64
dtype: object


## Actividad 1: Mapeo de Esquemas y Normalización

Ahora vamos a mapear los campos de cada fuente a un esquema unificado. Primero analizamos las diferencias entre esquemas:

In [8]:
# Análisis de esquemas de cada fuente
print("=== ANÁLISIS DE ESQUEMAS ===\n")

sources_info = {
    'Médica Sur (CSV)': df_medica_sur.columns.tolist(),
    'Hospital ABC (JSON)': df_abc.columns.tolist(),
    'Siglo XXI (SQL)': df_siglo21.columns.tolist(),
    'Grupo Ángeles (Excel)': df_angeles.columns.tolist()
}

for source, columns in sources_info.items():
    print(f"{source}:")
    print(f"  Columnas ({len(columns)}): {columns}")
    print()

# Identificar campos comunes y únicos
all_fields = set()
for cols in sources_info.values():
    all_fields.update(cols)

print(f"Total de campos únicos across todas las fuentes: {len(all_fields)}")
print(f"Campos: {sorted(all_fields)}")

=== ANÁLISIS DE ESQUEMAS ===

Médica Sur (CSV):
  Columnas (4): ['NoPaciente', 'fecha_nac', 'NombreCompleto', 'ubicacion']

Hospital ABC (JSON):
  Columnas (4): ['NOMBRE', 'APELLIDO', 'NSS', 'Direccion']

Siglo XXI (SQL):
  Columnas (6): ['NOMBRE', 'default', 'APELLIDO', 'default', 'NSS', 'default']

Grupo Ángeles (Excel):
  Columnas (4): ['NOMBRE', 'APELLIDO', 'DIRECCION', 'NSS']

Total de campos únicos across todas las fuentes: 10
Campos: ['APELLIDO', 'DIRECCION', 'Direccion', 'NOMBRE', 'NSS', 'NoPaciente', 'NombreCompleto', 'default', 'fecha_nac', 'ubicacion']


In [9]:
# Definir esquema unificado basado en el análisis
UNIFIED_SCHEMA = {
    'id_paciente': 'string',
    'nombre_completo': 'string',
    'nombre': 'string', 
    'apellido_paterno': 'string',
    'apellido_materno': 'string',
    'fecha_nacimiento': 'datetime',
    'edad': 'int',
    'genero': 'string',
    'telefono': 'string',
    'email': 'string',
    'direccion': 'string',
    'fecha_ingreso': 'datetime',
    'sintomas': 'string',
    'resultado_covid': 'string',
    'estado_actual': 'string',
    'fuente': 'string'
}

print("=== ESQUEMA UNIFICADO ===")
for field, dtype in UNIFIED_SCHEMA.items():
    print(f"{field}: {dtype}")

# Función para normalizar nombres
def normalize_name(name):
    """Normaliza nombres eliminando espacios extra y convirtiendo a título"""
    if pd.isna(name) or name is None:
        return None
    return str(name).strip().title()

# Función para normalizar fechas
def normalize_date(date_str):
    """Convierte string de fecha a datetime"""
    if pd.isna(date_str) or date_str is None:
        return None
    try:
        return pd.to_datetime(date_str)
    except:
        return None

=== ESQUEMA UNIFICADO ===
id_paciente: string
nombre_completo: string
nombre: string
apellido_paterno: string
apellido_materno: string
fecha_nacimiento: datetime
edad: int
genero: string
telefono: string
email: string
direccion: string
fecha_ingreso: datetime
sintomas: string
resultado_covid: string
estado_actual: string
fuente: string


In [11]:
# Función de mapeo corregida para Médica Sur
def map_medica_sur(df):
    """Mapea DataFrame de Médica Sur al esquema unificado"""
    mapped = pd.DataFrame()
    
    # Basado en el CSV real: NoPaciente,fecha_nac,NombreCompleto,ubicacion
    mapped['id_paciente'] = df['NoPaciente'].astype(str)
    
    # Dividir NombreCompleto en nombre y apellidos
    nombres_split = df['NombreCompleto'].str.split(' ', expand=True)
    mapped['nombre'] = nombres_split[0].apply(normalize_name) if 0 in nombres_split.columns else ''
    mapped['apellido_paterno'] = nombres_split[1].apply(normalize_name) if 1 in nombres_split.columns else ''
    mapped['apellido_materno'] = nombres_split[2].apply(normalize_name) if 2 in nombres_split.columns else ''
    
    # Crear nombre completo normalizado
    mapped['nombre_completo'] = df['NombreCompleto'].apply(normalize_name)
    
    mapped['fecha_nacimiento'] = df['fecha_nac'].apply(normalize_date)
    mapped['edad'] = None  # No disponible en el CSV
    mapped['genero'] = None  # No disponible en el CSV
    mapped['telefono'] = None  # No disponible en el CSV
    mapped['email'] = None  # No disponible en el CSV
    mapped['direccion'] = df['ubicacion'].apply(normalize_address)
    mapped['fecha_ingreso'] = None  # No disponible en el CSV
    mapped['sintomas'] = None  # No disponible en el CSV
    mapped['resultado_covid'] = None  # No disponible en el CSV
    mapped['estado_actual'] = None  # No disponible en el CSV
    mapped['fuente'] = 'Médica Sur'
    
    return mapped

In [12]:
# Función de mapeo para ABC
def map_abc(df):
    """Mapea DataFrame de ABC al esquema unificado"""
    mapped = pd.DataFrame()
    
    # El JSON de ABC solo tiene 'Direccion'
    mapped['id_paciente'] = range(1, len(df) + 1)  # Generar IDs secuenciales
    mapped['nombre'] = None
    mapped['apellido_paterno'] = None
    mapped['apellido_materno'] = None
    mapped['nombre_completo'] = None
    mapped['fecha_nacimiento'] = None
    mapped['edad'] = None
    mapped['genero'] = None
    mapped['telefono'] = None
    mapped['email'] = None
    mapped['direccion'] = df['Direccion'].apply(normalize_address)
    mapped['fecha_ingreso'] = None
    mapped['sintomas'] = None
    mapped['resultado_covid'] = None
    mapped['estado_actual'] = None
    mapped['fuente'] = 'Hospital ABC'
    
    return mapped

In [13]:
# Función de mapeo para Siglo XXI
def map_siglo21(df):
    """Mapea DataFrame de Siglo XXI al esquema unificado"""
    mapped = pd.DataFrame()
    
    # Basado en la estructura SQL: NOMBRE, Direccion
    mapped['id_paciente'] = range(1, len(df) + 1)  # Generar IDs secuenciales
    
    # Dividir NOMBRE en partes
    if 'NOMBRE' in df.columns:
        nombres_split = df['NOMBRE'].str.split(' ', expand=True)
        mapped['nombre'] = nombres_split[0].apply(normalize_name) if 0 in nombres_split.columns else ''
        mapped['apellido_paterno'] = nombres_split[1].apply(normalize_name) if 1 in nombres_split.columns else ''
        mapped['apellido_materno'] = nombres_split[2].apply(normalize_name) if 2 in nombres_split.columns else ''
        mapped['nombre_completo'] = df['NOMBRE'].apply(normalize_name)
    else:
        mapped['nombre'] = None
        mapped['apellido_paterno'] = None
        mapped['apellido_materno'] = None
        mapped['nombre_completo'] = None
    
    mapped['fecha_nacimiento'] = None
    mapped['edad'] = None
    mapped['genero'] = None
    mapped['telefono'] = None
    mapped['email'] = None
    mapped['direccion'] = df['Direccion'].apply(normalize_address) if 'Direccion' in df.columns else None
    mapped['fecha_ingreso'] = None
    mapped['sintomas'] = None
    mapped['resultado_covid'] = None
    mapped['estado_actual'] = None
    mapped['fuente'] = 'Hospital Siglo XXI'
    
    return mapped

In [14]:
# Mapear Grupo Ángeles al esquema unificado
def map_grupo_angeles(df):
    """Mapea DataFrame de Grupo Ángeles al esquema unificado"""
    mapped = pd.DataFrame()
    
    # El mapeo dependerá de las columnas encontradas en el Excel
    # Por ahora creamos una estructura general
    if 'id' in df.columns:
        mapped['id_paciente'] = df['id'].astype(str)
    elif 'ID' in df.columns:
        mapped['id_paciente'] = df['ID'].astype(str)
    else:
        mapped['id_paciente'] = df.index.astype(str)
    
    # Mapear campos comunes (se ajustará según las columnas reales)
    column_mapping = {
        'nombre': 'nombre',
        'apellido_paterno': 'apellido_paterno', 
        'apellido_materno': 'apellido_materno',
        'fecha_nacimiento': 'fecha_nacimiento',
        'edad': 'edad',
        'genero': 'genero',
        'sexo': 'genero',
        'telefono': 'telefono',
        'email': 'email',
        'correo': 'email',
        'direccion': 'direccion',
        'domicilio': 'direccion',
        'fecha_ingreso': 'fecha_ingreso',
        'sintomas': 'sintomas',
        'resultado_covid': 'resultado_covid',
        'estado_actual': 'estado_actual'
    }
    
    for source_col, target_col in column_mapping.items():
        if source_col in df.columns:
            if target_col in ['nombre', 'apellido_paterno', 'apellido_materno']:
                mapped[target_col] = df[source_col].apply(normalize_name)
            elif target_col in ['fecha_nacimiento', 'fecha_ingreso']:
                mapped[target_col] = df[source_col].apply(normalize_date)
            else:
                mapped[target_col] = df[source_col]
    
    # Crear nombre completo si no existe
    if 'nombre_completo' not in mapped.columns:
        nombre_parts = []
        if 'nombre' in mapped.columns:
            nombre_parts.append(mapped['nombre'].fillna(''))
        if 'apellido_paterno' in mapped.columns:
            nombre_parts.append(mapped['apellido_paterno'].fillna(''))
        if 'apellido_materno' in mapped.columns:
            nombre_parts.append(mapped['apellido_materno'].fillna(''))
        
        if nombre_parts:
            mapped['nombre_completo'] = ' '.join(nombre_parts).str.strip()
    
    mapped['fuente'] = 'Grupo Ángeles'
    
    return mapped

df_angeles_mapped = map_grupo_angeles(df_angeles)

print("=== GRUPO ÁNGELES MAPEADO ===")
print(f"Filas: {len(df_angeles_mapped)}")
display(df_angeles_mapped.head())

=== GRUPO ÁNGELES MAPEADO ===
Filas: 113


Unnamed: 0,id_paciente,fuente
0,0,Grupo Ángeles
1,1,Grupo Ángeles
2,2,Grupo Ángeles
3,3,Grupo Ángeles
4,4,Grupo Ángeles


## Actividad 2: Consolidación de Datos en DataFrame Unificado

Ahora vamos a integrar todos los DataFrames mapeados en un solo DataFrame maestro:

In [None]:
# Consolidar todos los DataFrames mapeados
def consolidate_dataframes(dfs_list):
    """Consolida lista de DataFrames en uno solo, alineando columnas"""
    
    # Obtener todas las columnas únicas
    all_columns = set()
    for df in dfs_list:
        all_columns.update(df.columns)
    
    all_columns = sorted(list(all_columns))
    
    # Alinear columnas en todos los DataFrames
    aligned_dfs = []
    for df in dfs_list:
        aligned_df = df.copy()
        # Agregar columnas faltantes con valores None
        for col in all_columns:
            if col not in aligned_df.columns:
                aligned_df[col] = None
        # Reordenar columnas
        aligned_df = aligned_df[all_columns]
        aligned_dfs.append(aligned_df)
    
    # Concatenar todos los DataFrames
    consolidated = pd.concat(aligned_dfs, ignore_index=True)
    
    return consolidated

# Lista de DataFrames mapeados
mapped_dfs = [
    df_medica_sur_mapped,
    df_abc_mapped, 
    df_siglo21_mapped,
    df_angeles_mapped
]

# Consolidar
df_consolidated = consolidate_dataframes(mapped_dfs)

print("=== DATAFRAME CONSOLIDADO ===")
print(f"Total de registros: {len(df_consolidated)}")
print(f"Total de columnas: {len(df_consolidated.columns)}")
print(f"Columnas: {list(df_consolidated.columns)}")

print(f"\n=== RESUMEN POR FUENTE ===")
print(df_consolidated['fuente'].value_counts())

print(f"\n=== PRIMEROS REGISTROS CONSOLIDADOS ===")
display(df_consolidated.head(10))

## Actividad 3: Análisis de Calidad de Datos y Deduplicación

Vamos a analizar la calidad de los datos integrados y realizar deduplicación:

In [None]:
# Análisis de calidad de datos
print("=== ANÁLISIS DE CALIDAD DE DATOS ===\n")

# 1. Valores nulos por columna
print("1. VALORES NULOS POR COLUMNA:")
null_counts = df_consolidated.isnull().sum()
null_percentages = (null_counts / len(df_consolidated)) * 100
quality_summary = pd.DataFrame({
    'Valores_Nulos': null_counts,
    'Porcentaje_Nulos': null_percentages.round(2)
})
quality_summary = quality_summary[quality_summary['Valores_Nulos'] > 0].sort_values('Valores_Nulos', ascending=False)
display(quality_summary)

# 2. Estadísticas básicas
print(f"\n2. ESTADÍSTICAS BÁSICAS:")
print(f"Total registros: {len(df_consolidated)}")
print(f"Registros únicos por ID: {df_consolidated['id_paciente'].nunique()}")
print(f"Registros duplicados por ID: {df_consolidated['id_paciente'].duplicated().sum()}")

# 3. Distribución por fuente
print(f"\n3. DISTRIBUCIÓN POR FUENTE:")
source_dist = df_consolidated['fuente'].value_counts()
display(source_dist)

# 4. Análisis de campos críticos
print(f"\n4. COMPLETITUD DE CAMPOS CRÍTICOS:")
critical_fields = ['nombre_completo', 'fecha_nacimiento', 'genero', 'resultado_covid']
for field in critical_fields:
    if field in df_consolidated.columns:
        completeness = ((df_consolidated[field].notna().sum()) / len(df_consolidated)) * 100
        print(f"{field}: {completeness:.1f}% completo")

In [None]:
# Detección y eliminación de duplicados
print("=== DETECCIÓN DE DUPLICADOS ===\n")

# 1. Duplicados exactos por ID
print("1. DUPLICADOS POR ID:")
id_duplicates = df_consolidated[df_consolidated['id_paciente'].duplicated(keep=False)]
if len(id_duplicates) > 0:
    print(f"Encontrados {len(id_duplicates)} registros con IDs duplicados")
    display(id_duplicates[['id_paciente', 'nombre_completo', 'fuente']].sort_values('id_paciente'))
else:
    print("No se encontraron duplicados exactos por ID")

# 2. Posibles duplicados por nombre y fecha de nacimiento
print(f"\n2. POSIBLES DUPLICADOS POR NOMBRE Y FECHA:")
potential_duplicates = df_consolidated[
    df_consolidated.duplicated(subset=['nombre_completo', 'fecha_nacimiento'], keep=False)
]
if len(potential_duplicates) > 0:
    print(f"Encontrados {len(potential_duplicates)} registros con posibles duplicados")
    display(potential_duplicates[['nombre_completo', 'fecha_nacimiento', 'fuente']].sort_values(['nombre_completo', 'fecha_nacimiento']))
else:
    print("No se encontraron posibles duplicados por nombre y fecha")

# 3. Crear DataFrame sin duplicados
print(f"\n3. ELIMINACIÓN DE DUPLICADOS:")
print(f"Registros antes de deduplicación: {len(df_consolidated)}")

# Eliminar duplicados exactos por ID (mantener el primero)
df_deduplicated = df_consolidated.drop_duplicates(subset=['id_paciente'], keep='first')
print(f"Registros después de eliminar duplicados por ID: {len(df_deduplicated)}")

# Eliminar posibles duplicados por nombre y fecha (mantener el primero)
df_deduplicated = df_deduplicated.drop_duplicates(subset=['nombre_completo', 'fecha_nacimiento'], keep='first')
print(f"Registros después de eliminar duplicados por nombre/fecha: {len(df_deduplicated)}")

print(f"\nRegistros eliminados: {len(df_consolidated) - len(df_deduplicated)}")

# Mostrar resumen final
print(f"\n=== RESUMEN FINAL ===")
print(f"DataFrame final - Registros: {len(df_deduplicated)}")
print(f"Distribución por fuente:")
display(df_deduplicated['fuente'].value_counts())

In [None]:
# Visualización de resultados de integración
print("=== VISUALIZACIÓN DE RESULTADOS ===")

# Configurar el estilo de los gráficos
plt.rcParams['figure.figsize'] = (12, 8)

# 1. Gráfico de distribución por fuente
fig, axes = plt.subplots(2, 2, figsize=(15, 10))

# Distribución por fuente
source_counts = df_deduplicated['fuente'].value_counts()
axes[0,0].pie(source_counts.values, labels=source_counts.index, autopct='%1.1f%%', startangle=90)
axes[0,0].set_title('Distribución de Registros por Fuente')

# Distribución de género 
if 'genero' in df_deduplicated.columns:
    gender_counts = df_deduplicated['genero'].value_counts()
    axes[0,1].bar(gender_counts.index, gender_counts.values)
    axes[0,1].set_title('Distribución por Género')
    axes[0,1].set_xlabel('Género')
    axes[0,1].set_ylabel('Cantidad')

# Distribución de resultados COVID
if 'resultado_covid' in df_deduplicated.columns:
    covid_counts = df_deduplicated['resultado_covid'].value_counts()
    axes[1,0].bar(covid_counts.index, covid_counts.values, color=['red' if 'pos' in str(x).lower() else 'green' for x in covid_counts.index])
    axes[1,0].set_title('Distribución de Resultados COVID')
    axes[1,0].set_xlabel('Resultado')
    axes[1,0].set_ylabel('Cantidad')
    plt.setp(axes[1,0].xaxis.get_majorticklabels(), rotation=45)

# Completitud de datos por columna
completeness = {}
for col in df_deduplicated.columns:
    if col != 'fuente':
        completeness[col] = (df_deduplicated[col].notna().sum() / len(df_deduplicated)) * 100

comp_df = pd.DataFrame(list(completeness.items()), columns=['Campo', 'Completitud'])
comp_df = comp_df.sort_values('Completitud', ascending=True)

axes[1,1].barh(comp_df['Campo'], comp_df['Completitud'])
axes[1,1].set_title('Completitud de Datos por Campo')
axes[1,1].set_xlabel('Porcentaje de Completitud')
axes[1,1].set_xlim(0, 100)

plt.tight_layout()
plt.show()

# 2. Tabla resumen
print(f"\n=== TABLA RESUMEN DE INTEGRACIÓN ===")
summary_table = pd.DataFrame({
    'Fuente': ['Médica Sur', 'Hospital ABC', 'Siglo XXI', 'Grupo Ángeles', 'TOTAL'],
    'Registros_Originales': [len(df_medica_sur), len(df_abc), len(df_siglo21), len(df_angeles), 
                           len(df_medica_sur) + len(df_abc) + len(df_siglo21) + len(df_angeles)],
    'Registros_Finales': [
        len(df_deduplicated[df_deduplicated['fuente'] == 'Médica Sur']),
        len(df_deduplicated[df_deduplicated['fuente'] == 'Hospital ABC']), 
        len(df_deduplicated[df_deduplicated['fuente'] == 'Hospital Siglo XXI']),
        len(df_deduplicated[df_deduplicated['fuente'] == 'Grupo Ángeles']),
        len(df_deduplicated)
    ]
})

summary_table['Registros_Eliminados'] = summary_table['Registros_Originales'] - summary_table['Registros_Finales']
summary_table['Porcentaje_Conservado'] = (summary_table['Registros_Finales'] / summary_table['Registros_Originales'] * 100).round(1)

display(summary_table)

In [None]:
# Exportar DataFrame final
print("=== EXPORTACIÓN DE RESULTADOS ===")

# Guardar el DataFrame consolidado
output_path = "pacientes_covid_integrados.csv"
df_deduplicated.to_csv(output_path, index=False, encoding='utf-8')
print(f"✅ DataFrame consolidado guardado en: {output_path}")

# Mostrar muestra del DataFrame final
print(f"\n=== MUESTRA DEL DATAFRAME FINAL ===")
display(df_deduplicated.sample(10) if len(df_deduplicated) > 10 else df_deduplicated)

# Estadísticas finales
print(f"\n=== ESTADÍSTICAS FINALES ===")
print(f"📊 Total de registros integrados: {len(df_deduplicated)}")
print(f"📊 Total de columnas: {len(df_deduplicated.columns)}")
print(f"📊 Fuentes integradas: {df_deduplicated['fuente'].nunique()}")
print(f"📊 Campos con datos completos: {(df_deduplicated.notna().all()).sum()}")
print(f"📊 Completitud promedio: {(df_deduplicated.notna().sum().sum() / (len(df_deduplicated) * len(df_deduplicated.columns)) * 100):.1f}%")