In [None]:
import pandas as pd
import psycopg2
import import_ipynb
from Utils import *
import os
import time
from dotenv import load_dotenv

# Cargar variables del archivo .env
load_dotenv()

connection_params = {
    'dbname': os.getenv("DB_NAME"),
    'user': os.getenv("DB_USER"),
    'password': os.getenv("DB_PASSWORD"),
    'host': os.getenv("DB_HOST"),
    'port': os.getenv("DB_PORT")
}

print("Parámetros de conexión cargados.")

In [None]:
# Función para normalizar texto
def normalize_text(series):
    return series.astype(str).str.lower().str.strip().str.replace(r'[.,;:!?()\\[\\]{}¿¡-]', '', regex=True)

# Conectar a la base de datos
conn = psycopg2.connect(**connection_params)
cur = conn.cursor()

start_time = time.time()
print("Inicio de la transferencia con Pandas.")
# Truncar tablas de prueba para estado limpio
#cur.execute("TRUNCATE TABLE paciente_clean_test, infolab_clean_test;")
#conn.commit()
print("Tablas de prueba truncadas.")

In [None]:
# Cargar datos a DataFrames
try:
    df_paciente = pd.read_sql("SELECT * FROM paciente", conn)
    df_infolab = pd.read_sql("SELECT * FROM infolab", conn)
    df_paciente_clean = pd.read_sql("SELECT * FROM paciente_clean_test", conn)
    df_infolab_clean = pd.read_sql("SELECT * FROM infolab_clean_test", conn)
    print("Datos cargados exitosamente.")
except Exception as e:
    print(f"Error al cargar datos: {e}")
    raise

In [None]:
df_paciente.head()

In [None]:
# Transferir pacientes únicos a paciente_clean_test (con actualización si existe)
try:
    df_paciente_unique = df_paciente.drop_duplicates(subset=['id_paciente'])
    if not df_paciente_unique.empty:
        cols = ['nombre1', 'nombre2', 'nombre3', 'apellido1', 'apellido2', 'tipo_de_identificacion', 'identificacion', 'sexo', 'fecha_nacimiento', 'edad', 'municipio_residencia', 'codigo_residencia', 'barrio_residencia', 'direccion', 'id_paciente', 'etiqueta', 'fecha_ingreso_sistema']
        df_to_insert = df_paciente_unique[cols]
        data = [tuple(row) for row in df_to_insert.itertuples(index=False)]
        
        cur.executemany("""
            INSERT INTO paciente_clean_test (nombre1, nombre2, nombre3, apellido1, apellido2, tipo_de_identificacion, identificacion, sexo, fecha_nacimiento, edad, municipio_residencia, codigo_residencia, barrio_residencia, direccion, id_paciente, etiqueta, fecha_ingreso_sistema)
            VALUES (%s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s)
            ON CONFLICT (id_paciente) DO UPDATE SET
                nombre1 = EXCLUDED.nombre1,
                nombre2 = EXCLUDED.nombre2,
                nombre3 = EXCLUDED.nombre3,
                apellido1 = EXCLUDED.apellido1,
                apellido2 = EXCLUDED.apellido2,
                tipo_de_identificacion = EXCLUDED.tipo_de_identificacion,
                identificacion = EXCLUDED.identificacion,
                sexo = EXCLUDED.sexo,
                fecha_nacimiento = EXCLUDED.fecha_nacimiento,
                edad = EXCLUDED.edad,
                municipio_residencia = EXCLUDED.municipio_residencia,
                codigo_residencia = EXCLUDED.codigo_residencia,
                barrio_residencia = EXCLUDED.barrio_residencia,
                direccion = EXCLUDED.direccion,
                etiqueta = EXCLUDED.etiqueta,
                fecha_ingreso_sistema = EXCLUDED.fecha_ingreso_sistema;
            """, data)
        conn.commit()

        df_paciente_clean = pd.read_sql("SELECT * FROM paciente_clean_test", conn)
        print(f"✓ Pacientes insertados/actualizados. Total en paciente_clean_test: {len(df_paciente_clean)}")
    else:
        print("No hay pacientes nuevos para insertar en paciente_clean_test.")
except Exception as e:
    print(f"Error al transferir pacientes: {e}")
    conn.rollback()
    raise

In [None]:
# Normalizar columnas clave para infolab
cols_infolab = ['servicio', 'muestra_remitida', 'descripcion_macroscopica', 'descripcion_microscopica', 'diagnostico']
for col in cols_infolab:
    # Reemplazar NULL/NaN con string vacío antes de normalizar
    df_infolab[f"{col}_norm"] = normalize_text(df_infolab[col].fillna(''))
    df_infolab_clean[f"{col}_norm"] = normalize_text(df_infolab_clean[col].fillna(''))


print("Normalización completada.")

In [None]:
df_infolab_clean.columns.tolist()

In [None]:
# Filtrar infolab nuevos: relacionados con pacientes existentes y no duplicados
df_infolab_dedup = df_infolab.drop_duplicates(subset=['id_paciente'] + [f"{c}_norm" for c in cols_infolab])

# Filtrar relacionados con pacientes existentes
df_infolab_relacionados = df_infolab_dedup[
    df_infolab_dedup['id_paciente'].isin(df_paciente_clean['id_paciente'])
].copy()

# Crear clave compuesta (con fillna para consistencia)
df_infolab_relacionados['_key'] = (
    df_infolab_relacionados['id_paciente'].fillna('').astype(str) + '|' +
    df_infolab_relacionados['servicio_norm'].fillna('').astype(str) + '|' +
    df_infolab_relacionados['muestra_remitida_norm'].fillna('').astype(str) + '|' +
    df_infolab_relacionados['descripcion_macroscopica_norm'].fillna('').astype(str) + '|' +
    df_infolab_relacionados['descripcion_microscopica_norm'].fillna('').astype(str) + '|' +
    df_infolab_relacionados['diagnostico_norm'].fillna('').astype(str)
)

if not df_infolab_clean.empty:
    keys_existentes = set(
        df_infolab_clean['id_paciente'].fillna('').astype(str) + '|' +
        df_infolab_clean['servicio_norm'].fillna('').astype(str) + '|' +
        df_infolab_clean['muestra_remitida_norm'].fillna('').astype(str) + '|' +
        df_infolab_clean['descripcion_macroscopica_norm'].fillna('').astype(str) + '|' +
        df_infolab_clean['descripcion_microscopica_norm'].fillna('').astype(str) + '|' +
        df_infolab_clean['diagnostico_norm'].fillna('').astype(str)
    )
    print(f"Keys existentes en infolab_clean: {len(keys_existentes)}")
else:
    keys_existentes = set()
    print("infolab_clean está vacío, todos los registros relacionados serán insertados.")

# Filtrar registros nuevos
df_infolab_filtered = df_infolab_relacionados[
    ~df_infolab_relacionados['_key'].isin(keys_existentes)
].drop(columns=['_key'] + [f"{c}_norm" for c in cols_infolab])

print(f"Registros filtrados para infolab_clean_test: {len(df_infolab_filtered)}")

In [None]:
try:
    if not df_infolab_filtered.empty:
        # Definir las columnas a insertar en el orden correcto
        cols_to_insert = [
            'fecha_toma_muestra', 'fecha_ingreso', 'fecha_informe', 'entidad', 'eps', 
            'servicio', 'muestra_remitida', 'descripcion_macroscopica', 
            'descripcion_microscopica', 'diagnostico', 'comentario', 'id_paciente', 
            'archivo', 'fuente', 'cie10', 'edad', 'sexo', 'diagnostico_clinico', 
            'observacion', 'medico_ordenante', 'medico_remitente'
        ]
        
        # Seleccionar solo las columnas necesarias
        df_to_insert = df_infolab_filtered[cols_to_insert]
        
        # Convertir a lista de tuplas
        data = [tuple(row) for row in df_to_insert.itertuples(index=False)]
        
        # Insertar usando executemany (más eficiente)
        cur.executemany("""
            INSERT INTO infolab_clean_test (fecha_toma_muestra, fecha_ingreso, fecha_informe, entidad, eps, servicio, muestra_remitida, descripcion_macroscopica, descripcion_microscopica, diagnostico, comentario, id_paciente, archivo, fuente, cie10, edad, sexo, diagnostico_clinico, observacion, medico_ordenante, medico_remitente)
            VALUES (%s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s)
        """, data)
        
        conn.commit()
        print(f"✓ Registros insertados en infolab_clean_test: {len(df_infolab_filtered)}")
    else:
        print("No hay registros nuevos para insertar en infolab_clean_test.")
        
except Exception as e:
    conn.rollback()
    print(f"✗ Error al insertar infolab: {e}")
    raise

In [None]:
# Confirmar cambios y cerrar conexión
try:
    conn.commit()
    end_time = time.time()
    print(f"Transferencia completada exitosamente en {end_time - start_time:.2f} segundos.")
    print(f"Tiempo total de ejecución con Pandas: {end_time - start_time:.2f} segundos.")
except Exception as e:
    print(f"Error al confirmar cambios: {e}")
    conn.rollback()
    raise
finally:
    cur.close()
    conn.close()
    print("Conexión cerrada.")