In [None]:
import pandas as pd
import os

# Rutas
ruta_entrada = r"C:\Users\jesus\OneDrive\Desktop\Archivos de Salud 2010-2023\Datos Egresos Hospitalarios\Egresos"
ruta_salida  = r"C:\Users\jesus\OneDrive\Desktop\Archivos de Salud 2010-2023\Datos Limpios\Datos Limpios Egresos\Egresos"

# Crear carpeta si no existe
os.makedirs(ruta_salida, exist_ok=True)

columnas_deseadas = [
    'ID', 'CLUES', 'INGRE', 'EGRESO', 'DIAS_ESTA', 'EDAD', 'CVEEDAD',
    'SEXO', 'PESO', 'TALLA', 'DERHAB', 'ENTIDAD', 'VEZ'
]

# Buscar archivos .csv
archivos = [f for f in os.listdir(ruta_entrada) if f.endswith(".csv")]
print(f"Archivos encontrados: {archivos}\n")

# Procesar cada archivo
for archivo in archivos:
    ruta_archivo = os.path.join(ruta_entrada, archivo)
    print(f"Procesando: {archivo}...")

    try:
        # Leer el archivo
        df = pd.read_csv(ruta_archivo, encoding="latin1", low_memory=False, on_bad_lines='skip')

        # Filtrar columnas existentes
        columnas_encontradas = [col for col in columnas_deseadas if col in df.columns]
        df = df[columnas_encontradas]

        # Guardar en la ruta de salida
        ruta_guardado = os.path.join(ruta_salida, archivo)
        df.to_csv(ruta_guardado, index=False, encoding='utf-8')
        print(f" → Guardado en: {ruta_guardado}\n")

    except Exception as e:
        print(f" Error al procesar {archivo}: {e}\n")

print(" Paso 1 terminado: columnas seleccionadas y archivos guardados.")


In [None]:
import pandas as pd
import os

# Rutas
ruta_entrada = r"C:\Users\jesus\OneDrive\Desktop\Archivos de Salud 2010-2023\Datos Egresos Hospitalarios\Egresos"
ruta_salida  = r"C:\Users\jesus\OneDrive\Desktop\Archivos de Salud 2010-2023\Datos Limpios\Datos Limpios Egresos\Egresos"

# Crear carpeta de salida si no existe
os.makedirs(ruta_salida, exist_ok=True)

# Columnas deseadas 
columnas_deseadas = [
    'ID', 'CLUES', 'INGRE', 'EGRESO', 'DIAS_ESTA', 'EDAD', 'CVEEDAD',
    'SEXO', 'PESO', 'TALLA', 'DERHAB', 'ENTIDAD', 'VEZ'
]

# Años que se van a procesar
anios = range(2019, 2024)  # de 2019 a 2023

# Archivos que coincidan con el patrón "EGRESOSYYYY.txt"
archivos = [f"EGRESOS{anio}.txt" for anio in anios]

print("Archivos a procesar:", archivos)

# Procesar cada archivo
for archivo in archivos:
    ruta_archivo = os.path.join(ruta_entrada, archivo)
    print(f"\nProcesando: {archivo}...")

    try:
        # Leer archivo .txt separado por comas
        df = pd.read_csv(ruta_archivo, encoding="latin1", low_memory=False, delimiter=",", on_bad_lines='skip')

        # Filtrar columnas
        columnas_encontradas = [col for col in columnas_deseadas if col in df.columns]
        print(f" → Columnas encontradas: {columnas_encontradas}")
        df = df[columnas_encontradas]

        # Guardar como .csv
        nombre_salida = os.path.splitext(archivo)[0] + ".csv"
        ruta_guardado = os.path.join(ruta_salida, nombre_salida)
        df.to_csv(ruta_guardado, index=False, encoding="utf-8")
        print(f" → Guardado en: {ruta_guardado}")

    except Exception as e:
        print(f" Error al procesar {archivo}: {e}")

print("\n Archivos 2019–2023 procesados y guardados como .csv.")


In [None]:
import pandas as pd
import os

# Rutas
ruta_entrada = r"C:\Users\jesus\OneDrive\Desktop\Archivos de Salud 2010-2023\Datos Egresos Hospitalarios\Egresos"
ruta_salida  = r"C:\Users\jesus\OneDrive\Desktop\Archivos de Salud 2010-2023\Datos Limpios\Datos Limpios Egresos\Egresos"

os.makedirs(ruta_salida, exist_ok=True)

# Archivos que vamos a procesar: 2020 a 2023
anios = range(2020, 2024)
archivos = [f"EGRESOS{anio}.txt" for anio in anios]

# Columnas originales en los archivos 2020–2023
columnas_existentes = [
    'ID', 'CLUES', 'INGRE', 'EGRESO', 'DIAS_ESTA', 'CVEEDAD', 'EDAD', 'SEXO',
    'PESO', 'TALLA', 'DERHAB', 'ENTIDAD', 'VEZ'
]

# Mapeo a nombres nuevos
renombrar_columnas = {
    'ID': 'ID_REGISTRO',
    'CLUES': 'CLUES_ESTABLECIMIENTO',
    'INGRE': 'FECHA_INGRESO',
    'EGRESO': 'FECHA_EGRESO',
    'DIAS_ESTA': 'DIAS_ESTANCIA',
    'CVEEDAD': 'TIPO_EDAD',
    'EDAD': 'EDAD',
    'SEXO': 'SEXO',
    'PESO': 'PESO_KG',
    'TALLA': 'TALLA_CM',
    'DERHAB': 'DERECHOHABIENTE',
    'ENTIDAD': 'ENTIDAD_INGRESO',
    'VEZ': 'VEZ_ATENCION'
}

# Procesar archivos
for archivo in archivos:
    ruta_archivo = os.path.join(ruta_entrada, archivo)
    print(f"\nProcesando {archivo}...")

    try:
        df = pd.read_csv(ruta_archivo, encoding="latin1", low_memory=False, delimiter="|", on_bad_lines='skip')

        # Filtrar solo columnas que existan
        columnas_presentes = [col for col in columnas_existentes if col in df.columns]
        df = df[columnas_presentes]

        # Renombrar
        df = df.rename(columns=renombrar_columnas)

        # Guardar en .csv limpio
        nombre_salida = os.path.splitext(archivo)[0] + "_limpio.csv"
        ruta_guardado = os.path.join(ruta_salida, nombre_salida)
        df.to_csv(ruta_guardado, index=False, encoding="utf-8")
        print(f" → Guardado en: {ruta_guardado}")

    except Exception as e:
        print(f" Error procesando {archivo}: {e}")

print("\n Archivos 2020–2023 procesados correctamente.")


In [None]:
import pandas as pd
import os

# Rutas de origen y destino
ruta_origen = r"C:\Users\jesus\OneDrive\Desktop\Archivos de Salud 2010-2023\Datos Egresos Hospitalarios\Egresos"
ruta_destino = r"C:\Users\jesus\OneDrive\Desktop\Archivos de Salud 2010-2023\Datos Limpios\Datos Limpios Egresos\Egresos"

# Años a procesar
anios = range(2013, 2024)

for anio in anios:
    nombre_archivo = f"EGRESOS{anio}.csv"
    path_origen = os.path.join(ruta_origen, nombre_archivo)
    path_destino = os.path.join(ruta_destino, nombre_archivo)

    if not os.path.isfile(path_origen) or not os.path.isfile(path_destino):
        print(f" Archivo no encontrado para {anio}")
        continue

    try:
        # Cargar solo la columna AFECPRIN desde el archivo original
        original = pd.read_csv(path_origen, usecols=['AFECPRIN'])

        # Cargar el archivo limpio ya transformado
        limpio = pd.read_csv(path_destino)

        # Verificar longitud
        if len(original) != len(limpio):
            print(f" Diferente número de filas en {nombre_archivo}. No se agregó AFECPRIN.")
            continue

        # Agregar columna por posición
        limpio['AFECPRIN'] = original['AFECPRIN'].values

        # sobrescribir
        limpio.to_csv(path_destino, index=False)
        print(f" {nombre_archivo}: columna AFECPRIN agregada correctamente.")

    except Exception as e:
        print(f" Error en {nombre_archivo}: {e}")


In [None]:
import pandas as pd
import os

print("Inicio del proceso para agregar AFECPRIN...")

ruta_origen = r"C:\Users\jesus\OneDrive\Desktop\Archivos de Salud 2010-2023\Datos Egresos Hospitalarios\Egresos"
ruta_destino = r"C:\Users\jesus\OneDrive\Desktop\Archivos de Salud 2010-2023\Datos Limpios\Datos Limpios Egresos\Egresos"

anios = range(2019, 2024)

for anio in anios:
    print(f"\nProcesando año {anio}...")
    nombre_base = f"EGRESOS{anio}"
    path_origen = os.path.join(ruta_origen, nombre_base + ".txt")
    path_destino = os.path.join(ruta_destino, nombre_base + ".csv")

    if not os.path.exists(path_origen):
        print(f" Archivo original no encontrado: {nombre_base}.txt")
        continue

    if not os.path.exists(path_destino):
        print(f" Archivo limpio no encontrado: {nombre_base}.csv")
        continue

    try:
        original = pd.read_csv(path_origen, usecols=["AFECPRIN"], dtype=str, low_memory=False)
        limpio = pd.read_csv(path_destino, low_memory=False)

        if len(original) != len(limpio):
            print(f" Diferente número de filas en {nombre_base}. No se agregó AFECPRIN.")
            continue

        limpio["AFECPRIN"] = original["AFECPRIN"].values
        limpio.to_csv(path_destino, index=False)
        print(f" {nombre_base}.csv: columna AFECPRIN agregada correctamente.")

    except Exception as e:
        print(f" Error procesando {nombre_base}: {e}")

print("\nProceso terminado.")


In [None]:
import pandas as pd
import os

# Rutas
ruta_origen = r"C:\Users\jesus\OneDrive\Desktop\Archivos de Salud 2010-2023\Datos Egresos Hospitalarios"
ruta_destino = r"C:\Users\jesus\OneDrive\Desktop\Archivos de Salud 2010-2023\Datos Limpios\Datos Limpios Egresos"

anios = range(2020, 2024)

for anio in anios:
    archivo_origen = f"EGRESOS{anio}.csv"
    archivo_destino = f"EGRESOS{anio}.txt"
    
    path_origen = os.path.join(ruta_origen, archivo_origen)
    path_destino = os.path.join(ruta_destino, archivo_destino)
    
    if not os.path.isfile(path_origen):
        print(f" Archivo origen no encontrado: {archivo_origen}")
        continue
    if not os.path.isfile(path_destino):
        print(f" Archivo destino no encontrado: {archivo_destino}")
        continue
    
    try:
        # Leer archivo limpio (txt delimitado por |)
        limpio = pd.read_csv(path_destino, sep='|', low_memory=False)
        
        # Leer archivo original csv (solo la columna AFECPRIN)
        original = pd.read_csv(path_origen, usecols=['AFECPRIN'], low_memory=False)
        
        # Validar que tengan el mismo número de filas
        if len(limpio) != len(original):
            print(f" Diferente número de filas en {archivo_destino}. No se agregó AFECPRIN.")
            continue
        
        # Agregar columna AFECPRIN al archivo limpio
        limpio['AFECPRIN'] = original['AFECPRIN']
        
        # Guardar de nuevo el archivo limpio
        limpio.to_csv(path_destino, sep='|', index=False)
        
        print(f" {archivo_destino}: columna AFECPRIN agregada correctamente.")
        
    except Exception as e:
        print(f" Error en {archivo_destino}: {e}")


In [None]:
import pandas as pd
import os

# Rutas
ruta_origen = r"C:\Users\jesus\OneDrive\Desktop\Archivos de Salud 2010-2023\Datos Egresos Hospitalarios\Egresos"
ruta_destino = r"C:\Users\jesus\OneDrive\Desktop\Archivos de Salud 2010-2023\Datos Limpios\Datos Limpios Egresos\Egresos"

anios = range(2020, 2024)

for anio in anios:
    archivo_origen = f"EGRESOS{anio}.txt"
    archivo_destino = f"EGRESOS{anio}.csv"
    
    path_origen = os.path.join(ruta_origen, archivo_origen)
    path_destino = os.path.join(ruta_destino, archivo_destino)
    
    if not os.path.isfile(path_origen):
        print(f" Archivo origen no encontrado: {archivo_origen}")
        continue
    if not os.path.isfile(path_destino):
        print(f" Archivo destino no encontrado: {archivo_destino}")
        continue
    
    try:
        # Leer archivo origen .txt con separador '|'
        original = pd.read_csv(path_origen, sep='|', low_memory=False)
        
        # Leer archivo destino .csv
        limpio = pd.read_csv(path_destino, low_memory=False)
        
        # Validar que tengan el mismo número de filas
        if len(limpio) != len(original):
            print(f" Diferente número de filas en {archivo_destino}. No se agregó AFECPRIN.")
            continue
        
        # Agregar columna AFECPRIN desde archivo original
        if 'AFECPRIN' not in original.columns:
            print(f" Columna AFECPRIN no encontrada en {archivo_origen}")
            continue
        
        limpio['AFECPRIN'] = original['AFECPRIN']
        
        # Guardar cambios en archivo destino .csv
        limpio.to_csv(path_destino, index=False)
        
        print(f" {archivo_destino}: columna AFECPRIN agregada correctamente.")
        
    except Exception as e:
        print(f" Error en {archivo_destino}: {e}")


In [None]:
import pandas as pd
import os

# Rutas de origen y destino
ruta_origen = r"C:\Users\jesus\OneDrive\Desktop\Archivos de Salud 2010-2023\Datos Egresos Hospitalarios\Egresos"
ruta_destino = r"C:\Users\jesus\OneDrive\Desktop\Archivos de Salud 2010-2023\Datos Limpios\Datos Limpios Egresos\Egresos"

# Año a procesar
anio = 2017
nombre_archivo = f"EGRESOS{anio}.csv"

path_origen = os.path.join(ruta_origen, nombre_archivo)
path_destino = os.path.join(ruta_destino, nombre_archivo)

# Validación de existencia
if not os.path.isfile(path_origen) or not os.path.isfile(path_destino):
    print(f" Archivo no encontrado para {anio}")
else:
    try:
        # Leer el archivo origen con separador '|'
        original = pd.read_csv(path_origen, sep='|', usecols=['AFECPRIN'], dtype=str)

        # Leer el archivo destino normal
        limpio = pd.read_csv(path_destino)

        # Verificar que coincidan las filas
        if len(original) != len(limpio):
            print(f" Diferente número de filas en {nombre_archivo}. No se agregó AFECPRIN.")
        else:
            # Agregar columna
            limpio['AFECPRIN'] = original['AFECPRIN'].values

            # Guardar en la misma ruta destino
            limpio.to_csv(path_destino, index=False)
            print(f" {nombre_archivo}: columna AFECPRIN agregada correctamente.")

    except Exception as e:
        print(f" Error en {nombre_archivo}: {e}")


In [None]:
import pandas as pd

# Ruta del archivo .txt original (separado por "|")
ruta_entrada = r"C:\Users\jesus\OneDrive\Desktop\Archivos de Salud 2010-2023\Datos Egresos Hospitalarios\Egresos\EGRESOS2020.txt"

# Ruta de salida del nuevo archivo limpio .csv
ruta_salida = r"C:\Users\jesus\OneDrive\Desktop\Archivos de Salud 2010-2023\Datos Limpios\Datos Limpios Egresos\Egresos\EGRESOS2020.csv"

# Columnas necesarias
columnas_originales = ['CLUES', 'EGRESO', 'INGRE', 'DIAS_ESTA', 'CVEEDAD', 'EDAD', 'SEXO', 'PESO', 'TALLA', 'DERHAB', 'ENTIDAD', 'VEZ', 'AFECPRIN']
columnas_renombradas = ['CLUES_ESTABLECIMIENTO', 'FECHA_INGRESO', 'FECHA_EGRESO', 'DIAS_ESTANCIA', 'TIPO_EDAD', 'EDAD',
                        'SEXO', 'PESO_KG', 'TALLA_CM', 'DERECHOHABIENTE', 'ENTIDAD_INGRESO', 'VEZ_ATENCION', 'AFECPRIN']

# Leer el archivo .txt con separador "|"
df = pd.read_csv(ruta_entrada, sep='|', usecols=columnas_originales, encoding='latin1', dtype=str)

# Renombrar columnas
df.columns = columnas_renombradas

# Guardar como CSV limpio
df.to_csv(ruta_salida, index=False, encoding='utf-8')

print(" EGRESOS2020 limpio transformado y guardado correctamente.")


In [None]:
import pandas as pd

# Ruta del archivo original EGRESOS2016
ruta_entrada = r"C:\Users\jesus\OneDrive\Desktop\Archivos de Salud 2010-2023\Datos Egresos Hospitalarios\Egresos\EGRESOS2016.csv"

# Ruta donde se guardará el archivo limpio
ruta_salida = r"C:\Users\jesus\OneDrive\Desktop\Archivos de Salud 2010-2023\Datos Limpios\Datos Limpios Egresos\Egresos\EGRESOS2016.csv"

# Columnas originales que se deben conservar
columnas_originales = ['CLUES', 'EGRESO', 'INGRE', 'DIAS_ESTA', 'CVEEDAD', 'EDAD', 'SEXO',
                       'PESO', 'TALLA', 'DERHAB', 'ENTIDAD', 'VEZ', 'AFECPRIN']

# Nuevos nombres de columnas
columnas_renombradas = ['CLUES_ESTABLECIMIENTO', 'FECHA_EGRESO', 'FECHA_INGRESO', 'DIAS_ESTANCIA',
                        'TIPO_EDAD', 'EDAD', 'SEXO', 'PESO_KG', 'TALLA_CM',
                        'DERECHOHABIENTE', 'ENTIDAD_INGRESO', 'VEZ_ATENCION', 'AFECPRIN']

# Leer el archivo original CSV
df = pd.read_csv(ruta_entrada, usecols=columnas_originales, encoding='latin1', dtype=str)

# Renombrar columnas
df.columns = columnas_renombradas

# Guardar como nuevo archivo CSV limpio
df.to_csv(ruta_salida, index=False, encoding='utf-8')

print(" EGRESOS2016 limpio guardado correctamente.")


In [None]:
import pandas as pd

# Rutas
ruta_entrada = r"C:\Users\jesus\OneDrive\Desktop\Archivos de Salud 2010-2023\Datos Egresos Hospitalarios\Egresos\EGRESOS2020.txt"
ruta_salida = r"C:\Users\jesus\OneDrive\Desktop\Archivos de Salud 2010-2023\Datos Limpios\Datos Limpios Egresos\Egresos\EGRESOS2020.csv"

# Columnas originales y sus nuevos nombres
columnas_originales = ['CLUES', 'EGRESO', 'INGRE', 'DIAS_ESTA', 'CVEEDAD', 'EDAD', 
                       'SEXO', 'PESO', 'TALLA', 'DERHAB', 'ENTIDAD', 'VEZ', 'AFECPRIN']

columnas_renombradas = ['CLUES_ESTABLECIMIENTO', 'FECHA_EGRESO', 'FECHA_INGRESO', 'DIAS_ESTANCIA',
                        'TIPO_EDAD', 'EDAD', 'SEXO', 'PESO_KG', 'TALLA_CM', 'DERECHOHABIENTE',
                        'ENTIDAD_INGRESO', 'VEZ_ATENCION', 'AFECPRIN']

# Orden con nombres renombrados
orden_columnas_renombradas = [
    'CLUES_ESTABLECIMIENTO',      # CLUES
    'FECHA_INGRESO',              # INGRE
    'FECHA_EGRESO',               # EGRESO
    'DIAS_ESTANCIA',              # DIAS_ESTA
    'EDAD',                       # EDAD
    'TIPO_EDAD',                  # CVEEDAD
    'SEXO',                       # SEXO
    'PESO_KG',                    # PESO
    'TALLA_CM',                   # TALLA
    'DERECHOHABIENTE',            # DERHAB
    'ENTIDAD_INGRESO',            # ENTIDAD
    'VEZ_ATENCION',               # VEZ
    'AFECPRIN'                    # AFECPRIN
]

# Leer archivo .txt separado por '|'
df = pd.read_csv(ruta_entrada, sep='|', usecols=columnas_originales, encoding='latin1', dtype=str)

# Renombrar columnas
df.columns = columnas_renombradas

# Reordenar columnas
df = df[orden_columnas_renombradas]

# Guardar como .csv
df.to_csv(ruta_salida, index=False, encoding='utf-8')

print(" EGRESOS2020 transformado, renombrado y guardado con columnas en orden correcto.")



In [None]:
import pandas as pd

# Rutas para EGRESOS2016
ruta_entrada = r"C:\Users\jesus\OneDrive\Desktop\Archivos de Salud 2010-2023\Datos Egresos Hospitalarios\Egresos\EGRESOS2016.csv"
ruta_salida = r"C:\Users\jesus\OneDrive\Desktop\Archivos de Salud 2010-2023\Datos Limpios\Datos Limpios Egresos\Egresos\EGRESOS2016.csv"

# Columnas originales y sus nuevos nombres
columnas_originales = ['CLUES', 'EGRESO', 'INGRE', 'DIAS_ESTA', 'CVEEDAD', 'EDAD', 
                       'SEXO', 'PESO', 'TALLA', 'DERHAB', 'ENTIDAD', 'VEZ', 'AFECPRIN']

columnas_renombradas = ['CLUES_ESTABLECIMIENTO', 'FECHA_EGRESO', 'FECHA_INGRESO', 'DIAS_ESTANCIA',
                        'TIPO_EDAD', 'EDAD', 'SEXO', 'PESO_KG', 'TALLA_CM', 'DERECHOHABIENTE',
                        'ENTIDAD_INGRESO', 'VEZ_ATENCION', 'AFECPRIN']

# Orden deseado con nombres renombrados
orden_columnas_renombradas = [
    'CLUES_ESTABLECIMIENTO',      # CLUES
    'FECHA_INGRESO',              # INGRE
    'FECHA_EGRESO',               # EGRESO
    'DIAS_ESTANCIA',              # DIAS_ESTA
    'EDAD',                       # EDAD
    'TIPO_EDAD',                  # CVEEDAD
    'SEXO',                       # SEXO
    'PESO_KG',                    # PESO
    'TALLA_CM',                   # TALLA
    'DERECHOHABIENTE',            # DERHAB
    'ENTIDAD_INGRESO',            # ENTIDAD
    'VEZ_ATENCION',               # VEZ
    'AFECPRIN'                    # AFECPRIN
]

# Leer archivo CSV (separado por comas)
df = pd.read_csv(ruta_entrada, usecols=columnas_originales, encoding='latin1', dtype=str)

# Renombrar columnas
df.columns = columnas_renombradas

# Reordenar columnas
df = df[orden_columnas_renombradas]

# Guardar como .csv limpio
df.to_csv(ruta_salida, index=False, encoding='utf-8')

print(" EGRESOS2016 transformado, renombrado y guardado con columnas en orden correcto.")


In [None]:
import pandas as pd

# Ruta al archivo ya limpio con fechas con hora
ruta_archivo = r"C:\Users\jesus\OneDrive\Desktop\Archivos de Salud 2010-2023\Datos Limpios\Datos Limpios Egresos\Egresos\EGRESOS2020.csv"

# Cargar el archivo
df = pd.read_csv(ruta_archivo, encoding='utf-8', dtype=str)

# Convertir columnas de fecha al formato YYYY-MM-DD
df['FECHA_INGRESO'] = pd.to_datetime(df['FECHA_INGRESO'], errors='coerce').dt.date
df['FECHA_EGRESO'] = pd.to_datetime(df['FECHA_EGRESO'], errors='coerce').dt.date

# Guardar el archivo reemplazando el anterior
df.to_csv(ruta_archivo, index=False, encoding='utf-8')

print(" Formato de fechas corregido en EGRESOS2020.csv (sin hora).")


In [None]:
import pandas as pd

# Ruta al archivo limpio de EGRESOS2016
ruta_archivo = r"C:\Users\jesus\OneDrive\Desktop\Archivos de Salud 2010-2023\Datos Limpios\Datos Limpios Egresos\Egresos\EGRESOS2016.csv"

# Cargar el archivo
df = pd.read_csv(ruta_archivo, encoding='utf-8', dtype=str)

# Corregir formato de fechas eliminando la hora
df['FECHA_INGRESO'] = pd.to_datetime(df['FECHA_INGRESO'], errors='coerce').dt.date
df['FECHA_EGRESO'] = pd.to_datetime(df['FECHA_EGRESO'], errors='coerce').dt.date

# Guardar archivo sobre el mismo archivo original
df.to_csv(ruta_archivo, index=False, encoding='utf-8')

print(" Formato de fechas corregido en EGRESOS2016.csv (sin hora).")


In [None]:
import pandas as pd

# Rutas para EGRESOS2017
ruta_entrada = r"C:\Users\jesus\OneDrive\Desktop\Archivos de Salud 2010-2023\Datos Egresos Hospitalarios\Egresos\EGRESOS2017.csv"
ruta_salida  = r"C:\Users\jesus\OneDrive\Desktop\Archivos de Salud 2010-2023\Datos Limpios\Datos Limpios Egresos\Egresos\EGRESOS2017.csv"

# Columnas originales y sus nuevos nombres
columnas_originales = [
    'CLUES', 'EGRESO', 'INGRE', 'DIAS_ESTA',
    'CVEEDAD', 'EDAD', 'SEXO', 'PESO',
    'TALLA', 'DERHAB', 'ENTIDAD', 'VEZ', 'AFECPRIN'
]

columnas_renombradas = [
    'CLUES_ESTABLECIMIENTO', 'FECHA_EGRESO', 'FECHA_INGRESO', 'DIAS_ESTANCIA',
    'TIPO_EDAD',             'EDAD',           'SEXO',            'PESO_KG',
    'TALLA_CM',              'DERECHOHABIENTE','ENTIDAD_INGRESO','VEZ_ATENCION',
    'AFECPRIN'
]

# Orden con nombres renombrados
orden_columnas_renombradas = [
    'CLUES_ESTABLECIMIENTO',  # CLUES
    'FECHA_INGRESO',          # INGRE
    'FECHA_EGRESO',           # EGRESO
    'DIAS_ESTANCIA',          # DIAS_ESTA
    'EDAD',                   # EDAD
    'TIPO_EDAD',              # CVEEDAD
    'SEXO',                   # SEXO
    'PESO_KG',                # PESO
    'TALLA_CM',               # TALLA
    'DERECHOHABIENTE',        # DERHAB
    'ENTIDAD_INGRESO',        # ENTIDAD
    'VEZ_ATENCION',           # VEZ
    'AFECPRIN'                # AFECPRIN
]

# Leer archivo .csv con separador "|"
df = pd.read_csv(
    ruta_entrada,
    sep='|',
    usecols=columnas_originales,
    encoding='latin1',
    dtype=str
)

# Renombrar columnas
df.columns = columnas_renombradas

# Reordenar columnas
df = df[orden_columnas_renombradas]

# Quitar hora "00:00:00" de las fechas
df['FECHA_INGRESO'] = pd.to_datetime(df['FECHA_INGRESO'], errors='coerce').dt.date
df['FECHA_EGRESO'] = pd.to_datetime(df['FECHA_EGRESO'], errors='coerce').dt.date

# Guardar como .csv limpio
df.to_csv(ruta_salida, index=False, encoding='utf-8')

print(" EGRESOS2017 transformado, renombrado y guardado con columnas en orden correcto.")


In [None]:
import pandas as pd
import os

# Carpeta donde están los archivos limpios
carpeta = r"C:\Users\jesus\OneDrive\Desktop\Archivos de Salud 2010-2023\Datos Limpios\Datos Limpios Egresos\Egresos"

# Lista de archivos a procesar
archivos = ["EGRESOS2014.csv", "EGRESOS2015.csv", "EGRESOS2018.csv", "EGRESOS2019.csv"]

for nombre in archivos:
    ruta = os.path.join(carpeta, nombre)
    # Leer el CSV
    df = pd.read_csv(ruta, encoding='utf-8', dtype=str)
    # Convertir y eliminar hora
    df['FECHA_INGRESO'] = pd.to_datetime(df['FECHA_INGRESO'], errors='coerce').dt.date
    df['FECHA_EGRESO']  = pd.to_datetime(df['FECHA_EGRESO'],  errors='coerce').dt.date
    # Sobrescribir el mismo archivo
    df.to_csv(ruta, index=False, encoding='utf-8')
    print(f" {nombre} actualizado sin hora en las fechas.")


In [None]:
import pandas as pd

# Ruta al archivo
ruta_archivo = r"C:\Users\jesus\OneDrive\Desktop\Archivos de Salud 2010-2023\Datos Limpios\Datos Limpios Egresos\Egresos\EGRESOS2014.csv"

# Cargar archivo CSV
df = pd.read_csv(ruta_archivo, encoding='utf-8')

# Verificar si la columna 'ID' existe y eliminarla
if 'ID' in df.columns:
    df = df.drop(columns=['ID'])
    # Guardar archivo sobrescribiendo el original
    df.to_csv(ruta_archivo, index=False, encoding='utf-8')
    print(" Columna 'ID' eliminada y archivo guardado correctamente.")
else:
    print(" La columna 'ID' no existe en el archivo.")


In [None]:
import pandas as pd

ruta_archivo = r"C:\Users\jesus\OneDrive\Desktop\Archivos de Salud 2010-2023\Datos Limpios\Datos Limpios Egresos\Egresos\EGRESOS2014.csv"

df = pd.read_csv(ruta_archivo, encoding='utf-8')

# Mostrar los nombres de columnas con comillas para ver espacios
for col in df.columns:
    print(f"'{col}'")


In [None]:
import pandas as pd

# Ruta al archivo EGRESOS2014
ruta_archivo = r"C:\Users\jesus\OneDrive\Desktop\Archivos de Salud 2010-2023\Datos Limpios\Datos Limpios Egresos\Egresos\EGRESOS2014.csv"

# Leer archivo forzando que no se use ninguna columna como índice
df = pd.read_csv(ruta_archivo, encoding='utf-8', index_col=False)

# Verifica si la columna 'ID' existe
if 'ID' in df.columns:
    df = df.drop(columns=['ID'])
    df.to_csv(ruta_archivo, index=False, encoding='utf-8')
    print(" Columna 'ID' eliminada exitosamente.")
else:
    print(" La columna 'ID' no está en el archivo (posiblemente ya fue eliminada).")


In [None]:
import pandas as pd

# Ruta al archivo dañado
ruta = r"C:\Users\jesus\OneDrive\Desktop\Archivos de Salud 2010-2023\Datos Limpios\Datos Limpios Egresos\Egresos\EGRESOS2014.csv"

# Cargar el archivo forzando que no interprete ninguna columna como índice
df = pd.read_csv(ruta, index_col=False, header=0, encoding='utf-8')

# Eliminar la primera columna por su posición
df = df.iloc[:, 1:]

# Guardar el archivo corregido
df.to_csv(ruta, index=False, encoding='utf-8')

print(" Primera columna (ID) eliminada correctamente, incluyendo sus valores.")


In [None]:
import pandas as pd

# Ruta del archivo original
ruta_entrada = r"C:\Users\jesus\OneDrive\Desktop\Archivos de Salud 2010-2023\Datos Egresos Hospitalarios\Egresos\EGRESOS2014.csv"

# Ruta donde se guardará el archivo limpio
ruta_salida = r"C:\Users\jesus\OneDrive\Desktop\Archivos de Salud 2010-2023\Datos Limpios\Datos Limpios Egresos\Egresos\EGRESOS2014.csv"

# Columnas que se deben conservar
columnas_deseadas = ['CLUES', 'INGRE', 'EGRESO', 'DIAS_ESTA', 'EDAD', 'CVEEDAD',
                     'SEXO', 'PESO', 'TALLA', 'DERHAB', 'ENTIDAD', 'VEZ', 'AFECPRIN']

# Leer el archivo original (separado por comas)
df = pd.read_csv(ruta_entrada, usecols=columnas_deseadas, encoding='utf-8')

# Guardar el archivo limpio sin renombrar columnas
df.to_csv(ruta_salida, index=False, encoding='utf-8')

print(" Archivo EGRESOS2014.csv creado correctamente con las columnas deseadas.")


In [None]:
import pandas as pd

# Ruta del archivo limpio
ruta_archivo = r"C:\Users\jesus\OneDrive\Desktop\Archivos de Salud 2010-2023\Datos Limpios\Datos Limpios Egresos\Egresos\EGRESOS2014.csv"

# Leer el archivo
df = pd.read_csv(ruta_archivo, encoding='utf-8', dtype=str)

# Convertir columnas de fecha y eliminar la hora
df['INGRE'] = pd.to_datetime(df['INGRE'], errors='coerce').dt.date
df['EGRESO'] = pd.to_datetime(df['EGRESO'], errors='coerce').dt.date

# Guardar el archivo sobrescribiéndolo
df.to_csv(ruta_archivo, index=False, encoding='utf-8')

print(" Formato de fecha corregido (hora eliminada) en columnas INGRE y EGRESO.")


In [None]:
import pandas as pd

# Ruta del archivo limpio
ruta_archivo = r"C:\Users\jesus\OneDrive\Desktop\Archivos de Salud 2010-2023\Datos Limpios\Datos Limpios Egresos\Egresos\EGRESOS2015.csv"

# Leer el archivo
df = pd.read_csv(ruta_archivo, encoding='utf-8', dtype=str)

# Convertir columnas de fecha y eliminar la hora
df['INGRE'] = pd.to_datetime(df['INGRE'], errors='coerce').dt.date
df['EGRESO'] = pd.to_datetime(df['EGRESO'], errors='coerce').dt.date

# Guardar el archivo sobrescribiéndolo
df.to_csv(ruta_archivo, index=False, encoding='utf-8')

print(" Formato de fecha corregido (hora eliminada) en columnas INGRE y EGRESO.")

In [None]:
import pandas as pd

# Ruta del archivo limpio
ruta_archivo = r"C:\Users\jesus\OneDrive\Desktop\Archivos de Salud 2010-2023\Datos Limpios\Datos Limpios Egresos\Egresos\EGRESOS2018.csv"

# Leer el archivo
df = pd.read_csv(ruta_archivo, encoding='utf-8', dtype=str)

# Convertir columnas de fecha y eliminar la hora
df['INGRE'] = pd.to_datetime(df['INGRE'], errors='coerce').dt.date
df['EGRESO'] = pd.to_datetime(df['EGRESO'], errors='coerce').dt.date

# Guardar el archivo sobrescribiéndolo
df.to_csv(ruta_archivo, index=False, encoding='utf-8')

print(" Formato de fecha corregido (hora eliminada) en columnas INGRE y EGRESO.")

In [None]:
import pandas as pd

# Ruta del archivo limpio
ruta_archivo = r"C:\Users\jesus\OneDrive\Desktop\Archivos de Salud 2010-2023\Datos Limpios\Datos Limpios Egresos\Egresos\EGRESOS2019.csv"

# Leer el archivo
df = pd.read_csv(ruta_archivo, encoding='utf-8', dtype=str)

# Convertir columnas de fecha y eliminar la hora
df['INGRE'] = pd.to_datetime(df['INGRE'], errors='coerce').dt.date
df['EGRESO'] = pd.to_datetime(df['EGRESO'], errors='coerce').dt.date

# Guardar el archivo sobrescribiéndolo
df.to_csv(ruta_archivo, index=False, encoding='utf-8')

print(" Formato de fecha corregido (hora eliminada) en columnas INGRE y EGRESO.")

In [None]:
import pandas as pd

# Ruta del archivo original
ruta_entrada = r"C:\Users\jesus\OneDrive\Desktop\Archivos de Salud 2010-2023\Datos Egresos Hospitalarios\Egresos\EGRESOS2015.csv"

# Ruta donde se guardará el archivo limpio
ruta_salida = r"C:\Users\jesus\OneDrive\Desktop\Archivos de Salud 2010-2023\Datos Limpios\Datos Limpios Egresos\Egresos\EGRESOS2015.csv"

# Columnas que se deben conservar
columnas_deseadas = ['CLUES', 'INGRE', 'EGRESO', 'DIAS_ESTA', 'EDAD', 'CVEEDAD',
                     'SEXO', 'PESO', 'TALLA', 'DERHAB', 'ENTIDAD', 'VEZ', 'AFECPRIN']

# Leer el archivo original (separado por comas)
df = pd.read_csv(ruta_entrada, usecols=columnas_deseadas, encoding='utf-8')

# Guardar el archivo limpio sin renombrar columnas
df.to_csv(ruta_salida, index=False, encoding='utf-8')

print(" Archivo EGRESOS2014.csv creado correctamente con las columnas deseadas.")

In [None]:
import pandas as pd

# Ruta del archivo limpio
ruta_archivo = r"C:\Users\jesus\OneDrive\Desktop\Archivos de Salud 2010-2023\Datos Limpios\Datos Limpios Egresos\Egresos\EGRESOS2015.csv"

# Leer el archivo
df = pd.read_csv(ruta_archivo, encoding='utf-8', dtype=str)

# Convertir columnas de fecha y eliminar la hora
df['INGRE'] = pd.to_datetime(df['INGRE'], errors='coerce').dt.date
df['EGRESO'] = pd.to_datetime(df['EGRESO'], errors='coerce').dt.date

# Guardar el archivo sobrescribiéndolo
df.to_csv(ruta_archivo, index=False, encoding='utf-8')

print(" Formato de fecha corregido (hora eliminada) en columnas INGRE y EGRESO.")

In [None]:
import pandas as pd
import os

# Carpeta donde están los archivos CSV
carpeta = r"C:\Users\jesus\OneDrive\Desktop\Archivos de Salud 2010-2023\Datos Limpios\Datos Limpios Egresos\Egresos"

# Listar todos los archivos CSV en la carpeta
archivos_csv = [f for f in os.listdir(carpeta) if f.endswith('.csv')]

# Revisar columnas y tipos en cada archivo
for archivo in archivos_csv:
    ruta_archivo = os.path.join(carpeta, archivo)
    try:
        df = pd.read_csv(ruta_archivo, encoding='utf-8')
        print(f"\n Archivo: {archivo}")
        print("-" * 60)
        print(df.dtypes)
    except Exception as e:
        print(f"\n Error al leer {archivo}: {e}")


In [None]:
import pandas as pd
import os

# Carpeta con archivos limpios
carpeta = r"C:\Users\jesus\OneDrive\Desktop\Archivos de Salud 2010-2023\Datos Limpios\Datos Limpios Egresos\Egresos"
archivos = [f for f in os.listdir(carpeta) if f.endswith('.csv')]

# Definición de tipos por columna
tipos_columnas = {
    'CLUES': 'string',
    'INGRE': 'string',         
    'EGRESO': 'string',        
    'DIAS_ESTA': 'Int64',
    'EDAD': 'Int64',
    'CVEEDAD': 'Int64',
    'SEXO': 'Int64',
    'PESO': 'float64',
    'TALLA': 'Int64',
    'DERHAB': 'Int64',
    'ENTIDAD': 'Int64',
    'AFECPRIN': 'string',
    'VEZ': 'Int64'
}

# Recorrer archivos
for archivo in archivos:
    ruta = os.path.join(carpeta, archivo)
    print(f" Procesando: {archivo}")

    try:
        df = pd.read_csv(ruta, dtype='string')  # Leer todo como texto inicialmente
        # Convertir columna por columna al tipo correcto
        for col, tipo in tipos_columnas.items():
            if col in df.columns:
                try:
                    if tipo.startswith('Int') or tipo == 'float64':
                        df[col] = pd.to_numeric(df[col], errors='coerce').astype(tipo)
                    else:
                        df[col] = df[col].astype(tipo)
                except Exception as e:
                    print(f" Error convirtiendo columna {col} en {archivo}: {e}")
        # Guardar archivo sobrescribiendo
        df.to_csv(ruta, index=False, encoding='utf-8')
        print(" Tipos normalizados y archivo guardado.")
    except Exception as e:
        print(f" Error con el archivo {archivo}: {e}")


In [None]:
import pandas as pd
import os

# Carpeta donde están los archivos CSV
carpeta = r"C:\Users\jesus\OneDrive\Desktop\Archivos de Salud 2010-2023\Datos Limpios\Datos Limpios Egresos\Egresos"

# Listar todos los archivos CSV en la carpeta
archivos_csv = [f for f in os.listdir(carpeta) if f.endswith('.csv')]

# Revisar columnas y tipos en cada archivo
for archivo in archivos_csv:
    ruta_archivo = os.path.join(carpeta, archivo)
    try:
        df = pd.read_csv(ruta_archivo, encoding='utf-8')
        print(f"\n Archivo: {archivo}")
        print("-" * 60)
        print(df.dtypes)
    except Exception as e:
        print(f"\n Error al leer {archivo}: {e}")


In [None]:
import pandas as pd
import os
import re

# Carpeta de origen
carpeta = r"C:\Users\jesus\OneDrive\Desktop\Archivos de Salud 2010-2023\Datos Limpios\Datos Limpios Egresos\Egresos"

# Codigos CIE-10 para diabetes (E10–E14) y cáncer (C00–C99)
regex_diabetes = re.compile(r'^E1[0-4]', re.IGNORECASE)
regex_cancer = re.compile(r'^C[0-9]{2}', re.IGNORECASE)

# Procesar todos los archivos CSV en la carpeta
for archivo in os.listdir(carpeta):
    if archivo.endswith(".csv"):
        ruta_archivo = os.path.join(carpeta, archivo)
        nombre_base = archivo.replace('.csv', '')

        # Cargar archivo
        df = pd.read_csv(ruta_archivo, encoding='utf-8', dtype=str)

        # Verificar que exista la columna AFECPRIN
        if 'AFECPRIN' not in df.columns:
            print(f" AFECPRIN no encontrada en {archivo}, se omite.")
            continue

        # Filtrar por diabetes y cáncer
        df_diabetes = df[df['AFECPRIN'].str.match(regex_diabetes, na=False)]
        df_cancer = df[df['AFECPRIN'].str.match(regex_cancer, na=False)]

        # Guardar resultados
        salida_diabetes = os.path.join(carpeta, f"{nombre_base}_diabetes.csv")
        salida_cancer = os.path.join(carpeta, f"{nombre_base}_cancer.csv")

        df_diabetes.to_csv(salida_diabetes, index=False, encoding='utf-8')
        df_cancer.to_csv(salida_cancer, index=False, encoding='utf-8')

        print(f" {archivo} → {len(df_diabetes)} registros de diabetes, {len(df_cancer)} de cáncer")
