In [1]:
# Importa la biblioteca pandas con el alias pd, que se usa para manipulación de datos en estructuras tipo DataFrame.
import pandas as pd

# Importa la biblioteca numpy con el alias np, que se usa para operaciones numéricas avanzadas (aunque en este fragmento no se utiliza).
import numpy as np

# Lee el archivo 'grd_2023.csv' usando como delimitador el símbolo '|' y lo guarda en un DataFrame llamado grd.
grd = pd.read_csv('grd_2023.csv', delimiter='|')

# Muestra las primeras 5 filas del DataFrame grd para una vista preliminar de los datos.
grd.head()

# Lee el archivo 'hospitales.csv', sin encabezado (header=None), y con '|' como delimitador. Guarda el resultado en un DataFrame llamado hospitales.
hospitales = pd.read_csv('hospitales.csv', header=None, delimiter="|")

# Muestra las primeras 5 filas del DataFrame hospitales.
hospitales.head()

# Lee el archivo 'ir-GRD.csv', sin encabezado (header=None), usando '|' como delimitador, y lo guarda en el DataFrame ir.
ir = pd.read_csv('ir-GRD.csv', delimiter='|', header = None)

# Muestra el contenido completo del DataFrame ir.
ir


Unnamed: 0,0,1
0,11011,PH PROCEDIMIENTOS VASCULARES INTRACRANEALES
1,11012,PH PROCEDIMIENTOS VASCULARES INTRACRANEALES W/CC
2,11013,PH PROCEDIMIENTOS VASCULARES INTRACRANEALES W...
3,11101,PH CRANEOTOMÍA
4,11102,PH CRANEOTOMÍA W/CC
...,...,...
1061,990089,"INAGRUPABLE, DURACIÓN DE LA ESTANCIA NO VÁLIDA"
1062,990099,"INAGRUPABLE, PACIENTE AMBULATORIO CON PROCED...."
1063,990119,"INAGRUPABLE, SIN CRITERIO DE AGRUPACIÓN PARA ..."
1064,990129,"INAGRUPABLE, SIN CRITERIO DE AGRUPACIÓN PARA ..."


In [2]:
grd.columns

Index(['COD_HOSPITAL', 'CIP_ENCRIPTADO', 'SEXO', 'FECHA_NACIMIENTO',
       'SERVICIO_SALUD', 'TIPO_INGRESO', 'FECHA_INGRESO', 'FECHAALTA',
       'TIPOALTA', 'DIAGNOSTICO1', 'IR_29301_COD_GRD', 'IR_29301_PESO',
       'IR_29301_SEVERIDAD', 'IR_29301_MORTALIDAD', 'EDAD', 'DIAS_ESTANCIA'],
      dtype='object')

In [3]:
# Realiza una combinación (merge) entre los DataFrames grd y hospitales. 
# Se usa 'COD_HOSPITAL' de grd y la columna 0 de hospitales para hacer la combinación (join).
# Se utiliza 'how="left"' para hacer una combinación a la izquierda, lo que significa que todos los registros de grd estarán en el resultado.
grd_h = pd.merge(grd, hospitales, left_on='COD_HOSPITAL', right_on=0, how='left')

# Elimina la columna 0 del DataFrame resultante, que es la que se utilizó para la combinación y que ya no es necesaria.
grd_h = grd_h.drop(columns=0)

# Renombra la columna 1 del DataFrame resultante a 'NOMBRE_HOSPITAL' para que tenga un nombre más descriptivo.
grd_h = grd_h.rename(columns={1: 'NOMBRE_HOSPITAL'})

# Renombra la columna 'FECHAALTA' a 'FECHA_ALTA' para estandarizar el nombre de la columna.
grd_h = grd_h.rename(columns={"FECHAALTA": 'FECHA_ALTA'})

# Renombra la columna 'TIPOALTA' a 'TIPO_ALTA' para estandarizar el nombre de la columna.
grd_h = grd_h.rename(columns={"TIPOALTA": 'TIPO_ALTA'})

# Muestra las primeras 5 filas del DataFrame grd_h para revisar el resultado de las transformaciones.
grd_h.columns

Index(['COD_HOSPITAL', 'CIP_ENCRIPTADO', 'SEXO', 'FECHA_NACIMIENTO',
       'SERVICIO_SALUD', 'TIPO_INGRESO', 'FECHA_INGRESO', 'FECHA_ALTA',
       'TIPO_ALTA', 'DIAGNOSTICO1', 'IR_29301_COD_GRD', 'IR_29301_PESO',
       'IR_29301_SEVERIDAD', 'IR_29301_MORTALIDAD', 'EDAD', 'DIAS_ESTANCIA',
       'NOMBRE_HOSPITAL'],
      dtype='object')

In [4]:
# Realiza una combinación (merge) entre los DataFrames grd_h y ir. 
# Se utiliza 'IR_29301_COD_GRD' de grd_h y la columna 0 de ir para hacer la combinación (join).
# Se utiliza 'how="left"' para hacer una combinación a la izquierda, asegurando que todos los registros de grd_h estén en el resultado.
# Después, se elimina la columna 0 de ir (que se utilizó para la combinación) y se renombra la columna 1 de ir a 'NOMBRE_IR'.
grd_f = pd.merge(grd_h, ir, left_on='IR_29301_COD_GRD', right_on=0, how='left').drop(columns=0).rename(columns={1: 'NOMBRE_IR'})

# Selecciona un subconjunto de columnas del DataFrame grd_f, asegurando que solo se mantendrán las columnas especificadas en la lista.
# Esto reordena las columnas y se asegura de que solo estén las necesarias para el análisis.
grd_f = grd_f[["COD_HOSPITAL", "NOMBRE_HOSPITAL", "CIP_ENCRIPTADO", "SEXO", "FECHA_NACIMIENTO",
               "SERVICIO_SALUD", "TIPO_INGRESO", "FECHA_INGRESO", "FECHA_ALTA", "TIPO_ALTA",
               "DIAGNOSTICO1", "NOMBRE_IR", "IR_29301_COD_GRD", "IR_29301_PESO", "IR_29301_SEVERIDAD",
               "IR_29301_MORTALIDAD", "EDAD","DIAS_ESTANCIA"]]

# Muestra el DataFrame resultante grd_f, que ahora contiene solo las columnas seleccionadas.
grd_f.columns

Index(['COD_HOSPITAL', 'NOMBRE_HOSPITAL', 'CIP_ENCRIPTADO', 'SEXO',
       'FECHA_NACIMIENTO', 'SERVICIO_SALUD', 'TIPO_INGRESO', 'FECHA_INGRESO',
       'FECHA_ALTA', 'TIPO_ALTA', 'DIAGNOSTICO1', 'NOMBRE_IR',
       'IR_29301_COD_GRD', 'IR_29301_PESO', 'IR_29301_SEVERIDAD',
       'IR_29301_MORTALIDAD', 'EDAD', 'DIAS_ESTANCIA'],
      dtype='object')

In [5]:
#Vemos quienes murieron y creamos una columna boinaria "Fallecido"
falle = grd_f["TIPO_ALTA"] == "FALLECIDO"
grd_f["FALLECIDO"] = falle.astype(int)
grd_f.head(5)

Unnamed: 0,COD_HOSPITAL,NOMBRE_HOSPITAL,CIP_ENCRIPTADO,SEXO,FECHA_NACIMIENTO,SERVICIO_SALUD,TIPO_INGRESO,FECHA_INGRESO,FECHA_ALTA,TIPO_ALTA,DIAGNOSTICO1,NOMBRE_IR,IR_29301_COD_GRD,IR_29301_PESO,IR_29301_SEVERIDAD,IR_29301_MORTALIDAD,EDAD,DIAS_ESTANCIA,FALLECIDO
0,122100,Hospital Clínico Regional (Valdivia),72196813.0,HOMBRE,1980-04-13,VALDIVIA,URGENCIA,2023-03-12,2023-03-14,DOMICILIO,K35.3,MH INFECCIONES GASTROINTESTINALES MAYORES,64161.0,0.7094,1.0,1.0,43.0,2,0
1,114101,Complejo Hospitalario Dr. Sótero del Río (San...,,HOMBRE,2001-11-04,METROPOLITANO SURORIENTE,URGENCIA,2023-11-04,2023-11-10,DOMICILIO,J93.1,PH PROCEDIMIENTOS MODERADAMENTE COMPLEJOS SOB...,41301.0,1.0869,1.0,1.0,22.0,6,0
2,114101,Complejo Hospitalario Dr. Sótero del Río (San...,97627974.0,HOMBRE,2020-07-30,METROPOLITANO SURORIENTE,URGENCIA,2023-06-07,2023-06-08,HOSPITALIZACIÓN DOMICILIARIA,J12.1,MH NEUMONÍA SIMPLE Y TOS FERINA,44161.0,0.4084,1.0,1.0,3.0,1,0
3,106103,Hospital Claudio Vicuña (San Antonio),67770674.0,MUJER,1978-11-14,VALPARAISO SAN ANTONIO,PROGRAMADA,2023-05-25,2023-05-26,DOMICILIO,N39.3,PH HISTERECTOMIA VAGINAL Y OTROS PROCEDIMIENT...,131301.0,0.6406,1.0,1.0,45.0,1,0
4,106103,Hospital Claudio Vicuña (San Antonio),100390800.0,MUJER,2023-12-20,VALPARAISO SAN ANTONIO,URGENCIA,2023-12-28,2023-12-30,DOMICILIO,R17,"MH ENFERMEDADES HEPÁTICAS EXCEPTO NEOPLASIAS,...",74131.0,0.5346,1.0,1.0,0.0,2,0


In [6]:
grd_f.columns

Index(['COD_HOSPITAL', 'NOMBRE_HOSPITAL', 'CIP_ENCRIPTADO', 'SEXO',
       'FECHA_NACIMIENTO', 'SERVICIO_SALUD', 'TIPO_INGRESO', 'FECHA_INGRESO',
       'FECHA_ALTA', 'TIPO_ALTA', 'DIAGNOSTICO1', 'NOMBRE_IR',
       'IR_29301_COD_GRD', 'IR_29301_PESO', 'IR_29301_SEVERIDAD',
       'IR_29301_MORTALIDAD', 'EDAD', 'DIAS_ESTANCIA', 'FALLECIDO'],
      dtype='object')

In [7]:
grd_f.drop(["COD_HOSPITAL","CIP_ENCRIPTADO","FECHA_NACIMIENTO",
          "SERVICIO_SALUD","FECHA_INGRESO","FECHA_ALTA","TIPO_ALTA",
          "TIPO_ALTA","DIAGNOSTICO1","NOMBRE_IR",'IR_29301_COD_GRD', 'IR_29301_PESO'], axis=1, inplace= True)

In [8]:
len(grd_f["NOMBRE_HOSPITAL"].unique())

68

In [9]:
cuenta = grd_f["NOMBRE_HOSPITAL"].value_counts()

In [10]:
cuenta.shape

(68,)

Ya que la cantidad de hospitales es sustancial, vamos a reducir el número viendo aquellos que tengan pocos pacientes atendidos. Para esto, vamos a eliminar todos los hospitales que hayan atendido menos del X% de los pacientes.

In [11]:
numero_atendido_hosp = grd_f.value_counts(["NOMBRE_HOSPITAL"])
Total_atendido = len(grd_f)
propor_atend_hosp = numero_atendido_hosp/Total_atendido
propor_atend_hosp.sort_values


<bound method Series.sort_values of NOMBRE_HOSPITAL                                                      
 Complejo Hospitalario Dr. Sótero del Río (Santiago, Puente Alto)        0.047762
 Hospital Clínico Regional Dr. Guillermo Grant Benavente (Concepción)    0.032844
 Hospital Dr. César Garavagno Burotto (Talca)                            0.030924
 Complejo Asistencial Dr. Víctor Ríos Ruiz (Los Ángeles)                 0.030061
 Hospital Dr. Hernán Henríquez Aravena (Temuco)                          0.028652
                                                                           ...   
 Hospital Dr. Abraham Godoy (Lautaro)                                    0.004286
 Hospital de Tomé                                                        0.004262
 Hospital de Pitrufquén                                                  0.003893
 Instituto Nacional de Enfermedades Respiratorias y Cirugía Torácica     0.003457
 Instituto de Neurocirugía Dr. Alfonso Asenjo                            0

Eliminamos los que no cumplan con el threshold

In [12]:
hospitales_cumplen = propor_atend_hosp[propor_atend_hosp>= 0.03] #Cambiar threshold
hospitales_cumplen.head()

NOMBRE_HOSPITAL                                                      
 Complejo Hospitalario Dr. Sótero del Río (Santiago, Puente Alto)        0.047762
 Hospital Clínico Regional Dr. Guillermo Grant Benavente (Concepción)    0.032844
 Hospital Dr. César Garavagno Burotto (Talca)                            0.030924
 Complejo Asistencial Dr. Víctor Ríos Ruiz (Los Ángeles)                 0.030061
Name: count, dtype: float64

In [13]:
hospitales_cumplen2 = hospitales_cumplen.index.to_list()
hospitales_cumplen_f = []
for i in hospitales_cumplen2:
    hospitales_cumplen_f.append(i[0])
hospitales_cumplen_f

[' Complejo Hospitalario Dr. Sótero del Río (Santiago, Puente Alto)',
 ' Hospital Clínico Regional Dr. Guillermo Grant Benavente (Concepción)',
 ' Hospital Dr. César Garavagno Burotto (Talca)',
 ' Complejo Asistencial Dr. Víctor Ríos Ruiz (Los Ángeles)']

Aislamos los pacientes atendidos en los hospitales que cumplen con el threshold

In [14]:
grd_f["NOMBRE_HOSPITAL"].isin(hospitales_cumplen_f)

0          False
1           True
2           True
3          False
4          False
           ...  
1039582    False
1039583     True
1039584    False
1039585    False
1039586    False
Name: NOMBRE_HOSPITAL, Length: 1039587, dtype: bool

In [15]:
Casos = grd_f[grd_f["NOMBRE_HOSPITAL"].isin(hospitales_cumplen_f)]
Casos

Unnamed: 0,NOMBRE_HOSPITAL,SEXO,TIPO_INGRESO,IR_29301_SEVERIDAD,IR_29301_MORTALIDAD,EDAD,DIAS_ESTANCIA,FALLECIDO
1,Complejo Hospitalario Dr. Sótero del Río (San...,HOMBRE,URGENCIA,1.0,1.0,22.0,6,0
2,Complejo Hospitalario Dr. Sótero del Río (San...,HOMBRE,URGENCIA,1.0,1.0,3.0,1,0
13,Hospital Dr. César Garavagno Burotto (Talca),MUJER,PROGRAMADA,1.0,1.0,5.0,0,0
16,Hospital Dr. César Garavagno Burotto (Talca),HOMBRE,PROGRAMADA,1.0,1.0,5.0,0,0
37,Hospital Dr. César Garavagno Burotto (Talca),MUJER,PROGRAMADA,3.0,2.0,5.0,0,0
...,...,...,...,...,...,...,...,...
1039575,Hospital Dr. César Garavagno Burotto (Talca),HOMBRE,PROGRAMADA,1.0,1.0,4.0,0,0
1039576,Hospital Dr. César Garavagno Burotto (Talca),HOMBRE,URGENCIA,1.0,1.0,10.0,2,0
1039577,Hospital Dr. César Garavagno Burotto (Talca),HOMBRE,URGENCIA,1.0,1.0,10.0,2,0
1039580,Hospital Dr. César Garavagno Burotto (Talca),HOMBRE,PROGRAMADA,0.0,0.0,74.0,0,0


In [16]:
Casos["TIPO_INGRESO"].describe()

count       147196
unique           3
top       URGENCIA
freq         68307
Name: TIPO_INGRESO, dtype: object

In [17]:

#grd_dum = pd.get_dummies(grd)#grd.shape()