# Proceso de Extracción, Transformación y Carga (ETL)

## Importar librerías

In [42]:
import pandas as pd
import utils

import warnings
warnings.simplefilter("ignore")

In [43]:
# Instalar esta librería en caso de no tenerla, para trabajar con excel
#pip install --upgrade pandas openpyxl

## Extracción de los datos

In [44]:
archivo = '..\BBDD_Hospitalización.xlsx'
df = pd.read_excel(archivo, engine='openpyxl')
print(f'Se cargaron los datos del archivo {archivo}')

Se cargaron los datos del archivo ..\BBDD_Hospitalización.xlsx


## Transformación

En primer lugar se exploran los primeros y los últimos registros para visualizar su estructura, así como obtener información sobre las columnas y los tipos de datos.

In [45]:
df

Unnamed: 0,EDAD,DIABETES,HOSPITALIZACIÓN ULTIMO MES,PSA,BIOPSIAS PREVIAS,VOLUMEN PROSTATICO,ANTIBIOTICO UTILIAZADO EN LA PROFILAXIS,NUMERO DE MUESTRAS TOMADAS,CUP,ENF. CRONICA PULMONAR OBSTRUCTIVA,BIOPSIA,NUMERO DE DIAS POST BIOPSIA EN QUE SE PRESENTA LA COMPLICACIÓN INFECCIOSA,FIEBRE,ITU,TIPO DE CULTIVO,AGENTE AISLADO,PATRON DE RESISTENCIA,HOSPITALIZACION,DIAS HOSPITALIZACION MQ,DIAS HOSPITALIZACIÓN UPC
0,53.0,NO,NO,4.00,NO,SI,FLUOROQUINOLONA_AMINOGLICOSIDO,12.0,NO,NO,NEG,1,SI,NO,NO,NO,NO,SI,2.0,0.0
1,56.0,NO,NO,7.70,NO,SI,FLUOROQUINOLONA_AMINOGLICOSIDO,12.0,NO,NO,NEG,1,SI,NO,NO,NO,NO,SI,5.0,0.0
2,57.0,NO,NO,29.00,SI,SI,FLUOROQUINOLONA_AMINOGLICOSIDO,24.0,NO,NO,NEG,1,SI,NO,HEMOCULTIVO,E.COLI,"AMPI R, CIPRO R, GENTA R, SULFA M R",SI,4.0,3.0
3,56.0,NO,NO,7.00,NO,SI,FLUOROQUINOLONA_AMINOGLICOSIDO,12.0,NO,NO,NEG,1,SI,NO,NO,NO,NO,SI,5.0,0.0
4,55.0,NO,NO,29.00,SI,SI,FLUOROQUINOLONA_AMINOGLICOSIDO,24.0,NO,NO,NEG,1,SI,NO,HEMOCULTIVO,E.COLI,NO,SI,4.0,3.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
565,69.0,NO,NO,4.43,,,FLUOROQUINOLONA_AMINOGLICOSIDO,20.0,,NO,NEG,NO,NO,NO,NO,NO,NO,NO,0.0,0.0
566,67.0,NO,NO,8.00,NO,SI,FLUOROQUINOLONA_AMINOGLICOSIDO,12.0,NO,,ADENOCARCINOMA GLEASON 7,NO,NO,NO,NO,,NO,NO,0.0,0.0
567,59.0,NO,NO,9.00,SI,SI,FLUOROQUINOLONA_AMINOGLICOSIDO,12.0,NO,,NEG,NO,NO,NO,NO,NO,NO,NO,0.0,0.0
568,,,,,,,,,,,,,,,,,,,,


In [46]:
# Columnas del dataframe
df.columns

Index(['EDAD', 'DIABETES', 'HOSPITALIZACIÓN ULTIMO MES', 'PSA',
       'BIOPSIAS PREVIAS', 'VOLUMEN PROSTATICO',
       'ANTIBIOTICO UTILIAZADO EN LA PROFILAXIS', 'NUMERO DE MUESTRAS TOMADAS',
       'CUP', 'ENF. CRONICA PULMONAR OBSTRUCTIVA', 'BIOPSIA',
       'NUMERO DE DIAS POST BIOPSIA EN QUE SE PRESENTA LA COMPLICACIÓN INFECCIOSA',
       'FIEBRE', 'ITU', 'TIPO DE CULTIVO', 'AGENTE AISLADO',
       'PATRON DE RESISTENCIA', 'HOSPITALIZACION', 'DIAS HOSPITALIZACION MQ',
       'DIAS HOSPITALIZACIÓN UPC'],
      dtype='object')

In [47]:
# Se filtran las filas duplicadas
df[df.duplicated(keep=False)]

Unnamed: 0,EDAD,DIABETES,HOSPITALIZACIÓN ULTIMO MES,PSA,BIOPSIAS PREVIAS,VOLUMEN PROSTATICO,ANTIBIOTICO UTILIAZADO EN LA PROFILAXIS,NUMERO DE MUESTRAS TOMADAS,CUP,ENF. CRONICA PULMONAR OBSTRUCTIVA,BIOPSIA,NUMERO DE DIAS POST BIOPSIA EN QUE SE PRESENTA LA COMPLICACIÓN INFECCIOSA,FIEBRE,ITU,TIPO DE CULTIVO,AGENTE AISLADO,PATRON DE RESISTENCIA,HOSPITALIZACION,DIAS HOSPITALIZACION MQ,DIAS HOSPITALIZACIÓN UPC
30,73.0,NO,NO,7.5,NO,SI,CEFALOSPORINA_AMINOGLUCOCIDO,12.0,NO,"SI, ASMA",NEG,NO,NO,NO,NO,NO,NO,NO,0.0,0.0
32,73.0,NO,NO,7.5,NO,SI,CEFALOSPORINA_AMINOGLUCOCIDO,12.0,NO,"SI, ASMA",NEG,NO,NO,NO,NO,NO,NO,NO,0.0,0.0
36,62.0,NO,NO,16.0,NO,SI,OROQUINOLONAS,12.0,NO,SI,ADENOCARCINOMA GLEASON 8,NO,NO,NO,NO,NO,NO,NO,0.0,0.0
37,69.0,NO,NO,17.0,SI,SI,CEFALOSPORINA_AMINOGLUCOCIDO,12.0,NO,SI,NEG,NO,NO,NO,NO,NO,NO,NO,0.0,0.0
39,66.0,NO,NO,6.4,NO,SI,OTROS,12.0,NO,SI,NEG,NO,NO,NO,NO,NO,NO,NO,0.0,0.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
557,59.0,NO,NO,16.0,NO,SI,FLUOROQUINOLONA_AMINOGLICOSIDO,24.0,NO,NO,NEG,NO,NO,NO,NO,NO,NO,NO,0.0,0.0
560,57.0,NO,NO,4.8,NO,NO,OTROS,12.0,NO,NO,NEG,NO,NO,NO,NO,NO,NO,NO,0.0,0.0
562,78.0,NO,NO,9.3,NO,SI,CEFALOSPORINA_AMINOGLUCOCIDO,12.0,NO,NO,NEG,NO,NO,NO,NO,NO,NO,NO,0.0,0.0
568,,,,,,,,,,,,,,,,,,,,


In [48]:
# Se eliminan las filas duplicadas en todas las columnas manteniendo la primera aparición
df = df.drop_duplicates(subset=df.columns, keep='first')
df

Unnamed: 0,EDAD,DIABETES,HOSPITALIZACIÓN ULTIMO MES,PSA,BIOPSIAS PREVIAS,VOLUMEN PROSTATICO,ANTIBIOTICO UTILIAZADO EN LA PROFILAXIS,NUMERO DE MUESTRAS TOMADAS,CUP,ENF. CRONICA PULMONAR OBSTRUCTIVA,BIOPSIA,NUMERO DE DIAS POST BIOPSIA EN QUE SE PRESENTA LA COMPLICACIÓN INFECCIOSA,FIEBRE,ITU,TIPO DE CULTIVO,AGENTE AISLADO,PATRON DE RESISTENCIA,HOSPITALIZACION,DIAS HOSPITALIZACION MQ,DIAS HOSPITALIZACIÓN UPC
0,53.0,NO,NO,4.00,NO,SI,FLUOROQUINOLONA_AMINOGLICOSIDO,12.0,NO,NO,NEG,1,SI,NO,NO,NO,NO,SI,2.0,0.0
1,56.0,NO,NO,7.70,NO,SI,FLUOROQUINOLONA_AMINOGLICOSIDO,12.0,NO,NO,NEG,1,SI,NO,NO,NO,NO,SI,5.0,0.0
2,57.0,NO,NO,29.00,SI,SI,FLUOROQUINOLONA_AMINOGLICOSIDO,24.0,NO,NO,NEG,1,SI,NO,HEMOCULTIVO,E.COLI,"AMPI R, CIPRO R, GENTA R, SULFA M R",SI,4.0,3.0
3,56.0,NO,NO,7.00,NO,SI,FLUOROQUINOLONA_AMINOGLICOSIDO,12.0,NO,NO,NEG,1,SI,NO,NO,NO,NO,SI,5.0,0.0
4,55.0,NO,NO,29.00,SI,SI,FLUOROQUINOLONA_AMINOGLICOSIDO,24.0,NO,NO,NEG,1,SI,NO,HEMOCULTIVO,E.COLI,NO,SI,4.0,3.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
564,64.0,NO,NO,4.80,NO,SI,OTROS,12.0,NO,NO,ADENOCARCINOMA GLEASON 7,NO,NO,NO,NO,NO,NO,NO,0.0,0.0
565,69.0,NO,NO,4.43,,,FLUOROQUINOLONA_AMINOGLICOSIDO,20.0,,NO,NEG,NO,NO,NO,NO,NO,NO,NO,0.0,0.0
566,67.0,NO,NO,8.00,NO,SI,FLUOROQUINOLONA_AMINOGLICOSIDO,12.0,NO,,ADENOCARCINOMA GLEASON 7,NO,NO,NO,NO,,NO,NO,0.0,0.0
567,59.0,NO,NO,9.00,SI,SI,FLUOROQUINOLONA_AMINOGLICOSIDO,12.0,NO,,NEG,NO,NO,NO,NO,NO,NO,NO,0.0,0.0


In [49]:
# Se verifica que ya no hay filas duplicadas
df[df.duplicated(keep=False)]

Unnamed: 0,EDAD,DIABETES,HOSPITALIZACIÓN ULTIMO MES,PSA,BIOPSIAS PREVIAS,VOLUMEN PROSTATICO,ANTIBIOTICO UTILIAZADO EN LA PROFILAXIS,NUMERO DE MUESTRAS TOMADAS,CUP,ENF. CRONICA PULMONAR OBSTRUCTIVA,BIOPSIA,NUMERO DE DIAS POST BIOPSIA EN QUE SE PRESENTA LA COMPLICACIÓN INFECCIOSA,FIEBRE,ITU,TIPO DE CULTIVO,AGENTE AISLADO,PATRON DE RESISTENCIA,HOSPITALIZACION,DIAS HOSPITALIZACION MQ,DIAS HOSPITALIZACIÓN UPC


In [50]:
# se resetean los indexs
df = df.reset_index(drop=True)

In [51]:
# Se observan los nulos y tipo de datos
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 461 entries, 0 to 460
Data columns (total 20 columns):
 #   Column                                                                     Non-Null Count  Dtype  
---  ------                                                                     --------------  -----  
 0   EDAD                                                                       460 non-null    float64
 1   DIABETES                                                                   460 non-null    object 
 2   HOSPITALIZACIÓN ULTIMO MES                                                 460 non-null    object 
 3   PSA                                                                        456 non-null    float64
 4   BIOPSIAS PREVIAS                                                           458 non-null    object 
 5   VOLUMEN PROSTATICO                                                         459 non-null    object 
 6   ANTIBIOTICO UTILIAZADO EN LA PROFILAXIS                   

Se cuenta con 461 registros, cuyos indices van del 0 al 460, y 20 columnas. Muchos de ellos del tipo objeto y se observan algunas columnas con valores nulos por lo que se aplicará una función que verifica el contenido dentro de cada columna y hace un conteo de la cantidad de nulos en la misma.

In [52]:
utils.verificar_tipo_datos(df)

Unnamed: 0,nombre_campo,tipo_datos,no_nulos_%,nulos_%,nulos
0,EDAD,[<class 'float'>],99.78,0.22,1
1,DIABETES,"[<class 'str'>, <class 'float'>]",99.78,0.22,1
2,HOSPITALIZACIÓN ULTIMO MES,"[<class 'str'>, <class 'float'>]",99.78,0.22,1
3,PSA,[<class 'float'>],98.92,1.08,5
4,BIOPSIAS PREVIAS,"[<class 'str'>, <class 'float'>]",99.35,0.65,3
5,VOLUMEN PROSTATICO,"[<class 'str'>, <class 'float'>]",99.57,0.43,2
6,ANTIBIOTICO UTILIAZADO EN LA PROFILAXIS,"[<class 'str'>, <class 'float'>]",99.78,0.22,1
7,NUMERO DE MUESTRAS TOMADAS,[<class 'float'>],99.78,0.22,1
8,CUP,"[<class 'str'>, <class 'float'>]",99.57,0.43,2
9,ENF. CRONICA PULMONAR OBSTRUCTIVA,"[<class 'str'>, <class 'float'>]",99.35,0.65,3


En principio se observa que todas las columnas tienen como mínimo 1 valor nulo y que la máxima cantidad de nulos es en la columna AGENTE AISLADO, con 18 valores que representan el 3.9%.

In [53]:
# Filtrar filas con valores nulos
df[df.isna().any(axis=1)]

Unnamed: 0,EDAD,DIABETES,HOSPITALIZACIÓN ULTIMO MES,PSA,BIOPSIAS PREVIAS,VOLUMEN PROSTATICO,ANTIBIOTICO UTILIAZADO EN LA PROFILAXIS,NUMERO DE MUESTRAS TOMADAS,CUP,ENF. CRONICA PULMONAR OBSTRUCTIVA,BIOPSIA,NUMERO DE DIAS POST BIOPSIA EN QUE SE PRESENTA LA COMPLICACIÓN INFECCIOSA,FIEBRE,ITU,TIPO DE CULTIVO,AGENTE AISLADO,PATRON DE RESISTENCIA,HOSPITALIZACION,DIAS HOSPITALIZACION MQ,DIAS HOSPITALIZACIÓN UPC
9,44.0,NO,NO,,NO,NO,FLUOROQUINOLONA_AMINOGLICOSIDO,12.0,NO,NO,NEG,2,SI,NO,NO,NO,NO,SI,3.0,0.0
26,75.0,NO,NO,25.0,NO,SI,FLUOROQUINOLONA_AMINOGLICÓSIDO,12.0,NO,"SI, EPOC",ADENOCARCINOMA GLEASON 7,NO,NO,NO,NO,,NO,NO,0.0,0.0
31,63.0,NO,NO,10.8,NO,NO,FLUOROQUINOLONA_AMINOGLICÓSIDO,12.0,NO,"SI, ASMA",ADENOCARCINOMA GLEASON 7,NO,NO,NO,NO,NO,NO,,0.0,0.0
70,57.0,NO,NO,,NO,NO,FLUOROQUINOLONA_AMINOGLICOSIDO,18.0,NO,NO,HIPERPLASIA PROSTATICA,NO,NO,NO,NO,NO,NO,NO,0.0,0.0
86,58.0,NO,NO,7.8,,SI,FLUOROQUINOLONA_AMINOGLICOSIDO,12.0,NO,NO,NEG,NO,NO,NO,NO,NO,NO,NO,0.0,0.0
93,70.0,NO,NO,7.2,NO,SI,FLUOROQUINOLONA_AMINOGLICOSIDO,12.0,NO,NO,ADENOCARCINOMA GLEASON 7,NO,NO,NO,NO,,NO,NO,0.0,0.0
94,74.0,NO,NO,5.8,NO,NO,FLUOROQUINOLONA_AMINOGLICOSIDO,12.0,NO,NO,ADENOCARCINOMA GLEASON 7,NO,NO,NO,NO,NO,NO,,0.0,0.0
97,60.0,NO,NO,,SI,SI,FLUOROQUINOLONA_AMINOGLICOSIDO,16.0,NO,NO,NEG,NO,NO,NO,NO,NO,NO,NO,0.0,0.0
100,65.0,NO,NO,5.97,NO,SI,FLUOROQUINOLONA_AMINOGLICOSIDO,20.0,NO,NO,ADENOCARCINOMA GLEASON 7,NO,NO,NO,NO,,NO,NO,0.0,0.0
103,61.0,NO,NO,7.0,NO,NO,FLUOROQUINOLONA_AMINOGLICOSIDO,12.0,NO,NO,NEG,NO,NO,NO,NO,NO,NO,,0.0,0.0


In [54]:
cantidad_registros_nulos = len(df[df.isna().any(axis=1)])
porcentaje = round((cantidad_registros_nulos / len(df)) * 100,2)

print(f'Hay {cantidad_registros_nulos} registros con algún nulo, lo que representa el {porcentaje}% del total de registros')

Hay 28 registros con algún nulo, lo que representa el 6.07% del total de registros


Se tienen 28 registros donde hay al menos un valor nulo, esto representa el 6% de los registros disponibles, por lo que se decide borrarlos.

In [55]:
df = df.dropna()
df

Unnamed: 0,EDAD,DIABETES,HOSPITALIZACIÓN ULTIMO MES,PSA,BIOPSIAS PREVIAS,VOLUMEN PROSTATICO,ANTIBIOTICO UTILIAZADO EN LA PROFILAXIS,NUMERO DE MUESTRAS TOMADAS,CUP,ENF. CRONICA PULMONAR OBSTRUCTIVA,BIOPSIA,NUMERO DE DIAS POST BIOPSIA EN QUE SE PRESENTA LA COMPLICACIÓN INFECCIOSA,FIEBRE,ITU,TIPO DE CULTIVO,AGENTE AISLADO,PATRON DE RESISTENCIA,HOSPITALIZACION,DIAS HOSPITALIZACION MQ,DIAS HOSPITALIZACIÓN UPC
0,53.0,NO,NO,4.0,NO,SI,FLUOROQUINOLONA_AMINOGLICOSIDO,12.0,NO,NO,NEG,1,SI,NO,NO,NO,NO,SI,2.0,0.0
1,56.0,NO,NO,7.7,NO,SI,FLUOROQUINOLONA_AMINOGLICOSIDO,12.0,NO,NO,NEG,1,SI,NO,NO,NO,NO,SI,5.0,0.0
2,57.0,NO,NO,29.0,SI,SI,FLUOROQUINOLONA_AMINOGLICOSIDO,24.0,NO,NO,NEG,1,SI,NO,HEMOCULTIVO,E.COLI,"AMPI R, CIPRO R, GENTA R, SULFA M R",SI,4.0,3.0
3,56.0,NO,NO,7.0,NO,SI,FLUOROQUINOLONA_AMINOGLICOSIDO,12.0,NO,NO,NEG,1,SI,NO,NO,NO,NO,SI,5.0,0.0
4,55.0,NO,NO,29.0,SI,SI,FLUOROQUINOLONA_AMINOGLICOSIDO,24.0,NO,NO,NEG,1,SI,NO,HEMOCULTIVO,E.COLI,NO,SI,4.0,3.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
452,55.0,NO,NO,5.0,NO,NO,FLUOROQUINOLONA_AMINOGLICOSIDO,12.0,NO,NO,ADENOCARCINOMA GLEASON 7,NO,NO,NO,NO,NO,NO,NO,0.0,0.0
453,70.0,SI,NO,18.0,NO,SI,FLUOROQUINOLONA_AMINOGLICOSIDO,12.0,NO,NO,NEG,NO,NO,NO,NO,NO,NO,NO,0.0,0.0
454,75.0,NO,NO,75.0,NO,SI,FLUOROQUINOLONA_AMINOGLICOSIDO,12.0,NO,NO,ADENOCARCINOMA GLEASON 8,NO,NO,NO,NO,NO,NO,NO,0.0,0.0
455,67.0,NO,NO,6.0,NO,SI,FLUOROQUINOLONA_AMINOGLICOSIDO,12.0,NO,NO,ADENOCARCINOMA GLEASON 6,NO,NO,NO,NO,NO,NO,NO,0.0,0.0


In [56]:
# Se verifica nuevamente la cantidad de nulos
utils.verificar_tipo_datos(df)

Unnamed: 0,nombre_campo,tipo_datos,no_nulos_%,nulos_%,nulos
0,EDAD,[<class 'float'>],100.0,0.0,0
1,DIABETES,[<class 'str'>],100.0,0.0,0
2,HOSPITALIZACIÓN ULTIMO MES,[<class 'str'>],100.0,0.0,0
3,PSA,[<class 'float'>],100.0,0.0,0
4,BIOPSIAS PREVIAS,[<class 'str'>],100.0,0.0,0
5,VOLUMEN PROSTATICO,[<class 'str'>],100.0,0.0,0
6,ANTIBIOTICO UTILIAZADO EN LA PROFILAXIS,[<class 'str'>],100.0,0.0,0
7,NUMERO DE MUESTRAS TOMADAS,[<class 'float'>],100.0,0.0,0
8,CUP,[<class 'str'>],100.0,0.0,0
9,ENF. CRONICA PULMONAR OBSTRUCTIVA,[<class 'str'>],100.0,0.0,0


Queda una única columna con dos tipos de datos, se procede a analizarla.

In [57]:
columna_analizar = 'NUMERO DE DIAS POST BIOPSIA EN QUE SE PRESENTA LA COMPLICACIÓN INFECCIOSA'

In [58]:
# Es una columna de número enteros. Al tener un 'NO' es que aparecen dos tipos de datos.
df[columna_analizar].unique()

array([1, 2, 3, 5, 9, 'NO'], dtype=object)

In [59]:
# Contar cuantos valores de NO hay
total_NO = df[columna_analizar].value_counts().get('NO', 0)
total_filas = len(df)
porcentaje = round((total_NO / total_filas) * 100,2)

print(f'Hay un total de {total_filas} registros, de los cuales {total_NO} son "NO", lo que representa el {porcentaje}%')

Hay un total de 433 registros, de los cuales 408 son "NO", lo que representa el 94.23%


In [60]:
# Se analiza el valor 'NO' en el contexto de los demas datos.
df[df[columna_analizar] == 'NO']

Unnamed: 0,EDAD,DIABETES,HOSPITALIZACIÓN ULTIMO MES,PSA,BIOPSIAS PREVIAS,VOLUMEN PROSTATICO,ANTIBIOTICO UTILIAZADO EN LA PROFILAXIS,NUMERO DE MUESTRAS TOMADAS,CUP,ENF. CRONICA PULMONAR OBSTRUCTIVA,BIOPSIA,NUMERO DE DIAS POST BIOPSIA EN QUE SE PRESENTA LA COMPLICACIÓN INFECCIOSA,FIEBRE,ITU,TIPO DE CULTIVO,AGENTE AISLADO,PATRON DE RESISTENCIA,HOSPITALIZACION,DIAS HOSPITALIZACION MQ,DIAS HOSPITALIZACIÓN UPC
27,77.0,NO,NO,91.8,NO,SI,FLUOROQUINOLONA_AMINOGLICOSIDO,6.0,NO,"SI, EPOC",ADENOCARCINOMA GLEASON 10,NO,NO,NO,NO,NO,NO,NO,0.0,0.0
28,75.0,NO,NO,21.0,NO,SI,FLUOROQUINOLONA_AMINOGLICOSIDO,12.0,NO,"SI, EPOC",ADENOCARCINOMA GLEASON 7,NO,NO,NO,NO,NO,NO,NO,0.0,0.0
29,77.0,NO,NO,98.0,NO,SI,FLUOROQUINOLONA_AMINOGLICOSIDO,6.0,NO,"SI, EPOC",ADENOCARCINOMA GLEASON 10,NO,NO,NO,NO,NO,NO,NO,0.0,0.0
30,73.0,NO,NO,7.5,NO,SI,CEFALOSPORINA_AMINOGLUCOCIDO,12.0,NO,"SI, ASMA",NEG,NO,NO,NO,NO,NO,NO,NO,0.0,0.0
32,63.0,NO,NO,10.5,NO,NO,FLUOROQUINOLONA_AMINOGLICOSIDO,12.0,NO,"SI, ASMA",ADENOCARCINOMA GLEASON 7,NO,NO,NO,NO,NO,NO,NO,0.0,0.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
452,55.0,NO,NO,5.0,NO,NO,FLUOROQUINOLONA_AMINOGLICOSIDO,12.0,NO,NO,ADENOCARCINOMA GLEASON 7,NO,NO,NO,NO,NO,NO,NO,0.0,0.0
453,70.0,SI,NO,18.0,NO,SI,FLUOROQUINOLONA_AMINOGLICOSIDO,12.0,NO,NO,NEG,NO,NO,NO,NO,NO,NO,NO,0.0,0.0
454,75.0,NO,NO,75.0,NO,SI,FLUOROQUINOLONA_AMINOGLICOSIDO,12.0,NO,NO,ADENOCARCINOMA GLEASON 8,NO,NO,NO,NO,NO,NO,NO,0.0,0.0
455,67.0,NO,NO,6.0,NO,SI,FLUOROQUINOLONA_AMINOGLICOSIDO,12.0,NO,NO,ADENOCARCINOMA GLEASON 6,NO,NO,NO,NO,NO,NO,NO,0.0,0.0


Al analizar la cantidad de valores 'NO' que tiene la columna y comparando con la información de las otras columnas, se asume que NO significa que la persona no tuvo internación, por lo que se cambiará ese valor por 0 días.

In [61]:
# Se cambian los valores NO por 0
df[columna_analizar] = df[columna_analizar].replace('NO', 0)
# Se verifican los valores únicos y el tipo de dato
df[columna_analizar].unique(), df[columna_analizar].apply(type).unique()

(array([1, 2, 3, 5, 9, 0], dtype=int64), array([<class 'int'>], dtype=object))

Ahora, en cuanto a las columnas numéricas se cambia el tipo de datos por el tipo entero.

In [62]:
# Se cambian los siguientes tipo de datos
df['EDAD'] = df['EDAD'].astype(int)
df['NUMERO DE MUESTRAS TOMADAS'] = df['NUMERO DE MUESTRAS TOMADAS'].astype(int)
df['DIAS HOSPITALIZACION MQ'] = df['DIAS HOSPITALIZACION MQ'].astype(int)
df['DIAS HOSPITALIZACIÓN UPC'] = df['DIAS HOSPITALIZACIÓN UPC'].astype(int)

Se observan las variables categóricas de columnas para buscar unificar en caso de ser necesario.

In [63]:
# Se revisan las categorías de la columna 
df['ANTIBIOTICO UTILIAZADO EN LA PROFILAXIS'].unique()

array(['FLUOROQUINOLONA_AMINOGLICOSIDO', 'CEFALOSPORINA_AMINOGLUCOCIDO',
       'OROQUINOLONAS', 'OTROS', 'FLUOROQUINOLONA_AMINOGLICÓSIDO'],
      dtype=object)

In [64]:
# Se renombran
df['ANTIBIOTICO UTILIAZADO EN LA PROFILAXIS'] = df['ANTIBIOTICO UTILIAZADO EN LA PROFILAXIS'].replace('FLUOROQUINOLONA_AMINOGLICÓSIDO', 
                                                                                                      'FLUOROQUINOLONA_AMINOGLICOSIDO')

In [65]:
# Se revisan las categorías de la columna 
df['ENF. CRONICA PULMONAR OBSTRUCTIVA'].unique()

array(['NO', 'SI, EPOC', 'SI, ASMA', 'SI'], dtype=object)

In [66]:
# Se renombran
df['ENF. CRONICA PULMONAR OBSTRUCTIVA'] = df['ENF. CRONICA PULMONAR OBSTRUCTIVA'].replace('SI, EPOC', 
                                                                                          'SI')
df['ENF. CRONICA PULMONAR OBSTRUCTIVA'] = df['ENF. CRONICA PULMONAR OBSTRUCTIVA'].replace('SI, ASMA', 
                                                                                          'SI')

In [67]:
# Se revisan las categorías de la columna 
df['BIOPSIA'].unique()

array(['NEG', 'ADENOCARCINOMA GLEASON 6 ', 'ADENOCARCINOMA GLEASON 7 ',
       'ADENOCARCINOMA GLEASON 6', 'ADENOCARCINOMA GLEASON 10 ',
       'ADENOCARCINOMA GLEASON 9 ', 'ADENOCARCINOMA GLEASON 8 ',
       'PROSTATITIS', 'ADENOCARCINOMA GLEASON 7',
       'HIPERPLASIA PROSTATICA',
       'CARCINOMA INDIFERENCIADO DE CELULAS CLARAS'], dtype=object)

In [68]:
# Se renombran
df['BIOPSIA'] = df['BIOPSIA'].replace('ADENOCARCINOMA GLEASON 6 ',
                                      'ADENOCARCINOMA GLEASON 6')
df['BIOPSIA'] = df['BIOPSIA'].replace('ADENOCARCINOMA GLEASON 7 ',
                                      'ADENOCARCINOMA GLEASON 7')
df['BIOPSIA'] = df['BIOPSIA'].replace('ADENOCARCINOMA GLEASON 8 ',
                                      'ADENOCARCINOMA GLEASON 8')
df['BIOPSIA'] = df['BIOPSIA'].replace('ADENOCARCINOMA GLEASON 9 ',
                                      'ADENOCARCINOMA GLEASON 9')
df['BIOPSIA'] = df['BIOPSIA'].replace('ADENOCARCINOMA GLEASON 10 ',
                                      'ADENOCARCINOMA GLEASON 10')

In [69]:
# Se revisan las categorías de la columna 
df['PATRON DE RESISTENCIA'].unique()

array(['NO', ' AMPI R, CIPRO R, GENTA R, SULFA M R',
       'RESISTENTE A AMPI, CIPRO Y GENTA',
       'RESISTENTE A AMPI, SULFA, CEFADROXILO, CEFUROXIMO, CIPRO Y CEFEPIME, CEFOTAXIMA',
       'MULTI SENSIBLE'], dtype=object)

In [70]:
# Se renombran
df['PATRON DE RESISTENCIA'] = df['PATRON DE RESISTENCIA'].replace(' AMPI R, CIPRO R, GENTA R, SULFA M R', 
                                                                  'R AMPI, R GENTA, R SULFA')
df['PATRON DE RESISTENCIA'] = df['PATRON DE RESISTENCIA'].replace('RESISTENTE A AMPI, CIPRO Y GENTA', 
                                                                  'R AMPI, R CIPRO, R GENTA')
df['PATRON DE RESISTENCIA'] = df['PATRON DE RESISTENCIA'].replace('RESISTENTE A AMPI, SULFA, CEFADROXILO, CEFUROXIMO, CIPRO Y CEFEPIME, CEFOTAXIMA', 
                                                                  'R AMPI, R SULFA, R CEFADROXILO, R CEFUROXIMO, R CIPRO, R CEFEPIME, R CEFOTAXIMA')

In [71]:
# Se revisan nuevamente los tipos de datos y los nulos
utils.verificar_tipo_datos(df)

Unnamed: 0,nombre_campo,tipo_datos,no_nulos_%,nulos_%,nulos
0,EDAD,[<class 'int'>],100.0,0.0,0
1,DIABETES,[<class 'str'>],100.0,0.0,0
2,HOSPITALIZACIÓN ULTIMO MES,[<class 'str'>],100.0,0.0,0
3,PSA,[<class 'float'>],100.0,0.0,0
4,BIOPSIAS PREVIAS,[<class 'str'>],100.0,0.0,0
5,VOLUMEN PROSTATICO,[<class 'str'>],100.0,0.0,0
6,ANTIBIOTICO UTILIAZADO EN LA PROFILAXIS,[<class 'str'>],100.0,0.0,0
7,NUMERO DE MUESTRAS TOMADAS,[<class 'int'>],100.0,0.0,0
8,CUP,[<class 'str'>],100.0,0.0,0
9,ENF. CRONICA PULMONAR OBSTRUCTIVA,[<class 'str'>],100.0,0.0,0


Para finalizar, se cambiarán algunos nombres de columnas, dado que algunos son muy largos y se los deja a todos en snake_case.

In [72]:
nombres_nuevos = {
    "EDAD": "edad",
    "DIABETES": "diabetes",
    "HOSPITALIZACIÓN ULTIMO MES": "hospitaliz_ult_mes",
    "PSA": "psa",
    "BIOPSIAS PREVIAS": "biopsias_prev",
    "VOLUMEN PROSTATICO": "vol_prostatico",
    "ANTIBIOTICO UTILIAZADO EN LA PROFILAXIS": "antibiotico_en_profilaxis",
    "NUMERO DE MUESTRAS TOMADAS": "nro_muestras",
    "CUP": "cup",
    "ENF. CRONICA PULMONAR OBSTRUCTIVA": "epoc",
    "BIOPSIA": "biopsia",
    "NUMERO DE DIAS POST BIOPSIA EN QUE SE PRESENTA LA COMPLICACIÓN INFECCIOSA": "nro_dias_con_infecc",
    "FIEBRE": "fiebre",
    "ITU": "itu",
    "TIPO DE CULTIVO": "tipo_cultivo",
    "AGENTE AISLADO": "agente_aislado",
    "PATRON DE RESISTENCIA": "patron_resistencia",
    "HOSPITALIZACION": "hospitalizacion",
    "DIAS HOSPITALIZACION MQ": "dias_hosp_mq",
    "DIAS HOSPITALIZACIÓN UPC": "dias_hosp_upc"
}
df.rename(columns=nombres_nuevos, inplace=True)
df.head(3)

Unnamed: 0,edad,diabetes,hospitaliz_ult_mes,psa,biopsias_prev,vol_prostatico,antibiotico_en_profilaxis,nro_muestras,cup,epoc,biopsia,nro_dias_con_infecc,fiebre,itu,tipo_cultivo,agente_aislado,patron_resistencia,hospitalizacion,dias_hosp_mq,dias_hosp_upc
0,53,NO,NO,4.0,NO,SI,FLUOROQUINOLONA_AMINOGLICOSIDO,12,NO,NO,NEG,1,SI,NO,NO,NO,NO,SI,2,0
1,56,NO,NO,7.7,NO,SI,FLUOROQUINOLONA_AMINOGLICOSIDO,12,NO,NO,NEG,1,SI,NO,NO,NO,NO,SI,5,0
2,57,NO,NO,29.0,SI,SI,FLUOROQUINOLONA_AMINOGLICOSIDO,24,NO,NO,NEG,1,SI,NO,HEMOCULTIVO,E.COLI,"R AMPI, R GENTA, R SULFA",SI,4,3


# Carga

In [73]:
archivo_limpio = 'BBDD_hospitalizacion_limpio.csv'
df.to_csv(archivo_limpio, index=False, encoding='utf-8')
print(f'Se guardó el archivo {archivo_limpio}')

Se guardó el archivo BBDD_hospitalizacion_limpio.csv
