# ETL

En esta instancia, se lleva a cabo la extracción de datos desde la base de datos suministrada, seguida por su transformación y preceptiva depuración. Finalmente, se procede a cargar el dataframe resultante para su ulterior utilización.

## Importar librerías

In [43]:
import pandas as pd
import warnings
warnings.simplefilter("ignore")

## Extracción de los datos

Se extraen los datos desde el archivo proporcionado, se crea un Dataframe para procesarlo y se visualiza su estructura.

In [44]:
df = pd.read_excel('Datasets/BBDD_Hospitalización.xlsx')
df.head()

Unnamed: 0,EDAD,DIABETES,HOSPITALIZACIÓN ULTIMO MES,PSA,BIOPSIAS PREVIAS,VOLUMEN PROSTATICO,ANTIBIOTICO UTILIAZADO EN LA PROFILAXIS,NUMERO DE MUESTRAS TOMADAS,CUP,ENF. CRONICA PULMONAR OBSTRUCTIVA,BIOPSIA,NUMERO DE DIAS POST BIOPSIA EN QUE SE PRESENTA LA COMPLICACIÓN INFECCIOSA,FIEBRE,ITU,TIPO DE CULTIVO,AGENTE AISLADO,PATRON DE RESISTENCIA,HOSPITALIZACION,DIAS HOSPITALIZACION MQ,DIAS HOSPITALIZACIÓN UPC
0,53.0,NO,NO,4.0,NO,SI,FLUOROQUINOLONA_AMINOGLICOSIDO,12.0,NO,NO,NEG,1,SI,NO,NO,NO,NO,SI,2.0,0.0
1,56.0,NO,NO,7.7,NO,SI,FLUOROQUINOLONA_AMINOGLICOSIDO,12.0,NO,NO,NEG,1,SI,NO,NO,NO,NO,SI,5.0,0.0
2,57.0,NO,NO,29.0,SI,SI,FLUOROQUINOLONA_AMINOGLICOSIDO,24.0,NO,NO,NEG,1,SI,NO,HEMOCULTIVO,E.COLI,"AMPI R, CIPRO R, GENTA R, SULFA M R",SI,4.0,3.0
3,56.0,NO,NO,7.0,NO,SI,FLUOROQUINOLONA_AMINOGLICOSIDO,12.0,NO,NO,NEG,1,SI,NO,NO,NO,NO,SI,5.0,0.0
4,55.0,NO,NO,29.0,SI,SI,FLUOROQUINOLONA_AMINOGLICOSIDO,24.0,NO,NO,NEG,1,SI,NO,HEMOCULTIVO,E.COLI,NO,SI,4.0,3.0


## Transformación

Observamos las columnas que componen el Dataframe y su tipo de dato.

In [45]:
# Columnas del dataframe
df.columns

Index(['EDAD', 'DIABETES', 'HOSPITALIZACIÓN ULTIMO MES', 'PSA',
       'BIOPSIAS PREVIAS', 'VOLUMEN PROSTATICO',
       'ANTIBIOTICO UTILIAZADO EN LA PROFILAXIS', 'NUMERO DE MUESTRAS TOMADAS',
       'CUP', 'ENF. CRONICA PULMONAR OBSTRUCTIVA', 'BIOPSIA',
       'NUMERO DE DIAS POST BIOPSIA EN QUE SE PRESENTA LA COMPLICACIÓN INFECCIOSA',
       'FIEBRE', 'ITU', 'TIPO DE CULTIVO', 'AGENTE AISLADO',
       'PATRON DE RESISTENCIA', 'HOSPITALIZACION', 'DIAS HOSPITALIZACION MQ',
       'DIAS HOSPITALIZACIÓN UPC'],
      dtype='object')

In [46]:
# Filtramos, eliminamos filas duplicadas y reseteamos el índice
df[df.duplicated(keep=False)]
df = df.drop_duplicates(subset=df.columns, keep='first')
df = df.reset_index(drop=True)

In [47]:
# Observamos nulos y tipo de datos
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 461 entries, 0 to 460
Data columns (total 20 columns):
 #   Column                                                                     Non-Null Count  Dtype  
---  ------                                                                     --------------  -----  
 0   EDAD                                                                       460 non-null    float64
 1   DIABETES                                                                   460 non-null    object 
 2   HOSPITALIZACIÓN ULTIMO MES                                                 460 non-null    object 
 3   PSA                                                                        456 non-null    float64
 4   BIOPSIAS PREVIAS                                                           458 non-null    object 
 5   VOLUMEN PROSTATICO                                                         459 non-null    object 
 6   ANTIBIOTICO UTILIAZADO EN LA PROFILAXIS                   

Verificamos el tipo de dato contenido en cada columna del dataframe.

In [48]:
def verificar_datos(df):
    mi_dict = {"nombre_campo": [], "tipo_datos": [], "no_nulos_%": [], "nulos_%": [], "nulos": []}

    for columna in df.columns:
        porcentaje_no_nulos = (df[columna].count() / len(df)) * 100
        mi_dict["nombre_campo"].append(columna)
        mi_dict["tipo_datos"].append(df[columna].apply(type).unique())
        mi_dict["no_nulos_%"].append(round(porcentaje_no_nulos, 2))
        mi_dict["nulos_%"].append(round(100-porcentaje_no_nulos, 2))
        mi_dict["nulos"].append(df[columna].isnull().sum())

    df_info = pd.DataFrame(mi_dict)
        
    return df_info

verificar_datos(df)

Unnamed: 0,nombre_campo,tipo_datos,no_nulos_%,nulos_%,nulos
0,EDAD,[<class 'float'>],99.78,0.22,1
1,DIABETES,"[<class 'str'>, <class 'float'>]",99.78,0.22,1
2,HOSPITALIZACIÓN ULTIMO MES,"[<class 'str'>, <class 'float'>]",99.78,0.22,1
3,PSA,[<class 'float'>],98.92,1.08,5
4,BIOPSIAS PREVIAS,"[<class 'str'>, <class 'float'>]",99.35,0.65,3
5,VOLUMEN PROSTATICO,"[<class 'str'>, <class 'float'>]",99.57,0.43,2
6,ANTIBIOTICO UTILIAZADO EN LA PROFILAXIS,"[<class 'str'>, <class 'float'>]",99.78,0.22,1
7,NUMERO DE MUESTRAS TOMADAS,[<class 'float'>],99.78,0.22,1
8,CUP,"[<class 'str'>, <class 'float'>]",99.57,0.43,2
9,ENF. CRONICA PULMONAR OBSTRUCTIVA,"[<class 'str'>, <class 'float'>]",99.35,0.65,3


Inicialmente, se nota que en todas las columnas hay al menos un valor ausente, destacándose la columna "AGENTE AISLADO" con 18 valores nulos.

In [49]:
# Filtramos filas con valores nulos
df[df.isna().any(axis=1)]

Unnamed: 0,EDAD,DIABETES,HOSPITALIZACIÓN ULTIMO MES,PSA,BIOPSIAS PREVIAS,VOLUMEN PROSTATICO,ANTIBIOTICO UTILIAZADO EN LA PROFILAXIS,NUMERO DE MUESTRAS TOMADAS,CUP,ENF. CRONICA PULMONAR OBSTRUCTIVA,BIOPSIA,NUMERO DE DIAS POST BIOPSIA EN QUE SE PRESENTA LA COMPLICACIÓN INFECCIOSA,FIEBRE,ITU,TIPO DE CULTIVO,AGENTE AISLADO,PATRON DE RESISTENCIA,HOSPITALIZACION,DIAS HOSPITALIZACION MQ,DIAS HOSPITALIZACIÓN UPC
9,44.0,NO,NO,,NO,NO,FLUOROQUINOLONA_AMINOGLICOSIDO,12.0,NO,NO,NEG,2,SI,NO,NO,NO,NO,SI,3.0,0.0
26,75.0,NO,NO,25.0,NO,SI,FLUOROQUINOLONA_AMINOGLICÓSIDO,12.0,NO,"SI, EPOC",ADENOCARCINOMA GLEASON 7,NO,NO,NO,NO,,NO,NO,0.0,0.0
31,63.0,NO,NO,10.8,NO,NO,FLUOROQUINOLONA_AMINOGLICÓSIDO,12.0,NO,"SI, ASMA",ADENOCARCINOMA GLEASON 7,NO,NO,NO,NO,NO,NO,,0.0,0.0
70,57.0,NO,NO,,NO,NO,FLUOROQUINOLONA_AMINOGLICOSIDO,18.0,NO,NO,HIPERPLASIA PROSTATICA,NO,NO,NO,NO,NO,NO,NO,0.0,0.0
86,58.0,NO,NO,7.8,,SI,FLUOROQUINOLONA_AMINOGLICOSIDO,12.0,NO,NO,NEG,NO,NO,NO,NO,NO,NO,NO,0.0,0.0
93,70.0,NO,NO,7.2,NO,SI,FLUOROQUINOLONA_AMINOGLICOSIDO,12.0,NO,NO,ADENOCARCINOMA GLEASON 7,NO,NO,NO,NO,,NO,NO,0.0,0.0
94,74.0,NO,NO,5.8,NO,NO,FLUOROQUINOLONA_AMINOGLICOSIDO,12.0,NO,NO,ADENOCARCINOMA GLEASON 7,NO,NO,NO,NO,NO,NO,,0.0,0.0
97,60.0,NO,NO,,SI,SI,FLUOROQUINOLONA_AMINOGLICOSIDO,16.0,NO,NO,NEG,NO,NO,NO,NO,NO,NO,NO,0.0,0.0
100,65.0,NO,NO,5.97,NO,SI,FLUOROQUINOLONA_AMINOGLICOSIDO,20.0,NO,NO,ADENOCARCINOMA GLEASON 7,NO,NO,NO,NO,,NO,NO,0.0,0.0
103,61.0,NO,NO,7.0,NO,NO,FLUOROQUINOLONA_AMINOGLICOSIDO,12.0,NO,NO,NEG,NO,NO,NO,NO,NO,NO,,0.0,0.0


In [50]:
registros_nulos = len(df[df.isna().any(axis=1)])

print(f'Registros nulos: {registros_nulos}.')

Registros nulos: 28.


Borramos los registros nulos.

In [51]:
df = df.dropna()

In [52]:
# Verificamos nuevamente cantidad de nulos
verificar_datos(df)

Unnamed: 0,nombre_campo,tipo_datos,no_nulos_%,nulos_%,nulos
0,EDAD,[<class 'float'>],100.0,0.0,0
1,DIABETES,[<class 'str'>],100.0,0.0,0
2,HOSPITALIZACIÓN ULTIMO MES,[<class 'str'>],100.0,0.0,0
3,PSA,[<class 'float'>],100.0,0.0,0
4,BIOPSIAS PREVIAS,[<class 'str'>],100.0,0.0,0
5,VOLUMEN PROSTATICO,[<class 'str'>],100.0,0.0,0
6,ANTIBIOTICO UTILIAZADO EN LA PROFILAXIS,[<class 'str'>],100.0,0.0,0
7,NUMERO DE MUESTRAS TOMADAS,[<class 'float'>],100.0,0.0,0
8,CUP,[<class 'str'>],100.0,0.0,0
9,ENF. CRONICA PULMONAR OBSTRUCTIVA,[<class 'str'>],100.0,0.0,0


Observamos que la columna 'NUMERO DE DIAS POST BIOPSIA EN QUE SE PRESENTA LA COMPLICACIÓN INFECCIOSA' tiene valores de tipo string (NO) y valores de tipo integer por lo que optamos por reemplazar los valores de tipo string por 0.

In [53]:
df['NUMERO DE DIAS POST BIOPSIA EN QUE SE PRESENTA LA COMPLICACIÓN INFECCIOSA'] = df['NUMERO DE DIAS POST BIOPSIA EN QUE SE PRESENTA LA COMPLICACIÓN INFECCIOSA'].replace('NO', 0)
df['NUMERO DE DIAS POST BIOPSIA EN QUE SE PRESENTA LA COMPLICACIÓN INFECCIOSA'].unique()

array([1, 2, 3, 5, 9, 0], dtype=int64)

Convertimos las columnas que poseen datos numéricos al tipo integer.

In [54]:
df['EDAD'] = df['EDAD'].astype(int)
df['NUMERO DE MUESTRAS TOMADAS'] = df['NUMERO DE MUESTRAS TOMADAS'].astype(int)
df['DIAS HOSPITALIZACION MQ'] = df['DIAS HOSPITALIZACION MQ'].astype(int)
df['DIAS HOSPITALIZACIÓN UPC'] = df['DIAS HOSPITALIZACIÓN UPC'].astype(int)

Renombramos columnas con faltas ortográficas y unificamos contenido que tenga errores.

In [55]:
df.rename(columns={'ANTIBIOTICO UTILIAZADO EN LA PROFILAXIS': 'ANTIBIOTICO UTILIZADO EN LA PROFILAXIS'}, inplace=True)

In [56]:
df['ANTIBIOTICO UTILIZADO EN LA PROFILAXIS'].unique()

array(['FLUOROQUINOLONA_AMINOGLICOSIDO', 'CEFALOSPORINA_AMINOGLUCOCIDO',
       'OROQUINOLONAS', 'OTROS', 'FLUOROQUINOLONA_AMINOGLICÓSIDO'],
      dtype=object)

In [57]:
df['ANTIBIOTICO UTILIZADO EN LA PROFILAXIS'] = df['ANTIBIOTICO UTILIZADO EN LA PROFILAXIS'].replace('FLUOROQUINOLONA_AMINOGLICÓSIDO', 'FLUOROQUINOLONA_AMINOGLICOSIDO')

In [58]:
df['ANTIBIOTICO UTILIZADO EN LA PROFILAXIS'].unique()

array(['FLUOROQUINOLONA_AMINOGLICOSIDO', 'CEFALOSPORINA_AMINOGLUCOCIDO',
       'OROQUINOLONAS', 'OTROS'], dtype=object)

In [59]:
# Observamos contenido de la columna 'ENF. CRONICA PULMONAR OBSTRUCTIVA' 
df['ENF. CRONICA PULMONAR OBSTRUCTIVA'].unique()

array(['NO', 'SI, EPOC', 'SI, ASMA', 'SI'], dtype=object)

In [60]:
# Unificamos valores renombrando
df['ENF. CRONICA PULMONAR OBSTRUCTIVA'] = df['ENF. CRONICA PULMONAR OBSTRUCTIVA'].replace('SI, EPOC', 
                                                                                          'SI')
df['ENF. CRONICA PULMONAR OBSTRUCTIVA'] = df['ENF. CRONICA PULMONAR OBSTRUCTIVA'].replace('SI, ASMA', 
                                                                                          'SI')

In [61]:
# Observamos contenido de la columna 'BIOPSIA' y unificamos valores renombrando
df['BIOPSIA'].unique()

array(['NEG', 'ADENOCARCINOMA GLEASON 6 ', 'ADENOCARCINOMA GLEASON 7 ',
       'ADENOCARCINOMA GLEASON 6', 'ADENOCARCINOMA GLEASON 10 ',
       'ADENOCARCINOMA GLEASON 9 ', 'ADENOCARCINOMA GLEASON 8 ',
       'PROSTATITIS', 'ADENOCARCINOMA GLEASON 7',
       'HIPERPLASIA PROSTATICA',
       'CARCINOMA INDIFERENCIADO DE CELULAS CLARAS'], dtype=object)

In [62]:
df['BIOPSIA'] = df['BIOPSIA'].replace('ADENOCARCINOMA GLEASON 6 ',
                                      'ADENOCARCINOMA GLEASON 6')
df['BIOPSIA'] = df['BIOPSIA'].replace('ADENOCARCINOMA GLEASON 7 ',
                                      'ADENOCARCINOMA GLEASON 7')
df['BIOPSIA'] = df['BIOPSIA'].replace('ADENOCARCINOMA GLEASON 8 ',
                                      'ADENOCARCINOMA GLEASON 8')
df['BIOPSIA'] = df['BIOPSIA'].replace('ADENOCARCINOMA GLEASON 9 ',
                                      'ADENOCARCINOMA GLEASON 9')
df['BIOPSIA'] = df['BIOPSIA'].replace('ADENOCARCINOMA GLEASON 10 ',
                                      'ADENOCARCINOMA GLEASON 10')

In [63]:
# Observamos contenido de la columna 'PATRON DE RESISTENCIA' y unificamos valores renombrando 
df['PATRON DE RESISTENCIA'].unique()

array(['NO', ' AMPI R, CIPRO R, GENTA R, SULFA M R',
       'RESISTENTE A AMPI, CIPRO Y GENTA',
       'RESISTENTE A AMPI, SULFA, CEFADROXILO, CEFUROXIMO, CIPRO Y CEFEPIME, CEFOTAXIMA',
       'MULTI SENSIBLE'], dtype=object)

In [64]:
df['PATRON DE RESISTENCIA'] = df['PATRON DE RESISTENCIA'].replace(' AMPI R, CIPRO R, GENTA R, SULFA M R', 
                                                                  'R AMPI, R GENTA, R SULFA')
df['PATRON DE RESISTENCIA'] = df['PATRON DE RESISTENCIA'].replace('RESISTENTE A AMPI, CIPRO Y GENTA', 
                                                                  'R AMPI, R CIPRO, R GENTA')
df['PATRON DE RESISTENCIA'] = df['PATRON DE RESISTENCIA'].replace('RESISTENTE A AMPI, SULFA, CEFADROXILO, CEFUROXIMO, CIPRO Y CEFEPIME, CEFOTAXIMA', 
                                                                  'R AMPI, R SULFA, R CEFADROXILO, R CEFUROXIMO, R CIPRO, R CEFEPIME, R CEFOTAXIMA')

In [65]:
# Se revisan nuevamente los tipos de datos y los nulos
verificar_datos(df)

Unnamed: 0,nombre_campo,tipo_datos,no_nulos_%,nulos_%,nulos
0,EDAD,[<class 'int'>],100.0,0.0,0
1,DIABETES,[<class 'str'>],100.0,0.0,0
2,HOSPITALIZACIÓN ULTIMO MES,[<class 'str'>],100.0,0.0,0
3,PSA,[<class 'float'>],100.0,0.0,0
4,BIOPSIAS PREVIAS,[<class 'str'>],100.0,0.0,0
5,VOLUMEN PROSTATICO,[<class 'str'>],100.0,0.0,0
6,ANTIBIOTICO UTILIZADO EN LA PROFILAXIS,[<class 'str'>],100.0,0.0,0
7,NUMERO DE MUESTRAS TOMADAS,[<class 'int'>],100.0,0.0,0
8,CUP,[<class 'str'>],100.0,0.0,0
9,ENF. CRONICA PULMONAR OBSTRUCTIVA,[<class 'str'>],100.0,0.0,0


# Guardamos los cambios en un nuevo archivo csv

In [66]:
df.to_csv('Datasets/BBDD_hospitalizacion_2.csv', index=False, encoding='utf-8')