# <center>ETL</center>

### <i>En el ETL, se lleva a cabo el proceso de extracción de datos desde la base (archivo excel) suministrada. Luego, se procede a realizar la transformación y limpieza inicial de estos datos, y finalmente, se carga el resultado en archivo CSV que estará disponible para su análisis posterior.

## Librerías

In [168]:
import pandas as pd
import funciones

import warnings
warnings.simplefilter("ignore")

## Extracción de Datos del archivo

Se extraen los datos desde el archivo proporcionado y se crea un Dataframe para procesarlo.

In [169]:
df = pd.read_excel('data\BBDD_Hospitalización.xlsx', engine='openpyxl')
df

Unnamed: 0,EDAD,DIABETES,HOSPITALIZACIÓN ULTIMO MES,PSA,BIOPSIAS PREVIAS,VOLUMEN PROSTATICO,ANTIBIOTICO UTILIAZADO EN LA PROFILAXIS,NUMERO DE MUESTRAS TOMADAS,CUP,ENF. CRONICA PULMONAR OBSTRUCTIVA,BIOPSIA,NUMERO DE DIAS POST BIOPSIA EN QUE SE PRESENTA LA COMPLICACIÓN INFECCIOSA,FIEBRE,ITU,TIPO DE CULTIVO,AGENTE AISLADO,PATRON DE RESISTENCIA,HOSPITALIZACION,DIAS HOSPITALIZACION MQ,DIAS HOSPITALIZACIÓN UPC
0,53.0,NO,NO,4.00,NO,SI,FLUOROQUINOLONA_AMINOGLICOSIDO,12.0,NO,NO,NEG,1,SI,NO,NO,NO,NO,SI,2.0,0.0
1,56.0,NO,NO,7.70,NO,SI,FLUOROQUINOLONA_AMINOGLICOSIDO,12.0,NO,NO,NEG,1,SI,NO,NO,NO,NO,SI,5.0,0.0
2,57.0,NO,NO,29.00,SI,SI,FLUOROQUINOLONA_AMINOGLICOSIDO,24.0,NO,NO,NEG,1,SI,NO,HEMOCULTIVO,E.COLI,"AMPI R, CIPRO R, GENTA R, SULFA M R",SI,4.0,3.0
3,56.0,NO,NO,7.00,NO,SI,FLUOROQUINOLONA_AMINOGLICOSIDO,12.0,NO,NO,NEG,1,SI,NO,NO,NO,NO,SI,5.0,0.0
4,55.0,NO,NO,29.00,SI,SI,FLUOROQUINOLONA_AMINOGLICOSIDO,24.0,NO,NO,NEG,1,SI,NO,HEMOCULTIVO,E.COLI,NO,SI,4.0,3.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
565,69.0,NO,NO,4.43,,,FLUOROQUINOLONA_AMINOGLICOSIDO,20.0,,NO,NEG,NO,NO,NO,NO,NO,NO,NO,0.0,0.0
566,67.0,NO,NO,8.00,NO,SI,FLUOROQUINOLONA_AMINOGLICOSIDO,12.0,NO,,ADENOCARCINOMA GLEASON 7,NO,NO,NO,NO,,NO,NO,0.0,0.0
567,59.0,NO,NO,9.00,SI,SI,FLUOROQUINOLONA_AMINOGLICOSIDO,12.0,NO,,NEG,NO,NO,NO,NO,NO,NO,NO,0.0,0.0
568,,,,,,,,,,,,,,,,,,,,


## Transformación

In [170]:
# Se observan los tipos de datos y si hay NULL
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 570 entries, 0 to 569
Data columns (total 20 columns):
 #   Column                                                                     Non-Null Count  Dtype  
---  ------                                                                     --------------  -----  
 0   EDAD                                                                       568 non-null    float64
 1   DIABETES                                                                   568 non-null    object 
 2   HOSPITALIZACIÓN ULTIMO MES                                                 568 non-null    object 
 3   PSA                                                                        564 non-null    float64
 4   BIOPSIAS PREVIAS                                                           566 non-null    object 
 5   VOLUMEN PROSTATICO                                                         567 non-null    object 
 6   ANTIBIOTICO UTILIAZADO EN LA PROFILAXIS                   

### Columnas del Dataframe

In [171]:
#Columnas del dataframe
df.columns

Index(['EDAD', 'DIABETES', 'HOSPITALIZACIÓN ULTIMO MES', 'PSA',
       'BIOPSIAS PREVIAS', 'VOLUMEN PROSTATICO',
       'ANTIBIOTICO UTILIAZADO EN LA PROFILAXIS', 'NUMERO DE MUESTRAS TOMADAS',
       'CUP', 'ENF. CRONICA PULMONAR OBSTRUCTIVA', 'BIOPSIA',
       'NUMERO DE DIAS POST BIOPSIA EN QUE SE PRESENTA LA COMPLICACIÓN INFECCIOSA',
       'FIEBRE', 'ITU', 'TIPO DE CULTIVO', 'AGENTE AISLADO',
       'PATRON DE RESISTENCIA', 'HOSPITALIZACION', 'DIAS HOSPITALIZACION MQ',
       'DIAS HOSPITALIZACIÓN UPC'],
      dtype='object')

### Cambiar nombre a columnas

In [172]:
nombres_nuevos = {
    "HOSPITALIZACIÓN ULTIMO MES": "HOSPIT_ULTIMO_MES",
    "BIOPSIAS PREVIAS": "BIOPSIAS_PREVIAS",
    "VOLUMEN PROSTATICO": "VOLUMEN_PROSTATICO",
    "ANTIBIOTICO UTILIAZADO EN LA PROFILAXIS": "ANTIBIOTICO_EN_PROFILAXIS",
    "NUMERO DE MUESTRAS TOMADAS": "NUM_MUESTRAS",
    "ENF. CRONICA PULMONAR OBSTRUCTIVA": "ENF_CRONICA_PUL_OBST",
    "NUMERO DE DIAS POST BIOPSIA EN QUE SE PRESENTA LA COMPLICACIÓN INFECCIOSA": "NUM_DIAS_INFECCIOSA",
    "TIPO DE CULTIVO": "TPO_CULTIVO",
    "AGENTE AISLADO": "AGENTE_AISLADO",
    "PATRON DE RESISTENCIA": "PATRON_RESISTENCIA",
    "DIAS HOSPITALIZACION MQ": "DIAS_HOSP_MQ",
    "DIAS HOSPITALIZACIÓN UPC": "DIAS_HOSP_UPC"
}
df.rename(columns=nombres_nuevos, inplace=True)

In [173]:
df

Unnamed: 0,EDAD,DIABETES,HOSPIT_ULTIMO_MES,PSA,BIOPSIAS_PREVIAS,VOLUMEN_PROSTATICO,ANTIBIOTICO_EN_PROFILAXIS,NUM_MUESTRAS,CUP,ENF_CRONICA_PUL_OBST,BIOPSIA,NUM_DIAS_INFECCIOSA,FIEBRE,ITU,TPO_CULTIVO,AGENTE_AISLADO,PATRON_RESISTENCIA,HOSPITALIZACION,DIAS_HOSP_MQ,DIAS_HOSP_UPC
0,53.0,NO,NO,4.00,NO,SI,FLUOROQUINOLONA_AMINOGLICOSIDO,12.0,NO,NO,NEG,1,SI,NO,NO,NO,NO,SI,2.0,0.0
1,56.0,NO,NO,7.70,NO,SI,FLUOROQUINOLONA_AMINOGLICOSIDO,12.0,NO,NO,NEG,1,SI,NO,NO,NO,NO,SI,5.0,0.0
2,57.0,NO,NO,29.00,SI,SI,FLUOROQUINOLONA_AMINOGLICOSIDO,24.0,NO,NO,NEG,1,SI,NO,HEMOCULTIVO,E.COLI,"AMPI R, CIPRO R, GENTA R, SULFA M R",SI,4.0,3.0
3,56.0,NO,NO,7.00,NO,SI,FLUOROQUINOLONA_AMINOGLICOSIDO,12.0,NO,NO,NEG,1,SI,NO,NO,NO,NO,SI,5.0,0.0
4,55.0,NO,NO,29.00,SI,SI,FLUOROQUINOLONA_AMINOGLICOSIDO,24.0,NO,NO,NEG,1,SI,NO,HEMOCULTIVO,E.COLI,NO,SI,4.0,3.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
565,69.0,NO,NO,4.43,,,FLUOROQUINOLONA_AMINOGLICOSIDO,20.0,,NO,NEG,NO,NO,NO,NO,NO,NO,NO,0.0,0.0
566,67.0,NO,NO,8.00,NO,SI,FLUOROQUINOLONA_AMINOGLICOSIDO,12.0,NO,,ADENOCARCINOMA GLEASON 7,NO,NO,NO,NO,,NO,NO,0.0,0.0
567,59.0,NO,NO,9.00,SI,SI,FLUOROQUINOLONA_AMINOGLICOSIDO,12.0,NO,,NEG,NO,NO,NO,NO,NO,NO,NO,0.0,0.0
568,,,,,,,,,,,,,,,,,,,,


### Duplicados

In [174]:
# Se observan si hay filas duplicadas
df[df.duplicated(keep=False)]

Unnamed: 0,EDAD,DIABETES,HOSPIT_ULTIMO_MES,PSA,BIOPSIAS_PREVIAS,VOLUMEN_PROSTATICO,ANTIBIOTICO_EN_PROFILAXIS,NUM_MUESTRAS,CUP,ENF_CRONICA_PUL_OBST,BIOPSIA,NUM_DIAS_INFECCIOSA,FIEBRE,ITU,TPO_CULTIVO,AGENTE_AISLADO,PATRON_RESISTENCIA,HOSPITALIZACION,DIAS_HOSP_MQ,DIAS_HOSP_UPC
30,73.0,NO,NO,7.5,NO,SI,CEFALOSPORINA_AMINOGLUCOCIDO,12.0,NO,"SI, ASMA",NEG,NO,NO,NO,NO,NO,NO,NO,0.0,0.0
32,73.0,NO,NO,7.5,NO,SI,CEFALOSPORINA_AMINOGLUCOCIDO,12.0,NO,"SI, ASMA",NEG,NO,NO,NO,NO,NO,NO,NO,0.0,0.0
36,62.0,NO,NO,16.0,NO,SI,OROQUINOLONAS,12.0,NO,SI,ADENOCARCINOMA GLEASON 8,NO,NO,NO,NO,NO,NO,NO,0.0,0.0
37,69.0,NO,NO,17.0,SI,SI,CEFALOSPORINA_AMINOGLUCOCIDO,12.0,NO,SI,NEG,NO,NO,NO,NO,NO,NO,NO,0.0,0.0
39,66.0,NO,NO,6.4,NO,SI,OTROS,12.0,NO,SI,NEG,NO,NO,NO,NO,NO,NO,NO,0.0,0.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
557,59.0,NO,NO,16.0,NO,SI,FLUOROQUINOLONA_AMINOGLICOSIDO,24.0,NO,NO,NEG,NO,NO,NO,NO,NO,NO,NO,0.0,0.0
560,57.0,NO,NO,4.8,NO,NO,OTROS,12.0,NO,NO,NEG,NO,NO,NO,NO,NO,NO,NO,0.0,0.0
562,78.0,NO,NO,9.3,NO,SI,CEFALOSPORINA_AMINOGLUCOCIDO,12.0,NO,NO,NEG,NO,NO,NO,NO,NO,NO,NO,0.0,0.0
568,,,,,,,,,,,,,,,,,,,,


In [175]:
# Se eliminan las filas duplicadas en todas las columnas manteniendo la primera aparición
df = df.drop_duplicates(subset=df.columns, keep='first')
df

Unnamed: 0,EDAD,DIABETES,HOSPIT_ULTIMO_MES,PSA,BIOPSIAS_PREVIAS,VOLUMEN_PROSTATICO,ANTIBIOTICO_EN_PROFILAXIS,NUM_MUESTRAS,CUP,ENF_CRONICA_PUL_OBST,BIOPSIA,NUM_DIAS_INFECCIOSA,FIEBRE,ITU,TPO_CULTIVO,AGENTE_AISLADO,PATRON_RESISTENCIA,HOSPITALIZACION,DIAS_HOSP_MQ,DIAS_HOSP_UPC
0,53.0,NO,NO,4.00,NO,SI,FLUOROQUINOLONA_AMINOGLICOSIDO,12.0,NO,NO,NEG,1,SI,NO,NO,NO,NO,SI,2.0,0.0
1,56.0,NO,NO,7.70,NO,SI,FLUOROQUINOLONA_AMINOGLICOSIDO,12.0,NO,NO,NEG,1,SI,NO,NO,NO,NO,SI,5.0,0.0
2,57.0,NO,NO,29.00,SI,SI,FLUOROQUINOLONA_AMINOGLICOSIDO,24.0,NO,NO,NEG,1,SI,NO,HEMOCULTIVO,E.COLI,"AMPI R, CIPRO R, GENTA R, SULFA M R",SI,4.0,3.0
3,56.0,NO,NO,7.00,NO,SI,FLUOROQUINOLONA_AMINOGLICOSIDO,12.0,NO,NO,NEG,1,SI,NO,NO,NO,NO,SI,5.0,0.0
4,55.0,NO,NO,29.00,SI,SI,FLUOROQUINOLONA_AMINOGLICOSIDO,24.0,NO,NO,NEG,1,SI,NO,HEMOCULTIVO,E.COLI,NO,SI,4.0,3.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
564,64.0,NO,NO,4.80,NO,SI,OTROS,12.0,NO,NO,ADENOCARCINOMA GLEASON 7,NO,NO,NO,NO,NO,NO,NO,0.0,0.0
565,69.0,NO,NO,4.43,,,FLUOROQUINOLONA_AMINOGLICOSIDO,20.0,,NO,NEG,NO,NO,NO,NO,NO,NO,NO,0.0,0.0
566,67.0,NO,NO,8.00,NO,SI,FLUOROQUINOLONA_AMINOGLICOSIDO,12.0,NO,,ADENOCARCINOMA GLEASON 7,NO,NO,NO,NO,,NO,NO,0.0,0.0
567,59.0,NO,NO,9.00,SI,SI,FLUOROQUINOLONA_AMINOGLICOSIDO,12.0,NO,,NEG,NO,NO,NO,NO,NO,NO,NO,0.0,0.0


In [176]:
funciones.verificar_tipo_datos(df)

Unnamed: 0,nombre_campo,tipo_datos,no_nulos_%,nulos_%,nulos
0,EDAD,[<class 'float'>],99.78,0.22,1
1,DIABETES,"[<class 'str'>, <class 'float'>]",99.78,0.22,1
2,HOSPIT_ULTIMO_MES,"[<class 'str'>, <class 'float'>]",99.78,0.22,1
3,PSA,[<class 'float'>],98.92,1.08,5
4,BIOPSIAS_PREVIAS,"[<class 'str'>, <class 'float'>]",99.35,0.65,3
5,VOLUMEN_PROSTATICO,"[<class 'str'>, <class 'float'>]",99.57,0.43,2
6,ANTIBIOTICO_EN_PROFILAXIS,"[<class 'str'>, <class 'float'>]",99.78,0.22,1
7,NUM_MUESTRAS,[<class 'float'>],99.78,0.22,1
8,CUP,"[<class 'str'>, <class 'float'>]",99.57,0.43,2
9,ENF_CRONICA_PUL_OBST,"[<class 'str'>, <class 'float'>]",99.35,0.65,3


In [177]:
#cantidad de filas con nulos
cantidad_registros_nulos = len(df[df.isna().any(axis=1)])
cantidad_registros_nulos

28

In [178]:
# porcentade de filas con nulos
porcentaje = round((cantidad_registros_nulos / len(df)) * 100,2)
porcentaje

6.07

In [179]:
# Filtrar filas con valores nulos
df[df.isna().any(axis=1)]


Unnamed: 0,EDAD,DIABETES,HOSPIT_ULTIMO_MES,PSA,BIOPSIAS_PREVIAS,VOLUMEN_PROSTATICO,ANTIBIOTICO_EN_PROFILAXIS,NUM_MUESTRAS,CUP,ENF_CRONICA_PUL_OBST,BIOPSIA,NUM_DIAS_INFECCIOSA,FIEBRE,ITU,TPO_CULTIVO,AGENTE_AISLADO,PATRON_RESISTENCIA,HOSPITALIZACION,DIAS_HOSP_MQ,DIAS_HOSP_UPC
9,44.0,NO,NO,,NO,NO,FLUOROQUINOLONA_AMINOGLICOSIDO,12.0,NO,NO,NEG,2,SI,NO,NO,NO,NO,SI,3.0,0.0
26,75.0,NO,NO,25.0,NO,SI,FLUOROQUINOLONA_AMINOGLICÓSIDO,12.0,NO,"SI, EPOC",ADENOCARCINOMA GLEASON 7,NO,NO,NO,NO,,NO,NO,0.0,0.0
31,63.0,NO,NO,10.8,NO,NO,FLUOROQUINOLONA_AMINOGLICÓSIDO,12.0,NO,"SI, ASMA",ADENOCARCINOMA GLEASON 7,NO,NO,NO,NO,NO,NO,,0.0,0.0
76,57.0,NO,NO,,NO,NO,FLUOROQUINOLONA_AMINOGLICOSIDO,18.0,NO,NO,HIPERPLASIA PROSTATICA,NO,NO,NO,NO,NO,NO,NO,0.0,0.0
92,58.0,NO,NO,7.8,,SI,FLUOROQUINOLONA_AMINOGLICOSIDO,12.0,NO,NO,NEG,NO,NO,NO,NO,NO,NO,NO,0.0,0.0
99,70.0,NO,NO,7.2,NO,SI,FLUOROQUINOLONA_AMINOGLICOSIDO,12.0,NO,NO,ADENOCARCINOMA GLEASON 7,NO,NO,NO,NO,,NO,NO,0.0,0.0
100,74.0,NO,NO,5.8,NO,NO,FLUOROQUINOLONA_AMINOGLICOSIDO,12.0,NO,NO,ADENOCARCINOMA GLEASON 7,NO,NO,NO,NO,NO,NO,,0.0,0.0
103,60.0,NO,NO,,SI,SI,FLUOROQUINOLONA_AMINOGLICOSIDO,16.0,NO,NO,NEG,NO,NO,NO,NO,NO,NO,NO,0.0,0.0
106,65.0,NO,NO,5.97,NO,SI,FLUOROQUINOLONA_AMINOGLICOSIDO,20.0,NO,NO,ADENOCARCINOMA GLEASON 7,NO,NO,NO,NO,,NO,NO,0.0,0.0
109,61.0,NO,NO,7.0,NO,NO,FLUOROQUINOLONA_AMINOGLICOSIDO,12.0,NO,NO,NEG,NO,NO,NO,NO,NO,NO,,0.0,0.0


Se observa una baja cantidad de registros nulos, por lo que se procede a eliminarlos

In [180]:
df = df.dropna()
df

Unnamed: 0,EDAD,DIABETES,HOSPIT_ULTIMO_MES,PSA,BIOPSIAS_PREVIAS,VOLUMEN_PROSTATICO,ANTIBIOTICO_EN_PROFILAXIS,NUM_MUESTRAS,CUP,ENF_CRONICA_PUL_OBST,BIOPSIA,NUM_DIAS_INFECCIOSA,FIEBRE,ITU,TPO_CULTIVO,AGENTE_AISLADO,PATRON_RESISTENCIA,HOSPITALIZACION,DIAS_HOSP_MQ,DIAS_HOSP_UPC
0,53.0,NO,NO,4.0,NO,SI,FLUOROQUINOLONA_AMINOGLICOSIDO,12.0,NO,NO,NEG,1,SI,NO,NO,NO,NO,SI,2.0,0.0
1,56.0,NO,NO,7.7,NO,SI,FLUOROQUINOLONA_AMINOGLICOSIDO,12.0,NO,NO,NEG,1,SI,NO,NO,NO,NO,SI,5.0,0.0
2,57.0,NO,NO,29.0,SI,SI,FLUOROQUINOLONA_AMINOGLICOSIDO,24.0,NO,NO,NEG,1,SI,NO,HEMOCULTIVO,E.COLI,"AMPI R, CIPRO R, GENTA R, SULFA M R",SI,4.0,3.0
3,56.0,NO,NO,7.0,NO,SI,FLUOROQUINOLONA_AMINOGLICOSIDO,12.0,NO,NO,NEG,1,SI,NO,NO,NO,NO,SI,5.0,0.0
4,55.0,NO,NO,29.0,SI,SI,FLUOROQUINOLONA_AMINOGLICOSIDO,24.0,NO,NO,NEG,1,SI,NO,HEMOCULTIVO,E.COLI,NO,SI,4.0,3.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
558,55.0,NO,NO,5.0,NO,NO,FLUOROQUINOLONA_AMINOGLICOSIDO,12.0,NO,NO,ADENOCARCINOMA GLEASON 7,NO,NO,NO,NO,NO,NO,NO,0.0,0.0
559,70.0,SI,NO,18.0,NO,SI,FLUOROQUINOLONA_AMINOGLICOSIDO,12.0,NO,NO,NEG,NO,NO,NO,NO,NO,NO,NO,0.0,0.0
561,75.0,NO,NO,75.0,NO,SI,FLUOROQUINOLONA_AMINOGLICOSIDO,12.0,NO,NO,ADENOCARCINOMA GLEASON 8,NO,NO,NO,NO,NO,NO,NO,0.0,0.0
563,67.0,NO,NO,6.0,NO,SI,FLUOROQUINOLONA_AMINOGLICOSIDO,12.0,NO,NO,ADENOCARCINOMA GLEASON 6,NO,NO,NO,NO,NO,NO,NO,0.0,0.0


In [181]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 433 entries, 0 to 564
Data columns (total 20 columns):
 #   Column                     Non-Null Count  Dtype  
---  ------                     --------------  -----  
 0   EDAD                       433 non-null    float64
 1   DIABETES                   433 non-null    object 
 2   HOSPIT_ULTIMO_MES          433 non-null    object 
 3   PSA                        433 non-null    float64
 4   BIOPSIAS_PREVIAS           433 non-null    object 
 5   VOLUMEN_PROSTATICO         433 non-null    object 
 6   ANTIBIOTICO_EN_PROFILAXIS  433 non-null    object 
 7   NUM_MUESTRAS               433 non-null    float64
 8   CUP                        433 non-null    object 
 9   ENF_CRONICA_PUL_OBST       433 non-null    object 
 10  BIOPSIA                    433 non-null    object 
 11  NUM_DIAS_INFECCIOSA        433 non-null    object 
 12  FIEBRE                     433 non-null    object 
 13  ITU                        433 non-null    object 
 14 

### Resetean index

In [182]:
# se resetean los indexs
df = df.reset_index(drop=True)

### Se observa una columna con dos tipos de datos (Columna N°11: 'NUMERO DE DIAS POST BIOPSIA EN QUE SE PRESENTA LA COMPLICACIÓN INFECCIOSA')

In [183]:
df['NUM_DIAS_INFECCIOSA'].value_counts()

NUM_DIAS_INFECCIOSA
NO    408
2       8
3       8
1       5
5       2
9       2
Name: count, dtype: int64

In [184]:

df['NUM_DIAS_INFECCIOSA'].unique()
# por lo observado son valores numericos, por lo que se interpreta que N= es un 0, no han estado nunca con complicaciones

array([1, 2, 3, 5, 9, 'NO'], dtype=object)

In [185]:
# por lo observado son valores numericos, por lo que se interpreta que N= es un 0, no han estado nunca con complicaciones
# Se cambia el NO por 0
df['NUM_DIAS_INFECCIOSA'] = df['NUM_DIAS_INFECCIOSA'].replace('NO', 0)
# Se verifican los valores únicos y el tipo de dato
#df[columna_analizar].unique(), df[columna_analizar].apply(type).unique()

In [186]:
df['NUM_DIAS_INFECCIOSA'].value_counts()

NUM_DIAS_INFECCIOSA
0    408
2      8
3      8
1      5
5      2
9      2
Name: count, dtype: int64

In [187]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 433 entries, 0 to 432
Data columns (total 20 columns):
 #   Column                     Non-Null Count  Dtype  
---  ------                     --------------  -----  
 0   EDAD                       433 non-null    float64
 1   DIABETES                   433 non-null    object 
 2   HOSPIT_ULTIMO_MES          433 non-null    object 
 3   PSA                        433 non-null    float64
 4   BIOPSIAS_PREVIAS           433 non-null    object 
 5   VOLUMEN_PROSTATICO         433 non-null    object 
 6   ANTIBIOTICO_EN_PROFILAXIS  433 non-null    object 
 7   NUM_MUESTRAS               433 non-null    float64
 8   CUP                        433 non-null    object 
 9   ENF_CRONICA_PUL_OBST       433 non-null    object 
 10  BIOPSIA                    433 non-null    object 
 11  NUM_DIAS_INFECCIOSA        433 non-null    int64  
 12  FIEBRE                     433 non-null    object 
 13  ITU                        433 non-null    object 

### Cambiamos los tipos de datos


In [188]:
df['EDAD'] = df['EDAD'].astype(int)
df['NUM_MUESTRAS'] = df['NUM_MUESTRAS'].astype(int)
df['DIAS_HOSP_MQ'] = df['DIAS_HOSP_MQ'].astype(int)
df['DIAS_HOSP_UPC'] = df['DIAS_HOSP_UPC'].astype(int)

## Variables Categoricas

In [189]:
df['DIABETES'].unique()

array(['NO', 'SI'], dtype=object)

In [190]:
df['HOSPIT_ULTIMO_MES'].unique()

array(['NO', 'SI'], dtype=object)

In [191]:
df['BIOPSIAS_PREVIAS'].unique() 

array(['NO', 'SI'], dtype=object)

In [192]:
df['VOLUMEN_PROSTATICO'].unique()

array(['SI', 'NO'], dtype=object)

In [193]:
df['ANTIBIOTICO_EN_PROFILAXIS'].unique()

array(['FLUOROQUINOLONA_AMINOGLICOSIDO', 'CEFALOSPORINA_AMINOGLUCOCIDO',
       'OROQUINOLONAS', 'OTROS', 'FLUOROQUINOLONA_AMINOGLICÓSIDO'],
      dtype=object)

In [194]:
# Se renombran
df['ANTIBIOTICO_EN_PROFILAXIS'] = df['ANTIBIOTICO_EN_PROFILAXIS'].replace('FLUOROQUINOLONA_AMINOGLICÓSIDO','FLUOROQUINOLONA_AMINOGLICOSIDO')
df['ANTIBIOTICO_EN_PROFILAXIS'].unique() 

array(['FLUOROQUINOLONA_AMINOGLICOSIDO', 'CEFALOSPORINA_AMINOGLUCOCIDO',
       'OROQUINOLONAS', 'OTROS'], dtype=object)

In [195]:
df['CUP'].unique()


array(['NO', 'SI'], dtype=object)

In [196]:
df['ENF_CRONICA_PUL_OBST'].unique()

array(['NO', 'SI, EPOC', 'SI, ASMA', 'SI'], dtype=object)

In [197]:
# Se renombran
df['ENF_CRONICA_PUL_OBST'] = df['ENF_CRONICA_PUL_OBST'].replace('SI, EPOC','SI')
df['ENF_CRONICA_PUL_OBST'] = df['ENF_CRONICA_PUL_OBST'].replace('SI, ASMA','SI')

In [198]:
df['BIOPSIA'].unique()


array(['NEG', 'ADENOCARCINOMA GLEASON 6 ', 'ADENOCARCINOMA GLEASON 7 ',
       'ADENOCARCINOMA GLEASON 6', 'ADENOCARCINOMA GLEASON 10 ',
       'ADENOCARCINOMA GLEASON 9 ', 'ADENOCARCINOMA GLEASON 8 ',
       'PROSTATITIS', 'ADENOCARCINOMA GLEASON 7',
       'HIPERPLASIA PROSTATICA',
       'CARCINOMA INDIFERENCIADO DE CELULAS CLARAS'], dtype=object)

In [199]:
# Se renombran
df['BIOPSIA'] = df['BIOPSIA'].replace('ADENOCARCINOMA GLEASON 6 ','ADENOCARCINOMA GLEASON 6')
df['BIOPSIA'] = df['BIOPSIA'].replace('ADENOCARCINOMA GLEASON 7 ','ADENOCARCINOMA GLEASON 7')
df['BIOPSIA'] = df['BIOPSIA'].replace('ADENOCARCINOMA GLEASON 8 ','ADENOCARCINOMA GLEASON 8')
df['BIOPSIA'] = df['BIOPSIA'].replace('ADENOCARCINOMA GLEASON 9 ','ADENOCARCINOMA GLEASON 9')
df['BIOPSIA'] = df['BIOPSIA'].replace('ADENOCARCINOMA GLEASON 10 ','ADENOCARCINOMA GLEASON 10')

In [200]:
df['BIOPSIA'].unique()

array(['NEG', 'ADENOCARCINOMA GLEASON 6', 'ADENOCARCINOMA GLEASON 7',
       'ADENOCARCINOMA GLEASON 10', 'ADENOCARCINOMA GLEASON 9',
       'ADENOCARCINOMA GLEASON 8', 'PROSTATITIS',
       'HIPERPLASIA PROSTATICA',
       'CARCINOMA INDIFERENCIADO DE CELULAS CLARAS'], dtype=object)

In [201]:
df['FIEBRE'].unique()

array(['SI', 'NO'], dtype=object)

In [202]:
df['ITU'].unique()

array(['NO', 'SI'], dtype=object)

In [203]:
df['TPO_CULTIVO'].unique() 

array(['NO', 'HEMOCULTIVO', 'UROCULTIVO', 'HEMOCULTIVO Y UROCULTIVO'],
      dtype=object)

In [204]:
df['AGENTE_AISLADO'].unique()

array(['NO', 'E.COLI', 'PSEUDOMONAS AERUGINOSA'], dtype=object)

In [205]:
df['PATRON_RESISTENCIA'].unique()

array(['NO', ' AMPI R, CIPRO R, GENTA R, SULFA M R',
       'RESISTENTE A AMPI, CIPRO Y GENTA',
       'RESISTENTE A AMPI, SULFA, CEFADROXILO, CEFUROXIMO, CIPRO Y CEFEPIME, CEFOTAXIMA',
       'MULTI SENSIBLE'], dtype=object)

In [206]:
# Se renombran
df['PATRON_RESISTENCIA'] = df['PATRON_RESISTENCIA'].replace(' AMPI R, CIPRO R, GENTA R, SULFA M R','R AMPI, R GENTA, R SULFA')
df['PATRON_RESISTENCIA'] = df['PATRON_RESISTENCIA'].replace('RESISTENTE A AMPI, CIPRO Y GENTA', 'R AMPI, R CIPRO, R GENTA')
df['PATRON_RESISTENCIA'] = df['PATRON_RESISTENCIA'].replace('RESISTENTE A AMPI, SULFA, CEFADROXILO, CEFUROXIMO, CIPRO Y CEFEPIME, CEFOTAXIMA', 'R AMPI, R SULFA, R CEFADROXILO, R CEFUROXIMO, R CIPRO, R CEFEPIME, R CEFOTAXIMA')

In [207]:
df['HOSPITALIZACION'].unique() 

array(['SI', 'NO'], dtype=object)

In [208]:
funciones.verificar_tipo_datos(df)

Unnamed: 0,nombre_campo,tipo_datos,no_nulos_%,nulos_%,nulos
0,EDAD,[<class 'int'>],100.0,0.0,0
1,DIABETES,[<class 'str'>],100.0,0.0,0
2,HOSPIT_ULTIMO_MES,[<class 'str'>],100.0,0.0,0
3,PSA,[<class 'float'>],100.0,0.0,0
4,BIOPSIAS_PREVIAS,[<class 'str'>],100.0,0.0,0
5,VOLUMEN_PROSTATICO,[<class 'str'>],100.0,0.0,0
6,ANTIBIOTICO_EN_PROFILAXIS,[<class 'str'>],100.0,0.0,0
7,NUM_MUESTRAS,[<class 'int'>],100.0,0.0,0
8,CUP,[<class 'str'>],100.0,0.0,0
9,ENF_CRONICA_PUL_OBST,[<class 'str'>],100.0,0.0,0


## Una vez terminado de limpiar los datos se guardan, para su posterior analisis

In [209]:
hospitalizacion_ETL = 'data\BBDD_hospitalizacion_ETL.csv'
df.to_csv(hospitalizacion_ETL, index=False, encoding='utf-8')
print(f'Se guardó el archivo {hospitalizacion_ETL}')

Se guardó el archivo data\BBDD_hospitalizacion_ETL.csv
