## Proceso de ETL (Extracción, Transformación y Carga de datos)

En este notebook se realizará un proceso de carga de datos, revisaremos la consistencia de los mismos y los limpiaremos, para al final exportarlos ya listos para ser explorados

### Importamos de librerías

In [2]:
#Las librerías se utilizan para hacer manejo de los datos
import pandas as pd
import warnings
warnings.simplefilter('ignore')

### Carga de datos

In [3]:
#Extraemos la información del archivo Excel que nos entregaron
dataframe = pd.read_excel('BBDD_Hospitalización.xlsx')
dataframe

Unnamed: 0,EDAD,DIABETES,HOSPITALIZACIÓN ULTIMO MES,PSA,BIOPSIAS PREVIAS,VOLUMEN PROSTATICO,ANTIBIOTICO UTILIAZADO EN LA PROFILAXIS,NUMERO DE MUESTRAS TOMADAS,CUP,ENF. CRONICA PULMONAR OBSTRUCTIVA,BIOPSIA,NUMERO DE DIAS POST BIOPSIA EN QUE SE PRESENTA LA COMPLICACIÓN INFECCIOSA,FIEBRE,ITU,TIPO DE CULTIVO,AGENTE AISLADO,PATRON DE RESISTENCIA,HOSPITALIZACION,DIAS HOSPITALIZACION MQ,DIAS HOSPITALIZACIÓN UPC
0,53.0,NO,NO,4.00,NO,SI,FLUOROQUINOLONA_AMINOGLICOSIDO,12.0,NO,NO,NEG,1,SI,NO,NO,NO,NO,SI,2.0,0.0
1,56.0,NO,NO,7.70,NO,SI,FLUOROQUINOLONA_AMINOGLICOSIDO,12.0,NO,NO,NEG,1,SI,NO,NO,NO,NO,SI,5.0,0.0
2,57.0,NO,NO,29.00,SI,SI,FLUOROQUINOLONA_AMINOGLICOSIDO,24.0,NO,NO,NEG,1,SI,NO,HEMOCULTIVO,E.COLI,"AMPI R, CIPRO R, GENTA R, SULFA M R",SI,4.0,3.0
3,56.0,NO,NO,7.00,NO,SI,FLUOROQUINOLONA_AMINOGLICOSIDO,12.0,NO,NO,NEG,1,SI,NO,NO,NO,NO,SI,5.0,0.0
4,55.0,NO,NO,29.00,SI,SI,FLUOROQUINOLONA_AMINOGLICOSIDO,24.0,NO,NO,NEG,1,SI,NO,HEMOCULTIVO,E.COLI,NO,SI,4.0,3.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
565,69.0,NO,NO,4.43,,,FLUOROQUINOLONA_AMINOGLICOSIDO,20.0,,NO,NEG,NO,NO,NO,NO,NO,NO,NO,0.0,0.0
566,67.0,NO,NO,8.00,NO,SI,FLUOROQUINOLONA_AMINOGLICOSIDO,12.0,NO,,ADENOCARCINOMA GLEASON 7,NO,NO,NO,NO,,NO,NO,0.0,0.0
567,59.0,NO,NO,9.00,SI,SI,FLUOROQUINOLONA_AMINOGLICOSIDO,12.0,NO,,NEG,NO,NO,NO,NO,NO,NO,NO,0.0,0.0
568,,,,,,,,,,,,,,,,,,,,


### Transformación de datos

In [4]:
#Verificamos la existencia de duplicados en el data frame
duplicados = dataframe.duplicated()
duplicados.value_counts()

False    461
True     109
Name: count, dtype: int64

In [5]:
#Se creó un nuevo data frame sin los duplicados
data = dataframe.drop_duplicates(keep='first')
data

Unnamed: 0,EDAD,DIABETES,HOSPITALIZACIÓN ULTIMO MES,PSA,BIOPSIAS PREVIAS,VOLUMEN PROSTATICO,ANTIBIOTICO UTILIAZADO EN LA PROFILAXIS,NUMERO DE MUESTRAS TOMADAS,CUP,ENF. CRONICA PULMONAR OBSTRUCTIVA,BIOPSIA,NUMERO DE DIAS POST BIOPSIA EN QUE SE PRESENTA LA COMPLICACIÓN INFECCIOSA,FIEBRE,ITU,TIPO DE CULTIVO,AGENTE AISLADO,PATRON DE RESISTENCIA,HOSPITALIZACION,DIAS HOSPITALIZACION MQ,DIAS HOSPITALIZACIÓN UPC
0,53.0,NO,NO,4.00,NO,SI,FLUOROQUINOLONA_AMINOGLICOSIDO,12.0,NO,NO,NEG,1,SI,NO,NO,NO,NO,SI,2.0,0.0
1,56.0,NO,NO,7.70,NO,SI,FLUOROQUINOLONA_AMINOGLICOSIDO,12.0,NO,NO,NEG,1,SI,NO,NO,NO,NO,SI,5.0,0.0
2,57.0,NO,NO,29.00,SI,SI,FLUOROQUINOLONA_AMINOGLICOSIDO,24.0,NO,NO,NEG,1,SI,NO,HEMOCULTIVO,E.COLI,"AMPI R, CIPRO R, GENTA R, SULFA M R",SI,4.0,3.0
3,56.0,NO,NO,7.00,NO,SI,FLUOROQUINOLONA_AMINOGLICOSIDO,12.0,NO,NO,NEG,1,SI,NO,NO,NO,NO,SI,5.0,0.0
4,55.0,NO,NO,29.00,SI,SI,FLUOROQUINOLONA_AMINOGLICOSIDO,24.0,NO,NO,NEG,1,SI,NO,HEMOCULTIVO,E.COLI,NO,SI,4.0,3.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
564,64.0,NO,NO,4.80,NO,SI,OTROS,12.0,NO,NO,ADENOCARCINOMA GLEASON 7,NO,NO,NO,NO,NO,NO,NO,0.0,0.0
565,69.0,NO,NO,4.43,,,FLUOROQUINOLONA_AMINOGLICOSIDO,20.0,,NO,NEG,NO,NO,NO,NO,NO,NO,NO,0.0,0.0
566,67.0,NO,NO,8.00,NO,SI,FLUOROQUINOLONA_AMINOGLICOSIDO,12.0,NO,,ADENOCARCINOMA GLEASON 7,NO,NO,NO,NO,,NO,NO,0.0,0.0
567,59.0,NO,NO,9.00,SI,SI,FLUOROQUINOLONA_AMINOGLICOSIDO,12.0,NO,,NEG,NO,NO,NO,NO,NO,NO,NO,0.0,0.0


In [6]:
#Se observa cuántas columnas tiene, cantidad de valores y tipo de dato
dataframe.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 570 entries, 0 to 569
Data columns (total 20 columns):
 #   Column                                                                     Non-Null Count  Dtype  
---  ------                                                                     --------------  -----  
 0   EDAD                                                                       568 non-null    float64
 1   DIABETES                                                                   568 non-null    object 
 2   HOSPITALIZACIÓN ULTIMO MES                                                 568 non-null    object 
 3   PSA                                                                        564 non-null    float64
 4   BIOPSIAS PREVIAS                                                           566 non-null    object 
 5   VOLUMEN PROSTATICO                                                         567 non-null    object 
 6   ANTIBIOTICO UTILIAZADO EN LA PROFILAXIS                   

In [7]:
#Aquí se hizo un conteo de cuántas filas con valores tipo nulo tenemos y cuál es el porcentaje que representa
registros_Nan = len(data[data.isna().any(axis=1)])

totalnan = registros_Nan/len(data)

porcentajenan= round(totalnan*100,2)

print(f'Tenemos {registros_Nan} que es el {porcentajenan} % al representar poca cantidad los borramos')

data = data.dropna()

Tenemos 28 que es el 6.07 % al representar poca cantidad los borramos


In [8]:
#Se borró el índice anterior y se estableció uno nuevo ya que quitamos más de 120 filas
data.reset_index(inplace=True,drop=True)
data

Unnamed: 0,EDAD,DIABETES,HOSPITALIZACIÓN ULTIMO MES,PSA,BIOPSIAS PREVIAS,VOLUMEN PROSTATICO,ANTIBIOTICO UTILIAZADO EN LA PROFILAXIS,NUMERO DE MUESTRAS TOMADAS,CUP,ENF. CRONICA PULMONAR OBSTRUCTIVA,BIOPSIA,NUMERO DE DIAS POST BIOPSIA EN QUE SE PRESENTA LA COMPLICACIÓN INFECCIOSA,FIEBRE,ITU,TIPO DE CULTIVO,AGENTE AISLADO,PATRON DE RESISTENCIA,HOSPITALIZACION,DIAS HOSPITALIZACION MQ,DIAS HOSPITALIZACIÓN UPC
0,53.0,NO,NO,4.0,NO,SI,FLUOROQUINOLONA_AMINOGLICOSIDO,12.0,NO,NO,NEG,1,SI,NO,NO,NO,NO,SI,2.0,0.0
1,56.0,NO,NO,7.7,NO,SI,FLUOROQUINOLONA_AMINOGLICOSIDO,12.0,NO,NO,NEG,1,SI,NO,NO,NO,NO,SI,5.0,0.0
2,57.0,NO,NO,29.0,SI,SI,FLUOROQUINOLONA_AMINOGLICOSIDO,24.0,NO,NO,NEG,1,SI,NO,HEMOCULTIVO,E.COLI,"AMPI R, CIPRO R, GENTA R, SULFA M R",SI,4.0,3.0
3,56.0,NO,NO,7.0,NO,SI,FLUOROQUINOLONA_AMINOGLICOSIDO,12.0,NO,NO,NEG,1,SI,NO,NO,NO,NO,SI,5.0,0.0
4,55.0,NO,NO,29.0,SI,SI,FLUOROQUINOLONA_AMINOGLICOSIDO,24.0,NO,NO,NEG,1,SI,NO,HEMOCULTIVO,E.COLI,NO,SI,4.0,3.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
428,55.0,NO,NO,5.0,NO,NO,FLUOROQUINOLONA_AMINOGLICOSIDO,12.0,NO,NO,ADENOCARCINOMA GLEASON 7,NO,NO,NO,NO,NO,NO,NO,0.0,0.0
429,70.0,SI,NO,18.0,NO,SI,FLUOROQUINOLONA_AMINOGLICOSIDO,12.0,NO,NO,NEG,NO,NO,NO,NO,NO,NO,NO,0.0,0.0
430,75.0,NO,NO,75.0,NO,SI,FLUOROQUINOLONA_AMINOGLICOSIDO,12.0,NO,NO,ADENOCARCINOMA GLEASON 8,NO,NO,NO,NO,NO,NO,NO,0.0,0.0
431,67.0,NO,NO,6.0,NO,SI,FLUOROQUINOLONA_AMINOGLICOSIDO,12.0,NO,NO,ADENOCARCINOMA GLEASON 6,NO,NO,NO,NO,NO,NO,NO,0.0,0.0


In [9]:
#Previamente observamos que la columna 11, que es de tipo entero, figura como object, así que la analizaremos
data['NUMERO DE DIAS POST BIOPSIA EN QUE SE PRESENTA LA COMPLICACIÓN INFECCIOSA'].value_counts()

NUMERO DE DIAS POST BIOPSIA EN QUE SE PRESENTA LA COMPLICACIÓN INFECCIOSA
NO    408
2       8
3       8
1       5
5       2
9       2
Name: count, dtype: int64

In [10]:
#Teníamos valores de tipo string junto con valores de tipo entero, la decisión fue pasar los valores 'NO' a un número 0
data['NUMERO DE DIAS POST BIOPSIA EN QUE SE PRESENTA LA COMPLICACIÓN INFECCIOSA']= data['NUMERO DE DIAS POST BIOPSIA EN QUE SE PRESENTA LA COMPLICACIÓN INFECCIOSA'].replace('NO',0)

In [11]:
#Corroboramos que se cambie "NO" por 0
data['NUMERO DE DIAS POST BIOPSIA EN QUE SE PRESENTA LA COMPLICACIÓN INFECCIOSA'].value_counts()

NUMERO DE DIAS POST BIOPSIA EN QUE SE PRESENTA LA COMPLICACIÓN INFECCIOSA
0    408
2      8
3      8
1      5
5      2
9      2
Name: count, dtype: int64

In [12]:
#Tenemos variables numéricas que deberían ser enteras como decimales, debemos cambiar los tipos de datos
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 433 entries, 0 to 432
Data columns (total 20 columns):
 #   Column                                                                     Non-Null Count  Dtype  
---  ------                                                                     --------------  -----  
 0   EDAD                                                                       433 non-null    float64
 1   DIABETES                                                                   433 non-null    object 
 2   HOSPITALIZACIÓN ULTIMO MES                                                 433 non-null    object 
 3   PSA                                                                        433 non-null    float64
 4   BIOPSIAS PREVIAS                                                           433 non-null    object 
 5   VOLUMEN PROSTATICO                                                         433 non-null    object 
 6   ANTIBIOTICO UTILIAZADO EN LA PROFILAXIS                   

In [13]:
data['EDAD'] = data['EDAD'].astype(int)
data['NUMERO DE MUESTRAS TOMADAS'] = data['NUMERO DE MUESTRAS TOMADAS'].astype(int)
data['DIAS HOSPITALIZACION MQ'] = data['DIAS HOSPITALIZACION MQ'].astype(int)
data['DIAS HOSPITALIZACIÓN UPC'] = data['DIAS HOSPITALIZACIÓN UPC'].astype(int)


In [14]:
# En los próximos notebooks veremos que se verifican los conteos de las variables categóricas, para revisar si se está sumando los valores de forma correcta
data['AGENTE AISLADO'].value_counts()

AGENTE AISLADO
NO                        425
E.COLI                      6
PSEUDOMONAS AERUGINOSA      2
Name: count, dtype: int64

In [15]:
data['ANTIBIOTICO UTILIAZADO EN LA PROFILAXIS'].value_counts()

ANTIBIOTICO UTILIAZADO EN LA PROFILAXIS
FLUOROQUINOLONA_AMINOGLICOSIDO    343
CEFALOSPORINA_AMINOGLUCOCIDO       44
OTROS                              33
OROQUINOLONAS                      11
FLUOROQUINOLONA_AMINOGLICÓSIDO      2
Name: count, dtype: int64

In [16]:
#Aquí se encontró que tenemos dos antibióticos iguales pero uno posee acento y el otro no, procedemos a quitar el acento
data['ANTIBIOTICO UTILIAZADO EN LA PROFILAXIS'] = data['ANTIBIOTICO UTILIAZADO EN LA PROFILAXIS'].str.replace('Ó','O')

In [17]:
data['ANTIBIOTICO UTILIAZADO EN LA PROFILAXIS'].value_counts()

ANTIBIOTICO UTILIAZADO EN LA PROFILAXIS
FLUOROQUINOLONA_AMINOGLICOSIDO    345
CEFALOSPORINA_AMINOGLUCOCIDO       44
OTROS                              33
OROQUINOLONAS                      11
Name: count, dtype: int64

In [18]:
data['BIOPSIA'].value_counts()

BIOPSIA
NEG                                           213
ADENOCARCINOMA GLEASON 7                       93
ADENOCARCINOMA GLEASON 6                       37
ADENOCARCINOMA GLEASON 9                       20
ADENOCARCINOMA GLEASON 8                       19
ADENOCARCINOMA GLEASON 6                       16
HIPERPLASIA PROSTATICA                         12
PROSTATITIS                                     9
ADENOCARCINOMA GLEASON 7                        8
ADENOCARCINOMA GLEASON 10                       4
CARCINOMA INDIFERENCIADO DE CELULAS CLARAS      2
Name: count, dtype: int64

In [19]:
# De esta forma revisamos los valores únicos, vemos por qué ADENOCARCINOMA GLEASON 6 Y 7 aparece dos veces, solo porque algunos poseen un espacio en blanco y otros no
data['BIOPSIA'].unique()

array(['NEG', 'ADENOCARCINOMA GLEASON 6 ', 'ADENOCARCINOMA GLEASON 7 ',
       'ADENOCARCINOMA GLEASON 6', 'ADENOCARCINOMA GLEASON 10 ',
       'ADENOCARCINOMA GLEASON 9 ', 'ADENOCARCINOMA GLEASON 8 ',
       'PROSTATITIS', 'ADENOCARCINOMA GLEASON 7',
       'HIPERPLASIA PROSTATICA',
       'CARCINOMA INDIFERENCIADO DE CELULAS CLARAS'], dtype=object)

In [20]:
#Aquí lo que hacemos es eliminar los espacios en blanco que se encuentran a la derecha de los valores en la columna Biopsia
data['BIOPSIA'] = data['BIOPSIA'].str.rstrip()

In [21]:
data['BIOPSIA'].value_counts()

BIOPSIA
NEG                                           213
ADENOCARCINOMA GLEASON 7                      101
ADENOCARCINOMA GLEASON 6                       53
ADENOCARCINOMA GLEASON 9                       20
ADENOCARCINOMA GLEASON 8                       19
HIPERPLASIA PROSTATICA                         12
PROSTATITIS                                     9
ADENOCARCINOMA GLEASON 10                       4
CARCINOMA INDIFERENCIADO DE CELULAS CLARAS      2
Name: count, dtype: int64

In [22]:
data['TIPO DE CULTIVO'].value_counts()

TIPO DE CULTIVO
NO                          425
UROCULTIVO                    4
HEMOCULTIVO                   2
HEMOCULTIVO Y UROCULTIVO      2
Name: count, dtype: int64

In [23]:
data['AGENTE AISLADO'].value_counts()

AGENTE AISLADO
NO                        425
E.COLI                      6
PSEUDOMONAS AERUGINOSA      2
Name: count, dtype: int64

In [24]:
data['PATRON DE RESISTENCIA'].value_counts()

PATRON DE RESISTENCIA
NO                                                                                 426
RESISTENTE A AMPI, CIPRO Y GENTA                                                     2
RESISTENTE A AMPI, SULFA, CEFADROXILO, CEFUROXIMO, CIPRO Y CEFEPIME, CEFOTAXIMA      2
MULTI SENSIBLE                                                                       2
 AMPI R, CIPRO R, GENTA R, SULFA M R                                                 1
Name: count, dtype: int64

In [25]:
data['PATRON DE RESISTENCIA'] = data['PATRON DE RESISTENCIA'].replace(' AMPI R, CIPRO R, GENTA R, SULFA M R', 'R AMPI, R GENTA, R SULFA')
data['PATRON DE RESISTENCIA'] = data['PATRON DE RESISTENCIA'].replace('RESISTENTE A AMPI, CIPRO Y GENTA', 'R AMPI, R CIPRO, R GENTA')
data['PATRON DE RESISTENCIA'] = data['PATRON DE RESISTENCIA'].replace('RESISTENTE A AMPI, SULFA, CEFADROXILO, CEFUROXIMO, CIPRO Y CEFEPIME, CEFOTAXIMA','R AMPI, R SULFA, R CEFADROXILO, R CEFUROXIMO, R CIPRO, R CEFEPIME')

In [26]:
data['ENF. CRONICA PULMONAR OBSTRUCTIVA'].value_counts()

ENF. CRONICA PULMONAR OBSTRUCTIVA
NO          419
SI            9
SI, EPOC      3
SI, ASMA      2
Name: count, dtype: int64

In [27]:

data['ENF. CRONICA PULMONAR OBSTRUCTIVA'] = data['ENF. CRONICA PULMONAR OBSTRUCTIVA'].replace('SI, EPOC', 'SI')
data['ENF. CRONICA PULMONAR OBSTRUCTIVA'] = data['ENF. CRONICA PULMONAR OBSTRUCTIVA'].replace('SI, ASMA', 'SI')

In [28]:
data

Unnamed: 0,EDAD,DIABETES,HOSPITALIZACIÓN ULTIMO MES,PSA,BIOPSIAS PREVIAS,VOLUMEN PROSTATICO,ANTIBIOTICO UTILIAZADO EN LA PROFILAXIS,NUMERO DE MUESTRAS TOMADAS,CUP,ENF. CRONICA PULMONAR OBSTRUCTIVA,BIOPSIA,NUMERO DE DIAS POST BIOPSIA EN QUE SE PRESENTA LA COMPLICACIÓN INFECCIOSA,FIEBRE,ITU,TIPO DE CULTIVO,AGENTE AISLADO,PATRON DE RESISTENCIA,HOSPITALIZACION,DIAS HOSPITALIZACION MQ,DIAS HOSPITALIZACIÓN UPC
0,53,NO,NO,4.0,NO,SI,FLUOROQUINOLONA_AMINOGLICOSIDO,12,NO,NO,NEG,1,SI,NO,NO,NO,NO,SI,2,0
1,56,NO,NO,7.7,NO,SI,FLUOROQUINOLONA_AMINOGLICOSIDO,12,NO,NO,NEG,1,SI,NO,NO,NO,NO,SI,5,0
2,57,NO,NO,29.0,SI,SI,FLUOROQUINOLONA_AMINOGLICOSIDO,24,NO,NO,NEG,1,SI,NO,HEMOCULTIVO,E.COLI,"R AMPI, R GENTA, R SULFA",SI,4,3
3,56,NO,NO,7.0,NO,SI,FLUOROQUINOLONA_AMINOGLICOSIDO,12,NO,NO,NEG,1,SI,NO,NO,NO,NO,SI,5,0
4,55,NO,NO,29.0,SI,SI,FLUOROQUINOLONA_AMINOGLICOSIDO,24,NO,NO,NEG,1,SI,NO,HEMOCULTIVO,E.COLI,NO,SI,4,3
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
428,55,NO,NO,5.0,NO,NO,FLUOROQUINOLONA_AMINOGLICOSIDO,12,NO,NO,ADENOCARCINOMA GLEASON 7,0,NO,NO,NO,NO,NO,NO,0,0
429,70,SI,NO,18.0,NO,SI,FLUOROQUINOLONA_AMINOGLICOSIDO,12,NO,NO,NEG,0,NO,NO,NO,NO,NO,NO,0,0
430,75,NO,NO,75.0,NO,SI,FLUOROQUINOLONA_AMINOGLICOSIDO,12,NO,NO,ADENOCARCINOMA GLEASON 8,0,NO,NO,NO,NO,NO,NO,0,0
431,67,NO,NO,6.0,NO,SI,FLUOROQUINOLONA_AMINOGLICOSIDO,12,NO,NO,ADENOCARCINOMA GLEASON 6,0,NO,NO,NO,NO,NO,NO,0,0


In [29]:
#Cambiamos los nombres de la columna, son muy extensos e incómodos para trabajarlos, además le quita legibilidad
nombres = {
    "EDAD": "Edad",
    "DIABETES": "Diabetes",
    "HOSPITALIZACIÓN ULTIMO MES": "Hospitaliz_ultimo_mes",
    "PSA": "Psa",
    "BIOPSIAS PREVIAS": "Biopsias_prev",
    "VOLUMEN PROSTATICO": "Vol_prostatico",
    "ANTIBIOTICO UTILIAZADO EN LA PROFILAXIS": "Antibiotico_profilaxis",
    "NUMERO DE MUESTRAS TOMADAS": "Nro_muestras",
    "CUP": "Cup",
    "ENF. CRONICA PULMONAR OBSTRUCTIVA": "Epoc",
    "BIOPSIA": "Biopsia",
    "NUMERO DE DIAS POST BIOPSIA EN QUE SE PRESENTA LA COMPLICACIÓN INFECCIOSA": "nro_dias_con_infecc",
    "FIEBRE": "Fiebre",
    "ITU": "Itu",
    "TIPO DE CULTIVO": "Tipo_cultivo",
    "AGENTE AISLADO": "Agente_aislado",
    "PATRON DE RESISTENCIA": "Patron_resistencia",
    "HOSPITALIZACION": "Hospitalizacion",
    "DIAS HOSPITALIZACION MQ": "Dias_hosp_mq",
    "DIAS HOSPITALIZACIÓN UPC": "Dias_hosp_upc" }

data.rename(columns=nombres, inplace=True)
data

Unnamed: 0,Edad,Diabetes,Hospitaliz_ultimo_mes,Psa,Biopsias_prev,Vol_prostatico,Antibiotico_profilaxis,Nro_muestras,Cup,Epoc,Biopsia,nro_dias_con_infecc,Fiebre,Itu,Tipo_cultivo,Agente_aislado,Patron_resistencia,Hospitalizacion,Dias_hosp_mq,Dias_hosp_upc
0,53,NO,NO,4.0,NO,SI,FLUOROQUINOLONA_AMINOGLICOSIDO,12,NO,NO,NEG,1,SI,NO,NO,NO,NO,SI,2,0
1,56,NO,NO,7.7,NO,SI,FLUOROQUINOLONA_AMINOGLICOSIDO,12,NO,NO,NEG,1,SI,NO,NO,NO,NO,SI,5,0
2,57,NO,NO,29.0,SI,SI,FLUOROQUINOLONA_AMINOGLICOSIDO,24,NO,NO,NEG,1,SI,NO,HEMOCULTIVO,E.COLI,"R AMPI, R GENTA, R SULFA",SI,4,3
3,56,NO,NO,7.0,NO,SI,FLUOROQUINOLONA_AMINOGLICOSIDO,12,NO,NO,NEG,1,SI,NO,NO,NO,NO,SI,5,0
4,55,NO,NO,29.0,SI,SI,FLUOROQUINOLONA_AMINOGLICOSIDO,24,NO,NO,NEG,1,SI,NO,HEMOCULTIVO,E.COLI,NO,SI,4,3
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
428,55,NO,NO,5.0,NO,NO,FLUOROQUINOLONA_AMINOGLICOSIDO,12,NO,NO,ADENOCARCINOMA GLEASON 7,0,NO,NO,NO,NO,NO,NO,0,0
429,70,SI,NO,18.0,NO,SI,FLUOROQUINOLONA_AMINOGLICOSIDO,12,NO,NO,NEG,0,NO,NO,NO,NO,NO,NO,0,0
430,75,NO,NO,75.0,NO,SI,FLUOROQUINOLONA_AMINOGLICOSIDO,12,NO,NO,ADENOCARCINOMA GLEASON 8,0,NO,NO,NO,NO,NO,NO,0,0
431,67,NO,NO,6.0,NO,SI,FLUOROQUINOLONA_AMINOGLICOSIDO,12,NO,NO,ADENOCARCINOMA GLEASON 6,0,NO,NO,NO,NO,NO,NO,0,0


### Exportación de datos

In [30]:
#Con el archivo ya limpio y transformado, lo exportamos en formato csv
data.to_csv('BBDD_hospitalizacion_limpio.csv', index=False, encoding='utf-8')


Desde [aquí](HospitalizacionEDA.ipynb) puede seguir hacia la siguiente etapa(EDA) 😃