## Hospitalizacion

Hemos sido contratados en el equipo de ciencia de datos en una consultora de renombre. Nos han asignado a un proyecto de estudio de atención en salud para un importante hospital. Nuestro cliente desea saber las características más importantes que tienen los pacientes de cierto tipo de enfermedad que terminan en hospitalización. Fue definido como caso aquel paciente que fue sometido a biopsia prostática y que en un periodo máximo de 30 días posteriores al procedimiento presentó fiebre, infección urinaria o sepsis; requiriendo manejo médico ambulatorio u hospitalizado para la resolución de la complicación y como control al paciente que fue sometido a biopsia prostática y que no presentó complicaciones infecciosas en el período de 30 días posteriores al procedimiento. Dado que tienen en su base de datos algunos datos referentes a los pacientes y resultados de exámenes diagnósticos, de pacientes hospitalizados y no hospitalizados, nos han entregado esta información.

In [1]:
# Se importan las librerias para el proyecto
import numpy as np
import pandas as pd

%load_ext autoreload
%autoreload 2

import utils

import warnings
warnings.filterwarnings("ignore")

## ETL 

Convertimos en dataframe nuestra base de datos

In [2]:
df=pd.read_excel('BBDD_Hospitalización.xlsx')
df.to_csv('BBDD_Hospitalización.csv', index=False)
df

Unnamed: 0,EDAD,DIABETES,HOSPITALIZACIÓN ULTIMO MES,PSA,BIOPSIAS PREVIAS,VOLUMEN PROSTATICO,ANTIBIOTICO UTILIAZADO EN LA PROFILAXIS,NUMERO DE MUESTRAS TOMADAS,CUP,ENF. CRONICA PULMONAR OBSTRUCTIVA,BIOPSIA,NUMERO DE DIAS POST BIOPSIA EN QUE SE PRESENTA LA COMPLICACIÓN INFECCIOSA,FIEBRE,ITU,TIPO DE CULTIVO,AGENTE AISLADO,PATRON DE RESISTENCIA,HOSPITALIZACION,DIAS HOSPITALIZACION MQ,DIAS HOSPITALIZACIÓN UPC
0,53.0,NO,NO,4.00,NO,SI,FLUOROQUINOLONA_AMINOGLICOSIDO,12.0,NO,NO,NEG,1,SI,NO,NO,NO,NO,SI,2.0,0.0
1,56.0,NO,NO,7.70,NO,SI,FLUOROQUINOLONA_AMINOGLICOSIDO,12.0,NO,NO,NEG,1,SI,NO,NO,NO,NO,SI,5.0,0.0
2,57.0,NO,NO,29.00,SI,SI,FLUOROQUINOLONA_AMINOGLICOSIDO,24.0,NO,NO,NEG,1,SI,NO,HEMOCULTIVO,E.COLI,"AMPI R, CIPRO R, GENTA R, SULFA M R",SI,4.0,3.0
3,56.0,NO,NO,7.00,NO,SI,FLUOROQUINOLONA_AMINOGLICOSIDO,12.0,NO,NO,NEG,1,SI,NO,NO,NO,NO,SI,5.0,0.0
4,55.0,NO,NO,29.00,SI,SI,FLUOROQUINOLONA_AMINOGLICOSIDO,24.0,NO,NO,NEG,1,SI,NO,HEMOCULTIVO,E.COLI,NO,SI,4.0,3.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
565,69.0,NO,NO,4.43,,,FLUOROQUINOLONA_AMINOGLICOSIDO,20.0,,NO,NEG,NO,NO,NO,NO,NO,NO,NO,0.0,0.0
566,67.0,NO,NO,8.00,NO,SI,FLUOROQUINOLONA_AMINOGLICOSIDO,12.0,NO,,ADENOCARCINOMA GLEASON 7,NO,NO,NO,NO,,NO,NO,0.0,0.0
567,59.0,NO,NO,9.00,SI,SI,FLUOROQUINOLONA_AMINOGLICOSIDO,12.0,NO,,NEG,NO,NO,NO,NO,NO,NO,NO,0.0,0.0
568,,,,,,,,,,,,,,,,,,,,


Se observan filas que contienen vacíos en todo el registro. Se eliminan dichos registros.

In [3]:
df=df.dropna(how='all').reset_index(drop=True)  #Elimino las filas que tengan en todos sus colunas NaN
df.shape

(568, 20)

Se revisan los tipos de datos por columna y la cantidad de nulos

In [4]:
utils.verificar_tipo_datos(df)

Unnamed: 0,nombre_campo,tipo_datos,no_nulos_%,nulos_%,nulos
0,EDAD,[<class 'float'>],100.0,0.0,0
1,DIABETES,[<class 'str'>],100.0,0.0,0
2,HOSPITALIZACIÓN ULTIMO MES,[<class 'str'>],100.0,0.0,0
3,PSA,[<class 'float'>],99.3,0.7,4
4,BIOPSIAS PREVIAS,"[<class 'str'>, <class 'float'>]",99.65,0.35,2
5,VOLUMEN PROSTATICO,"[<class 'str'>, <class 'float'>]",99.82,0.18,1
6,ANTIBIOTICO UTILIAZADO EN LA PROFILAXIS,[<class 'str'>],100.0,0.0,0
7,NUMERO DE MUESTRAS TOMADAS,[<class 'float'>],100.0,0.0,0
8,CUP,"[<class 'str'>, <class 'float'>]",99.82,0.18,1
9,ENF. CRONICA PULMONAR OBSTRUCTIVA,"[<class 'str'>, <class 'float'>]",99.65,0.35,2


Se revisan algunas columnas para conocer su estructura y cambiamos el tipo de dato de las mismas segun lo veamos necesario.

In [5]:
df['BIOPSIAS PREVIAS'][0] #str

'NO'

In [6]:
df['VOLUMEN PROSTATICO'][0] #str

'SI'

In [7]:
df['CUP'][0] #str

'NO'

In [8]:
df['ENF. CRONICA PULMONAR OBSTRUCTIVA'][0]  #str

'NO'

In [9]:
df['NUMERO DE DIAS POST BIOPSIA EN QUE SE PRESENTA LA COMPLICACIÓN INFECCIOSA'] #reemplazar No por 0 / float

0       1
1       1
2       1
3       1
4       1
       ..
563    NO
564    NO
565    NO
566    NO
567    NO
Name: NUMERO DE DIAS POST BIOPSIA EN QUE SE PRESENTA LA COMPLICACIÓN INFECCIOSA, Length: 568, dtype: object

In [10]:
#reemplazo nan por 0.0
df['NUMERO DE DIAS POST BIOPSIA EN QUE SE PRESENTA LA COMPLICACIÓN INFECCIOSA'] = pd.to_numeric(
    df['NUMERO DE DIAS POST BIOPSIA EN QUE SE PRESENTA LA COMPLICACIÓN INFECCIOSA'], errors='coerce').fillna('0.0')


In [11]:
df['AGENTE AISLADO'] #str

0          NO
1          NO
2      E.COLI
3          NO
4      E.COLI
        ...  
563        NO
564        NO
565        NO
566       NaN
567        NO
Name: AGENTE AISLADO, Length: 568, dtype: object

In [12]:
df['HOSPITALIZACION'] #str

0      SI
1      SI
2      SI
3      SI
4      SI
       ..
563    NO
564    NO
565    NO
566    NO
567    NO
Name: HOSPITALIZACION, Length: 568, dtype: object

Este conjunto contiene 20 columnas y quedó con 568 filas luego de borrar las filas de NaN, aún contienen nulos en algunas columnas. Las columnas que contiene son:

- **EDAD**: Edad del paciente
- **DIABETES**: Indica si el paciente tiene o no diabetes
- **HOSPITALIZACIÓN ULTIMO MES**: Indica si el paciente fue hospitalizado el mes previo al procedimiento
- **PSA**: Concentración del PSA en la sangre 
- **BIOPSIAS PREVIAS**: Indica si el paciente a tenido biopsias previas
- **VOLUMEN PROSTATICO**: Indica si el volumen prostatico es mayor a 40 cm3
- **ANTIBIOTICO UTILIAZADO EN LA PROFILAXIS**: Indica el tipo de antibiotico utilizado en la profilaxis
- **NUMERO DE MUESTRAS TOMADAS**: Número de muestras tomadas en la biopsia
- **CUP**: Uso de cateter urinario al momento de la biopsia
- **ENF. CRONICA PULMONAR OBSTRUCTIVA**: Indica si el paciente tiene una enfermedad crónica pulmonar obstructiva
- **BIOPSIA**: Resultado de la biopsia
- **NUMERO DE DIAS POST BIOPSIA EN QUE SE PRESENTA LA COMPLICACIÓN INFECCIOSA**: Indica el tiempo al cual de presenta la complicación infecciosa con un máximo de 30 días
- **FIEBRE**: Indica si el paciente presenta fiebre
- **ITU**: Indica si el paciente presenta infección de tracto urinario
- **TIPO DE CULTIVO**: Tipo de cultivo encontrado
- **AGENTE AISLADO**: Tipo de agente aislado
- **PATRON DE RESISTENCIA**: Indica si presenta algún patrón de resistencia
- **HOSPITALIZACION**: Indica si el paciente fue hospitalizado luego del procedimiento
- **DIAS HOSPITALIZACION MQ**: Indica los días de hospitalización médico quirúrgico
- **DIAS HOSPITALIZACIÓN UPC**: Indica los días de hospitalización en estado crítico


In [13]:
#Convertimos de Object a Float y reemplazamos los valores nulos a 0 
df['PSA'] = df['PSA'].fillna(0).astype(float)

df['NUMERO DE DIAS POST BIOPSIA EN QUE SE PRESENTA LA COMPLICACIÓN INFECCIOSA'] = df['NUMERO DE DIAS POST BIOPSIA EN QUE SE PRESENTA LA COMPLICACIÓN INFECCIOSA'].replace('NO', '0').astype(float) 


In [14]:
df['DIABETES'] = df['DIABETES'].astype(str)

In [15]:
# Cambiar el tipo de datos a 'str'
columnas = ['DIABETES', 'HOSPITALIZACIÓN ULTIMO MES', 'BIOPSIAS PREVIAS', 'VOLUMEN PROSTATICO', 'ANTIBIOTICO UTILIAZADO EN LA PROFILAXIS', 'CUP', 
            'ENF. CRONICA PULMONAR OBSTRUCTIVA', 'BIOPSIA', 'FIEBRE', 'ITU', 'TIPO DE CULTIVO', 'AGENTE AISLADO', 'PATRON DE RESISTENCIA', 'HOSPITALIZACION']
for columna in columnas:
    df[columna] = df[columna].astype(str)


Reemplazo los valores 'nan' de mi dataframe, por 'NO'

In [16]:
df = df.replace('nan', 'NO')


In [17]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 568 entries, 0 to 567
Data columns (total 20 columns):
 #   Column                                                                     Non-Null Count  Dtype  
---  ------                                                                     --------------  -----  
 0   EDAD                                                                       568 non-null    float64
 1   DIABETES                                                                   568 non-null    object 
 2   HOSPITALIZACIÓN ULTIMO MES                                                 568 non-null    object 
 3   PSA                                                                        568 non-null    float64
 4   BIOPSIAS PREVIAS                                                           568 non-null    object 
 5   VOLUMEN PROSTATICO                                                         568 non-null    object 
 6   ANTIBIOTICO UTILIAZADO EN LA PROFILAXIS                   

Finalmente, se verifican el tipo de dato y si quedan nulos.

In [18]:
utils.verificar_tipo_datos(df)

Unnamed: 0,nombre_campo,tipo_datos,no_nulos_%,nulos_%,nulos
0,EDAD,[<class 'float'>],100.0,0.0,0
1,DIABETES,[<class 'str'>],100.0,0.0,0
2,HOSPITALIZACIÓN ULTIMO MES,[<class 'str'>],100.0,0.0,0
3,PSA,[<class 'float'>],100.0,0.0,0
4,BIOPSIAS PREVIAS,[<class 'str'>],100.0,0.0,0
5,VOLUMEN PROSTATICO,[<class 'str'>],100.0,0.0,0
6,ANTIBIOTICO UTILIAZADO EN LA PROFILAXIS,[<class 'str'>],100.0,0.0,0
7,NUMERO DE MUESTRAS TOMADAS,[<class 'float'>],100.0,0.0,0
8,CUP,[<class 'str'>],100.0,0.0,0
9,ENF. CRONICA PULMONAR OBSTRUCTIVA,[<class 'str'>],100.0,0.0,0


## Carga del dataset:BBDD_Hospitalización.xlsx
Se guarda el dataframe transformado como BBDD_Hospitalización_limpio

In [19]:
archivo_limpio = 'BBDD_Hospitalización_limpio.csv'
df.to_csv(archivo_limpio, index=False, encoding='utf-8')
print(f'Se guardó el archivo {archivo_limpio}')

Se guardó el archivo BBDD_Hospitalización_limpio.csv
