# Ingesta, análisis exploratorio y visualización de datos
En este notebook vamos a implementar el análisis exploratorio de datos (EDA) para analizar datasets para resumir sus principales características.
Usando EDA, se puede entender una dataset de una manera fácil, encontrar patrones, identificar valores anómalos y explorar a relación entre variables usando técnicas tanto gráficas como no gráficas.

EDA también nos ayuda a escoger cuál característica debe ser considerada para usar en nuestro modelo de machine learning.

## Tabla de contenido
1. Entendiendo el caso
2. Descripción de las variables
3. Entendimiento de las variables
4. Limpieza de las variables
5. Visualización de los datos

## 1. Entendiendo el caso
Nuestro problema aborda una serie de datos clínicos, para-clínicos y socio demográficos de pacientes que han desarrollado sepsis. Nuestro equipo "Health Tech Synergy" desarrolla predictivo para determinar la suceptibilidad de un individuo par desarrollar sepsis a partir de estos datos.

## 2. Descripción de las variables
Estas son las variables contenidas en nuestra base de datos:

| **Variable**       | **Tipo**         | **Descripción**                                                                                                                                           |
|--------------------|------------------|-----------------------------------------------------------------------------------------------------------------------------------------------------------|
| HR                 | Clínica           | Frecuencia cardíaca del paciente (pulsaciones por minuto).                                                                                                |
| O2Sat              | Clínica           | Saturación de oxígeno en la sangre (%).                                                                                                                   |
| Temp               | Clínica           | Temperatura corporal (°C).                                                                                                                                |
| SBP                | Clínica           | Presión arterial sistólica (mmHg).                                                                                                                        |
| MAP                | Clínica           | Presión arterial media (mmHg).                                                                                                                            |
| DBP                | Clínica           | Presión arterial diastólica (mmHg).                                                                                                                       |
| Resp               | Clínica           | Frecuencia respiratoria (respiraciones por minuto).                                                                                                        |
| SepsisLabel        | Clínica           | Indicador de sepsis (0: No sepsis, 1: Sepsis).                                                                                                            |
| ICULOS             | Clínica           | Duración de la estancia en la unidad de cuidados intensivos (horas).                                                                                       |
| EtCO2              | Paraclínica       | Presión de dióxido de carbono al final de la espiración.                                                                                                   |
| BaseExcess         | Paraclínica       | Exceso de base en la sangre (medido en mEq/L).                                                                                                            |
| HCO3               | Paraclínica       | Bicarbonato en sangre (mEq/L).                                                                                                                            |
| FiO2               | Paraclínica       | Fracción inspirada de oxígeno (porcentaje).                                                                                                               |
| pH                 | Paraclínica       | pH sanguíneo.                                                                                                                                            |
| PaCO2              | Paraclínica       | Presión parcial de dióxido de carbono (mmHg).                                                                                                             |
| SaO2               | Paraclínica       | Saturación de oxígeno arterial (%).                                                                                                                       |
| AST                | Paraclínica       | Aspartato aminotransferasa, un marcador de daño hepático.                                                                                                 |
| BUN                | Paraclínica       | Nitrógeno ureico en sangre (mg/dL), indicador de función renal.                                                                                           |
| Alkalinephos       | Paraclínica       | Fosfatasa alcalina, un marcador de función hepática y ósea.                                                                                               |
| Calcium            | Paraclínica       | Nivel de calcio en la sangre (mg/dL).                                                                                                                     |
| Chloride           | Paraclínica       | Nivel de cloro en la sangre (mmol/L).                                                                                                                     |
| Creatinine         | Paraclínica       | Creatinina en sangre, indicador de la función renal (mg/dL).                                                                                              |
| Bilirubin_direct   | Paraclínica       | Bilirrubina directa (mg/dL).                                                                                                                              |
| Glucose            | Paraclínica       | Nivel de glucosa en sangre (mg/dL).                                                                                                                       |
| Lactate            | Paraclínica       | Nivel de lactato en sangre, indicador de hipoxia (mmol/L).                                                                                                |
| Magnesium          | Paraclínica       | Nivel de magnesio en sangre (mg/dL).                                                                                                                      |
| Phosphate          | Paraclínica       | Nivel de fosfato en sangre (mg/dL).                                                                                                                       |
| Potassium          | Paraclínica       | Nivel de potasio en sangre (mmol/L).                                                                                                                      |
| Bilirubin_total    | Paraclínica       | Bilirrubina total en sangre (mg/dL).                                                                                                                      |
| TroponinI          | Paraclínica       | Troponina I, un marcador de daño cardíaco.                                                                                                                |
| Hct                | Paraclínica       | Hematocrito, proporción de glóbulos rojos en la sangre (%).                                                                                               |
| Hgb                | Paraclínica       | Hemoglobina en sangre (g/dL).                                                                                                                             |
| PTT                | Paraclínica       | Tiempo de tromboplastina parcial, evalúa la coagulación (segundos).                                                                                       |
| WBC                | Paraclínica       | Recuento de glóbulos blancos (10^9/L).                                                                                                                    |
| Fibrinogen         | Paraclínica       | Nivel de fibrinógeno en sangre (mg/dL), un factor de coagulación.                                                                                         |
| Platelets          | Paraclínica       | Conteo de plaquetas en sangre (10^9/L).                                                                                                                   |
| Age                | Sociodemográfica  | Edad del paciente (años).                                                                                                                                 |
| Gender             | Sociodemográfica  | Género del paciente (0: Mujer, 1: Hombre).                                                                                                                |
| Unit1              | Sociodemográfica  | Unidad en la que se encuentra el paciente (0: No es unidad 1, 1: Es unidad 1).                                                                            |
| Unit2              | Sociodemográfica  | Segunda unidad en la que se encuentra el paciente (0: No es unidad 2, 1: Es unidad 2).                                                                    |
| HospAdmTime        | Sociodemográfica  | Tiempo desde la admisión hospitalaria hasta el inicio del registro (horas).                                                                                |
| Patient_ID         | Sociodemográfica  | Identificación única del paciente.                                                                                                                        |



## 3. Entendimiento de los datos
Para comprender los datos debemos cargarlos en nuestro sistema. Para comenzar cargamos las  librerías necesarias para nuestro análisis.

In [1]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

sns.set_style('whitegrid')

import warnings
warnings.filterwarnings('ignore')

filename = 'data/sepsis_ejemplo.csv'
df = pd.read_csv(filename)

### Visualizando algunas variables
Obtenemos las 5 primeras filas del dataset. Esto se hace con la función *df.head()* para obtener una muestra al azar se usa *df.sample()*. Para obtener las últimas se usa *df.tail()*.

In [2]:
df.head()

Unnamed: 0.2,Unnamed: 0.1,Unnamed: 0,Hour,HR,O2Sat,Temp,SBP,MAP,DBP,Resp,...,Fibrinogen,Platelets,Age,Gender,Unit1,Unit2,HospAdmTime,ICULOS,SepsisLabel,Patient_ID
0,1353110,53,53,61.5,99.5,38.25,140.0,89.0,64.0,20.0,...,,,72.0,1,0.0,1.0,-84.73,54,0,117203
1,1259425,15,15,90.0,96.0,36.8,125.0,77.0,54.0,20.0,...,,,75.0,0,0.0,1.0,-25.44,16,0,115025
2,15353,18,18,78.0,97.0,,121.0,86.0,76.0,21.0,...,,,68.63,1,0.0,1.0,-67.35,23,0,14692
3,223518,26,26,82.0,95.0,,133.0,80.0,59.0,12.0,...,,,66.36,1,,,-0.02,31,0,16777
4,917766,23,23,84.0,96.0,,151.0,130.0,115.0,26.0,...,,,55.0,0,0.0,1.0,-6.26,24,0,100738


### Obteniendo información general de la base de datos
El método *df.info()* devuelve la información acerca del Dataframe incluyendo el índice, el tipo de datos y columnas, valores no nulos y la memoria usada

In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 15522 entries, 0 to 15521
Data columns (total 45 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   Unnamed: 0.1      15522 non-null  int64  
 1   Unnamed: 0        15522 non-null  int64  
 2   Hour              15522 non-null  int64  
 3   HR                13933 non-null  float64
 4   O2Sat             13479 non-null  float64
 5   Temp              5204 non-null   float64
 6   SBP               13204 non-null  float64
 7   MAP               13522 non-null  float64
 8   DBP               10628 non-null  float64
 9   Resp              13048 non-null  float64
 10  EtCO2             570 non-null    float64
 11  BaseExcess        779 non-null    float64
 12  HCO3              643 non-null    float64
 13  FiO2              1232 non-null   float64
 14  pH                1001 non-null   float64
 15  PaCO2             821 non-null    float64
 16  SaO2              528 non-null    float6

### Obtenemos la forma de la base de base de datos

In [4]:
df.shape

(15522, 45)

### Inspeccionamos las nombres de las variables

In [5]:
df.columns

Index(['Unnamed: 0.1', 'Unnamed: 0', 'Hour', 'HR', 'O2Sat', 'Temp', 'SBP',
       'MAP', 'DBP', 'Resp', 'EtCO2', 'BaseExcess', 'HCO3', 'FiO2', 'pH',
       'PaCO2', 'SaO2', 'AST', 'BUN', 'Alkalinephos', 'Calcium', 'Chloride',
       'Creatinine', 'Bilirubin_direct', 'Glucose', 'Lactate', 'Magnesium',
       'Phosphate', 'Potassium', 'Bilirubin_total', 'TroponinI', 'Hct', 'Hgb',
       'PTT', 'WBC', 'Fibrinogen', 'Platelets', 'Age', 'Gender', 'Unit1',
       'Unit2', 'HospAdmTime', 'ICULOS', 'SepsisLabel', 'Patient_ID'],
      dtype='object')

### Estadisticas descriptivas para la base de datos

In [6]:
df.describe()

Unnamed: 0.2,Unnamed: 0.1,Unnamed: 0,Hour,HR,O2Sat,Temp,SBP,MAP,DBP,Resp,...,Fibrinogen,Platelets,Age,Gender,Unit1,Unit2,HospAdmTime,ICULOS,SepsisLabel,Patient_ID
count,15522.0,15522.0,15522.0,13933.0,13479.0,5204.0,13204.0,13522.0,10628.0,13048.0,...,108.0,931.0,15522.0,15522.0,9418.0,9418.0,15522.0,15522.0,15522.0,15522.0
mean,778737.4,25.395954,25.395954,84.571916,97.160732,36.965436,123.532055,82.136896,63.604582,18.746417,...,289.722222,191.363588,61.987202,0.558949,0.496178,0.503822,-55.780407,26.870378,0.017781,59807.965533
std,448228.3,28.845925,28.845925,17.398287,2.978057,0.770606,23.349641,16.558597,14.262691,5.159581,...,156.084439,97.33014,16.365492,0.496529,0.500012,0.500012,163.009917,28.860795,0.13216,50286.6535
min,12.0,0.0,0.0,31.0,20.0,31.9,39.0,21.0,20.0,1.0,...,52.0,8.0,15.0,0.0,0.0,0.0,-5366.86,1.0,0.0,9.0
25%,391385.0,9.0,9.0,72.0,96.0,36.5,106.25,71.0,54.0,15.5,...,191.5,123.5,52.0,0.0,0.0,0.0,-45.7725,11.0,0.0,10241.0
50%,784222.0,19.0,19.0,83.0,98.0,37.0,121.0,80.0,62.0,18.0,...,258.5,180.0,64.0,1.0,0.0,1.0,-6.12,21.0,0.0,20493.5
75%,1164367.0,33.0,33.0,95.0,99.5,37.44,138.0,91.67,72.0,21.0,...,322.75,237.5,74.0,1.0,1.0,1.0,-0.04,34.0,0.0,110087.0
max,1552206.0,329.0,329.0,181.0,100.0,42.22,296.0,296.0,296.0,99.0,...,816.0,902.0,100.0,1.0,1.0,1.0,22.04,330.0,1.0,119992.0


In [7]:
list(df.SepsisLabel.unique())

[0, 1]

In [8]:
asdasd

NameError: name 'asdasd' is not defined

<a style='text-decoration:none;line-height:16px;display:flex;color:#5B5B62;padding:10px;justify-content:end;' href='https://deepnote.com?utm_source=created-in-deepnote-cell&projectId=b931f52d-e49b-43bc-8480-f1d6d97b9312' target="_blank">
 </img>
Created in <span style='font-weight:600;margin-left:4px;'>Deepnote</span></a>