# Análisis de Hospitalización de Pacientes
Este notebook analiza los datos de pacientes hospitalizados y la duración de su estancia en días.

## 1. Importación de librerías
En esta sección se importan las librerías necesarias para el análisis, como **pandas** para manejo de datos y **numpy** para operaciones numéricas.

In [50]:
#importando librerias
import pandas as pd
import numpy as np

## 2. Carga de datos
Se carga el dataset `pacientes_hospitalizados_con_dias.csv` para su análisis inicial.

In [51]:
df = pd.read_csv("pacientes_hospitalizados_con_dias.csv")
print(df.head())

  ID_Paciente  Nombre  Edad Sexo   Diagnóstico Días_Hospitalización  \
0       P0001     Ana    52    M      Diabetes              26 días   
1       P0002    Juan    93    M      Fractura              22 días   
2       P0003  Miguel    15    F  Hipertensión             dos días   
3       P0004   Lucía    72    M      Diabetes              20 días   
4       P0005   Lucía    61    M      Fractura              27 días   

      Unidad Fecha_Ingreso Seguro_Médico    Ciudad  
0    Cirugía    2024-04-23            Sí  Medellín  
1        UCI    2024-01-08            No  Medellín  
2  Pediatría    2024-03-12            No      Cali  
3        UCI    2024-06-26            No    Bogotá  
4  Urgencias    2024-04-01            No  Medellín  


**Análisis preliminar:** El conjunto de datos muestra un ejemplo de las primeras filas, lo que permite validar que la carga fue exitosa.

In [52]:
df.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 500 entries, 0 to 499
Data columns (total 10 columns):
 #   Column                Non-Null Count  Dtype 
---  ------                --------------  ----- 
 0   ID_Paciente           500 non-null    object
 1   Nombre                500 non-null    object
 2   Edad                  500 non-null    int64 
 3   Sexo                  500 non-null    object
 4   Diagnóstico           500 non-null    object
 5   Días_Hospitalización  500 non-null    object
 6   Unidad                500 non-null    object
 7   Fecha_Ingreso         500 non-null    object
 8   Seguro_Médico         500 non-null    object
 9   Ciudad                500 non-null    object
dtypes: int64(1), object(9)
memory usage: 39.2+ KB


## 3. Exploración inicial del dataset
Con `df.info()` verificamos la cantidad de registros, tipos de datos y presencia de valores nulos.

In [53]:
#renombrando columna dias de hospitalizacion
df.rename(columns={"Días_Hospitalización": "dias_hospitalizacion"}, inplace=True)

**Interpretación:** Existen valores nulos en `dias_hospitalizacion` y algunos datos en formato de texto que requieren limpieza.

In [54]:
#contando datos nulos
print(f"Datos nulos: {df['dias_hospitalizacion'].isna().sum()}")

Datos nulos: 0


In [55]:
#encontrando valores unicos
print("VALORES UNICOS -dias hospitalizacion")
print(df["dias_hospitalizacion"].unique())

VALORES UNICOS -dias hospitalizacion
['26 días' '22 días' 'dos días' '20 días' '27 días' '8 días' '5 días'
 'N/A días' '3 días' '29 días' '7 días' '13 días' 'cinco días' '28 días'
 '4 días' '18 días' '25 días' '15 días' '24 días' '9 días' '17 días'
 '11 días' '14 días' '-1 días' '23 días' '12 días' '1 días' '0 días'
 '2 días' '21 días' '6 días' '10 días' '19 días' '-5 días' '30 días'
 '16 días' 'tres días']


In [56]:
#eliminar palabra dias y espacios alrededor
df.insert(6,"dias_hospitalizacion_limpio", df["dias_hospitalizacion"].str.replace("días","",case=False, regex=False).str.strip())

In [57]:
print(df["dias_hospitalizacion_limpio"].unique())

['26' '22' 'dos' '20' '27' '8' '5' 'N/A' '3' '29' '7' '13' 'cinco' '28'
 '4' '18' '25' '15' '24' '9' '17' '11' '14' '-1' '23' '12' '1' '0' '2'
 '21' '6' '10' '19' '-5' '30' '16' 'tres']


In [58]:
#corvientiendo a numerico dias_hospitalizacion_limpio
df["dias_hospitalizacion_limpio"] = pd.to_numeric(df
   ["dias_hospitalizacion_limpio"], errors="coerce")

In [59]:
print(df.head)

<bound method NDFrame.head of     ID_Paciente  Nombre  Edad Sexo   Diagnóstico dias_hospitalizacion  \
0         P0001     Ana    52    M      Diabetes              26 días   
1         P0002    Juan    93    M      Fractura              22 días   
2         P0003  Miguel    15    F  Hipertensión             dos días   
3         P0004   Lucía    72    M      Diabetes              20 días   
4         P0005   Lucía    61    M      Fractura              27 días   
..          ...     ...   ...  ...           ...                  ...   
495       P0496   Elena    93    F  Hipertensión              14 días   
496       P0497   Elena    67    M      Neumonía              13 días   
497       P0498   Lucía    76    F      Fractura              -5 días   
498       P0499  Andrés    26    F      Diabetes               0 días   
499       P0500   Elena    16    F      Covid-19              30 días   

     dias_hospitalizacion_limpio     Unidad Fecha_Ingreso Seguro_Médico  \
0                 

In [60]:
print(df["dias_hospitalizacion_limpio"].sort_values().unique())

[-5. -1.  0.  1.  2.  3.  4.  5.  6.  7.  8.  9. 10. 11. 12. 13. 14. 15.
 16. 17. 18. 19. 20. 21. 22. 23. 24. 25. 26. 27. 28. 29. 30. nan]


In [61]:
#obteniendo mediana para imputacion
mediana_i=df["dias_hospitalizacion_limpio"].median()
print(mediana_i)

15.0


In [62]:
# Imputar la mediana en los valores <= 0
df["dias_hospitalizacion_limpio"] = np.where(
    df["dias_hospitalizacion_limpio"] <= 0,
    mediana_i,
    df["dias_hospitalizacion_limpio"]
)

In [63]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 500 entries, 0 to 499
Data columns (total 11 columns):
 #   Column                       Non-Null Count  Dtype  
---  ------                       --------------  -----  
 0   ID_Paciente                  500 non-null    object 
 1   Nombre                       500 non-null    object 
 2   Edad                         500 non-null    int64  
 3   Sexo                         500 non-null    object 
 4   Diagnóstico                  500 non-null    object 
 5   dias_hospitalizacion         500 non-null    object 
 6   dias_hospitalizacion_limpio  430 non-null    float64
 7   Unidad                       500 non-null    object 
 8   Fecha_Ingreso                500 non-null    object 
 9   Seguro_Médico                500 non-null    object 
 10  Ciudad                       500 non-null    object 
dtypes: float64(1), int64(1), object(9)
memory usage: 43.1+ KB


In [65]:
df["dias_hospitalizacion_limpio"] = df["dias_hospitalizacion_limpio"].fillna(mediana_i)

In [66]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 500 entries, 0 to 499
Data columns (total 11 columns):
 #   Column                       Non-Null Count  Dtype  
---  ------                       --------------  -----  
 0   ID_Paciente                  500 non-null    object 
 1   Nombre                       500 non-null    object 
 2   Edad                         500 non-null    int64  
 3   Sexo                         500 non-null    object 
 4   Diagnóstico                  500 non-null    object 
 5   dias_hospitalizacion         500 non-null    object 
 6   dias_hospitalizacion_limpio  500 non-null    float64
 7   Unidad                       500 non-null    object 
 8   Fecha_Ingreso                500 non-null    object 
 9   Seguro_Médico                500 non-null    object 
 10  Ciudad                       500 non-null    object 
dtypes: float64(1), int64(1), object(9)
memory usage: 43.1+ KB


In [67]:
#cambio de tipo
df["dias_hospitalizacion_limpio"] = df["dias_hospitalizacion_limpio"].astype(int)

In [68]:
#media
media = df["dias_hospitalizacion_limpio"].mean()
media

15.426

In [69]:
#medidas de dispersion
rango = df["dias_hospitalizacion_limpio"].max() - df["dias_hospitalizacion_limpio"].min()
rango


29

In [70]:
#varianza
varianza = df["dias_hospitalizacion_limpio"].var()
varianza

56.38128657314648

In [73]:
desviacion_estandar = np.sqrt(varianza)
desviacion_estandar

7.508747337149285

In [74]:
#otra forma de desviacion estandar
desviacion_estandarr = df["dias_hospitalizacion_limpio"].std()
desviacion_estandarr

7.508747337149285

In [78]:
#coeficiente de variacion
coeficiente_variacion = ((desviacion_estandar) / (media)) * 100
coeficiente_variacion

48.675919468101156