# üß™ SP4 Data Wrangling  PII

**Objetivo del webinar:**  
Desarrollar habilidades pr√°cticas para la exploraci√≥n, transformaci√≥n y visualizaci√≥n de datos usando Pandas, dentro del proceso de an√°lisis de datos en Python.

## üéØ Objetivos principales de la sesi√≥n

1. **Identificar y manipular tipos de datos** en un DataFrame para asegurar una base s√≥lida en el preprocesamiento.
2. **Aplicar transformaciones y crear nuevas variables** para enriquecer la informaci√≥n disponible y facilitar el an√°lisis.
3. **Construir visualizaciones b√°sicas** para explorar relaciones y comunicar hallazgos de forma efectiva.


## ü©∫  Datos de salud p√∫blica

Imagina que formas parte del equipo de an√°lisis de una instituci√≥n de salud p√∫blica. Se te ha asignado la tarea de explorar y analizar un conjunto de datos con informaci√≥n de pacientes atendidos por una enfermedad respiratoria durante el **2023**. El objetivo es identificar patrones relevantes, agrupar informaci√≥n clave y generar visualizaciones que apoyen la toma de decisiones cl√≠nicas y epidemiol√≥gicas.

El conjunto de datos incluye variables como: edad, sexo, fechas de ingreso y egreso hospitalario, regi√≥n geogr√°fica, s√≠ntomas reportados, diagn√≥stico confirmado, resultado de laboratorio, d√≠as de hospitalizaci√≥n y estado final del paciente.

### üéØ Objetivos del caso pr√°ctico

1. **Limpiar y preparar los datos** para asegurar su calidad y consistencia antes del an√°lisis.
2. **Generar nuevas variables derivadas**, como duraci√≥n de hospitalizaci√≥n y grupos de edad, para facilitar la segmentaci√≥n y el an√°lisis.
3. **Explorar visualmente los datos** mediante histogramas, gr√°ficos de barras y l√≠neas, para comprender mejor la distribuci√≥n de los casos y su evoluci√≥n en el tiempo.


### Diccionario de datos

| Columna             | Descripci√≥n                                                                 |
|---------------------|------------------------------------------------------------------------------|
| id_paciente         | Identificador √∫nico asignado a cada paciente.                               |
| edad                | Edad del paciente en a√±os.                                                  |
| sexo                | Sexo del paciente, puede ser "masculino" (M) o "femenino" (F).              |
| fecha_ingreso       | Fecha en la que el paciente ingres√≥ al hospital.                            |
| fecha_egreso        | Fecha en la que el paciente egres√≥ del hospital.                            |
| region              | Regi√≥n geogr√°fica donde reside el paciente.                                 |
| sintoma_principal   | S√≠ntomas que present√≥ el paciente.                                          |
| diagnostico         | Diagn√≥stico m√©dico confirmado para el paciente.                             |
| resultado_laboratorio | Resultados de las pruebas de laboratorio realizadas al paciente.         |
| estado_paciente     | Estado final/actual del paciente.                                           |
| spo2                | Nivel de saturaci√≥n de ox√≠geno en la sangre, expresado como porcentaje.     |
| presion_sanguinea   | Medida de la presi√≥n arterial del paciente, expresada como "sist√≥lica/diast√≥lica". |


### Cargado de datos y herramientas

In [None]:
import pandas as pd
import matplotlib.pyplot as plt


In [None]:
# Datos en google sheets por si desean replicar en casa
# https://docs.google.com/spreadsheets/d/1KXcXTFe02SqSKsmd6S36bbbwVkVwZNUFZq-aYsDX-i4/edit?usp=sharing
PATH="/content/base_de_datos_de_salud_publica - base_de_datos_de_salud_publica.csv" ## Agrega aqu√≠ la ruta de tu archivo

In [None]:
datos = pd.read_csv(PATH)
datos

### Familizarizaci√≥n con los datos

In [None]:
datos.info()

> ¬øLos datos tiene el formato adecuado? ü§î


### Conversi√≥n de datos

#### Num√©ricos

In [None]:
# Casteo de string a int
datos['edad'].astype(int) # Conversion no segura

In [None]:
datos['edad'] = pd.to_numeric(datos['edad'], errors='coerce') # Conversi√≥n segura

> `pd.to_numeric()` es m√°s seguro que `.astype(int)` porque convierte errores en `NaN` en lugar de fallar.  
> √ötil cuando no est√°s seguro de que todo sea n√∫mero.

In [None]:
datos['presion_arterial']

In [None]:
# Divide en dos columnas con el m√©todo str.split(expand=True)
presion_split = datos['presion_arterial'].str.replace('mmHg', '').str.strip().str.split("/", expand=True)

# Asigna los valores a nuevas columnas
datos['presion_arterial_sistolica'] = pd.to_numeric(presion_split[0], errors='coerce')
datos['presion_arterial_distolica'] = pd.to_numeric(presion_split[1], errors='coerce')

datos

#### Fechas

---

> **DATETIME**: Objeto que representa fechas y horas en pandas, permitiendo operaciones como filtrado, extracci√≥n y conversi√≥n de componentes temporales.


---

In [None]:
pd.to_datetime(datos['fecha_ingreso']).info()

In [None]:
datos['fecha_ingreso'] = pd.to_datetime(datos['fecha_ingreso'],format='%Y-%m-%d', errors='coerce')
datos['fecha_egreso'] = pd.to_datetime(datos['fecha_egreso'],format='%Y-%m-%d', errors='coerce')

---


##### Par√°metros `format` y `errors` en `pd.to_datetime`

- **`format`**: Define el formato exacto de la fecha para mejorar rendimiento y evitar ambig√ºedades.  
  Se usa con c√≥digos de formato tipo `strftime`, por ejemplo:
  - `%Y-%m-%d` ‚Üí `2023-12-31` (ISO est√°ndar)
  - `%d/%m/%Y` ‚Üí `31/12/2023`
  - `%m-%d-%Y %H:%M` ‚Üí `12-31-2023 15:45`
  - `%Y-%m-%dT%H:%M:%SZ` ‚Üí con zona horaria en UTC (ISO 8601 con Z)

- **`errors`**: Maneja errores durante la conversi√≥n.
  - `"raise"` (default): lanza error si hay un valor inv√°lido.
  - `"coerce"`: convierte errores en `NaT` (Not a Time).
  - `"ignore"`: devuelve el original sin convertir.

##### Formatos que pandas detecta autom√°ticamente
Pandas reconoce muchas estructuras comunes sin necesidad de especificar `format`, como:
- `2023-12-31`
- `31/12/2023`
- `Dec 31, 2023`
- `2023-12-31T23:59:59Z` (formato ISO con zona horaria)
- `2023-12-31 23:59:59+00:00` (con offset de zona horaria)

##### Referencia para profundizar en `format` de fechas

Puedes revisar la documentaci√≥n oficial de Python sobre `strftime` y `strptime` aqu√≠:  
[https://docs.python.org/3/library/datetime.html#strftime-and-strptime-format-codes](https://docs.python.org/3/library/datetime.html#strftime-and-strptime-format-codes)

Ah√≠ encontrar√°s todos los c√≥digos disponibles como `%Y` (a√±o), `%m` (mes), `%d` (d√≠a), `%H` (hora), entre otros.



---

In [None]:
datos.info()

In [None]:
datos.head()

### Ingenier√≠a de caracter√≠sticas

In [None]:
#Crea una estimaci√≥n del a√±o de nacimiento del paciente
datos['a√±o_nacimiento']= 2023 - datos['edad']

In [None]:
datos.head()

In [None]:
#Determina los dias que el paciente estuvo hospitalizado
datos['dias_hospitalizacion']= datos['fecha_egreso']-datos['fecha_ingreso']

In [None]:
datos.head()

In [None]:
datos['fecha_ingreso'].dt.year.unique()

In [None]:
# Convierte los dias a numeros en vez de ventana de tiempo
datos['dias_hospitalizacion'] = datos['dias_hospitalizacion'].dt.days

In [None]:
datos.info()

Si tenemos una columna de dia, otra de mes y otra se a√±o, c√≥mo podr√≠amos construir una sola columna de fecha?

In [None]:
data = {'day': [15, 28, 5, 10],
        'month': [1, 2, 3, 4],
        'year': [2023, 2024, 2025, 2023]}
df = pd.DataFrame(data)

#Construir la columna de fecha
df['Fecha'] = pd.to_datetime(df[['year', 'month', 'day']])

---

`apply()` permite aplicar funciones a filas o columnas. Usa `axis=0` para columnas y `axis=1` para filas, permitiendo operaciones personalizadas sobre cada elemento.

---

In [None]:
#Crear columna ‚Äúgrupo de edad‚Äù (ni√±o, adulto, adulto mayor)
def edad_a_grupo(edad):
    if edad < 18:
        return 'Ni√±o'
    elif edad < 65:
        return 'Adulto'
    else:
        return 'Adulto mayor'

datos['grupo_edad'] = datos['edad'].apply(edad_a_grupo)
datos


In [None]:
#Generar una bandera de ‚Äúcaso grave‚Äù si la persona estuvo m√°s de 7 d√≠as hospitalizada o falleci√≥

def caso_grave(row):
  dias_hospitalizacion = row['dias_hospitalizacion']
  estado_paciente = row['estado_paciente']
  return dias_hospitalizacion > 7 or estado_paciente.lower() == 'fallecido'


datos['caso_grave'] = datos.apply(caso_grave, axis=1)
datos

### Transformaci√≥n de datos

#### Agregaci√≥n de variables`Agg`

El equipo de salud p√∫blica necesita comprender c√≥mo var√≠an la edad, la duraci√≥n de la hospitalizaci√≥n y la gravedad de la enfermedad entre los diferentes grupos de edad. Esto les permitir√° identificar grupos de mayor riesgo y adaptar las estrategias de prevenci√≥n y tratamiento. Por ejemplo, si se observa que los adultos mayores tienen una mayor duraci√≥n de hospitalizaci√≥n y una mayor cantidad de casos graves, se podr√≠an implementar medidas espec√≠ficas para proteger a este grupo vulnerable.

---

`.agg()` es una funci√≥n de Pandas que permite aplicar una o varias funciones de agregaci√≥n a un DataFrame o Series, usualmente despu√©s de agrupar con `groupby()`.

**Par√°metros:**

* **`func`:** Puede ser:
    * Una funci√≥n:  `np.mean`, `sum`, `min`, `max`, etc.
    * Una lista de funciones:  `[np.mean, 'sum']`
    * Un diccionario: `{columna: funci√≥n, otra_columna: ['min', 'max']}`
    * listado nombres: `nombre_1= (columna_1, funci√≥n_1), nombre_2= (columna_2, funci√≥n_2), nombre_3= (columna_3, funci√≥n_3)`

**Funciones Default:**

Algunas funciones comunes accesibles directamente son:
* `'mean'`
* `'sum'`
* `'size'` (cuenta elementos)
* `'count'` (cuenta valores no nulos)
* `'std'` (desviaci√≥n est√°ndar)
* `'var'` (varianza)
* `'min'`
* `'max'`
* `'first'` (primer valor)
* `'last'` (√∫ltimo valor)
* `'nunique'` (cuenta valores √∫nicos)


---

In [None]:
# Muestra una tabla que indique la duraci√≥n promedio de la hospitalizaci√≥n  y la cantidad de casos graves por grupo de edad

(datos
 .groupby('grupo_edad',as_index=False)
 .agg(
     dias_hospitalizacion_avg=('dias_hospitalizacion', 'mean'),
     total_de_casos = ('id_paciente','count'),
     casos_graves_count=('caso_grave', 'sum'),
     casos_graves_rate = ('caso_grave', 'mean')
    )
  .sort_values('casos_graves_rate', ascending=False)
)

>¬øQu√© sugieren los datos?

#### Tablas din√°micas `pivot_tables`

Se requiere un an√°lisis de la distribuci√≥n geogr√°fica de los casos y su relaci√≥n con el estado del paciente. Se busca identificar si existen regiones con mayor incidencia de casos o con mayor mortalidad. Esto podr√≠a ayudar a comprender factores geogr√°ficos que influyen en la propagaci√≥n de la enfermedad y a asignar recursos de manera eficiente a las zonas m√°s afectadas.

---

`pivot_table` es una funci√≥n de Pandas que crea una tabla din√°mica a partir de un DataFrame. Permite resumir y agregar datos de forma flexible, similar a las tablas din√°micas en hojas de c√°lculo.

**Par√°metros:**

* **`data`:** El DataFrame a utilizar.
* **`values`:** La columna o columnas a agregar (opcional, si se omite se usa `aggfunc='size'` para contar).
* **`index`:** La columna o columnas a usar como √≠ndice (filas de la tabla).
* **`columns`:** La columna o columnas a usar como columnas de la tabla.
* **`aggfunc`:** La funci√≥n o funciones de agregaci√≥n a aplicar (por defecto `'mean'`).
    * Puede ser una funci√≥n, una lista de funciones, o un diccionario que mapea columnas a funciones.
    * `'size'` cuenta la cantidad de elementos en cada grupo.





---

In [None]:
(
datos
  .groupby(['region','estado_paciente'],as_index=False)
  .agg(casos=('id_paciente','count'))
)

In [None]:
#Crea una pivot_table que muestre la cantidad de pacientes por regi√≥n geogr√°fica
# y estado del paciente (recuperado, fallecido).
datos.pivot_table(
    index='region',
    columns='estado_paciente',
    values='id_paciente',
    aggfunc='count'
)

#### Unir dataframes

Para comprender mejor la situaci√≥n, necesitan comparar la tasa de casos graves de cada regi√≥n con la tasa nacional. Esto les permitir√° identificar las regiones con tasas significativamente m√°s altas o m√°s bajas que el promedio nacional, lo que podr√≠a indicar la necesidad de intervenciones espec√≠ficas o la asignaci√≥n de recursos adicionales.

---


`merge()` es una funci√≥n de Pandas que permite combinar dos DataFrames en funci√≥n de una o m√°s columnas clave. Es similar a las operaciones JOIN en bases de datos relacionales.

**Funcionamiento:**

`merge()` busca coincidencias entre las columnas clave especificadas en ambos DataFrames y crea un nuevo DataFrame que contiene las columnas de ambos DataFrames, combinadas en funci√≥n de las coincidencias.

**Par√°metros clave:**

* **`left`:** El primer DataFrame.
* **`right`:** El segundo DataFrame.
* **`on`:** Nombre de la columna o columnas clave comunes en ambos DataFrames.
* **`how`:** Tipo de uni√≥n a realizar:
    * `'left'` (por defecto): Uni√≥n izquierda.
    * `'right'` : Uni√≥n derecha.
    * `'inner'` : Uni√≥n interna.
    * `'outer'` : Uni√≥n externa.



---

In [None]:
casos_graves_rates=(datos
                    .groupby('region',as_index=False)
                    .agg(casos_graves_rate = ('caso_grave', 'mean'))
                    )

casos_graves_rates['casos_graves_rate'] = casos_graves_rates['casos_graves_rate'].round(2)
casos_graves_rates

In [None]:
referencia_nacional=[
    {'region': 'Centro', 'Tasa Nacional': 0.35},
    {'region': 'Este', 'Tasa Nacional': 0.54},
    {'region': 'Norte', 'Tasa Nacional': 0.45},
    {'region': 'Oeste', 'Tasa Nacional': 0.49},
    {'region': 'Sur', 'Tasa Nacional': 0.47}
]

referencia_nacional = pd.DataFrame(referencia_nacional)
referencia_nacional

In [None]:
(
    casos_graves_rates
    .merge(referencia_nacional, on='region', how='left')
)

> ¬øQu√© sugieren los datos?

### Visualizaci√≥n de datos

El equipo de salud p√∫blica necesita comprender la distribuci√≥n de la edad de los pacientes que han sido atendidos por una enfermedad respiratoria. Esto les permitir√° identificar los grupos de edad m√°s afectados y adaptar las estrategias de prevenci√≥n y tratamiento de manera espec√≠fica. Por ejemplo, si se observa una alta concentraci√≥n de pacientes en un rango de edad particular, se podr√≠an enfocar las campa√±as de vacunaci√≥n o las medidas de prevenci√≥n en ese grupo.

---



`.plot()` es una funci√≥n para crear gr√°ficos como l√≠neas, dispersi√≥n, histogramas y barras.

**Uso:**
* **`kind`:** Tipo de gr√°fico (`'line'`, `'scatter'`, `'hist'`, `'bar'`, etc.). Por defecto: `'line'`.
* **`kwargs`:** Opciones adicionales (t√≠tulo, etiquetas, color, tama√±o, etc.).

**Tipos de gr√°ficos:**

* `'line'` (por defecto): Gr√°fico de l√≠neas.
* `'scatter'`: Gr√°fico de dispersi√≥n.
* `'hist'`: Histograma.
* `'bar'`: Gr√°fico de barras.
* `'box'`: Diagrama de caja.
* `'pie'`: Gr√°fico circular.
* `'kde'`: Gr√°fico de densidad.



**Referencias**

* [Dataframe plot](https://pandas.pydata.org/pandas-docs/version/2.1.3/reference/api/pandas.DataFrame.plot.html)


---

## ¬øC√≥mo varia la presion arterial de los pacientes?

In [None]:
datos['presion_arterial_sistolica'].plot(kind='hist', bins=10, edgecolor='black',color='green')
plt.title('Distribuci√≥n de la presion sist√≥lica de los pacientes')
plt.xlabel('Presion (mmHg)')
plt.ylabel('Frecuencia')

In [None]:
datos['presion_arterial_distolica'].plot(kind='hist', bins=25, edgecolor='black')
plt.title('Distribuci√≥n de la presion dist√≥lica de los pacientes')
plt.xlabel('Presion (mmHg)')
plt.ylabel('Frecuencia')

In [None]:
datos['presion_arterial_distolica'].min()

## ¬øC√≥mo se distribuyen por grupo de edad?

In [None]:
valores_por_grupo_de_edad=datos['grupo_edad'].value_counts()
valores_por_grupo_de_edad.plot(kind='bar', edgecolor='black', rot=0)
plt.title('Distribuci√≥n de la edad de los pacientes')
plt.xlabel('Grupo de edad')
plt.ylabel('Casos')

In [None]:
valores_por_grupo_de_edad.plot(kind='pie', autopct='%1.2f%%')
plt.title('Distribuci√≥n de la edad de los pacientes')
plt.xlabel('Grupo de edad')
plt.ylabel('Casos')