# Synthetic Health Data Analysis

## Parte 1 — Análisis exploratorio y limpieza de datos

### 1. Carga y corrección del dataset

- El archivo original presentaba errores de formato: algunas columnas estaban mal separadas debido a comas internas y dobles comillas.
- Realizamos una corrección manual del archivo `.csv` para que las columnas quedaran correctamente alineadas, reduciendo de 60 a 57 columnas.
- Cargamos nuevamente los datos corregidos.

### 2. Análisis de valores faltantes y valores ‘unknown’

- Identificamos valores `NaN` y valores con la cadena `'unknown'` en varias columnas categóricas.
- Reemplazamos los valores `'unknown'` con `NaN`.
- Imputamos valores faltantes en variables categóricas usando la moda agrupada teniendo en cuenta la variable relacionada (eg., Actividad fisica y frecuencia).

### 3. Corrección de tipos de datos

- Ajustamos columnas mal interpretadas como `object` a su tipo correcto (`int`, `float` o `datetime`).

### 4. Tratamiento de valores atípicos y extremos

- Detectamos valores extremos en **Peso** y **Talla** y los reemplazamos por `NaN`.
- Luego imputamos estos valores utilizando la media agrupada por género y sede, reemplazando NaN por este promedio.

### 5. Correción variables de Edad y Grupos Etarios

- Detectamos inconsistencias entre la fecha de nacimiento, la edad reportada y el grupo etario.
- Creamos dos columnas que calcularan la edad según la fecha de nacimiento y otra para calcular el grupo etario correcto basado en la edad calculada.

### 6. Variables derivadas creadas

- **IMC:** Calculamos el índice de masa corporal.
- **Categoría de IMC:** Clasificamos en Delgado aceptable, Normal, Sobrepeso y Obeso tipo 1.
- **Riesgo\_Salud\_Global:**
  - Considera edad, género, IMC, días perdidos, días de atención médica y actividad física.
  - Clasificación: Bajo riesgo, Riesgo medio y Riesgo alto.

### 7. Ajuste de variables de tensión arterial

- Ajustamos las columnas de **Tensión arterial sistólica** interpretación y **Tensión arterial diastólica** interpretación, basados en la medición de la Tensión arterial.
- Según el resultado clasificamos en: Normal, Prehipertenso e Hipertenso

## Parte 2 — Visualizaciones avanzadas y análisis de patrones

### 1. Análisis de patrones

- Relación entre edad, género, sede y nivel de riesgo.
- Asociación entre actividad física, días perdidos y riesgo.

### 2. Visualizaciones adicionales

- Gráficos de riesgo por sede y por género.
- Distribuciones conjuntas de días perdidos y riesgo.

## Código para visualizaciones

```python
import matplotlib.pyplot as plt
import seaborn as sns

plt.figure(figsize=(10,6))
sns.countplot(data=df, x='Sede', hue='Riesgo_Salud_Global', palette='coolwarm')
plt.title('Riesgo global de salud por sede')
plt.xlabel('Sede')
plt.ylabel('Cantidad')
plt.legend(title='Riesgo Salud Global')
plt.show()

plt.figure(figsize=(10,6))
sns.countplot(data=df, x='Genero', hue='Riesgo_Salud_Global', palette='viridis')
plt.title('Riesgo global de salud por género')
plt.xlabel('Género')
plt.ylabel('Cantidad')
plt.legend(title='Riesgo Salud Global')
plt.show()
```

