# Proyecto: Predicción de Anemia en Mujeres

## 📊 Perfil del Proyecto

## Fase 1. Business Understanding

La anemia en mujeres en edad fértil representa un desafío significativo de salud pública en Perú, con una prevalencia nacional que oscila entre 30-40% según reportes del Ministerio de Salud. La detección temprana es crucial para implementar intervenciones efectivas, pero los métodos actuales de screening presentan limitaciones en cobertura y eficiencia. Este proyecto busca desarrollar un modelo predictivo que permita identificar mujeres en riesgo de anemia utilizando datos disponibles de encuestas nacionales de salud.

### 1. Objetivos
Objetivo Principal:
Desarrollar un modelo de clasificación binaria que prediga la presencia de anemia en mujeres peruanas en edad fértil (15-49 años) con un F1-Score ≥ 0.85.

#### Objetivos Específicos:

1. Identificar los cinco principales factores de riesgo asociados con anemia
2. Establecer un sistema de priorización para intervenciones de salud pública

3. Reducir los costos operativos de screening en al menos 30%

4. Proporcionar recomendaciones accionables para programas de prevención

### Criterios de Éxito
#### Métricos Técnicos:

- F1-Score: ≥ 0.85 en validación cruzada

- Precisión: ≥ 0.80

- Sensibilidad: ≥ 0.85

- AUC-ROC: ≥ 0.90

#### Métricas de Negocio:

- Identificación de al menos 5 factores de riesgo con significancia estadística

- Reducción del 30% en costos de screening mediante focalización

- Tasa de detección temprana del 80% en población de riesgo

- Validación y aceptación por parte de expertos en salud pública

## Fase 2. Data Understanding

### 📥 2. Fuentes de Datos

#### 📁 Descripción del Dataset

El proyecto utiliza dos datasets principales de encuestas de salud peruanas:

1. RECH0.csv: Datos demográficos y socioeconómicos de hogares

    - Registros: 37,390

    - Variables: 44 columnas

    - Período de recolección: 2024

2. RECH5.csv: Datos de salud y nutrición de mujeres en edad fértil

    - Registros: 38,488

    - Variables: 40 columnas

    - Período de recolección: 2024

#### Variables Clave Identificadas
##### Variables Demográficas (RECH0):

- IDHOGAR: Identificador único del hogar

- EDAD_MUJER: Edad de la mujer en años

- NIVEL_EDUCATIVO: Máximo nivel educativo alcanzado

- REGION: Región o departamento de residencia

- AREA_URBANA_RURAL: Clasificación urbano/rural

- IDIOMA_MATERNO: Idioma principal hablado

- ACCESO_SERVICIOS_BASICOS: Indicador de acceso a servicios

##### Variables de Salud (RECH5):

- HEMOGLOBINA: Nivel de hemoglobina en g/dL

- IMC: Índice de Masa Corporal

- PESO_KG: Peso en kilogramos

- TALLA_CM: Talla en centímetros

- EMBARAZO_ACTUAL: Estado de embarazo actual

- SUPLEMENTOS_HIERRO: Consumo de suplementos de hierro

- ANEMIA_CLASIFICACION: Clasificación actual de anemia

#### Estrategia de Integración
Los datasets se unirán mediante la variable IDHOGAR, permitiendo consolidar información demográfica con datos de salud para el análisis integral.

#### Consideraciones Éticas
- Todos los datos personales están anonimizados

- Cumplimiento de la Ley de Protección de Datos Personales peruana

- Uso exclusivo para investigación en salud pública

- Aprobación del comité de ética correspondiente



In [None]:
import pandas as pd
import numpy as np

'''
df_p1 = pd.read_csv("in_data_cruda_p1_27072025.csv",
                    encoding='utf-8',      # o 'latin-1' si hay caracteres especiales
                    sep=';',               # separador (por defecto es coma)
                    header=0,              # fila que contiene los nombres de columnas
                    index_col=None)        # si quieres usar una columna como índice
'''
df_1 = pd.read_csv("md-project/data/968-Modulo1629/RECH5_2024.csv")

In [None]:
df_2 = pd.read_csv("md-project/data/968-Modulo1638/RECH0_2024.csv")

In [None]:
# Resumen general 1
df_1.info()
print('df.columns:',df_1.columns)
print('df.shape:',df_1.shape)
df_1.head(10)

# Resumen general 2
df_2.info()
print('df.columns:',df_2.columns)
print('df.shape:',df_2.shape)
df_2.head(10)