# üìã Documentaci√≥n Completa del Script de Limpieza de Datos
## An√°lisis RCP Transtelef√≥nica

Este notebook documenta paso a paso todo lo que hace el script `cleandata.py` para procesar los datos del estudio de RCP (Reanimaci√≥n Cardiopulmonar) Transtelef√≥nica.

### üéØ Objetivo del Script
El script toma los datos raw del estudio y los transforma en un dataset limpio y estructurado, listo para el an√°lisis estad√≠stico cient√≠fico. El objetivo principal es evaluar si la RCP guiada por tel√©fono mejora:
- **ROSC** (Return of Spontaneous Circulation - Retorno de Circulaci√≥n Espont√°nea)
- **Supervivencia a 7 d√≠as**

### üìÅ Archivos Involucrados
- **Entrada**: `data/rawdata_2year.csv` (datos raw de 2 a√±os)
- **Salida**: `data/cleaned_data.csv` (datos limpios y procesados)

---

## üîÑ Pipeline de Procesamiento: 10 Pasos

El script ejecuta **10 pasos secuenciales** para transformar los datos raw en datos listos para an√°lisis:

```
Datos Raw ‚Üí [10 Pasos] ‚Üí Datos Limpios
```

### Flujo General:
1. üìñ **Lectura y renombrado** de columnas
2. üî¢ **C√°lculo de tiempos** (llegada de unidad, duraci√≥n RCP)
3. üíì **Categorizaci√≥n de ritmos** (desfibrilable vs no desfibrilable)
4. üë®‚Äç‚öïÔ∏è **Clasificaci√≥n de respondientes** (sanitario, lego, polic√≠a, bombero)
5. üö´ **Filtrado de casos traum√°ticos**
6. üîó **Fusi√≥n de datos SVB** en registros SVA
7. üìû **Filtrado RCP transtelef√≥nica** (casos v√°lidos)
8. üß† **C√°lculo de CPC** (Cerebral Performance Category)
9. üíó **Determinaci√≥n de supervivencia** a 7 d√≠as
10. üìä **Generaci√≥n de resumen** estad√≠stico

## üìñ Paso 1: Lectura y Renombrado de Columnas

### ¬øQu√© hace?
- Lee el archivo `rawdata_2year.csv`
- Renombra las columnas a nombres m√°s claros y est√°ndar

### Mapeo de Columnas:
```python
column_mapping = {
    'fecha': 'FECHA',
    'sexo': 'SEXO', 
    'edad': 'EDAD',
    'quien_hace_rcp': 'QUIEN_HACE_RCP',
    'rcp_transtelef': 'RCP_TRANSTELEFONICA',
    'tiempo_llegada_unidad': 'TIEMPO_LLEGADA_UNIDAD',
    'desa_externo': 'DESA_EXTERNO',
    'ritmo_inicial': 'RITMO_INICIAL',
    'codigo_patologico': 'CODIGO_PATOLOGICO',
    'hora_inicio_rcp': 'HORA_INICIO_RCP',
    'hora_fin_rcp': 'HORA_FIN_RCP'
}
```

### ¬øPor qu√© es importante?
- Estandariza los nombres para facilitar el an√°lisis
- Convierte nombres descriptivos en espa√±ol
- Facilita la legibilidad del c√≥digo

## ‚è±Ô∏è Paso 2: C√°lculo de Tiempos

### ¬øQu√© hace?
Calcula dos tiempos cr√≠ticos para el an√°lisis:

#### A) Tiempo de Llegada de la Unidad (segundos)
- Convierte minutos a segundos
- Limpia valores no v√°lidos

#### B) Tiempo de Duraci√≥n de RCP (segundos)
- Calcula diferencia entre `HORA_FIN_RCP` y `HORA_INICIO_RCP`
- Maneja diferentes formatos de tiempo:
  - HH:MM:SS (ej: "14:30:25")
  - HH:MM (ej: "14:30")
  - Solo n√∫meros (minutos)

### Ejemplo de C√°lculo:
```
HORA_INICIO_RCP: "14:30:00"
HORA_FIN_RCP: "14:45:30"
TIEMPO_RCP_SEGUNDOS: 930 segundos (15 min 30 seg)
```

### ¬øPor qu√© es importante?
- El tiempo es un factor pron√≥stico crucial en paradas cardiacas
- Permite an√°lisis de supervivencia basado en tiempos
- Estandariza unidades (todo en segundos)

## üíì Paso 3: Categorizaci√≥n de Ritmos

### ¬øQu√© hace?
Clasifica el ritmo inicial en dos categor√≠as cl√≠nicamente relevantes:

#### Ritmos Desfibrilables (mejor pron√≥stico):
- **FV**: Fibrilaci√≥n Ventricular
- **TV**: Taquicardia Ventricular
- **TVsp**: Taquicardia Ventricular sin pulso

#### Ritmos No Desfibrilables (peor pron√≥stico):
- **Asistolia**
- **AESP**: Actividad El√©ctrica Sin Pulso
- **Bradicardia**
- Otros ritmos

### C√≥digo de Clasificaci√≥n:
```python
def categorize_rhythm(rhythm):
    if pd.isna(rhythm):
        return False
    rhythm_lower = str(rhythm).lower()
    return rhythm_lower in ['fv', 'tv', 'tvsp']
```

### ¬øPor qu√© es importante?
- El ritmo inicial es el predictor m√°s fuerte de supervivencia
- Ritmos desfibrilables tienen ~80% de ROSC vs ~30% no desfibrilables
- Permite estratificaci√≥n en el an√°lisis estad√≠stico

## üë®‚Äç‚öïÔ∏è Paso 4: Clasificaci√≥n de Respondientes (MEJORADA)

### ¬øQu√© hace?
Clasifica qui√©n realiz√≥ la RCP usando **c√≥digos de emergencia** y **terminolog√≠a ampliada**:

#### Sistema de Clasificaci√≥n Prioritaria:
1. **SANITARIO** (prioridad m√°s alta)
2. **BOMBERO** 
3. **POLIC√çA**
4. **LEGO** (ciudadano com√∫n)

### C√≥digos de Emergencia Espec√≠ficos:

#### üöì POLIC√çA:
- **091**: Polic√≠a Nacional
- **092**: Polic√≠a Local
- **062**: Guardia Civil
- T√©rminos: "policia", "guardia civil", "agente"

#### üöí BOMBEROS:
- **080**: Bomberos
- T√©rminos: "bombero", "beta" (bomberos voluntarios)

#### üöë SANITARIOS:
- **061**: SAMUR (Madrid)
- **060**: Emergencias sanitarias regionales
- **SUMMA**: Servicio de Urgencias Madrid
- **SAMUR**: Servicio de Asistencia Municipal de Urgencia
- **SVB**: Soporte Vital B√°sico
- T√©rminos: "medico", "enfermero", "sanitario", "hospital"

#### üë• LEGOS (Terminolog√≠a Ampliada):
- "lego", "ciudadano", "testigo", "persona"
- "alertante", "demandante", "llamante"
- Familiares, transe√∫ntes, etc.

### ¬øPor qu√© es importante?
- **Precisi√≥n mejorada**: De 10.1% a 50.8% sanitarios con c√≥digos
- **An√°lisis estratificado**: Calidad de RCP var√≠a por tipo de respondiente
- **Validez cient√≠fica**: Clasificaci√≥n m√°s precisa para conclusions v√°lidas

## üö´ Paso 5: Filtrado de Casos Traum√°ticos

### ¬øQu√© hace?
Excluye casos de parada cardiaca de origen **traum√°tico** del an√°lisis.

#### Criterios de Exclusi√≥n:
Busca estas palabras clave en cualquier columna de texto:
- "trauma", "traumatic", "traum√°tico"
- "accidente", "atropello"
- "precipitaci√≥n", "ca√≠da"
- "herida", "lesi√≥n"
- "politraumatismo"
- "ahogamiento", "asfixia"

### ¬øPor qu√© es importante?
- **Homogeneidad**: El estudio se centra en paradas cardiacas **m√©dicas**
- **Validez**: Las paradas traum√°ticas tienen fisiopatolog√≠a diferente
- **Est√°ndares**: Siguiendo guidelines internacionales (AHA, ERC)
- **Poder estad√≠stico**: Evita confusi√≥n por diferentes etiolog√≠as

## üîó Paso 6: Fusi√≥n de Datos SVB en SVA

### ¬øQu√© hace?
Cuando hay **dos registros** para la misma fecha (SVB y SVA), los **fusiona** en uno solo.

#### L√≥gica de Fusi√≥n:
```python
# Para cada fecha con m√∫ltiples registros:
# 1. Identificar registro SVB (CODIGO_PATOLOGICO contiene 'SVB')
# 2. Identificar registro SVA (sin 'SVB')
# 3. Mantener datos del SVA
# 4. Sobrescribir con datos del SVB cuando sean m√°s completos
```

#### Ejemplo:
```
Fecha: 2023-01-15
Registro SVB: RCP_TRANSTELEFONICA=True, ROSC=No documentado
Registro SVA: RCP_TRANSTELEFONICA=No documentado, ROSC=True

Resultado: RCP_TRANSTELEFONICA=True, ROSC=True
```

### ¬øPor qu√© es importante?
- **Evita duplicados**: Un caso = un registro
- **Maximiza informaci√≥n**: Combina datos de ambos equipos
- **Precisi√≥n**: SVB tiene mejor informaci√≥n de RCP transtelef√≥nica
- **Validez**: An√°lisis sin sesgos por registros duplicados

## üìû Paso 7: Filtrado RCP Transtelef√≥nica

### ¬øQu√© hace?
Aplica **control de calidad** para casos de RCP transtelef√≥nica.

#### Criterios de Validaci√≥n:
```python
def filter_rcp_transtelefonica(df):
    # Solo mantener casos donde:
    # 1. RCP_TRANSTELEFONICA est√° claramente documentada (True/False)
    # 2. No hay valores ambiguos o missing en esta variable
    return df[df['RCP_TRANSTELEFONICA'].notna()]
```

### ¬øPor qu√© es importante?
- **Variable principal**: RCP transtelef√≥nica es el endpoint primario
- **Calidad de datos**: Solo casos con documentaci√≥n clara
- **Poder estad√≠stico**: Evita bias por missing data
- **Reproducibilidad**: Criterios claros de inclusi√≥n

## üß† Paso 8: C√°lculo de CPC (Cerebral Performance Category)

### ¬øQu√© hace?
Extrae y clasifica el **estado neurol√≥gico** del paciente usando la escala CPC.

#### Escala CPC:
- **CPC 1**: Buen rendimiento neurol√≥gico (vida normal)
- **CPC 2**: Discapacidad moderada (independiente para AVD)
- **CPC 3**: Discapacidad severa (dependiente)
- **CPC 4**: Estado vegetativo
- **CPC 5**: Muerte cerebral o muerte

#### L√≥gica de Extracci√≥n:
```python
def extract_cpc(codigo_patologico):
    # Busca patrones como:
    # "C.1.0", "CPC 1", "CPC1", etc.
    pattern = r'(?:C\.|CPC\s*)(\d)'
    match = re.search(pattern, str(codigo_patologico))
    if match:
        return int(match.group(1))
    return None
```

### ¬øPor qu√© es importante?
- **Outcome neurol√≥gico**: No solo supervivencia, sino calidad de vida
- **Endpoint secundario**: CPC 1-2 = supervivencia neurol√≥gicamente √≠ntegra
- **Relevancia cl√≠nica**: Lo que realmente importa a pacientes/familias

## üíó Paso 9: Determinaci√≥n de Supervivencia a 7 D√≠as

### ¬øQu√© hace?
Determina si el paciente **sobrevivi√≥** los primeros 7 d√≠as tras la parada cardiaca.

#### L√≥gica de Clasificaci√≥n:
```python
def determine_survival(codigo_patologico):
    if pd.isna(codigo_patologico):
        return False
    
    codigo_str = str(codigo_patologico).upper()
    
    # Superviviente si:
    survival_patterns = ['C.1.', 'C.2.', 'C.3.', 'CPC 1', 'CPC 2', 'CPC 3']
    
    # No superviviente si:
    death_patterns = ['C.4.', 'C.5.', 'CPC 4', 'CPC 5', 'EXITUS', 'FALLEC']
```

#### Ejemplos:
- `"C.1.0"` ‚Üí **Superviviente** (CPC 1)
- `"C.5.0"` ‚Üí **No superviviente** (CPC 5 = muerte)
- `"EXITUS"` ‚Üí **No superviviente**
- `"C.3.1"` ‚Üí **Superviviente** (CPC 3, con discapacidad pero vivo)

### ¬øPor qu√© es importante?
- **Endpoint primario**: Supervivencia es el outcome m√°s importante
- **Est√°ndar internacional**: 7 d√≠as es el per√≠odo est√°ndar de seguimiento
- **Simplicidad**: Variable binaria clara para an√°lisis estad√≠stico

## üìä Paso 10: Generaci√≥n de Resumen Estad√≠stico

### ¬øQu√© hace?
Genera un **reporte completo** con todas las estad√≠sticas descriptivas del dataset limpio.

#### Secciones del Resumen:

1. **üìä Total de casos** analizados
2. **üë• Demograf√≠a**: edad (media ¬± SD, rango), sexo (n, %)
3. **üìû RCP Transtelef√≥nica**: con/sin (n, %)
4. **üë®‚Äçüë©‚Äçüëß‚Äçüë¶ RCP de Testigos**: con/sin (n, %)
5. **üöë Tipo de Respondiente**: sanitario/lego/polic√≠a/bombero (n, %)
6. **‚ö° DESA Externo**: con/sin (n, %)
7. **üíì Ritmo Inicial**: desfibrilable/no desfibrilable (n, %)
8. **‚è±Ô∏è Tiempos**: llegada unidad, duraci√≥n RCP (media ¬± SD, mediana)
9. **üíó ROSC**: con/sin (n, %)
10. **üè• Supervivencia a 7 d√≠as**: s√≠/no (n, %)
11. **üß† CPC**: distribuci√≥n por categor√≠as (n, %)
12. **üîç An√°lisis cruzado**: ROSC y supervivencia por subgrupos

### Ejemplo de Output:
```
üìä TOTAL DE CASOS ANALIZADOS: 622

üë• DEMOGRAF√çA:
   ‚Ä¢ Edad promedio: 64.6 ¬± 17.0 a√±os
   ‚Ä¢ Sexo: Masculino 463 (74.4%), Femenino 136 (21.9%)

üîç AN√ÅLISIS CRUZADO CLAVE:
   ‚Ä¢ ROSC con RCP transtelef√≥nica: 33/62 (53.2%)
   ‚Ä¢ ROSC sin RCP transtelef√≥nica: 203/560 (36.2%)
```

### ¬øPor qu√© es importante?
- **Validaci√≥n**: Confirma que los datos son consistentes
- **Tabla 1**: Base para la caracterizaci√≥n de la muestra en el paper
- **Hallazgos preliminares**: Primeras evidencias de efectividad
- **Control de calidad**: Detecta problemas en el procesamiento

## üéØ Resultados del Procesamiento

### Dataset Final (`cleaned_data.csv`):
- **622 casos** de parada cardiaca extrahospitalaria no traum√°tica
- **13 variables** listas para an√°lisis estad√≠stico
- **Datos de calidad** con criterios de inclusi√≥n claros

### Variables Principales:
```python
[
    'FECHA',                    # Fecha del evento
    'EDAD',                     # Edad del paciente (a√±os)
    'SEXO',                     # Sexo (M/F)
    'RCP_TRANSTELEFONICA',      # RCP guiada por tel√©fono (True/False)
    'RCP_TESTIGOS',             # RCP por testigos (True/False)
    'TIPO_RESPONDIENTE',        # Quien hizo RCP (sanitario/lego/policia/bombero)
    'TIEMPO_LLEGADA_UNIDAD',    # Tiempo hasta llegada SEM (segundos)
    'TIEMPO_RCP_SEGUNDOS',      # Duraci√≥n total RCP (segundos)
    'DESA_EXTERNO',             # Uso de DESA (True/False)
    'RITMO_DESFIBRILABLE',      # Ritmo inicial desfibrilable (True/False)
    'ROSC',                     # Retorno circulaci√≥n espont√°nea (True/False)
    'SOBREVIVE_7DIAS',          # Supervivencia 7 d√≠as (True/False)
    'CPC'                       # Estado neurol√≥gico (1-5)
]
```

### Hallazgos Clave:
- **RCP Transtelef√≥nica**: 10% de casos, con 53.2% ROSC vs 36.2% sin ella
- **Supervivencia**: 32.3% vs 18.9% a favor de RCP transtelef√≥nica
- **Ritmo desfibrilable**: Solo 9% pero con 82.1% de ROSC
- **Respondientes**: 55.3% sanitarios, 35.2% legos (clasificaci√≥n mejorada)

## üîß Aspectos T√©cnicos Importantes

### Librer√≠as Utilizadas:
```python
import pandas as pd      # Manipulaci√≥n de datos
import re               # Expresiones regulares
from datetime import datetime  # Manejo de tiempos
```

### Manejo de Missing Data:
- **Estrategia conservadora**: Mantener NaN cuando no hay informaci√≥n clara
- **Imputaci√≥n selectiva**: Solo para variables cr√≠ticas con l√≥gica cl√≠nica
- **Documentaci√≥n**: Reportar % de missing para cada variable

### Control de Calidad:
- **Validaci√≥n de rangos**: Edad 0-120, tiempos > 0
- **Consistencia l√≥gica**: ROSC vs supervivencia, CPC vs outcome
- **Detecci√≥n de outliers**: Tiempos extremos, casos at√≠picos

### Reproducibilidad:
- **C√≥digo documentado**: Cada funci√≥n con docstring
- **Versionado**: Control de cambios en el procesamiento
- **Trazabilidad**: Log de transformaciones aplicadas

## üìà Pr√≥ximos Pasos: An√°lisis Estad√≠stico

Con los datos limpios, el siguiente paso es el **an√°lisis estad√≠stico completo**:

### 1. An√°lisis Descriptivo:
- Caracterizaci√≥n de la muestra (Tabla 1)
- Distribuciones de variables continuas
- Frecuencias de variables categ√≥ricas

### 2. An√°lisis Bivariado:
- **Chi-cuadrado**: RCP transtelef√≥nica vs ROSC/supervivencia
- **t-test**: Edad, tiempos seg√∫n outcomes
- **Tablas de contingencia**: 2x2 para OR crudo

### 3. An√°lisis Multivariado:
- **Regresi√≥n log√≠stica**: Ajustada por edad, sexo, tiempo llegada
- **Forest plots**: ORs con intervalos de confianza
- **Curvas ROC**: Capacidad predictiva del modelo

### 4. Visualizaciones:
- Gr√°ficos de barras comparativos
- Boxplots de tiempos por grupo
- Curvas de supervivencia (Kaplan-Meier)

### 5. Sensibilidad:
- An√°lisis por subgrupos (edad, ritmo inicial)
- Validaci√≥n cruzada de modelos
- An√°lisis de missing data

---

## ‚úÖ Conclusi√≥n

El script `cleandata.py` ha transformado exitosamente los datos raw en un dataset cient√≠ficamente v√°lido, listo para an√°lisis estad√≠stico riguroso. La **clasificaci√≥n mejorada de respondientes** y el **control de calidad** aseguran la validez de las conclusiones que se obtengan.

**Dataset final**: 622 casos, 13 variables, datos de alta calidad para evaluar la efectividad de la RCP transtelef√≥nica.