# Homologación de columnas y estructura de datos  
**Proyecto:** ML Auditoría de Prestaciones Médicas Extrahospitalarias - Tierra del Fuego  
**Autora:** Nancy Julieta Cassano  
**Materia:** Aprendizaje Automático - Tecnicatura Superior en Ciencia de Datos e Inteligencia Artificial (CPS Malvinas Argentinas)  
**Año:** 2025  

**1. Objetivo del notebook**

Este cuaderno documenta el proceso de **homologación del dataset base** utilizado en el proyecto, unificando nombres de columnas y estructura entre las distintas versiones generadas para las etapas posteriores de modelado.

Se trabaja sobre el dataset data/raw/dataset_prestaciones_extrahospitalarias_2025_realista_v1.csv, y se genera como salida una versión estructurada:

**2. Propósito dentro del flujo del proyecto**

Este paso forma parte del **Análisis Exploratorio de Datos (EDA)** y busca:

- Garantizar que todas las versiones del dataset (original, balanceada, acotada temporalmente) compartan la misma estructura y nombres de variables.
- Evitar errores en la carga de datos durante el entrenamiento de modelos.
- Documentar las modificaciones realizadas al dataset original de manera trazable y reproducible.

**3. Principales acciones realizadas**

1. Carga del dataset original (`/data/raw/`).
2. Renombrado de variables según el esquema estándar del proyecto.
3. Incorporación de columnas faltantes para compatibilidad entre versiones.
4. Exportación de la nueva versión “homologada” en `/data/processed/`.

**4. Resultado esperado**

Se obtiene un dataset listo para el modelado, con 1200 registros y 25 columnas, alineado a las versiones balanceadas declaradas en la Entrega 2.




In [None]:
import pandas as pd
df = pd.read_csv("/content/dataset_prestaciones_extrahospitalarias_2025_realista_v1.csv")


In [None]:
!mkdir -p data/raw


In [None]:
!mv /content/dataset_prestaciones_extrahospitalarias_2025_realista_v1.csv data/raw/


In [None]:
df = pd.read_csv("data/raw/dataset_prestaciones_extrahospitalarias_2025_realista_v1.csv")


In [None]:
df.head()
df.shape


(1200, 21)

In [None]:
# mapa de renombres para unificar datasets
rename_map = {
    "id_solicitud": "expediente_id",
    "disponible_en_red_publica": "disponibilidad_publica",
    "tiene_cobertura_inicial": "cobertura_activa",
    "verificacion_cobertura_dir": "verificacion_no_cobertura",
    "derecho_cobertura_dir": "derecho_cobertura",
    "grupo_familiar_a_cargo": "grupo_familiar",
    "ingresos_mensuales": "ingresos_mensuales_ars",
    "egresos_mensuales": "egresos_mensuales_ars",
    "vivienda_tipo": "vivienda",
    "vehiculos_cantidad": "vehiculos",
    "informe_social_ok": "informe_social_presente",
    "autorizar": "autorizado",
}

df = df.rename(columns=rename_map)
df.columns


Index(['expediente_id', 'fecha_solicitud', 'zona', 'hospital_origen', 'edad',
       'estado_civil', 'dni_domicilio_tdf', 'disponibilidad_publica',
       'cobertura_activa', 'verificacion_no_cobertura', 'derecho_cobertura',
       'grupo_familiar', 'ingresos_mensuales_ars', 'egresos_mensuales_ars',
       'ocupacion', 'cud', 'vivienda', 'vehiculos', 'informe_social_presente',
       'documentacion_completa', 'autorizado'],
      dtype='object')

In [None]:
# columnas que en los otros CSV sí están y en este no
needed_cols = [
    "informe_medico_adjunto",
    "costo_estimado_ars",
    "ingreso_neto_percapita_ars",
    "motivo_no_autorizacion",
]

for col in needed_cols:
    if col not in df.columns:
        df[col] = None

df.head(3)


Unnamed: 0,expediente_id,fecha_solicitud,zona,hospital_origen,edad,estado_civil,dni_domicilio_tdf,disponibilidad_publica,cobertura_activa,verificacion_no_cobertura,...,cud,vivienda,vehiculos,informe_social_presente,documentacion_completa,autorizado,informe_medico_adjunto,costo_estimado_ars,ingreso_neto_percapita_ars,motivo_no_autorizacion
0,SOL-2025-000001,2025-04-13,sur,CAPS_Tolhuin,50,soltero/a,1,1,1,S,...,0,cedida,2.0,0,0,0,,,,
1,SOL-2025-000002,2025-09-28,norte,CAPS_Ushuaia,44,casado/a,1,1,0,0,...,0,propia,1.0,1,1,1,,,,
2,SOL-2025-000003,2025-04-17,sr,CAPS_RioGrande,54,casado/a,1,0,0,0,...,1,propia,0.0,1,1,1,,,,


In [None]:
import os

os.makedirs("data/processed", exist_ok=True)

output_path = "data/processed/dataset_prestaciones_extrahospitalarias_2025_realista_v1_homologado.csv"
df.to_csv(output_path, index=False)

output_path


'data/processed/dataset_prestaciones_extrahospitalarias_2025_realista_v1_homologado.csv'

In [None]:
from google.colab import files
files.download("data/processed/dataset_prestaciones_extrahospitalarias_2025_realista_v1_homologado.csv")


<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>