
# Documentación y Perfilado del Dataset — NHAMCS ED 2022

Este notebook **documenta** y **perfila** el dataset convertido desde SAS a CSV, y **genera automáticamente**:
- `DATADICT.md` (diccionario de datos por columna)
- `DATASET.md` (ficha técnica del dataset)
- `PROVENANCE.md` (origen y trazabilidad)
- `SHA256SUMS.txt` (hash de verificación)

In [1]:
from pathlib import Path

# Base = carpeta del notebook (portabilidad)
BASE = Path.cwd()

# Carpetas de trabajo (crear si no existen)
DATA_DIR = BASE / "data"
OUT_DIR  = BASE / "dataset_docs"
DATA_DIR.mkdir(parents=True, exist_ok=True)
OUT_DIR.mkdir(parents=True, exist_ok=True)

# CSV objetivo de trabajo (ajustá el nombre si usás otro)
CSV_PATH = DATA_DIR / "ed2022_clean_min.csv"

# (Opcional) Backups por compatibilidad: si venís de una ruta vieja absoluta, la usamos una sola vez
LEGACY_CSVS = [
    Path(r"D:\ALMACENAMIENTO\VARIOS\FACULTAD\aprendizaje_automatico\Examen_parcial_proyecto\Notebooks\2. Documentacion_dataset\ed2022_clean_min.csv"),
    Path(r"D:\ALMACENAMIENTO\VARIOS\FACULTAD\aprendizaje_automatico\Examen_parcial_proyecto\Notebooks\2. Documentacion_dataset\ed2022.csv"),
]
if not CSV_PATH.exists():
    for p in LEGACY_CSVS:
        if p.exists():
            CSV_PATH = p
            break

print("BASE      :", BASE)
print("DATA_DIR  :", DATA_DIR)
print("OUT_DIR   :", OUT_DIR)
print("CSV_PATH  :", CSV_PATH)

BASE      : D:\ALMACENAMIENTO\VARIOS\FACULTAD\aprendizaje_automatico\Examen_parcial_proyecto\Notebooks\2. Documentacion_dataset
DATA_DIR  : D:\ALMACENAMIENTO\VARIOS\FACULTAD\aprendizaje_automatico\Examen_parcial_proyecto\Notebooks\2. Documentacion_dataset\data
OUT_DIR   : D:\ALMACENAMIENTO\VARIOS\FACULTAD\aprendizaje_automatico\Examen_parcial_proyecto\Notebooks\2. Documentacion_dataset\dataset_docs
CSV_PATH  : D:\ALMACENAMIENTO\VARIOS\FACULTAD\aprendizaje_automatico\Examen_parcial_proyecto\Notebooks\2. Documentacion_dataset\ed2022.csv


## 1 Carga y vista preliminar

In [2]:
import pandas as pd

df = pd.read_csv(CSV_PATH, low_memory=False)
display(df.head(8))
df.shape

Unnamed: 0,VMONTH,VDAYR,ARRTIME,WAITTIME,LOV,AGE,AGER,AGEDAYS,RESIDNCE,SEX,...,RX30V3C2,RX30V3C3,RX30V3C4,SETTYPE,YEAR,CSTRATM,CPSUM,PATWT,EDWT,BOARDED
0,9.0,2.0,604,10.0,228.0,23.0,2.0,-7.0,1.0,1.0,...,,,,3.0,2022.0,20122201.0,100001.0,3665.56954,8.36413,-7.0
1,9.0,2.0,1053,40.0,319.0,15.0,2.0,-7.0,1.0,2.0,...,,,,3.0,2022.0,20122201.0,100001.0,3665.56954,,-7.0
2,9.0,2.0,1419,70.0,551.0,19.0,2.0,-7.0,1.0,2.0,...,,,,3.0,2022.0,20122201.0,100001.0,3665.56954,,-7.0
3,9.0,2.0,1825,-7.0,-9.0,0.0,1.0,298.0,1.0,2.0,...,,,,3.0,2022.0,20122201.0,100001.0,3665.56954,,-7.0
4,9.0,2.0,2243,14.0,168.0,18.0,2.0,-7.0,1.0,1.0,...,,,,3.0,2022.0,20122201.0,100001.0,3665.56954,,-7.0
5,9.0,3.0,903,2.0,113.0,39.0,3.0,-7.0,1.0,2.0,...,,,,3.0,2022.0,20122201.0,100001.0,3665.56954,,-7.0
6,9.0,3.0,1428,34.0,72.0,44.0,3.0,-7.0,1.0,1.0,...,,,,3.0,2022.0,20122201.0,100001.0,3665.56954,,-7.0
7,9.0,3.0,1830,13.0,-9.0,46.0,4.0,-7.0,1.0,2.0,...,,,,3.0,2022.0,20122201.0,100001.0,3665.56954,,-7.0


(16025, 913)

## 1.1 Limpieza mínima y variables derivadas

In [3]:
import numpy as np
import pandas as pd

# A) Mapear códigos de no-respuesta a NaN (SAS usa -7/-8/-9)
na_codes = {-7: np.nan, -8: np.nan, -9: np.nan}
df = df.replace(na_codes)

# B) ARRTIME (HHMM) -> timestamp con fecha dummy y hora de llegada
def hhmm_to_ts(x):
    if pd.isna(x): 
        return pd.NaT
    try:
        x = int(x)
        h, m = divmod(x, 100)
        if 0 <= h <= 23 and 0 <= m <= 59:
            return pd.Timestamp(2022, 1, 1, h, m)  # fecha dummy
    except Exception:
        pass
    return pd.NaT

if "ARRTIME" in df.columns:
    df["ARRTIME_ts"] = df["ARRTIME"].apply(hhmm_to_ts)
    df["ARR_HOUR"] = df["ARRTIME_ts"].dt.hour

# C) Edad en años (si AGE==0 usar AGEDAYS/365.25 cuando esté disponible)
if {"AGE","AGEDAYS"}.issubset(df.columns):
    df["AGE_YEARS"] = df["AGE"]
    mask_infant = (df["AGE_YEARS"] == 0) & df["AGEDAYS"].notna()
    df.loc[mask_infant, "AGE_YEARS"] = df.loc[mask_infant, "AGEDAYS"] / 365.25

# D) WAITTIME negativo -> NaN (por seguridad)
if "WAITTIME" in df.columns:
    df.loc[df["WAITTIME"] < 0, "WAITTIME"] = np.nan

# Vista rápida tras la limpieza
display(df[["ARRTIME","ARRTIME_ts","ARR_HOUR","AGE","AGEDAYS","AGE_YEARS","WAITTIME"]]
        .head(8)
        .pipe(lambda x: x[[c for c in x.columns if c in df.columns]]))
df.shape

Unnamed: 0,ARRTIME,ARRTIME_ts,ARR_HOUR,AGE,AGEDAYS,AGE_YEARS,WAITTIME
0,604.0,2022-01-01 06:04:00,6.0,23.0,,23.0,10.0
1,1053.0,2022-01-01 10:53:00,10.0,15.0,,15.0,40.0
2,1419.0,2022-01-01 14:19:00,14.0,19.0,,19.0,70.0
3,1825.0,2022-01-01 18:25:00,18.0,0.0,298.0,0.81588,
4,2243.0,2022-01-01 22:43:00,22.0,18.0,,18.0,14.0
5,903.0,2022-01-01 09:03:00,9.0,39.0,,39.0,2.0
6,1428.0,2022-01-01 14:28:00,14.0,44.0,,44.0,34.0
7,1830.0,2022-01-01 18:30:00,18.0,46.0,,46.0,13.0


(16025, 916)

## 1.2 Guardar limpio y actualizar ruta

In [4]:
CLEAN_PATH = CSV_PATH.with_name("ed2022_clean.csv")
df.to_csv(CLEAN_PATH, index=False, encoding="utf-8")
print("Guardado:", CLEAN_PATH)

# desde acá, toda la doc usa el CSV limpio
CSV_PATH = CLEAN_PATH

Guardado: D:\ALMACENAMIENTO\VARIOS\FACULTAD\aprendizaje_automatico\Examen_parcial_proyecto\Notebooks\2. Documentacion_dataset\ed2022_clean.csv


In [5]:
import os, hashlib
def sha256(p):
    h = hashlib.sha256()
    with open(p, "rb") as f:
        for c in iter(lambda: f.read(1<<20), b""): h.update(c)
    return h.hexdigest()

print("CSV limpio:", CSV_PATH)
print("Tamaño (MB):", round(os.path.getsize(CSV_PATH)/1024**2, 2))
print("SHA-256:", sha256(CSV_PATH))

CSV limpio: D:\ALMACENAMIENTO\VARIOS\FACULTAD\aprendizaje_automatico\Examen_parcial_proyecto\Notebooks\2. Documentacion_dataset\ed2022_clean.csv
Tamaño (MB): 27.26
SHA-256: 3c7a42ba08a94bc22c1759495ef7050bef7c021073a07c6adfa008be0af15a9a


## 2 Tipos de datos y uso de memoria

In [6]:
mem_mb = df.memory_usage(deep=True).sum() / (1024**2)
types = df.dtypes.astype(str).value_counts().rename_axis('dtype').reset_index(name='count')
display(types)
mem_mb

Unnamed: 0,dtype,count
0,float64,872
1,object,43
2,datetime64[ns],1


np.float64(132.58028316497803)

## 3 Perfil por columna (faltantes, cardinalidad, ejemplos)

In [7]:
# 3) Perfil por columna (corregido, sin infer_datetime_format)
from textwrap import shorten
import pandas as pd, numpy as np, re

assert 'df' in globals(), "df no definido (corré la carga antes)"

def sample_vals(series, n=5):
    vals = pd.unique(series.dropna().head(1000))[:n]
    return ", ".join([shorten(str(v), width=40, placeholder="…") for v in vals])

# Heurística liviana para detectar fechas en columnas 'object'
_date_name_pat  = re.compile(r"(date|fecha|time|hour|_ts|_dt)$", re.I)
_date_token_pat = re.compile(r"^\d{4}-\d{2}-\d{2}|^\d{2}/\d{2}/\d{4}|^\d{4}/\d{2}/\d{2}")

rows = []
n_rows = len(df)

for c in df.columns:
    s = df[c]
    base_dtype = s.dtype

    # Tipo semántico base
    if np.issubdtype(base_dtype, np.number):
        sem_type = "numeric"
    elif np.issubdtype(base_dtype, np.datetime64):
        sem_type = "datetime"
    else:
        looks_date = False
        if base_dtype == "object":
            head_vals = s.dropna().astype(str).head(50)
            # por nombre o por tokens con forma de fecha
            looks_date = bool(_date_name_pat.search(c)) or (head_vals.str.match(_date_token_pat).mean() > 0.6)
        if looks_date:
            # <— sin infer_datetime_format
            parsed = pd.to_datetime(s, errors="coerce")
            if parsed.notna().sum() / len(s) > 0.8:
                sem_type = "datetime"
                s = parsed
            else:
                sem_type = "categorical/text"
        else:
            sem_type = "categorical/text"

    non_null = int(s.notna().sum())
    missing_pct = (1 - non_null / n_rows) * 100 if n_rows else 0.0
    nunique = int(s.nunique(dropna=True))

    nmin = nmax = ""
    if sem_type == "numeric":
        sn = pd.to_numeric(s, errors="coerce")
        if sn.notna().any():
            nmin = float(sn.min())
            nmax = float(sn.max())

    rows.append({
        "variable": c,
        "label": "",
        "dtype": str(base_dtype),
        "semantic_type": sem_type,
        "non_null": non_null,
        "missing_pct": round(missing_pct, 4),
        "unique": nunique,
        "min": nmin,
        "max": nmax,
        "example_values": sample_vals(s, n=5),
    })

dict_df = pd.DataFrame(rows)

# Vista rápida (opcional)
display(dict_df.head(20))
dict_df.shape


Unnamed: 0,variable,label,dtype,semantic_type,non_null,missing_pct,unique,min,max,example_values
0,VMONTH,,float64,numeric,16025,0.0,12,1.0,12.0,"9.0, 10.0, 8.0, 11.0, 1.0"
1,VDAYR,,float64,numeric,16025,0.0,7,1.0,7.0,"2.0, 3.0, 4.0, 5.0, 6.0"
2,ARRTIME,,float64,numeric,15782,1.5164,1437,0.0,2359.0,"604.0, 1053.0, 1419.0, 1825.0, 2243.0"
3,WAITTIME,,float64,numeric,13272,17.1794,396,0.0,1280.0,"10.0, 40.0, 70.0, 14.0, 2.0"
4,LOV,,float64,numeric,15328,4.3495,1435,0.0,5722.0,"228.0, 319.0, 551.0, 168.0, 113.0"
5,AGE,,float64,numeric,16025,0.0,95,0.0,94.0,"23.0, 15.0, 19.0, 0.0, 18.0"
6,AGER,,float64,numeric,16025,0.0,6,1.0,6.0,"2.0, 1.0, 3.0, 4.0, 5.0"
7,AGEDAYS,,float64,numeric,428,97.3292,243,1.0,364.0,"298.0, 198.0, 153.0, 351.0, 55.0"
8,RESIDNCE,,float64,numeric,15763,1.6349,4,1.0,4.0,"1.0, 3.0, 4.0, 2.0"
9,SEX,,float64,numeric,16025,0.0,2,1.0,2.0,"1.0, 2.0"


(916, 10)

## 3.1 Depuración mínima + listado + CSV “modelable”

In [8]:
# Depuración mínima a partir de dict_df

# A) columnas 100% NaN o con un solo valor
cols_all_nan   = dict_df.query("missing_pct == 100.0")["variable"].tolist()
cols_singleval = dict_df.query("unique == 1")["variable"].tolist()
drop_cols = sorted(set(cols_all_nan + cols_singleval))

# Guardar listado de columnas removidas (para anexar)
(OUT_DIR / "dropped_columns.csv").parent.mkdir(exist_ok=True, parents=True)
pd.Series(drop_cols, name="dropped_columns").to_csv(
    OUT_DIR / "dropped_columns.csv", index=False, encoding="utf-8"
)
print("Listado guardado en:", OUT_DIR / "dropped_columns.csv")

print(f"Columnas 100% NaN: {len(cols_all_nan)}")
print(f"Columnas con 1 valor: {len(cols_singleval)}")
print(f"Total a eliminar: {len(drop_cols)}")

# B) aplicar drops
df_ml = df.drop(columns=drop_cols, errors="ignore").copy()

# C) quitar ARRTIME (redundante) si existe
if "ARRTIME" in df_ml.columns:
    df_ml = df_ml.drop(columns=["ARRTIME"])

# D) guardar CSV “modelable” y actualizar variables para el resto del notebook
CLEAN_MIN_PATH = CSV_PATH.with_name("ed2022_clean_min.csv")
df_ml.to_csv(CLEAN_MIN_PATH, index=False, encoding="utf-8")
print("Guardado:", CLEAN_MIN_PATH)

# Usar este DF y ruta desde ahora
df = df_ml
CSV_PATH = CLEAN_MIN_PATH

# Evidencia rápida
df.shape

Listado guardado en: D:\ALMACENAMIENTO\VARIOS\FACULTAD\aprendizaje_automatico\Examen_parcial_proyecto\Notebooks\2. Documentacion_dataset\dataset_docs\dropped_columns.csv
Columnas 100% NaN: 72
Columnas con 1 valor: 72
Total a eliminar: 144
Guardado: D:\ALMACENAMIENTO\VARIOS\FACULTAD\aprendizaje_automatico\Examen_parcial_proyecto\Notebooks\2. Documentacion_dataset\ed2022_clean_min.csv


(16025, 771)

## 3.2 — Validar que dropped_columns.csv solo tenga columnas vacías/constantes

In [10]:
# Validación rápida de dropped_columns.csv respecto de dict_df
dropped = pd.read_csv(OUT_DIR / "dropped_columns.csv")["dropped_columns"].tolist()
df_sub = dict_df.set_index("variable").loc[dropped][["missing_pct","unique"]]
bad = df_sub.query("missing_pct < 100.0 and unique > 1")
if len(bad):
    print("⚠️ Hay columnas en dropped_columns.csv que no son 100% NaN ni constantes:")
    display(bad)
else:
    print("OK: dropped_columns.csv solo contiene 100% NaN o constantes.")

OK: dropped_columns.csv solo contiene 100% NaN o constantes.


## 4 Generación de documentación

In [11]:
# 4 — Generación de documentación (único bloque, CONSOLIDA todo)
from textwrap import shorten
import pandas as pd, numpy as np, re, math
from pandas.api.types import is_object_dtype, is_datetime64_any_dtype, is_numeric_dtype
from pathlib import Path
import os, hashlib

# --- seguridad: df y rutas existentes
assert 'df' in globals(), "df no definido (corré 1→3.1 antes)"
assert 'CSV_PATH' in globals() and Path(CSV_PATH).exists(), "CSV_PATH no existe"
assert 'OUT_DIR' in globals() and Path(OUT_DIR).exists(), "OUT_DIR no existe"
assert 'ARRTIME' not in df.columns, "ARRTIME sigue presente (corré 3.1)"

# --- C: métricas del CSV actual
def sha256_of_file(path: Path) -> str:
    h = hashlib.sha256()
    with open(path, "rb") as f:
        for chunk in iter(lambda: f.read(1024*1024), b""):
            h.update(chunk)
    return h.hexdigest()

CSV_PATH = Path(CSV_PATH)
CSV_MB   = CSV_PATH.stat().st_size/(1024**2)
MEM_MB   = df.memory_usage(deep=True).sum()/(1024**2)
CSV_SHA  = sha256_of_file(CSV_PATH)

# --- B (recalculado sobre DF limpio): perfil por columna (dict_df) sin infer_datetime_format
def sample_vals(series, n=5):
    vals = pd.unique(series.dropna().head(1000))[:n]
    return ", ".join([shorten(str(v), width=40, placeholder="…") for v in vals])

_date_name_pat  = re.compile(r"(date|fecha|time|hour|_ts|_dt)$", re.I)
_date_token_pat = re.compile(r"^\d{4}-\d{2}-\d{2}|^\d{2}/\d{2}/\d{4}|^\d{4}/\d{2}/\d{2}")

rows = []
n_rows = len(df)
for c in df.columns:
    s = df[c]
    base_dtype = s.dtype

    if is_numeric_dtype(base_dtype):
        sem_type = "numeric"
    elif is_datetime64_any_dtype(base_dtype):
        sem_type = "datetime"
    else:
        if is_object_dtype(base_dtype):
            head_vals = s.dropna().astype(str).head(50)
            looks_date = bool(_date_name_pat.search(c)) or (head_vals.str.match(_date_token_pat).mean() > 0.6)
        else:
            looks_date = False
        if looks_date:
            parsed = pd.to_datetime(s, errors="coerce")
            if parsed.notna().sum() / len(s) > 0.8:
                sem_type = "datetime"
                s = parsed
            else:
                sem_type = "categorical/text"
        else:
            sem_type = "categorical/text"

    non_null = int(s.notna().sum())
    missing_pct = (1 - non_null / n_rows) * 100 if n_rows else 0.0
    nunique = int(s.nunique(dropna=True))

    nmin = nmax = ""
    if sem_type == "numeric":
        sn = pd.to_numeric(s, errors="coerce")
        if sn.notna().any():
            nmin = float(sn.min()); nmax = float(sn.max())

    rows.append({
        "variable": c, "label": "", "dtype": str(base_dtype), "semantic_type": sem_type,
        "non_null": non_null, "missing_pct": round(missing_pct, 4), "unique": nunique,
        "min": nmin, "max": nmax, "example_values": sample_vals(s, n=5)
    })

dict_df = pd.DataFrame(rows)

# --- D: DATADICT_full.csv + partes Markdown + índice
def _san(s):
    s = "" if pd.isna(s) else str(s)
    return s.replace("|", r"\|").replace("\n", " ").replace("\r", " ")

dd = dict_df.copy()
(dd_path := OUT_DIR / "DATADICT_full.csv").write_text(dd.to_csv(index=False), encoding="utf-8")

rows_per_file = 200
n_parts = math.ceil(len(dd) / rows_per_file)
header = (
    "| variable | label | dtype | semantic_type | non_null | missing_pct | unique | min | max | example_values |\n"
    "|---|---|---|---|---:|---:|---:|---:|---:|---|\n"
)

index_lines = [
    "# Diccionario de Datos — NHAMCS ED 2022 (CSV depurado)",
    f"- **Archivo**: `{CSV_PATH.name}` | **Tamaño**: {CSV_MB:.2f} MB | **SHA256**: `{CSV_SHA}`",
    f"- **Filas**: **{len(df)}** | **Columnas**: **{df.shape[1]}** | **Memoria (pandas)**: **{MEM_MB:.2f} MB**",
    "", "**Vista completa (CSV)**: `DATADICT_full.csv`",
    f"**Partes Markdown** ({n_parts} archivos de ~{rows_per_file} filas):"
]
for i in range(n_parts):
    start = i*rows_per_file; end = min((i+1)*rows_per_file, len(dd))
    part_path = OUT_DIR / f"DATADICT_part{i+1}.md"
    part_lines = [header]
    for _, r in dd.iloc[start:end].iterrows():
        part_lines.append(
            f"| {_san(r['variable'])} | {_san(r.get('label',''))} | {_san(r['dtype'])} | {_san(r['semantic_type'])} | "
            f"{int(r['non_null'])} | {r['missing_pct']:.4f}% | {int(r['unique'])} | {_san(r['min'])} | {_san(r['max'])} | {_san(r['example_values'])} |"
        )
    part_path.write_text("\n".join(part_lines), encoding="utf-8")
    index_lines.append(f"- `DATADICT_part{i+1}.md` (filas {start+1}–{end})")

(datadict_md := OUT_DIR / "DATADICT.md").write_text("\n".join(index_lines), encoding="utf-8")
print("Reescrito:", datadict_md, "| Partes:", n_parts, "| CSV:", dd_path)

# --- E: DATASET.md (coherente con df limpio)  <<-- aquí está el cambio solicitado
num_numeric = int((dict_df["semantic_type"]=="numeric").sum())
num_dt      = int((dict_df["semantic_type"]=="datetime").sum())
num_cat     = int((dict_df["semantic_type"]=="categorical/text").sum())

dataset_md = OUT_DIR / "DATASET.md"
with open(dataset_md, "w", encoding="utf-8") as f:
    f.write("# DATASET.md — Descripción técnica del dataset\n\n")
    f.write("**Nombre**: NHAMCS — Emergency Department 2022 (CSV depurado).  \n")
    f.write(f"**Archivo**: `{CSV_PATH.name}`  \n")
    f.write(f"**Filas (instancias)**: **{len(df)}**  \n")                 # <- texto exacto para el validador
    f.write(f"**Columnas (características)**: **{df.shape[1]}**  \n")    # <- texto exacto para el validador
    f.write(f"**Tamaño en disco (CSV)**: **{CSV_MB:.2f} MB**  \n")
    f.write(f"**Uso de memoria aprox. (pandas)**: **{MEM_MB:.2f} MB**  \n")
    f.write(f"**SHA256 (CSV)**: `{CSV_SHA}`\n\n")                        # <- formato exacto para el validador
    f.write("## Tipos de datos (inferidos por pandas)\n")
    f.write(f"- Numéricas: {num_numeric}\n")
    f.write(f"- Fechas/horas: {num_dt}\n")
    f.write(f"- Categóricas/Textuales: {num_cat}\n\n")
    f.write("## Calidad inicial (resumen)\n")
    try:
        f.write(f"- **Depuración aplicada:** {len(cols_all_nan)} columnas 100% NaN y {len(cols_singleval)} constantes fueron removidas; ver `dropped_columns.csv`.\n")
    except NameError:
        f.write("- **Depuración aplicada:** se removieron columnas 100% NaN y constantes; ver `dropped_columns.csv`.\n")
    f.write(f"- Columnas con faltantes (>0%): {(dict_df['missing_pct']>0).sum()} / {df.shape[1]}\n")
    f.write(f"- Columnas sin faltantes: {(dict_df['missing_pct']==0).sum()}\n")
    f.write(f"- Columnas con alta cardinalidad (unique > 500): {(dict_df['unique']>500).sum()}\n\n")
    f.write("> Nota: Los **labels/definiciones** originales de SAS no vienen en el CSV. Deben completarse con el **diccionario oficial NHAMCS 2022**.\n\n")
    f.write("Para el detalle por columna, ver **DATADICT.md**.\n")
print("Reescrito:", dataset_md)

# --- F: PROVENANCE.md
prov_md = OUT_DIR / "PROVENANCE.md"
with open(prov_md, "w", encoding="utf-8") as f:
    f.write("# PROVENANCE.md — Origen y trazabilidad\n\n")
    f.write("- **Fuente original**: archivo SAS NHAMCS ED 2022 (`ed2022_sas.sas7bdat`).  \n")
    f.write("- **Conversión**: SAS → CSV realizada en Jupyter con `pyreadstat` + `pandas`.  \n")
    f.write(f"- **Archivo actual**: `{CSV_PATH.name}` | **Tamaño**: {CSV_MB:.2f} MB | **SHA256**: `{CSV_SHA}`  \n")
    f.write(f"- **Fecha de conversión**: {pd.Timestamp.today().date()}  \n")
    f.write("- **Licencia/uso**: Uso académico – NHAMCS/CDC 2022 (ver condiciones de NCHS/CDC).\n\n")
    f.write("## Pasos reproducibles\n")
    f.write("1. `df, meta = pyreadstat.read_sas7bdat('ed2022_sas.sas7bdat')`\n")
    f.write("2. Limpieza mínima: códigos -7/-8/-9 → NaN; `ARRTIME` → `ARRTIME_ts`/`ARR_HOUR`; `WAITTIME<0` → NaN.\n")
    f.write("3. Depuración: eliminación de columnas 100% NaN y constantes; remoción de `ARRTIME` (redundante).\n")
    f.write(f"4. `df.to_csv('{CSV_PATH.name}', index=False, encoding='utf-8')`\n")
print("Reescrito:", prov_md)

# --- G: SHA256SUMS.txt (UNA sola vez)
sha_txt = OUT_DIR / "SHA256SUMS.txt"
sha_txt.write_text(f"{CSV_SHA}  {CSV_PATH.name}\n", encoding="utf-8")
print("SHA256SUMS actualizado ->", sha_txt)


Reescrito: D:\ALMACENAMIENTO\VARIOS\FACULTAD\aprendizaje_automatico\Examen_parcial_proyecto\Notebooks\2. Documentacion_dataset\dataset_docs\DATADICT.md | Partes: 4 | CSV: D:\ALMACENAMIENTO\VARIOS\FACULTAD\aprendizaje_automatico\Examen_parcial_proyecto\Notebooks\2. Documentacion_dataset\dataset_docs\DATADICT_full.csv
Reescrito: D:\ALMACENAMIENTO\VARIOS\FACULTAD\aprendizaje_automatico\Examen_parcial_proyecto\Notebooks\2. Documentacion_dataset\dataset_docs\DATASET.md
Reescrito: D:\ALMACENAMIENTO\VARIOS\FACULTAD\aprendizaje_automatico\Examen_parcial_proyecto\Notebooks\2. Documentacion_dataset\dataset_docs\PROVENANCE.md
SHA256SUMS actualizado -> D:\ALMACENAMIENTO\VARIOS\FACULTAD\aprendizaje_automatico\Examen_parcial_proyecto\Notebooks\2. Documentacion_dataset\dataset_docs\SHA256SUMS.txt


## 4.1 Normalizar encabezado de DATADICT.md (hotfix)

In [13]:
# --- Hotfix: normalizar encabezado de DATADICT.md para el validador ---
from pathlib import Path
import os, hashlib

# Rutas que ya venís usando
BASE = Path.cwd()
OUT_DIR  = BASE / "dataset_docs"
DATA_DIR = BASE / "data"
CSV_PATH = DATA_DIR / "ed2022_clean_min.csv"   # ajustá si usás otro CSV

assert OUT_DIR.exists(), "OUT_DIR no existe"
assert CSV_PATH.exists(), f"No existe el CSV en {CSV_PATH}"
assert 'df' in globals(), "df no definido (corré las celdas de carga antes)"

def sha256_of_file(p: Path) -> str:
    import hashlib
    h = hashlib.sha256()
    with open(p, "rb") as f:
        for chunk in iter(lambda: f.read(1024*1024), b""):
            h.update(chunk)
    return h.hexdigest()

# Métricas actuales
CSV_MB  = CSV_PATH.stat().st_size / (1024**2)
CSV_SHA = sha256_of_file(CSV_PATH)
try:
    MEM_MB = df.memory_usage(deep=True).sum()/(1024**2)
except Exception:
    MEM_MB = float("nan")

# Detectar partes existentes para listarlas
parts = sorted(OUT_DIR.glob("DATADICT_part*.md"))

# Encabezado NORMALIZADO (líneas simples que el validador busca)
index_lines = [
    "# Diccionario de Datos — NHAMCS ED 2022 (CSV depurado)",
    f"- **Archivo**: `{CSV_PATH.name}`",
    f"- **Filas**: **{len(df)}**",
    f"- **Columnas**: **{df.shape[1]}**",
    f"- **Tamaño**: {CSV_MB:.2f} MB",
    f"- **Memoria (pandas)**: **{MEM_MB:.2f} MB**",
    f"- **SHA256**: {CSV_SHA}",
    "",
    "**Vista completa (CSV)**: `DATADICT_full.csv`",
    f"**Partes Markdown** ({len(parts)} archivos):",
]
index_lines += [f"- `{p.name}`" for p in parts]

# Reescribir SOLO el índice (no toca DATADICT_full.csv ni las partes)
(OUT_DIR / "DATADICT.md").write_text("\n".join(index_lines), encoding="utf-8")
print("✅ DATADICT.md normalizado (encabezado con Filas/Columnas/SHA en líneas separadas).")


✅ DATADICT.md normalizado (encabezado con Filas/Columnas/SHA en líneas separadas).


## 4.2 Empaquetado para entrega

In [14]:
# === Empaquetar y generar versión liviana del DATADICT ===
from pathlib import Path
import pandas as pd, zipfile, io

OUT_DIR = Path(OUT_DIR)  # ya lo tenés definido
idx_md   = OUT_DIR / "DATADICT.md"
full_csv = OUT_DIR / "DATADICT_full.csv"
parts    = sorted(OUT_DIR.glob("DATADICT_part*.md"))

# 1) ZIP con todo lo necesario para revisar
zip_path = OUT_DIR / "DATADICT_bundle.zip"
with zipfile.ZipFile(zip_path, "w", compression=zipfile.ZIP_DEFLATED) as z:
    if idx_md.exists():   z.write(idx_md, arcname=idx_md.name)
    if full_csv.exists(): z.write(full_csv, arcname=full_csv.name)
    for p in parts: z.write(p, arcname=p.name)
print("ZIP generado:", zip_path, "| contiene", len(parts)+int(idx_md.exists())+int(full_csv.exists()), "archivos")

# 2) MUESTRA liviana (primeras 60 filas) en un único .md
df_full = pd.read_csv(full_csv)
m = df_full.head(60)
cols = ["variable","label","dtype","semantic_type","non_null","missing_pct","unique","min","max","example_values"]
m = m[[c for c in cols if c in m.columns]]

def san(x):
    x = "" if pd.isna(x) else str(x)
    return x.replace("|", r"\|").replace("\n"," ").replace("\r"," ")

lines = [
    "# DATADICT_sample.md — primeras 60 filas",
    "",
    "| " + " | ".join(m.columns) + " |",
    "|"+ "|".join(["---"]*len(m.columns)) + "|",
]
for _, r in m.iterrows():
    lines.append("| " + " | ".join(san(r[c]) for c in m.columns) + " |")

sample_md = OUT_DIR / "DATADICT_sample.md"
sample_md.write_text("\n".join(lines), encoding="utf-8")
print("Muestra generada:", sample_md)

ZIP generado: D:\ALMACENAMIENTO\VARIOS\FACULTAD\aprendizaje_automatico\Examen_parcial_proyecto\Notebooks\2. Documentacion_dataset\dataset_docs\DATADICT_bundle.zip | contiene 6 archivos
Muestra generada: D:\ALMACENAMIENTO\VARIOS\FACULTAD\aprendizaje_automatico\Examen_parcial_proyecto\Notebooks\2. Documentacion_dataset\dataset_docs\DATADICT_sample.md


In [15]:
import os
print(os.listdir(OUT_DIR))

['DATADICT.md', 'DATADICT_bundle.zip', 'DATADICT_full.csv', 'DATADICT_part1.md', 'DATADICT_part2.md', 'DATADICT_part3.md', 'DATADICT_part4.md', 'DATADICT_sample.md', 'DATASET.md', 'dropped_columns.csv', 'PROVENANCE.md', 'SHA256SUMS.txt']


## 4.3 Validador express de documentación y archivos

In [17]:
# === Validador express de documentación y artefactos (con normalización de DATASET.md) ===
from pathlib import Path
import re, hashlib, os

# Usa las mismas rutas que venís usando:
BASE = Path.cwd()
DATA_DIR = BASE / "data"
OUT_DIR  = BASE / "dataset_docs"
CSV_PATH = DATA_DIR / "ed2022_clean_min.csv"  # ajustá si usás otro

def sha256_of_file(p: Path) -> str:
    h = hashlib.sha256()
    with open(p, "rb") as f:
        for chunk in iter(lambda: f.read(1024*1024), b""):
            h.update(chunk)
    return h.hexdigest()

def _normalize_dataset_md(ds_path: Path):
    """
    Normaliza DATASET.md a las claves simples que el validador espera:
      **Filas**: **N**
      **Columnas**: **N**
      **SHA256**: <HASH>
    Convierte variantes como:
      - **Instancias (filas)**: **N**
      - **Características (columnas)**: **N**
      - **SHA256 (CSV)**: `HASH`
    """
    if not ds_path.exists():
        return
    txt = ds_path.read_text(encoding="utf-8", errors="ignore")

    # Filas
    # Ejemplos que convertimos a **Filas**: **N**
    patterns_rows = [
        r"\*\*Instancias\s*\(filas\)\*\*:\s*\*\*(\d+)\*\*",
        r"\*\*Filas\s*\(instancias\)\*\*:\s*\*\*(\d+)\*\*",
        r"\*\*Filas\s*\(.*?\)\*\*:\s*\*\*(\d+)\*\*",
    ]
    for pr in patterns_rows:
        txt = re.sub(pr, r"**Filas**: **\1**", txt)

    # Columnas
    # Ejemplos que convertimos a **Columnas**: **N**
    patterns_cols = [
        r"\*\*Características\s*\(columnas\)\*\*:\s*\*\*(\d+)\*\*",
        r"\*\*Caracter\u00edsticas\s*\(columnas\)\*\*:\s*\*\*(\d+)\*\*",  # por si viene con escape
        r"\*\*Columnas\s*\(características\)\*\*:\s*\*\*(\d+)\*\*",
        r"\*\*Columnas\s*\(.*?\)\*\*:\s*\*\*(\d+)\*\*",
    ]
    for pc in patterns_cols:
        txt = re.sub(pc, r"**Columnas**: **\1**", txt)

    # SHA
    # Variantes a **SHA256**: HASH (sin backticks)
    patterns_sha = [
        r"\*\*SHA256\s*\(CSV\)\*\*:\s*`?([0-9a-f]{64})`?",
        r"\*\*SHA256\*\*:\s*`?([0-9a-f]{64})`?",
    ]
    for ps in patterns_sha:
        txt = re.sub(ps, r"**SHA256**: \1", txt)

    ds_path.write_text(txt, encoding="utf-8")

issues = []

# 1) Existencia de archivos clave
for p in [CSV_PATH, OUT_DIR/"DATASET.md", OUT_DIR/"DATADICT.md", OUT_DIR/"SHA256SUMS.txt"]:
    if not p.exists():
        issues.append(f"Falta archivo: {p}")

if not issues:
    # 1.b) Normalizar DATASET.md antes de validar su contenido
    _normalize_dataset_md(OUT_DIR / "DATASET.md")

    # 2) SHA real vs SHA256SUMS.txt
    real_sha = sha256_of_file(CSV_PATH)
    sums_txt = (OUT_DIR/"SHA256SUMS.txt").read_text(encoding="utf-8", errors="ignore")
    m_sum = re.search(r"^([0-9a-f]{64})\s+(.+)$", sums_txt.strip())
    if not m_sum:
        issues.append("Formato inválido en SHA256SUMS.txt (debe ser: '<SHA256>  <archivo>').")
    else:
        sha_sums, file_sums = m_sum.group(1), m_sum.group(2)
        if sha_sums != real_sha:
            issues.append(f"SHA no coincide con CSV. SHA real={real_sha} / SHA en archivo={sha_sums}")
        if Path(file_sums).name != CSV_PATH.name:
            issues.append(f"Nombre en SHA256SUMS.txt ({file_sums}) no coincide con CSV ({CSV_PATH.name}).")

    # 3) DATASET.md: filas, columnas, SHA (formato simple)
    ds_txt = (OUT_DIR/"DATASET.md").read_text(encoding="utf-8", errors="ignore")
    m_rows = re.search(r"\*\*Filas\*\*:\s*\*\*(\d+)\*\*", ds_txt)
    m_cols = re.search(r"\*\*Columnas\*\*:\s*\*\*(\d+)\*\*", ds_txt)
    m_sha  = re.search(r"\*\*SHA256\*\*:\s*([0-9a-f]{64})", ds_txt)

    if not m_rows or not m_cols or not m_sha:
        issues.append("DATASET.md no tiene alguno de: filas/columnas/SHA en el formato esperado.")
    else:
        ds_rows = int(m_rows.group(1))
        ds_cols = int(m_cols.group(1))
        ds_sha  = m_sha.group(1)

        if ds_sha != real_sha:
            issues.append(f"DATASET.md: SHA ({ds_sha}) no coincide con SHA real ({real_sha}).")

        # 5) DATADICT.md: filas/columnas
        dd_txt = (OUT_DIR/"DATADICT.md").read_text(encoding="utf-8", errors="ignore")
        m_dd_rows = re.search(r"Filas\:\s\*\*(\d+)\*\*", dd_txt)
        m_dd_cols = re.search(r"Columnas\:\s\*\*(\d+)\*\*", dd_txt)
        if m_dd_rows and m_dd_cols:
            dd_rows = int(m_dd_rows.group(1))
            dd_cols = int(m_dd_cols.group(1))
            if dd_rows != ds_rows:
                issues.append(f"DATADICT.md vs DATASET.md: Filas {dd_rows} != {ds_rows}.")
            if dd_cols != ds_cols:
                issues.append(f"DATADICT.md vs DATASET.md: Columnas {dd_cols} != {ds_cols}.")
        else:
            issues.append("DATADICT.md no expone 'Filas' y 'Columnas' en el encabezado.")

        # 6) Partes del diccionario (si las mencionás)
        parts_declared = re.findall(r"`(DATADICT_part\d+\.md)`", dd_txt)
        for p in parts_declared:
            if not (OUT_DIR/p).exists():
                issues.append(f"Se declara {p} en DATADICT.md pero el archivo no existe.")

# Resultado
if issues:
    print("❌ VALIDADOR: HAY PROBLEMAS")
    for i, msg in enumerate(issues, 1):
        print(f"{i}. {msg}")
else:
    print("✅ VALIDADOR: TODO OK")


✅ VALIDADOR: TODO OK


## 5 Vistas útiles: variables con más faltantes y alta cardinalidad

In [18]:
top_missing = dict_df.sort_values("missing_pct", ascending=False)[["variable","missing_pct"]].head(20)
high_card = dict_df[dict_df["unique"]>500][["variable","unique"]].sort_values("unique", ascending=False).head(20)
display(top_missing)
display(high_card)


Unnamed: 0,variable,missing_pct
745,RX27V3C3,99.9875
720,RX25V3C2,99.9875
496,RX11CAT4,99.9875
641,RX19V3C3,99.9875
686,RX23CAT3,99.9875
528,RX12V3C4,99.9875
564,RX14V3C3,99.9875
693,RX23V3C3,99.9875
708,RX24V3C3,99.9875
520,RX12V1C4,99.9875


Unnamed: 0,variable,unique
54,DIAG1,1549
768,ARRTIME_ts,1437
3,LOV,1435
55,DIAG2,1308
56,DIAG3,989
150,MED1,905
151,MED2,891
152,MED3,827
153,MED4,736
154,MED5,674
