<a href="https://colab.research.google.com/github/catalinakarinip/mercadolabroal/blob/main/mercadolaboral.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Script 1: Limpieza bases INE

Para actualizar las bases limpias se debe
1. Subir las bbdd originales del INE
2. Ver si la base de diccionario "variables_por_base" mantiene las columnas, y por tanto las abreviaturas corresponden
3. Cambiar nombre del archivo al compatible con la base de diccionario

El code se demora 1 min en crear todas las bases limpias!!


In [6]:
# ================= 0. MONTAR DRIVE =====================================
from google.colab import drive
drive.mount('/content/drive')

# ================= 1. LIBRERÍAS ========================================
from pathlib import Path
import pandas as pd, re
import re

# ================= 2. RUTAS ============================================
ROOT = Path("/content/drive/MyDrive/Data/Mercado_Laboral/Biobio")
ORIG_DIR  = ROOT / "Datos_ENE_originales"
CLEAN_DIR = ROOT / "Datos_ENE_limpios"
CLEAN_DIR.mkdir(parents=True, exist_ok=True)

MAP_FILE  = ROOT / "resultados/variables_por_base.xlsx"
MAP_SHEET = 0

# ================= 3. DICCIONARIO DE ABREVIATURAS =====================
def load_abbreviations() -> dict:
    df_map = (
        pd.read_excel(MAP_FILE, sheet_name=MAP_SHEET, usecols="A:C")
        .rename(columns=str.lower)
        .dropna()
    )
    df_map["base"] = (
        df_map["base"]
        .str.strip()
        .str.replace(".xlsx", "", regex=False)
        .str.lower()
    )
    df_map["var_original"] = df_map["var_original"].str.strip()
    df_map["abreviatura"] = df_map["abreviatura"].str.strip()
    return {(r.base, r.var_original): r.abreviatura for r in df_map.itertuples()}

# ================= 4. HOJAS A CONSERVAR ================================
ID_VARS = ["Año", "Trimestre"]
HOJAS_OBJETIVO = {
    "AS",
    "AP",
    "TA",
    "AN",
    "AT",
    "CO",
    "VA",
    "RM",
    "LI",
    "ML",
    "NB",
    "BI",
    "AR",
    "LR",
    "LL",
    "AI",
    "MA",
}

# ================= 5. CONVERSIÓN NÚMEROS LATINOS =======================
import re
def texto_a_numero(valor):
    if pd.isna(valor):
        return None
    texto = str(valor)
    if re.match(r"^\d{1,3}(\.\d{3})*(,\d+)?$", texto):
        texto = texto.replace(".", "").replace(",", ".")
    else:
        texto = texto.replace(",", ".")
    try:
        return float(texto)
    except ValueError:
        return None

# ================= 6. LIMPIADOR DE HOJAS ===============================
def limpiar_hoja(df: pd.DataFrame, base_alias: str, abbr: dict) -> pd.DataFrame:
    df = df.copy()
    df.columns = df.columns.str.strip()
    columnas_a_borrar = []
    renombres = {}
    columnas = list(df.columns)

    for i, col in enumerate(columnas):
        if col in ID_VARS or "Unnamed" not in col:
            continue
        anterior = columnas[i - 1].strip() if i > 0 else ""
        if anterior in ID_VARS or not anterior:
            columnas_a_borrar.append(col)
            continue
        alias = abbr.get((base_alias, anterior))
        if alias:
            renombres[col] = f"{alias}_{base_alias}"
        else:
            columnas_a_borrar.append(col)

    df = df.drop(columns=columnas_a_borrar, errors="ignore").rename(columns=renombres)
    df = df[df[ID_VARS[0]].notna() | df[ID_VARS[1]].notna()].reset_index(drop=True)

    for col in renombres.values():
        df[col] = df[col].apply(texto_a_numero)

    return df[[*ID_VARS, *renombres.values()]]

# ================= 7. PROCESAR ARCHIVOS =================================
def procesar_archivos():
    abbr = load_abbreviations()
    for src in ORIG_DIR.glob("*.xlsx"):
        base_alias = src.stem.split("_")[0].lower()
        dest = CLEAN_DIR / f"{base_alias}_limpia.xlsx"
        if dest.exists() and dest.stat().st_mtime >= src.stat().st_mtime:
            print(f"↻  Ya limpio: {dest.name}")
            continue
        print(f"→ Procesando {src.name} (base={base_alias})")
        xls = pd.ExcelFile(src)
        with pd.ExcelWriter(dest, engine="openpyxl") as xlw:
            hojas_guardadas = 0
            for hoja in xls.sheet_names:
                if hoja not in HOJAS_OBJETIVO:
                    continue
                try:
                    raw = xls.parse(hoja, header=5, dtype=str)
                    limpio = limpiar_hoja(raw, base_alias, abbr)
                    if not limpio.empty:
                        limpio.to_excel(xlw, sheet_name=hoja, index=False)
                        hojas_guardadas += 1
                except Exception as e:
                    print(f"⚠️ Error en hoja '{hoja}': {e}")
            if hojas_guardadas == 0:
                print(f"⚠️ Ninguna hoja válida guardada en {src.name}")
    print("\n✅ Limpieza completada. Archivos en:", CLEAN_DIR)

if __name__ == "__main__":
    procesar_archivos()



Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).
→ Procesando rama.xlsx (base=rama)
→ Procesando informalidadtasas.xlsx (base=informalidadtasas)
→ Procesando informalidadrama.xlsx (base=informalidadrama)
→ Procesando informalidadgrupo.xlsx (base=informalidadgrupo)
→ Procesando informalidadcategoria.xlsx (base=informalidadcategoria)
→ Procesando indicadoresprincipales.xlsx (base=indicadoresprincipales)
→ Procesando grupo.xlsx (base=grupo)
→ Procesando complementarios.xlsx (base=complementarios)
→ Procesando categoria.xlsx (base=categoria)

✅ Limpieza completada. Archivos en: /content/drive/MyDrive/Data/Mercado_Laboral/Biobio/Datos_ENE_limpios


# Script 2: Panel de datos

In [7]:
# ================= 0. MONTAR DRIVE =====================================
from google.colab import drive
drive.mount('/content/drive')

# ================= 1. LIBRERÍAS ========================================
from pathlib import Path
import pandas as pd

# ================= 2. PARÁMETROS ======================================
ROOT = Path("/content/drive/MyDrive/Data/Mercado_Laboral/Biobio")
CLEAN_DIR = ROOT / "Datos_ENE_limpios"
TRIM_OK = {"Ene - Mar", "Abr - Jun", "Jul - Sep", "Oct - Dic"}
MAPA = {
    "AP": "Arica y Parinacota", "TA": "Tarapacá", "AN": "Antofagasta", "AT": "Atacama",
    "CO": "Coquimbo", "VA": "Valparaíso", "RM": "Región Metropolitana", "LI": "O’Higgins",
    "ML": "Maule", "NB": "Ñuble", "BI": "Biobío", "AR": "Araucanía", "LR": "Los Ríos",
    "LL": "Los Lagos", "AI": "Aysén", "MA": "Magallanes", "AS": "Nacional"
}
REGIONES = set(MAPA.keys())

# ================= 3. CONSTRUCCIÓN DEL PANEL ===========================
paneles = []

for archivo in CLEAN_DIR.glob("*_limpia.xlsx"):
    base = archivo.stem.replace("_limpia", "")
    xls = pd.ExcelFile(archivo)
    for hoja in xls.sheet_names:
        if hoja not in REGIONES:
            continue
        df = pd.read_excel(xls, sheet_name=hoja)
        df = df[df["Trimestre"].isin(TRIM_OK)].copy()
        df["region_code"] = hoja
        df["region_name"] = MAPA[hoja]
        df["base"] = base
        paneles.append(df)

# ================= 4. UNIFICAR Y GUARDAR ===============================
panel = pd.concat(paneles, ignore_index=True)

# OPCIONAL: guardar como archivo
PANEL_FILE = ROOT / "resultados" / "panel_ENE_unificado.xlsx"
panel.to_excel(PANEL_FILE, index=False)

print("✅ Panel construido y guardado en:", PANEL_FILE)


Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).
✅ Panel construido y guardado en: /content/drive/MyDrive/Data/Mercado_Laboral/Biobio/resultados/panel_ENE_unificado.xlsx
