In [9]:
import pandas as pd
import os

# === 1. LEER CSV CORRECTAMENTE ===
df = pd.read_csv("Resultados_Admision_2024I.csv", encoding="utf-8-sig")


# Quitar BOM si aparece (ï»¿Modalidad)
df.columns = df.columns.str.replace("ï»¿", "", regex=False)

# === 2. NORMALIZAR ENCABEZADOS ===
df.columns = (
    df.columns
    .str.upper()
    .str.strip()
    .str.replace("Á", "A")
    .str.replace("É", "E")
    .str.replace("Í", "I")
    .str.replace("Ó", "O")
    .str.replace("Ú", "U")
)

# === 3. RENOMBRAR COLUMNAS EXACTAS ===
rename_map = {
    "APELLIDOS Y NOMBRES": "NOMBRE",
    "ESCUELA PROFESIONAL": "ESCUELA_OPCION1",
    "ESCUELA SEGUNDA OPCION": "ESCUELA_OPCION2",
    "PUNTAJE FINAL": "PUNTAJE",
    "MERITO E.P ALCANZA VACANTE": "MERITO",
    "OBSERVACION": "OBSERVACION",
    "OBSERVACI&OACUTE;N": "OBSERVACION"
}

df = df.rename(columns={k: v for k, v in rename_map.items() if k in df.columns})

# === 4. ASEGURAR TODAS LAS COLUMNAS ===
needed = [
    "MODALIDAD","ESCUELA","CODIGO","NOMBRE",
    "PUNTAJE","MERITO","ESCUELA_OPCION1","ESCUELA_OPCION2","OBSERVACION"
]

for col in needed:
    if col not in df.columns:
        df[col] = None

# === 5. AÑO Y SEMESTRE ===
df["ANIO"] = 2024
df["SEMESTRE"] = 1

# === 6. DETECTAR TARGET ===
df["TARGET"] = df["OBSERVACION"].str.contains("ALCANZO", case=False, na=False).astype(int)

# === 7. DETECTAR OPCIÓN DE INGRESO ===
def detectar_opcion(obs):
    t = str(obs).upper()
    if "SEGUNDA" in t:
        return 2
    if "ALCANZO" in t:
        return 1
    return None

df["OPCION_DE_INGRESO"] = df["OBSERVACION"].apply(detectar_opcion)

# === 8. ESCUELA FINAL ===
def escuela_final(row):
    if row["OPCION_DE_INGRESO"] == 2:
        return row["ESCUELA_OPCION2"]
    return row["ESCUELA_OPCION1"]

df["ESCUELA_FINAL"] = df.apply(escuela_final, axis=1)

# === 9. LIMPIAR TIPOS ===
df["CODIGO"] = df["CODIGO"].astype(str).str.replace(".0", "", regex=False)
df["PUNTAJE"] = pd.to_numeric(df["PUNTAJE"], errors="coerce")
df["MERITO"] = pd.to_numeric(df["MERITO"], errors="coerce")

# === 10. ORDEN FINAL ===
cols = [
    "CODIGO","NOMBRE","MODALIDAD","PUNTAJE","MERITO",
    "ESCUELA_OPCION1","ESCUELA_OPCION2","ESCUELA_FINAL",
    "OBSERVACION","OPCION_DE_INGRESO","ANIO","SEMESTRE","TARGET"
]

df = df[cols]

# === 11. EXPORTAR ===
os.makedirs("Normalizados", exist_ok=True)
df.to_csv("Normalizados/NORMALIZADO_2024I.csv", index=False, encoding="utf-8-sig")

print("✔ EXPORTADO: Normalizados/NORMALIZADO_2024I.csv")


✔ EXPORTADO: Normalizados/NORMALIZADO_2024I.csv


In [10]:
import pandas as pd
import os

# === 1. LEER CSV CORRECTAMENTE ===
df = pd.read_csv("Resultados_Admision_2024II.csv", encoding="utf-8-sig")


# Quitar BOM si aparece (ï»¿Modalidad)
df.columns = df.columns.str.replace("ï»¿", "", regex=False)

# === 2. NORMALIZAR ENCABEZADOS ===
df.columns = (
    df.columns
    .str.upper()
    .str.strip()
    .str.replace("Á", "A")
    .str.replace("É", "E")
    .str.replace("Í", "I")
    .str.replace("Ó", "O")
    .str.replace("Ú", "U")
)

# === 3. RENOMBRAR COLUMNAS EXACTAS ===
rename_map = {
    "APELLIDOS Y NOMBRES": "NOMBRE",
    "ESCUELA PROFESIONAL": "ESCUELA_OPCION1",
    "ESCUELA SEGUNDA OPCION": "ESCUELA_OPCION2",
    "PUNTAJE FINAL": "PUNTAJE",
    "MERITO E.P ALCANZA VACANTE": "MERITO",
    "OBSERVACION": "OBSERVACION",
    "OBSERVACI&OACUTE;N": "OBSERVACION"
}

df = df.rename(columns={k: v for k, v in rename_map.items() if k in df.columns})

# === 4. ASEGURAR TODAS LAS COLUMNAS ===
needed = [
    "MODALIDAD","ESCUELA","CODIGO","NOMBRE",
    "PUNTAJE","MERITO","ESCUELA_OPCION1","ESCUELA_OPCION2","OBSERVACION"
]

for col in needed:
    if col not in df.columns:
        df[col] = None

# === 5. AÑO Y SEMESTRE ===
df["ANIO"] = 2024
df["SEMESTRE"] = 1

# === 6. DETECTAR TARGET ===
df["TARGET"] = df["OBSERVACION"].str.contains("ALCANZO", case=False, na=False).astype(int)

# === 7. DETECTAR OPCIÓN DE INGRESO ===
def detectar_opcion(obs):
    t = str(obs).upper()
    if "SEGUNDA" in t:
        return 2
    if "ALCANZO" in t:
        return 1
    return None

df["OPCION_DE_INGRESO"] = df["OBSERVACION"].apply(detectar_opcion)

# === 8. ESCUELA FINAL ===
def escuela_final(row):
    if row["OPCION_DE_INGRESO"] == 2:
        return row["ESCUELA_OPCION2"]
    return row["ESCUELA_OPCION1"]

df["ESCUELA_FINAL"] = df.apply(escuela_final, axis=1)

# === 9. LIMPIAR TIPOS ===
df["CODIGO"] = df["CODIGO"].astype(str).str.replace(".0", "", regex=False)
df["PUNTAJE"] = pd.to_numeric(df["PUNTAJE"], errors="coerce")
df["MERITO"] = pd.to_numeric(df["MERITO"], errors="coerce")

# === 10. ORDEN FINAL ===
cols = [
    "CODIGO","NOMBRE","MODALIDAD","PUNTAJE","MERITO",
    "ESCUELA_OPCION1","ESCUELA_OPCION2","ESCUELA_FINAL",
    "OBSERVACION","OPCION_DE_INGRESO","ANIO","SEMESTRE","TARGET"
]

df = df[cols]

# === 11. EXPORTAR ===
os.makedirs("Normalizados", exist_ok=True)
df.to_csv("Normalizados/NORMALIZADO_2024II.csv", index=False, encoding="utf-8-sig")

print("✔ EXPORTADO: Normalizados/NORMALIZADO_2024II.csv")


✔ EXPORTADO: Normalizados/NORMALIZADO_2024II.csv
