In [3]:
import pandas as pd
import os

# Cargar el dataset
df = pd.read_csv("../data/original/ESTABLECIMIENTOS_EDUCATIVOS-COLOMBIA_20250605.csv")

# 1. Eliminar columnas completamente vacías
df.dropna(axis=1, how='all', inplace=True)

# 2. Eliminar filas duplicadas
df.drop_duplicates(inplace=True)

# 3. Normalizar nombres de columnas para evitar problemas
df.columns = (
    df.columns
    .str.strip()
    .str.lower()
    .str.replace('á', 'a', regex=False)
    .str.replace('é', 'e', regex=False)
    .str.replace('í', 'i', regex=False)
    .str.replace('ó', 'o', regex=False)
    .str.replace('ú', 'u', regex=False)
    .str.replace('ñ', 'n', regex=False)
    .str.replace(' ', '_', regex=False)
)

# 4. Renombrar la columna año a anio (ya sin ñ)
if 'anio' not in df.columns:
    if 'ano' in df.columns:
        df.rename(columns={'ano': 'anio'}, inplace=True)
    else:
        raise ValueError("No se encontró columna 'anio' ni 'ano' en el dataset.")

# 5. Limpiar columnas de texto: quitar espacios y pasar a mayúsculas
cols_objeto = df.select_dtypes(include='object').columns
for col in cols_objeto:
    df[col] = df[col].astype(str).str.strip().str.upper()

# 6. Rellenar o corregir valores nulos en columnas específicas
df['zona'] = df['zona'].replace(['NAN', ''], 'SIN DATO').fillna('SIN DATO')
df['nombre_rector'] = df['nombre_rector'].replace(['NAN', ''], 'NO REGISTRA').fillna('NO REGISTRA')
df['telefono'] = df['telefono'].replace(['NAN', ''], 'NO TIENE').fillna('NO TIENE')
df['correo_electronico'] = df['correo_electronico'].replace(['-', 'NAN', ''], None)
df['correo_electronico'] = df['correo_electronico'].fillna('SIN CORREO')

# 7. Convertir códigos a texto para conservar ceros a la izquierda
df['codigoestablecimiento'] = df['codigoestablecimiento'].astype(str)
df['codigodepartamento'] = df['codigodepartamento'].astype(str)
df['codigomunicipio'] = df['codigomunicipio'].astype(str)

# 8. Verificación rápida
print("Columnas del dataframe:", df.columns.tolist())
print("Valores únicos en zona:", df['zona'].unique())
print("Valores únicos en calendario:", df['calendario'].unique())

# 9. Guardar dataframe limpio
os.makedirs("../data/limpio", exist_ok=True)  # Asegura que exista el directorio
output_path = "../data/limpio/establecimientos_educativos_limpio.csv"
df.to_csv(output_path, index=False, encoding='utf-8')
print(f" Archivo limpio exportado correctamente a: {output_path}")


FileNotFoundError: [Errno 2] No such file or directory: '../data/original/ESTABLECIMIENTOS_EDUCATIVOS-COLOMBIA_20250605.csv'