<a href="https://colab.research.google.com/github/freakezoide/codigos-de-coolab/blob/main/LABEL_encoding.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [2]:
# ✅ Paso 1: Importar bibliotecas necesarias
from google.colab import files
import pandas as pd
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split
import pickle
import os

# ✅ Paso 2: Subir y cargar los archivos CSV
uploaded = files.upload()
archivos = list(uploaded.keys())
df_list = [pd.read_csv(nombre) for nombre in archivos]
alumnos_total = pd.concat(df_list, ignore_index=True)

# ✅ Paso 3: Inspección inicial de datos
print("\n🔍 INSPECCIÓN INICIAL:")
print("Columnas disponibles:", alumnos_total.columns.tolist())
print("Cantidad total de filas:", len(alumnos_total))
print("\nMuestra de datos originales:")
print(alumnos_total.head())

# ✅ Paso 4: Identificar columnas categóricas
cat_cols = alumnos_total.select_dtypes(include=['object', 'category']).columns
print("\n📊 Columnas categóricas identificadas:", list(cat_cols))

# ✅ Paso 5: Aplicar Label Encoding
print("\n🔧 APLICANDO LABEL ENCODING...")
label_encoders = {}

for col in cat_cols:
    # Verificar si la columna tiene valores nulos
    if alumnos_total[col].isnull().any():
        print(f"¡Advertencia! La columna {col} tiene valores nulos. Rellenando con 'Unknown'")
        alumnos_total[col] = alumnos_total[col].fillna('Unknown')

    # Crear y aplicar encoder
    le = LabelEncoder()
    alumnos_total[col] = le.fit_transform(alumnos_total[col].astype(str))
    label_encoders[col] = le

    # Mostrar mapeo de categorías
    print(f"\n🔡 Columna: {col}")
    print("Categorías originales -> Códigos:")
    for clase, codigo in zip(le.classes_, le.transform(le.classes_)):
        print(f"{clase} -> {codigo}")

# ✅ Paso 6: Guardar los encoders para uso futuro
if not os.path.exists('encoders'):
    os.makedirs('encoders')

for col, encoder in label_encoders.items():
    with open(f'encoders/le_{col}.pkl', 'wb') as f:
        pickle.dump(encoder, f)

print("\n💾 Encoders guardados en la carpeta 'encoders'")

# ✅ Paso 7: Mostrar datos transformados
print("\n🎯 DATOS FINALES TRANSFORMADOS:")
print(alumnos_total.head())
print("\n📋 Resumen estadístico:")
print(alumnos_total.describe())

# ✅ Paso 8: Preparar datos para modelado (ejemplo)
# NOTA: Ajusta 'target_col' al nombre de tu variable objetivo
target_col = 'target'  # Cambiar por tu columna objetivo

if target_col in alumnos_total.columns:
    X = alumnos_total.drop(target_col, axis=1)
    y = alumnos_total[target_col]

    # Dividir en conjuntos de entrenamiento y prueba
    X_train, X_test, y_train, y_test = train_test_split(
        X, y, test_size=0.2, random_state=42)

    print("\n📊 División de datos:")
    print(f"Entrenamiento: {X_train.shape[0]} muestras")
    print(f"Prueba: {X_test.shape[0]} muestras")
else:
    print("\n⚠️ No se encontró la columna objetivo. Verifica el nombre de tu variable target.")

# ✅ Paso 9: Exportar datos procesados (opcional)
alumnos_total.to_csv('datos_procesados.csv', index=False)
print("\n💾 Datos procesados guardados como 'datos_procesados.csv'")

Saving 2021 primaria - copia.csv to 2021 primaria - copia (1).csv
Saving 2022 primaria.csv to 2022 primaria (1).csv
Saving 2023 primaria.csv to 2023 primaria (1).csv
Saving 2019PRIMARIA (1).csv to 2019PRIMARIA (1).csv
Saving 2020Primaria.csv to 2020Primaria (1).csv

🔍 INSPECCIÓN INICIAL:
Columnas disponibles: ['Año', 'Mes', 'Departamento', 'Ciclo', 'Zona', 'Contexto', 'UsuariosCREA', 'UsuariosMAT', 'UsuariosBiblioteca']
Cantidad total de filas: 24560

Muestra de datos originales:
    Año        Mes Departamento                Ciclo    Zona       Contexto  \
0  2021  Noviembre     Paysandu              Inicial  Urbana  Quintil 1 y 2   
1  2021  Noviembre      Artigas              Inicial  Urbana      Quintil 3   
2  2021  Noviembre     San Jose  Primaria 1er. Ciclo  Urbana  Quintil 1 y 2   
3  2021  Noviembre    Canelones              Inicial   Rural  Quintil 1 y 2   
4  2021  Noviembre    Lavalleja  Primaria 1er. Ciclo   Rural      Sin Datos   

   UsuariosCREA  UsuariosMAT  UsuariosBi