<a href="https://colab.research.google.com/github/freakezoide/codigos-de-coolab/blob/main/Con_limpieza_de_NaN_VER_2.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [7]:
# Limpieza y transformación de datos
import pandas as pd
import numpy as np

# 1. Eliminar filas completamente vacías (si las hay)
alumnos_total.dropna(how='all', inplace=True)

# 2. Tratamiento diferenciado por tipo de columna
# Para columnas categóricas
columnas_categoricas = ['Mes', 'Departamento', 'Ciclo', 'Zona', 'Contexto']
for col in columnas_categoricas:
    # Reemplazar NaN con "No especificado" manteniendo la categoría
    # Add 'No especificado' to the categories if it's not already present
    if 'No especificado' not in alumnos_total[col].cat.categories:
        alumnos_total[col] = alumnos_total[col].cat.add_categories(['No especificado'])
    alumnos_total[col] = alumnos_total[col].fillna('No especificado')

    # Optimizar memoria para categóricas
    if alumnos_total[col].nunique() < 0.5 * len(alumnos_total):
        alumnos_total[col] = alumnos_total[col].astype('category')

# Para columnas numéricas
columnas_numericas = ['UsuariosCREA', 'UsuariosMAT', 'UsuariosBiblioteca']
for col in columnas_numericas:
    # Reemplazar NaN con 0 (asumiendo que NaN significa ausencia de uso)
    alumnos_total[col] = alumnos_total[col].fillna(0)

    # Convertir a entero para ahorrar espacio (los conteos de usuarios son enteros)
    try:
        alumnos_total[col] = alumnos_total[col].astype('int64')
    except:
        # Si hay valores no convertibles, mantener float
        pass

# 3. Eliminar filas con año faltante (si es clave para el análisis)
alumnos_total.dropna(subset=['Año'], inplace=True)

# 4. Convertir año a entero (si es posible)
if alumnos_total['Año'].notna().all():
    alumnos_total['Año'] = alumnos_total['Año'].astype('int64')

# 5. Verificación final
print("\n✅ ESTADO POST-LIMPIEZA:")
print("="*50)
print(f"Total de registros válidos: {len(alumnos_total):,}")
print("\nValores faltantes por columna:")
print(alumnos_total.isnull().sum())

# 6. Análisis mejorado de variables categóricas
print("\n📊 DISTRIBUCIÓN DE CATEGÓRICAS:")
print("="*50)
for col in columnas_categoricas:
    print(f"\n{col}:")
    print(alumnos_total[col].value_counts(dropna=False, normalize=True).head(10))

# 7. Estadísticas numéricas limpias
print("\n🧮 ESTADÍSTICAS NUMÉRICAS:")
print("="*50)
display(alumnos_total[columnas_numericas].describe().apply(lambda x: round(x, 2)))


✅ ESTADO POST-LIMPIEZA:
Total de registros válidos: 20,410

Valores faltantes por columna:
Año                   0
Mes                   0
Departamento          0
Ciclo                 0
Zona                  0
Contexto              0
UsuariosCREA          0
UsuariosMAT           0
UsuariosBiblioteca    0
dtype: int64

📊 DISTRIBUCIÓN DE CATEGÓRICAS:

Mes:
Mes
Setiembre    0.113327
Julio        0.113229
Noviembre    0.112984
Diciembre    0.112935
Agosto       0.112886
Marzo        0.108133
Mayo         0.087555
Abril        0.065458
Junio        0.065360
Octubre      0.065164
Name: proportion, dtype: float64

Departamento:
Departamento
Canelones      0.066438
Tacuarembo     0.057815
Rivera         0.057472
Artigas        0.057031
Rio Negro      0.056590
Colonia        0.055561
Cerro Largo    0.055414
San Jose       0.054875
Rocha          0.054532
Maldonado      0.053209
Name: proportion, dtype: float64

Ciclo:
Ciclo
Inicial                  0.294121
Primaria 1er. Ciclo      0.277364
P

Unnamed: 0,UsuariosCREA,UsuariosMAT,UsuariosBiblioteca
count,20410.0,20410.0,20410.0
mean,261.95,89.18,18.1
std,1017.16,355.68,89.43
min,0.0,0.0,0.0
25%,1.0,0.0,0.0
50%,13.0,4.0,0.0
75%,93.0,30.0,4.0
max,16751.0,9081.0,2861.0
