### 📤 Limpieza de Status, Modalidad, Jornada, Plan, Departamental (Diego Hernández) 

In [38]:
import pandas as pd
import numpy as np
from sklearn.preprocessing import LabelEncoder

In [39]:
data = pd.read_csv('UnifiedData/UnifiedDataV1.csv')

In [40]:
data[['STATUS', 'JORNADA', 'PLAN', 'DEPARTAMENTAL']]

Unnamed: 0,STATUS,JORNADA,PLAN,DEPARTAMENTAL
0,ABIERTA,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ
1,ABIERTA,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ
2,ABIERTA,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ
3,ABIERTA,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ
4,ABIERTA,VESPERTINA,DIARIO(REGULAR),ALTA VERAPAZ
...,...,...,...,...
9325,ABIERTA,MATUTINA,DIARIO(REGULAR),ZACAPA
9326,ABIERTA,SIN JORNADA,SEMIPRESENCIAL (UN DÍA A LA SEMANA),ZACAPA
9327,ABIERTA,NOCTURNA,DIARIO(REGULAR),ZACAPA
9328,ABIERTA,VESPERTINA,DIARIO(REGULAR),ZACAPA


In [52]:
def limpiarDatosCategNominales(data):
    print("🔍 Verificando valores nulos en cada columna...")
    print(data[['STATUS', 'MODALIDAD', 'JORNADA', 'PLAN', 'DEPARTAMENTAL']].isnull().sum())
    print()

    ## Rellenar valores nulos con una categoría 'Desconocido'
    #print("🛠️ Rellenando valores nulos con 'Desconocido'...")
    #data[['STATUS', 'JORNADA', 'PLAN', 'DEPARTAMENTAL']] = data[['STATUS', 'JORNADA', 'PLAN', 'DEPARTAMENTAL']].fillna('Desconocido')

    # Convertir a tipo 'category'
    print("🔄 Convirtiendo columnas a tipo 'category'...")
    for col in ['STATUS', 'MODALIDAD', 'JORNADA', 'PLAN', 'DEPARTAMENTAL']:
        data[col] = data[col].astype('category')
        print(f"✅ Columna {col} convertida correctamente.")
    print()

    # Mostrar categorías únicas de cada columna
    print("🔢 Mostrando categorías únicas por columna:")
    for col in ['STATUS', 'JORNADA', 'PLAN', 'DEPARTAMENTAL']:
        print(f"📊 {col}: {data[col].cat.categories}")
    print()

    return data

data = limpiarDatosCategNominales(data)

🔍 Verificando valores nulos en cada columna...
STATUS           0
MODALIDAD        0
JORNADA          0
PLAN             0
DEPARTAMENTAL    0
dtype: int64

🔄 Convirtiendo columnas a tipo 'category'...
✅ Columna STATUS convertida correctamente.
✅ Columna MODALIDAD convertida correctamente.
✅ Columna JORNADA convertida correctamente.
✅ Columna PLAN convertida correctamente.
✅ Columna DEPARTAMENTAL convertida correctamente.

🔢 Mostrando categorías únicas por columna:
📊 STATUS: Index(['ABIERTA', 'CERRADA TEMPORALMENTE', 'TEMPORAL'], dtype='object')
📊 JORNADA: Index(['DOBLE', 'INTERMEDIA', 'MATUTINA', 'NOCTURNA', 'SIN JORNADA',
       'VESPERTINA'],
      dtype='object')
📊 PLAN: Index(['A DISTANCIA', 'DIARIO(REGULAR)', 'DOMINICAL', 'FIN DE SEMANA',
       'INTERCALADO', 'IRREGULAR', 'MIXTO', 'SABATINO', 'SEMIPRESENCIAL',
       'SEMIPRESENCIAL (DOS DÍAS A LA SEMANA)',
       'SEMIPRESENCIAL (FIN DE SEMANA)', 'SEMIPRESENCIAL (UN DÍA A LA SEMANA)',
       'VIRTUAL A DISTANCIA'],
      dtype='

In [42]:
data.head()

Unnamed: 0,CODIGO,DISTRITO,DEPARTAMENTO,MUNICIPIO,ESTABLECIMIENTO,CLASIFICACION_ESTABLECIMIENTO,DIRECCION,TELEFONO_1,TELEFONO_2,SUPERVISOR,DIRECTOR,NIVEL,SECTOR,AREA,STATUS,MODALIDAD,JORNADA,PLAN,DEPARTAMENTAL
0,16-01-0138-46,16-031,ALTA VERAPAZ,COBAN,colegio coban,colegio,km.2 salida a san juan chamelco zona 8,77945104,sin telefono,Mercedes Josefina Torres Galvez,GUSTAVO ADOLFO SIERRA POP,DIVERSIFICADO,PRIVADO,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ
1,16-01-0139-46,16-031,ALTA VERAPAZ,COBAN,colegio particular mixto verapaz,colegio,km 209.5 entrada a la ciudad,77367402,sin telefono,Mercedes Josefina Torres Galvez,GILMA DOLORES GUAY PAZ DE LEAL,DIVERSIFICADO,PRIVADO,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ
2,16-01-0140-46,16-031,ALTA VERAPAZ,COBAN,colegio la inmaculada,colegio,7a. avenida 11-109 zona 6,78232301,sin telefono,Mercedes Josefina Torres Galvez,VIRGINIA SOLANO SERRANO,DIVERSIFICADO,PRIVADO,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ
3,16-01-0141-46,16-005,ALTA VERAPAZ,COBAN,escuela nacional de ciencias comerciales,escuela,2a calle 11-10 zona 2,79514215,sin telefono,Rudy Adolfo Tot Och,HÉCTOR ROLANDO CHUN POOU,DIVERSIFICADO,OFICIAL,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ
4,16-01-0142-46,16-005,ALTA VERAPAZ,COBAN,instituto normal mixto del norte emilio rosale...,instituto,3a ave 6-23 zona 11,79521468,sin telefono,Rudy Adolfo Tot Och,VICTOR HUGO DOMÍNGUEZ REYES,DIVERSIFICADO,OFICIAL,URBANA,ABIERTA,BILINGUE,VESPERTINA,DIARIO(REGULAR),ALTA VERAPAZ


In [43]:
def analizarDistribucionColumna(data, columna, umbral=0.05, flag=False):
    """
    Analiza la distribución de una columna categórica y sugiere agrupar
    categorías con baja frecuencia en una categoría 'Otras'.

    Parámetros:
    - data: DataFrame que contiene los datos.
    - columna: Nombre de la columna a analizar.
    - umbral: Frecuencia mínima para no ser agrupado en 'Otras' (valor entre 0 y 1).

    Retorna:
    - Un DataFrame con la distribución de frecuencias y un mensaje si es necesario agrupar.
    """

    print(f"🔍 Analizando la distribución de la columna '{columna}'...")

    # Calcular la distribución de frecuencias
    distribucion = data[columna].value_counts(normalize=True)

    print("📊 Distribución de frecuencias:")
    print(distribucion)

    # Identificar categorías con frecuencia menor al umbral
    categoriasAgrupar = distribucion[distribucion < umbral].index.tolist()

    if categoriasAgrupar:
        print(f"⚠️ Se sugiere agrupar las siguientes categorías en '{columna}': {categoriasAgrupar}\n")
    else:
        print("✅ No es necesario agrupar categorías en esta columna.\n")

    if flag:
        return distribucion

In [44]:
distribucionStatus = analizarDistribucionColumna(data, 'STATUS', umbral=0.05, flag=True)

🔍 Analizando la distribución de la columna 'STATUS'...
📊 Distribución de frecuencias:
STATUS
ABIERTA                  0.701501
CERRADA TEMPORALMENTE    0.285423
TEMPORAL TITULOS         0.012755
TEMPORAL NOMBRAMIENTO    0.000322
Name: proportion, dtype: float64
⚠️ Se sugiere agrupar las siguientes categorías en 'STATUS': ['TEMPORAL TITULOS', 'TEMPORAL NOMBRAMIENTO']



In [45]:
def agruparCategorias(data, columna, categoriasAgrupar, nuevaCategoria='Otras'):
    """
    Agrupa categorías de una columna categórica en una nueva categoría común.

    Parámetros:
    - data: DataFrame que contiene los datos.
    - columna: Nombre de la columna a modificar.
    - categoriasAgrupar: Lista de categorías que se agruparán.
    - nuevaCategoria: Nombre de la nueva categoría que reemplazará las agrupadas.

    Retorna:
    - El DataFrame con la columna modificada.
    """

    print(f"🔧 Agrupando categorías en la columna '{columna}'...")

    # Reemplazar las categorías especificadas por la nueva categoría
    data[columna] = data[columna].apply(lambda x: nuevaCategoria if x in categoriasAgrupar else x)

    print(f"✅ Las categorías {categoriasAgrupar} se han agrupado bajo '{nuevaCategoria}'.")
    
    # Convertir nuevamente a categoría para optimizar
    data[columna] = data[columna].astype('category')

    return data

# Ejemplo de uso:
# Primero, analiza la distribución y decide qué categorías agrupar:
# distribucion = analizarDistribucionColumna(data, 'STATUS')
# categoriasParaAgrupar = distribucion[distribucion < 0.05].index.tolist()

# Luego, agrupa las categorías seleccionadas:
# data = agruparCategorias(data, 'STATUS', categoriasParaAgrupar)


In [46]:
categoriasParaAgrupar = distribucionStatus[distribucionStatus < 0.05].index.tolist()
data = agruparCategorias(data, 'STATUS', categoriasParaAgrupar, 'TEMPORAL')
analizarDistribucionColumna(data, 'STATUS')

🔧 Agrupando categorías en la columna 'STATUS'...
✅ Las categorías ['TEMPORAL TITULOS', 'TEMPORAL NOMBRAMIENTO'] se han agrupado bajo 'TEMPORAL'.
🔍 Analizando la distribución de la columna 'STATUS'...
📊 Distribución de frecuencias:
STATUS
ABIERTA                  0.701501
CERRADA TEMPORALMENTE    0.285423
TEMPORAL                 0.013076
Name: proportion, dtype: float64
⚠️ Se sugiere agrupar las siguientes categorías en 'STATUS': ['TEMPORAL']



In [55]:
import pandas as pd

def contarCategorias(data, columna):
    """
    Cuenta el número de datos en cada categoría de una columna específica.

    Parámetros:
    - data: DataFrame que contiene los datos.
    - columna: Nombre de la columna a contar categorías.

    Retorna:
    - Un DataFrame con las frecuencias de cada categoría.
    """
    
    print(f"🔍 Contando categorías en la columna '{columna}'...")

    # Contar la frecuencia de cada categoría
    conteoCategorias = data[columna].value_counts()

    print("📊 Conteo de cada categoría:")
    for categoria, conteo in conteoCategorias.items():
        print(f"  {categoria}: {conteo}")

    return conteoCategorias


In [47]:
import pandas as pd
from sklearn.preprocessing import LabelEncoder

def convertirCategoriasANumericas(data, columns):
    """
    Convierte las categorías de columnas categóricas a representación numérica.

    Parámetros:
    - data: DataFrame que contiene los datos.
    - columns: Lista de nombres de columnas a convertir.

    Retorna:
    - El DataFrame con las columnas convertidas.
    """

    print("🔢 Convirtiendo categorías a representación numérica...")

    for col in columns:
        labelEncoder = LabelEncoder()
        data[f"{col}_num"] = labelEncoder.fit_transform(data[col])
        
        # Mostrar el mapeo de categorías a números
        print(f"\n🔍 Mapeo para la columna '{col}':")
        for categoria, numero in zip(labelEncoder.classes_, labelEncoder.transform(labelEncoder.classes_)):
            print(f"  {categoria} -> {numero}")
        
        print(f"🆕 Columna {col}_num añadida con éxito.")

    return data

data = convertirCategoriasANumericas(data, ['STATUS'])
data.head()     

🔢 Convirtiendo categorías a representación numérica...

🔍 Mapeo para la columna 'STATUS':
  ABIERTA -> 0
  CERRADA TEMPORALMENTE -> 1
  TEMPORAL -> 2
🆕 Columna STATUS_num añadida con éxito.


Unnamed: 0,CODIGO,DISTRITO,DEPARTAMENTO,MUNICIPIO,ESTABLECIMIENTO,CLASIFICACION_ESTABLECIMIENTO,DIRECCION,TELEFONO_1,TELEFONO_2,SUPERVISOR,DIRECTOR,NIVEL,SECTOR,AREA,STATUS,MODALIDAD,JORNADA,PLAN,DEPARTAMENTAL,STATUS_num
0,16-01-0138-46,16-031,ALTA VERAPAZ,COBAN,colegio coban,colegio,km.2 salida a san juan chamelco zona 8,77945104,sin telefono,Mercedes Josefina Torres Galvez,GUSTAVO ADOLFO SIERRA POP,DIVERSIFICADO,PRIVADO,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ,0
1,16-01-0139-46,16-031,ALTA VERAPAZ,COBAN,colegio particular mixto verapaz,colegio,km 209.5 entrada a la ciudad,77367402,sin telefono,Mercedes Josefina Torres Galvez,GILMA DOLORES GUAY PAZ DE LEAL,DIVERSIFICADO,PRIVADO,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ,0
2,16-01-0140-46,16-031,ALTA VERAPAZ,COBAN,colegio la inmaculada,colegio,7a. avenida 11-109 zona 6,78232301,sin telefono,Mercedes Josefina Torres Galvez,VIRGINIA SOLANO SERRANO,DIVERSIFICADO,PRIVADO,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ,0
3,16-01-0141-46,16-005,ALTA VERAPAZ,COBAN,escuela nacional de ciencias comerciales,escuela,2a calle 11-10 zona 2,79514215,sin telefono,Rudy Adolfo Tot Och,HÉCTOR ROLANDO CHUN POOU,DIVERSIFICADO,OFICIAL,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ,0
4,16-01-0142-46,16-005,ALTA VERAPAZ,COBAN,instituto normal mixto del norte emilio rosale...,instituto,3a ave 6-23 zona 11,79521468,sin telefono,Rudy Adolfo Tot Och,VICTOR HUGO DOMÍNGUEZ REYES,DIVERSIFICADO,OFICIAL,URBANA,ABIERTA,BILINGUE,VESPERTINA,DIARIO(REGULAR),ALTA VERAPAZ,0


In [48]:
analizarDistribucionColumna(data, 'STATUS_num')

🔍 Analizando la distribución de la columna 'STATUS_num'...
📊 Distribución de frecuencias:
STATUS_num
0    0.701501
1    0.285423
2    0.013076
Name: proportion, dtype: float64
⚠️ Se sugiere agrupar las siguientes categorías en 'STATUS_num': [2]

