### 📤 Limpieza de Status, Modalidad, Jornada, Plan, Departamental (Diego Hernández) 

In [41]:
import pandas as pd
import numpy as np
from sklearn.preprocessing import LabelEncoder

In [42]:
data = pd.read_csv('UnifiedData/UnifiedDataV1.csv')

In [43]:
data[['STATUS', 'JORNADA', 'PLAN', 'DEPARTAMENTAL']]

Unnamed: 0,STATUS,JORNADA,PLAN,DEPARTAMENTAL
0,ABIERTA,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ
1,ABIERTA,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ
2,ABIERTA,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ
3,ABIERTA,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ
4,ABIERTA,VESPERTINA,DIARIO(REGULAR),ALTA VERAPAZ
...,...,...,...,...
9325,ABIERTA,MATUTINA,DIARIO(REGULAR),ZACAPA
9326,ABIERTA,SIN JORNADA,SEMIPRESENCIAL (UN DÍA A LA SEMANA),ZACAPA
9327,ABIERTA,NOCTURNA,DIARIO(REGULAR),ZACAPA
9328,ABIERTA,VESPERTINA,DIARIO(REGULAR),ZACAPA


In [44]:
def limpiarDatosCategNominales(data):
    print("🔍 Verificando valores nulos en cada columna...")
    print(data[['STATUS', 'MODALIDAD', 'JORNADA', 'PLAN', 'DEPARTAMENTAL']].isnull().sum())
    print()

    ## Rellenar valores nulos con una categoría 'Desconocido'
    #print("🛠️ Rellenando valores nulos con 'Desconocido'...")
    #data[['STATUS', 'JORNADA', 'PLAN', 'DEPARTAMENTAL']] = data[['STATUS', 'JORNADA', 'PLAN', 'DEPARTAMENTAL']].fillna('Desconocido')

    # Convertir a tipo 'category'
    print("🔄 Convirtiendo columnas a tipo 'category'...")
    for col in ['STATUS', 'MODALIDAD', 'JORNADA', 'PLAN', 'DEPARTAMENTAL']:
        data[col] = data[col].astype('category')
        print(f"✅ Columna {col} convertida correctamente.")
    print()

    # Mostrar categorías únicas de cada columna
    print("🔢 Mostrando categorías únicas por columna:")
    for col in ['STATUS', 'JORNADA', 'PLAN', 'DEPARTAMENTAL']:
        print(f"📊 {col}: {data[col].cat.categories}")
    print()

    return data

data = limpiarDatosCategNominales(data)

🔍 Verificando valores nulos en cada columna...
STATUS           0
MODALIDAD        0
JORNADA          0
PLAN             0
DEPARTAMENTAL    0
dtype: int64

🔄 Convirtiendo columnas a tipo 'category'...
✅ Columna STATUS convertida correctamente.
✅ Columna MODALIDAD convertida correctamente.
✅ Columna JORNADA convertida correctamente.
✅ Columna PLAN convertida correctamente.
✅ Columna DEPARTAMENTAL convertida correctamente.

🔢 Mostrando categorías únicas por columna:
📊 STATUS: Index(['ABIERTA', 'CERRADA TEMPORALMENTE', 'TEMPORAL NOMBRAMIENTO',
       'TEMPORAL TITULOS'],
      dtype='object')
📊 JORNADA: Index(['DOBLE', 'INTERMEDIA', 'MATUTINA', 'NOCTURNA', 'SIN JORNADA',
       'VESPERTINA'],
      dtype='object')
📊 PLAN: Index(['A DISTANCIA', 'DIARIO(REGULAR)', 'DOMINICAL', 'FIN DE SEMANA',
       'INTERCALADO', 'IRREGULAR', 'MIXTO', 'SABATINO', 'SEMIPRESENCIAL',
       'SEMIPRESENCIAL (DOS DÍAS A LA SEMANA)',
       'SEMIPRESENCIAL (FIN DE SEMANA)', 'SEMIPRESENCIAL (UN DÍA A LA SEMANA)'

In [45]:
data.head()

Unnamed: 0,CODIGO,DISTRITO,DEPARTAMENTO,MUNICIPIO,ESTABLECIMIENTO,CLASIFICACION_ESTABLECIMIENTO,DIRECCION,TELEFONO_1,TELEFONO_2,SUPERVISOR,DIRECTOR,NIVEL,SECTOR,AREA,STATUS,MODALIDAD,JORNADA,PLAN,DEPARTAMENTAL
0,16-01-0138-46,16-031,ALTA VERAPAZ,COBAN,colegio coban,colegio,km.2 salida a san juan chamelco zona 8,77945104,sin telefono,Mercedes Josefina Torres Galvez,GUSTAVO ADOLFO SIERRA POP,DIVERSIFICADO,PRIVADO,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ
1,16-01-0139-46,16-031,ALTA VERAPAZ,COBAN,colegio particular mixto verapaz,colegio,km 209.5 entrada a la ciudad,77367402,sin telefono,Mercedes Josefina Torres Galvez,GILMA DOLORES GUAY PAZ DE LEAL,DIVERSIFICADO,PRIVADO,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ
2,16-01-0140-46,16-031,ALTA VERAPAZ,COBAN,colegio la inmaculada,colegio,7a. avenida 11-109 zona 6,78232301,sin telefono,Mercedes Josefina Torres Galvez,VIRGINIA SOLANO SERRANO,DIVERSIFICADO,PRIVADO,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ
3,16-01-0141-46,16-005,ALTA VERAPAZ,COBAN,escuela nacional de ciencias comerciales,escuela,2a calle 11-10 zona 2,79514215,sin telefono,Rudy Adolfo Tot Och,HÉCTOR ROLANDO CHUN POOU,DIVERSIFICADO,OFICIAL,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ
4,16-01-0142-46,16-005,ALTA VERAPAZ,COBAN,instituto normal mixto del norte emilio rosale...,instituto,3a ave 6-23 zona 11,79521468,sin telefono,Rudy Adolfo Tot Och,VICTOR HUGO DOMÍNGUEZ REYES,DIVERSIFICADO,OFICIAL,URBANA,ABIERTA,BILINGUE,VESPERTINA,DIARIO(REGULAR),ALTA VERAPAZ


In [46]:
def analizarDistribucionColumna(data, columna, umbral=0.05, flag=False):
    """
    Analiza la distribución de una columna categórica y sugiere agrupar
    categorías con baja frecuencia en una categoría 'Otras'.

    Parámetros:
    - data: DataFrame que contiene los datos.
    - columna: Nombre de la columna a analizar.
    - umbral: Frecuencia mínima para no ser agrupado en 'Otras' (valor entre 0 y 1).

    Retorna:
    - Un DataFrame con la distribución de frecuencias y un mensaje si es necesario agrupar.
    """

    print(f"🔍 Analizando la distribución de la columna '{columna}'...")

    # Calcular la distribución de frecuencias
    distribucion = data[columna].value_counts(normalize=True)

    print("📊 Distribución de frecuencias:")
    print(distribucion)

    # Identificar categorías con frecuencia menor al umbral
    categoriasAgrupar = distribucion[distribucion < umbral].index.tolist()

    if categoriasAgrupar:
        print(f"⚠️ Se sugiere agrupar las siguientes categorías en '{columna}': {categoriasAgrupar}\n")
    else:
        print("✅ No es necesario agrupar categorías en esta columna.\n")

    if flag:
        return distribucion

In [47]:
distribucionStatus = analizarDistribucionColumna(data, 'STATUS', umbral=0.05, flag=True)

🔍 Analizando la distribución de la columna 'STATUS'...
📊 Distribución de frecuencias:
STATUS
ABIERTA                  0.701501
CERRADA TEMPORALMENTE    0.285423
TEMPORAL TITULOS         0.012755
TEMPORAL NOMBRAMIENTO    0.000322
Name: proportion, dtype: float64
⚠️ Se sugiere agrupar las siguientes categorías en 'STATUS': ['TEMPORAL TITULOS', 'TEMPORAL NOMBRAMIENTO']



In [48]:
def agruparCategorias(data, columna, categoriasAgrupar, nuevaCategoria='Otras'):
    """
    Agrupa categorías de una columna categórica en una nueva categoría común.

    Parámetros:
    - data: DataFrame que contiene los datos.
    - columna: Nombre de la columna a modificar.
    - categoriasAgrupar: Lista de categorías que se agruparán.
    - nuevaCategoria: Nombre de la nueva categoría que reemplazará las agrupadas.

    Retorna:
    - El DataFrame con la columna modificada.
    """

    print(f"🔧 Agrupando categorías en la columna '{columna}'...")

    # Reemplazar las categorías especificadas por la nueva categoría
    data[columna] = data[columna].apply(lambda x: nuevaCategoria if x in categoriasAgrupar else x)

    print(f"✅ Las categorías {categoriasAgrupar} se han agrupado bajo '{nuevaCategoria}'.")
    
    # Convertir nuevamente a categoría para optimizar
    data[columna] = data[columna].astype('category')

    return data

# Ejemplo de uso:
# Primero, analiza la distribución y decide qué categorías agrupar:
# distribucion = analizarDistribucionColumna(data, 'STATUS')
# categoriasParaAgrupar = distribucion[distribucion < 0.05].index.tolist()

# Luego, agrupa las categorías seleccionadas:
# data = agruparCategorias(data, 'STATUS', categoriasParaAgrupar)


In [49]:
categoriasParaAgrupar = distribucionStatus[distribucionStatus < 0.05].index.tolist()
data = agruparCategorias(data, 'STATUS', categoriasParaAgrupar, 'TEMPORAL')
analizarDistribucionColumna(data, 'STATUS')

🔧 Agrupando categorías en la columna 'STATUS'...
✅ Las categorías ['TEMPORAL TITULOS', 'TEMPORAL NOMBRAMIENTO'] se han agrupado bajo 'TEMPORAL'.
🔍 Analizando la distribución de la columna 'STATUS'...
📊 Distribución de frecuencias:
STATUS
ABIERTA                  0.701501
CERRADA TEMPORALMENTE    0.285423
TEMPORAL                 0.013076
Name: proportion, dtype: float64
⚠️ Se sugiere agrupar las siguientes categorías en 'STATUS': ['TEMPORAL']



In [50]:
import pandas as pd

def contarCategorias(data, columna):
    """
    Cuenta el número de datos en cada categoría de una columna específica.

    Parámetros:
    - data: DataFrame que contiene los datos.
    - columna: Nombre de la columna a contar categorías.

    Retorna:
    - Un DataFrame con las frecuencias de cada categoría.
    """
    
    print(f"🔍 Contando categorías en la columna '{columna}'...")

    # Contar la frecuencia de cada categoría
    conteoCategorias = data[columna].value_counts()

    print("📊 Conteo de cada categoría:")
    for categoria, conteo in conteoCategorias.items():
        print(f"  {categoria}: {conteo}")

    return conteoCategorias


In [51]:
import pandas as pd
from sklearn.preprocessing import LabelEncoder

def convertirCategoriasANumericas(data, columns):
    """
    Convierte las categorías de columnas categóricas a representación numérica.

    Parámetros:
    - data: DataFrame que contiene los datos.
    - columns: Lista de nombres de columnas a convertir.

    Retorna:
    - El DataFrame con las columnas convertidas.
    """

    print("🔢 Convirtiendo categorías a representación numérica...")

    for col in columns:
        labelEncoder = LabelEncoder()
        data[f"{col}_num"] = labelEncoder.fit_transform(data[col])
        
        # Mostrar el mapeo de categorías a números
        print(f"\n🔍 Mapeo para la columna '{col}':")
        for categoria, numero in zip(labelEncoder.classes_, labelEncoder.transform(labelEncoder.classes_)):
            print(f"  {categoria} -> {numero}")
        
        print(f"🆕 Columna {col}_num añadida con éxito.")

    return data

data = convertirCategoriasANumericas(data, ['STATUS'])
data.head()     

🔢 Convirtiendo categorías a representación numérica...

🔍 Mapeo para la columna 'STATUS':
  ABIERTA -> 0
  CERRADA TEMPORALMENTE -> 1
  TEMPORAL -> 2
🆕 Columna STATUS_num añadida con éxito.


Unnamed: 0,CODIGO,DISTRITO,DEPARTAMENTO,MUNICIPIO,ESTABLECIMIENTO,CLASIFICACION_ESTABLECIMIENTO,DIRECCION,TELEFONO_1,TELEFONO_2,SUPERVISOR,DIRECTOR,NIVEL,SECTOR,AREA,STATUS,MODALIDAD,JORNADA,PLAN,DEPARTAMENTAL,STATUS_num
0,16-01-0138-46,16-031,ALTA VERAPAZ,COBAN,colegio coban,colegio,km.2 salida a san juan chamelco zona 8,77945104,sin telefono,Mercedes Josefina Torres Galvez,GUSTAVO ADOLFO SIERRA POP,DIVERSIFICADO,PRIVADO,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ,0
1,16-01-0139-46,16-031,ALTA VERAPAZ,COBAN,colegio particular mixto verapaz,colegio,km 209.5 entrada a la ciudad,77367402,sin telefono,Mercedes Josefina Torres Galvez,GILMA DOLORES GUAY PAZ DE LEAL,DIVERSIFICADO,PRIVADO,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ,0
2,16-01-0140-46,16-031,ALTA VERAPAZ,COBAN,colegio la inmaculada,colegio,7a. avenida 11-109 zona 6,78232301,sin telefono,Mercedes Josefina Torres Galvez,VIRGINIA SOLANO SERRANO,DIVERSIFICADO,PRIVADO,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ,0
3,16-01-0141-46,16-005,ALTA VERAPAZ,COBAN,escuela nacional de ciencias comerciales,escuela,2a calle 11-10 zona 2,79514215,sin telefono,Rudy Adolfo Tot Och,HÉCTOR ROLANDO CHUN POOU,DIVERSIFICADO,OFICIAL,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ,0
4,16-01-0142-46,16-005,ALTA VERAPAZ,COBAN,instituto normal mixto del norte emilio rosale...,instituto,3a ave 6-23 zona 11,79521468,sin telefono,Rudy Adolfo Tot Och,VICTOR HUGO DOMÍNGUEZ REYES,DIVERSIFICADO,OFICIAL,URBANA,ABIERTA,BILINGUE,VESPERTINA,DIARIO(REGULAR),ALTA VERAPAZ,0


In [52]:
analizarDistribucionColumna(data, 'STATUS_num')

🔍 Analizando la distribución de la columna 'STATUS_num'...
📊 Distribución de frecuencias:
STATUS_num
0    0.701501
1    0.285423
2    0.013076
Name: proportion, dtype: float64
⚠️ Se sugiere agrupar las siguientes categorías en 'STATUS_num': [2]



In [53]:
data = convertirCategoriasANumericas(data, ['MODALIDAD'])

🔢 Convirtiendo categorías a representación numérica...

🔍 Mapeo para la columna 'MODALIDAD':
  BILINGUE -> 0
  MONOLINGUE -> 1
🆕 Columna MODALIDAD_num añadida con éxito.


In [54]:
analizarDistribucionColumna(data, 'MODALIDAD_num')

🔍 Analizando la distribución de la columna 'MODALIDAD_num'...
📊 Distribución de frecuencias:
MODALIDAD_num
1    0.968703
0    0.031297
Name: proportion, dtype: float64
⚠️ Se sugiere agrupar las siguientes categorías en 'MODALIDAD_num': [0]



In [55]:
analizarDistribucionColumna(data, 'JORNADA', umbral=0.05)
contarCategorias(data, 'JORNADA')
agruparCategorias(data, 'JORNADA', ['INTERMEDIA', 'SIN JORNADA'], 'SIN JORNADA')

🔍 Analizando la distribución de la columna 'JORNADA'...
📊 Distribución de frecuencias:
JORNADA
DOBLE          0.325402
VESPERTINA     0.275134
MATUTINA       0.255305
SIN JORNADA    0.103323
NOCTURNA       0.030975
INTERMEDIA     0.009861
Name: proportion, dtype: float64
⚠️ Se sugiere agrupar las siguientes categorías en 'JORNADA': ['NOCTURNA', 'INTERMEDIA']

🔍 Contando categorías en la columna 'JORNADA'...
📊 Conteo de cada categoría:
  DOBLE: 3036
  VESPERTINA: 2567
  MATUTINA: 2382
  SIN JORNADA: 964
  NOCTURNA: 289
  INTERMEDIA: 92
🔧 Agrupando categorías en la columna 'JORNADA'...
✅ Las categorías ['INTERMEDIA', 'SIN JORNADA'] se han agrupado bajo 'SIN JORNADA'.


Unnamed: 0,CODIGO,DISTRITO,DEPARTAMENTO,MUNICIPIO,ESTABLECIMIENTO,CLASIFICACION_ESTABLECIMIENTO,DIRECCION,TELEFONO_1,TELEFONO_2,SUPERVISOR,...,NIVEL,SECTOR,AREA,STATUS,MODALIDAD,JORNADA,PLAN,DEPARTAMENTAL,STATUS_num,MODALIDAD_num
0,16-01-0138-46,16-031,ALTA VERAPAZ,COBAN,colegio coban,colegio,km.2 salida a san juan chamelco zona 8,77945104,sin telefono,Mercedes Josefina Torres Galvez,...,DIVERSIFICADO,PRIVADO,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ,0,1
1,16-01-0139-46,16-031,ALTA VERAPAZ,COBAN,colegio particular mixto verapaz,colegio,km 209.5 entrada a la ciudad,77367402,sin telefono,Mercedes Josefina Torres Galvez,...,DIVERSIFICADO,PRIVADO,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ,0,1
2,16-01-0140-46,16-031,ALTA VERAPAZ,COBAN,colegio la inmaculada,colegio,7a. avenida 11-109 zona 6,78232301,sin telefono,Mercedes Josefina Torres Galvez,...,DIVERSIFICADO,PRIVADO,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ,0,1
3,16-01-0141-46,16-005,ALTA VERAPAZ,COBAN,escuela nacional de ciencias comerciales,escuela,2a calle 11-10 zona 2,79514215,sin telefono,Rudy Adolfo Tot Och,...,DIVERSIFICADO,OFICIAL,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ,0,1
4,16-01-0142-46,16-005,ALTA VERAPAZ,COBAN,instituto normal mixto del norte emilio rosale...,instituto,3a ave 6-23 zona 11,79521468,sin telefono,Rudy Adolfo Tot Och,...,DIVERSIFICADO,OFICIAL,URBANA,ABIERTA,BILINGUE,VESPERTINA,DIARIO(REGULAR),ALTA VERAPAZ,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9325,19-09-0040-46,19-021,ZACAPA,LA UNION,liceo particular mixto jireh,liceo,barrio nuevo,79418369,sin telefono,Asbel Ivan Suchite Arroyo,...,DIVERSIFICADO,PRIVADO,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ZACAPA,0,1
9326,19-09-0048-46,19-021,ZACAPA,LA UNION,liceo particular mixto jireh,liceo,barrio nuevo,79418369,sin telefono,Asbel Ivan Suchite Arroyo,...,DIVERSIFICADO,PRIVADO,URBANA,ABIERTA,MONOLINGUE,SIN JORNADA,SEMIPRESENCIAL (UN DÍA A LA SEMANA),ZACAPA,0,1
9327,19-10-0013-46,19-015,ZACAPA,HUITE,instituto diversificado,instituto,barrio buenos aires,47097386,sin telefono,Sildy Mariela Perez Franco,...,DIVERSIFICADO,OFICIAL,URBANA,ABIERTA,MONOLINGUE,NOCTURNA,DIARIO(REGULAR),ZACAPA,0,1
9328,19-10-1009-46,19-015,ZACAPA,HUITE,instituto mixto de educacion diversificada por...,instituto,barrio el campo,55958103,sin telefono,Sildy Mariela Perez Franco,...,DIVERSIFICADO,COOPERATIVA,URBANA,ABIERTA,MONOLINGUE,VESPERTINA,DIARIO(REGULAR),ZACAPA,0,1


In [56]:
analizarDistribucionColumna(data, 'JORNADA')

🔍 Analizando la distribución de la columna 'JORNADA'...
📊 Distribución de frecuencias:
JORNADA
DOBLE          0.325402
VESPERTINA     0.275134
MATUTINA       0.255305
SIN JORNADA    0.113183
NOCTURNA       0.030975
Name: proportion, dtype: float64
⚠️ Se sugiere agrupar las siguientes categorías en 'JORNADA': ['NOCTURNA']



In [57]:
convertirCategoriasANumericas(data, ['JORNADA'])

🔢 Convirtiendo categorías a representación numérica...

🔍 Mapeo para la columna 'JORNADA':
  DOBLE -> 0
  MATUTINA -> 1
  NOCTURNA -> 2
  SIN JORNADA -> 3
  VESPERTINA -> 4
🆕 Columna JORNADA_num añadida con éxito.


Unnamed: 0,CODIGO,DISTRITO,DEPARTAMENTO,MUNICIPIO,ESTABLECIMIENTO,CLASIFICACION_ESTABLECIMIENTO,DIRECCION,TELEFONO_1,TELEFONO_2,SUPERVISOR,...,SECTOR,AREA,STATUS,MODALIDAD,JORNADA,PLAN,DEPARTAMENTAL,STATUS_num,MODALIDAD_num,JORNADA_num
0,16-01-0138-46,16-031,ALTA VERAPAZ,COBAN,colegio coban,colegio,km.2 salida a san juan chamelco zona 8,77945104,sin telefono,Mercedes Josefina Torres Galvez,...,PRIVADO,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ,0,1,1
1,16-01-0139-46,16-031,ALTA VERAPAZ,COBAN,colegio particular mixto verapaz,colegio,km 209.5 entrada a la ciudad,77367402,sin telefono,Mercedes Josefina Torres Galvez,...,PRIVADO,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ,0,1,1
2,16-01-0140-46,16-031,ALTA VERAPAZ,COBAN,colegio la inmaculada,colegio,7a. avenida 11-109 zona 6,78232301,sin telefono,Mercedes Josefina Torres Galvez,...,PRIVADO,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ,0,1,1
3,16-01-0141-46,16-005,ALTA VERAPAZ,COBAN,escuela nacional de ciencias comerciales,escuela,2a calle 11-10 zona 2,79514215,sin telefono,Rudy Adolfo Tot Och,...,OFICIAL,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ,0,1,1
4,16-01-0142-46,16-005,ALTA VERAPAZ,COBAN,instituto normal mixto del norte emilio rosale...,instituto,3a ave 6-23 zona 11,79521468,sin telefono,Rudy Adolfo Tot Och,...,OFICIAL,URBANA,ABIERTA,BILINGUE,VESPERTINA,DIARIO(REGULAR),ALTA VERAPAZ,0,0,4
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9325,19-09-0040-46,19-021,ZACAPA,LA UNION,liceo particular mixto jireh,liceo,barrio nuevo,79418369,sin telefono,Asbel Ivan Suchite Arroyo,...,PRIVADO,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ZACAPA,0,1,1
9326,19-09-0048-46,19-021,ZACAPA,LA UNION,liceo particular mixto jireh,liceo,barrio nuevo,79418369,sin telefono,Asbel Ivan Suchite Arroyo,...,PRIVADO,URBANA,ABIERTA,MONOLINGUE,SIN JORNADA,SEMIPRESENCIAL (UN DÍA A LA SEMANA),ZACAPA,0,1,3
9327,19-10-0013-46,19-015,ZACAPA,HUITE,instituto diversificado,instituto,barrio buenos aires,47097386,sin telefono,Sildy Mariela Perez Franco,...,OFICIAL,URBANA,ABIERTA,MONOLINGUE,NOCTURNA,DIARIO(REGULAR),ZACAPA,0,1,2
9328,19-10-1009-46,19-015,ZACAPA,HUITE,instituto mixto de educacion diversificada por...,instituto,barrio el campo,55958103,sin telefono,Sildy Mariela Perez Franco,...,COOPERATIVA,URBANA,ABIERTA,MONOLINGUE,VESPERTINA,DIARIO(REGULAR),ZACAPA,0,1,4


In [58]:
analizarDistribucionColumna(data, 'JORNADA_num')

🔍 Analizando la distribución de la columna 'JORNADA_num'...
📊 Distribución de frecuencias:
JORNADA_num
0    0.325402
4    0.275134
1    0.255305
3    0.113183
2    0.030975
Name: proportion, dtype: float64
⚠️ Se sugiere agrupar las siguientes categorías en 'JORNADA_num': [2]



In [59]:
analizarDistribucionColumna(data, 'PLAN', umbral=0.05)

🔍 Analizando la distribución de la columna 'PLAN'...
📊 Distribución de frecuencias:
PLAN
DIARIO(REGULAR)                          0.613076
FIN DE SEMANA                            0.249518
SEMIPRESENCIAL (FIN DE SEMANA)           0.051554
SEMIPRESENCIAL (UN DÍA A LA SEMANA)      0.042658
A DISTANCIA                              0.015327
SEMIPRESENCIAL                           0.009218
SEMIPRESENCIAL (DOS DÍAS A LA SEMANA)    0.006109
VIRTUAL A DISTANCIA                      0.005359
SABATINO                                 0.004394
DOMINICAL                                0.002036
MIXTO                                    0.000322
INTERCALADO                              0.000214
IRREGULAR                                0.000214
Name: proportion, dtype: float64
⚠️ Se sugiere agrupar las siguientes categorías en 'PLAN': ['SEMIPRESENCIAL (UN DÍA A LA SEMANA)', 'A DISTANCIA', 'SEMIPRESENCIAL', 'SEMIPRESENCIAL (DOS DÍAS A LA SEMANA)', 'VIRTUAL A DISTANCIA', 'SABATINO', 'DOMINICAL', 'MIXTO'

In [60]:
agruparCategorias(data, 'PLAN', ['SEMIPRESENCIAL','SEMIPRESENCIAL (FIN DE SEMANA)', 'SEMIPRESENCIAL (UN DÍA A LA SEMANA)', 'SEMIPRESENCIAL (DOS DÍAS A LA SEMANA)'], 'SEMIPRESENCIAL')

🔧 Agrupando categorías en la columna 'PLAN'...
✅ Las categorías ['SEMIPRESENCIAL', 'SEMIPRESENCIAL (FIN DE SEMANA)', 'SEMIPRESENCIAL (UN DÍA A LA SEMANA)', 'SEMIPRESENCIAL (DOS DÍAS A LA SEMANA)'] se han agrupado bajo 'SEMIPRESENCIAL'.


Unnamed: 0,CODIGO,DISTRITO,DEPARTAMENTO,MUNICIPIO,ESTABLECIMIENTO,CLASIFICACION_ESTABLECIMIENTO,DIRECCION,TELEFONO_1,TELEFONO_2,SUPERVISOR,...,SECTOR,AREA,STATUS,MODALIDAD,JORNADA,PLAN,DEPARTAMENTAL,STATUS_num,MODALIDAD_num,JORNADA_num
0,16-01-0138-46,16-031,ALTA VERAPAZ,COBAN,colegio coban,colegio,km.2 salida a san juan chamelco zona 8,77945104,sin telefono,Mercedes Josefina Torres Galvez,...,PRIVADO,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ,0,1,1
1,16-01-0139-46,16-031,ALTA VERAPAZ,COBAN,colegio particular mixto verapaz,colegio,km 209.5 entrada a la ciudad,77367402,sin telefono,Mercedes Josefina Torres Galvez,...,PRIVADO,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ,0,1,1
2,16-01-0140-46,16-031,ALTA VERAPAZ,COBAN,colegio la inmaculada,colegio,7a. avenida 11-109 zona 6,78232301,sin telefono,Mercedes Josefina Torres Galvez,...,PRIVADO,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ,0,1,1
3,16-01-0141-46,16-005,ALTA VERAPAZ,COBAN,escuela nacional de ciencias comerciales,escuela,2a calle 11-10 zona 2,79514215,sin telefono,Rudy Adolfo Tot Och,...,OFICIAL,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ,0,1,1
4,16-01-0142-46,16-005,ALTA VERAPAZ,COBAN,instituto normal mixto del norte emilio rosale...,instituto,3a ave 6-23 zona 11,79521468,sin telefono,Rudy Adolfo Tot Och,...,OFICIAL,URBANA,ABIERTA,BILINGUE,VESPERTINA,DIARIO(REGULAR),ALTA VERAPAZ,0,0,4
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9325,19-09-0040-46,19-021,ZACAPA,LA UNION,liceo particular mixto jireh,liceo,barrio nuevo,79418369,sin telefono,Asbel Ivan Suchite Arroyo,...,PRIVADO,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ZACAPA,0,1,1
9326,19-09-0048-46,19-021,ZACAPA,LA UNION,liceo particular mixto jireh,liceo,barrio nuevo,79418369,sin telefono,Asbel Ivan Suchite Arroyo,...,PRIVADO,URBANA,ABIERTA,MONOLINGUE,SIN JORNADA,SEMIPRESENCIAL,ZACAPA,0,1,3
9327,19-10-0013-46,19-015,ZACAPA,HUITE,instituto diversificado,instituto,barrio buenos aires,47097386,sin telefono,Sildy Mariela Perez Franco,...,OFICIAL,URBANA,ABIERTA,MONOLINGUE,NOCTURNA,DIARIO(REGULAR),ZACAPA,0,1,2
9328,19-10-1009-46,19-015,ZACAPA,HUITE,instituto mixto de educacion diversificada por...,instituto,barrio el campo,55958103,sin telefono,Sildy Mariela Perez Franco,...,COOPERATIVA,URBANA,ABIERTA,MONOLINGUE,VESPERTINA,DIARIO(REGULAR),ZACAPA,0,1,4


In [61]:
analizarDistribucionColumna(data, 'PLAN', umbral=0.05)

🔍 Analizando la distribución de la columna 'PLAN'...
📊 Distribución de frecuencias:
PLAN
DIARIO(REGULAR)        0.613076
FIN DE SEMANA          0.249518
SEMIPRESENCIAL         0.109539
A DISTANCIA            0.015327
VIRTUAL A DISTANCIA    0.005359
SABATINO               0.004394
DOMINICAL              0.002036
MIXTO                  0.000322
IRREGULAR              0.000214
INTERCALADO            0.000214
Name: proportion, dtype: float64
⚠️ Se sugiere agrupar las siguientes categorías en 'PLAN': ['A DISTANCIA', 'VIRTUAL A DISTANCIA', 'SABATINO', 'DOMINICAL', 'MIXTO', 'IRREGULAR', 'INTERCALADO']



In [62]:
agruparCategorias(data, 'PLAN', ['A DISTANCIA', 'VIRTUAL A DISTANCIA'], 'A DISTANCIA')

🔧 Agrupando categorías en la columna 'PLAN'...
✅ Las categorías ['A DISTANCIA', 'VIRTUAL A DISTANCIA'] se han agrupado bajo 'A DISTANCIA'.


Unnamed: 0,CODIGO,DISTRITO,DEPARTAMENTO,MUNICIPIO,ESTABLECIMIENTO,CLASIFICACION_ESTABLECIMIENTO,DIRECCION,TELEFONO_1,TELEFONO_2,SUPERVISOR,...,SECTOR,AREA,STATUS,MODALIDAD,JORNADA,PLAN,DEPARTAMENTAL,STATUS_num,MODALIDAD_num,JORNADA_num
0,16-01-0138-46,16-031,ALTA VERAPAZ,COBAN,colegio coban,colegio,km.2 salida a san juan chamelco zona 8,77945104,sin telefono,Mercedes Josefina Torres Galvez,...,PRIVADO,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ,0,1,1
1,16-01-0139-46,16-031,ALTA VERAPAZ,COBAN,colegio particular mixto verapaz,colegio,km 209.5 entrada a la ciudad,77367402,sin telefono,Mercedes Josefina Torres Galvez,...,PRIVADO,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ,0,1,1
2,16-01-0140-46,16-031,ALTA VERAPAZ,COBAN,colegio la inmaculada,colegio,7a. avenida 11-109 zona 6,78232301,sin telefono,Mercedes Josefina Torres Galvez,...,PRIVADO,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ,0,1,1
3,16-01-0141-46,16-005,ALTA VERAPAZ,COBAN,escuela nacional de ciencias comerciales,escuela,2a calle 11-10 zona 2,79514215,sin telefono,Rudy Adolfo Tot Och,...,OFICIAL,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ,0,1,1
4,16-01-0142-46,16-005,ALTA VERAPAZ,COBAN,instituto normal mixto del norte emilio rosale...,instituto,3a ave 6-23 zona 11,79521468,sin telefono,Rudy Adolfo Tot Och,...,OFICIAL,URBANA,ABIERTA,BILINGUE,VESPERTINA,DIARIO(REGULAR),ALTA VERAPAZ,0,0,4
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9325,19-09-0040-46,19-021,ZACAPA,LA UNION,liceo particular mixto jireh,liceo,barrio nuevo,79418369,sin telefono,Asbel Ivan Suchite Arroyo,...,PRIVADO,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ZACAPA,0,1,1
9326,19-09-0048-46,19-021,ZACAPA,LA UNION,liceo particular mixto jireh,liceo,barrio nuevo,79418369,sin telefono,Asbel Ivan Suchite Arroyo,...,PRIVADO,URBANA,ABIERTA,MONOLINGUE,SIN JORNADA,SEMIPRESENCIAL,ZACAPA,0,1,3
9327,19-10-0013-46,19-015,ZACAPA,HUITE,instituto diversificado,instituto,barrio buenos aires,47097386,sin telefono,Sildy Mariela Perez Franco,...,OFICIAL,URBANA,ABIERTA,MONOLINGUE,NOCTURNA,DIARIO(REGULAR),ZACAPA,0,1,2
9328,19-10-1009-46,19-015,ZACAPA,HUITE,instituto mixto de educacion diversificada por...,instituto,barrio el campo,55958103,sin telefono,Sildy Mariela Perez Franco,...,COOPERATIVA,URBANA,ABIERTA,MONOLINGUE,VESPERTINA,DIARIO(REGULAR),ZACAPA,0,1,4


In [63]:
analizarDistribucionColumna(data, 'PLAN', umbral=0.05)

🔍 Analizando la distribución de la columna 'PLAN'...
📊 Distribución de frecuencias:
PLAN
DIARIO(REGULAR)    0.613076
FIN DE SEMANA      0.249518
SEMIPRESENCIAL     0.109539
A DISTANCIA        0.020686
SABATINO           0.004394
DOMINICAL          0.002036
MIXTO              0.000322
INTERCALADO        0.000214
IRREGULAR          0.000214
Name: proportion, dtype: float64
⚠️ Se sugiere agrupar las siguientes categorías en 'PLAN': ['A DISTANCIA', 'SABATINO', 'DOMINICAL', 'MIXTO', 'INTERCALADO', 'IRREGULAR']



In [64]:
agruparCategorias(data, 'PLAN', ['SABATINO', 'DOMINICAL'], 'FIN DE SEMANA')

🔧 Agrupando categorías en la columna 'PLAN'...
✅ Las categorías ['SABATINO', 'DOMINICAL'] se han agrupado bajo 'FIN DE SEMANA'.


Unnamed: 0,CODIGO,DISTRITO,DEPARTAMENTO,MUNICIPIO,ESTABLECIMIENTO,CLASIFICACION_ESTABLECIMIENTO,DIRECCION,TELEFONO_1,TELEFONO_2,SUPERVISOR,...,SECTOR,AREA,STATUS,MODALIDAD,JORNADA,PLAN,DEPARTAMENTAL,STATUS_num,MODALIDAD_num,JORNADA_num
0,16-01-0138-46,16-031,ALTA VERAPAZ,COBAN,colegio coban,colegio,km.2 salida a san juan chamelco zona 8,77945104,sin telefono,Mercedes Josefina Torres Galvez,...,PRIVADO,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ,0,1,1
1,16-01-0139-46,16-031,ALTA VERAPAZ,COBAN,colegio particular mixto verapaz,colegio,km 209.5 entrada a la ciudad,77367402,sin telefono,Mercedes Josefina Torres Galvez,...,PRIVADO,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ,0,1,1
2,16-01-0140-46,16-031,ALTA VERAPAZ,COBAN,colegio la inmaculada,colegio,7a. avenida 11-109 zona 6,78232301,sin telefono,Mercedes Josefina Torres Galvez,...,PRIVADO,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ,0,1,1
3,16-01-0141-46,16-005,ALTA VERAPAZ,COBAN,escuela nacional de ciencias comerciales,escuela,2a calle 11-10 zona 2,79514215,sin telefono,Rudy Adolfo Tot Och,...,OFICIAL,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ,0,1,1
4,16-01-0142-46,16-005,ALTA VERAPAZ,COBAN,instituto normal mixto del norte emilio rosale...,instituto,3a ave 6-23 zona 11,79521468,sin telefono,Rudy Adolfo Tot Och,...,OFICIAL,URBANA,ABIERTA,BILINGUE,VESPERTINA,DIARIO(REGULAR),ALTA VERAPAZ,0,0,4
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9325,19-09-0040-46,19-021,ZACAPA,LA UNION,liceo particular mixto jireh,liceo,barrio nuevo,79418369,sin telefono,Asbel Ivan Suchite Arroyo,...,PRIVADO,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ZACAPA,0,1,1
9326,19-09-0048-46,19-021,ZACAPA,LA UNION,liceo particular mixto jireh,liceo,barrio nuevo,79418369,sin telefono,Asbel Ivan Suchite Arroyo,...,PRIVADO,URBANA,ABIERTA,MONOLINGUE,SIN JORNADA,SEMIPRESENCIAL,ZACAPA,0,1,3
9327,19-10-0013-46,19-015,ZACAPA,HUITE,instituto diversificado,instituto,barrio buenos aires,47097386,sin telefono,Sildy Mariela Perez Franco,...,OFICIAL,URBANA,ABIERTA,MONOLINGUE,NOCTURNA,DIARIO(REGULAR),ZACAPA,0,1,2
9328,19-10-1009-46,19-015,ZACAPA,HUITE,instituto mixto de educacion diversificada por...,instituto,barrio el campo,55958103,sin telefono,Sildy Mariela Perez Franco,...,COOPERATIVA,URBANA,ABIERTA,MONOLINGUE,VESPERTINA,DIARIO(REGULAR),ZACAPA,0,1,4


In [65]:
analizarDistribucionColumna(data, 'PLAN', umbral=0.05)

🔍 Analizando la distribución de la columna 'PLAN'...
📊 Distribución de frecuencias:
PLAN
DIARIO(REGULAR)    0.613076
FIN DE SEMANA      0.255949
SEMIPRESENCIAL     0.109539
A DISTANCIA        0.020686
MIXTO              0.000322
IRREGULAR          0.000214
INTERCALADO        0.000214
Name: proportion, dtype: float64
⚠️ Se sugiere agrupar las siguientes categorías en 'PLAN': ['A DISTANCIA', 'MIXTO', 'IRREGULAR', 'INTERCALADO']



In [66]:
agruparCategorias(data, 'PLAN', ['MIXTO', 'IRREGULAR', 'INTERCALADO'], 'MIXTO')

🔧 Agrupando categorías en la columna 'PLAN'...
✅ Las categorías ['MIXTO', 'IRREGULAR', 'INTERCALADO'] se han agrupado bajo 'MIXTO'.


Unnamed: 0,CODIGO,DISTRITO,DEPARTAMENTO,MUNICIPIO,ESTABLECIMIENTO,CLASIFICACION_ESTABLECIMIENTO,DIRECCION,TELEFONO_1,TELEFONO_2,SUPERVISOR,...,SECTOR,AREA,STATUS,MODALIDAD,JORNADA,PLAN,DEPARTAMENTAL,STATUS_num,MODALIDAD_num,JORNADA_num
0,16-01-0138-46,16-031,ALTA VERAPAZ,COBAN,colegio coban,colegio,km.2 salida a san juan chamelco zona 8,77945104,sin telefono,Mercedes Josefina Torres Galvez,...,PRIVADO,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ,0,1,1
1,16-01-0139-46,16-031,ALTA VERAPAZ,COBAN,colegio particular mixto verapaz,colegio,km 209.5 entrada a la ciudad,77367402,sin telefono,Mercedes Josefina Torres Galvez,...,PRIVADO,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ,0,1,1
2,16-01-0140-46,16-031,ALTA VERAPAZ,COBAN,colegio la inmaculada,colegio,7a. avenida 11-109 zona 6,78232301,sin telefono,Mercedes Josefina Torres Galvez,...,PRIVADO,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ,0,1,1
3,16-01-0141-46,16-005,ALTA VERAPAZ,COBAN,escuela nacional de ciencias comerciales,escuela,2a calle 11-10 zona 2,79514215,sin telefono,Rudy Adolfo Tot Och,...,OFICIAL,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ,0,1,1
4,16-01-0142-46,16-005,ALTA VERAPAZ,COBAN,instituto normal mixto del norte emilio rosale...,instituto,3a ave 6-23 zona 11,79521468,sin telefono,Rudy Adolfo Tot Och,...,OFICIAL,URBANA,ABIERTA,BILINGUE,VESPERTINA,DIARIO(REGULAR),ALTA VERAPAZ,0,0,4
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9325,19-09-0040-46,19-021,ZACAPA,LA UNION,liceo particular mixto jireh,liceo,barrio nuevo,79418369,sin telefono,Asbel Ivan Suchite Arroyo,...,PRIVADO,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ZACAPA,0,1,1
9326,19-09-0048-46,19-021,ZACAPA,LA UNION,liceo particular mixto jireh,liceo,barrio nuevo,79418369,sin telefono,Asbel Ivan Suchite Arroyo,...,PRIVADO,URBANA,ABIERTA,MONOLINGUE,SIN JORNADA,SEMIPRESENCIAL,ZACAPA,0,1,3
9327,19-10-0013-46,19-015,ZACAPA,HUITE,instituto diversificado,instituto,barrio buenos aires,47097386,sin telefono,Sildy Mariela Perez Franco,...,OFICIAL,URBANA,ABIERTA,MONOLINGUE,NOCTURNA,DIARIO(REGULAR),ZACAPA,0,1,2
9328,19-10-1009-46,19-015,ZACAPA,HUITE,instituto mixto de educacion diversificada por...,instituto,barrio el campo,55958103,sin telefono,Sildy Mariela Perez Franco,...,COOPERATIVA,URBANA,ABIERTA,MONOLINGUE,VESPERTINA,DIARIO(REGULAR),ZACAPA,0,1,4


In [67]:
analizarDistribucionColumna(data, 'PLAN', umbral=0.05)

🔍 Analizando la distribución de la columna 'PLAN'...
📊 Distribución de frecuencias:
PLAN
DIARIO(REGULAR)    0.613076
FIN DE SEMANA      0.255949
SEMIPRESENCIAL     0.109539
A DISTANCIA        0.020686
MIXTO              0.000750
Name: proportion, dtype: float64
⚠️ Se sugiere agrupar las siguientes categorías en 'PLAN': ['A DISTANCIA', 'MIXTO']



In [68]:
agruparCategorias(data, 'PLAN', ['SEMIPRESENCIAL', 'MIXTO'], 'SEMIPRESENCIAL')

🔧 Agrupando categorías en la columna 'PLAN'...
✅ Las categorías ['SEMIPRESENCIAL', 'MIXTO'] se han agrupado bajo 'SEMIPRESENCIAL'.


Unnamed: 0,CODIGO,DISTRITO,DEPARTAMENTO,MUNICIPIO,ESTABLECIMIENTO,CLASIFICACION_ESTABLECIMIENTO,DIRECCION,TELEFONO_1,TELEFONO_2,SUPERVISOR,...,SECTOR,AREA,STATUS,MODALIDAD,JORNADA,PLAN,DEPARTAMENTAL,STATUS_num,MODALIDAD_num,JORNADA_num
0,16-01-0138-46,16-031,ALTA VERAPAZ,COBAN,colegio coban,colegio,km.2 salida a san juan chamelco zona 8,77945104,sin telefono,Mercedes Josefina Torres Galvez,...,PRIVADO,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ,0,1,1
1,16-01-0139-46,16-031,ALTA VERAPAZ,COBAN,colegio particular mixto verapaz,colegio,km 209.5 entrada a la ciudad,77367402,sin telefono,Mercedes Josefina Torres Galvez,...,PRIVADO,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ,0,1,1
2,16-01-0140-46,16-031,ALTA VERAPAZ,COBAN,colegio la inmaculada,colegio,7a. avenida 11-109 zona 6,78232301,sin telefono,Mercedes Josefina Torres Galvez,...,PRIVADO,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ,0,1,1
3,16-01-0141-46,16-005,ALTA VERAPAZ,COBAN,escuela nacional de ciencias comerciales,escuela,2a calle 11-10 zona 2,79514215,sin telefono,Rudy Adolfo Tot Och,...,OFICIAL,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ,0,1,1
4,16-01-0142-46,16-005,ALTA VERAPAZ,COBAN,instituto normal mixto del norte emilio rosale...,instituto,3a ave 6-23 zona 11,79521468,sin telefono,Rudy Adolfo Tot Och,...,OFICIAL,URBANA,ABIERTA,BILINGUE,VESPERTINA,DIARIO(REGULAR),ALTA VERAPAZ,0,0,4
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9325,19-09-0040-46,19-021,ZACAPA,LA UNION,liceo particular mixto jireh,liceo,barrio nuevo,79418369,sin telefono,Asbel Ivan Suchite Arroyo,...,PRIVADO,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ZACAPA,0,1,1
9326,19-09-0048-46,19-021,ZACAPA,LA UNION,liceo particular mixto jireh,liceo,barrio nuevo,79418369,sin telefono,Asbel Ivan Suchite Arroyo,...,PRIVADO,URBANA,ABIERTA,MONOLINGUE,SIN JORNADA,SEMIPRESENCIAL,ZACAPA,0,1,3
9327,19-10-0013-46,19-015,ZACAPA,HUITE,instituto diversificado,instituto,barrio buenos aires,47097386,sin telefono,Sildy Mariela Perez Franco,...,OFICIAL,URBANA,ABIERTA,MONOLINGUE,NOCTURNA,DIARIO(REGULAR),ZACAPA,0,1,2
9328,19-10-1009-46,19-015,ZACAPA,HUITE,instituto mixto de educacion diversificada por...,instituto,barrio el campo,55958103,sin telefono,Sildy Mariela Perez Franco,...,COOPERATIVA,URBANA,ABIERTA,MONOLINGUE,VESPERTINA,DIARIO(REGULAR),ZACAPA,0,1,4


In [69]:
analizarDistribucionColumna(data, 'PLAN', umbral=0.05)

🔍 Analizando la distribución de la columna 'PLAN'...
📊 Distribución de frecuencias:
PLAN
DIARIO(REGULAR)    0.613076
FIN DE SEMANA      0.255949
SEMIPRESENCIAL     0.110289
A DISTANCIA        0.020686
Name: proportion, dtype: float64
⚠️ Se sugiere agrupar las siguientes categorías en 'PLAN': ['A DISTANCIA']



In [70]:
convertirCategoriasANumericas(data, ['PLAN'])

🔢 Convirtiendo categorías a representación numérica...

🔍 Mapeo para la columna 'PLAN':
  A DISTANCIA -> 0
  DIARIO(REGULAR) -> 1
  FIN DE SEMANA -> 2
  SEMIPRESENCIAL -> 3
🆕 Columna PLAN_num añadida con éxito.


Unnamed: 0,CODIGO,DISTRITO,DEPARTAMENTO,MUNICIPIO,ESTABLECIMIENTO,CLASIFICACION_ESTABLECIMIENTO,DIRECCION,TELEFONO_1,TELEFONO_2,SUPERVISOR,...,AREA,STATUS,MODALIDAD,JORNADA,PLAN,DEPARTAMENTAL,STATUS_num,MODALIDAD_num,JORNADA_num,PLAN_num
0,16-01-0138-46,16-031,ALTA VERAPAZ,COBAN,colegio coban,colegio,km.2 salida a san juan chamelco zona 8,77945104,sin telefono,Mercedes Josefina Torres Galvez,...,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ,0,1,1,1
1,16-01-0139-46,16-031,ALTA VERAPAZ,COBAN,colegio particular mixto verapaz,colegio,km 209.5 entrada a la ciudad,77367402,sin telefono,Mercedes Josefina Torres Galvez,...,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ,0,1,1,1
2,16-01-0140-46,16-031,ALTA VERAPAZ,COBAN,colegio la inmaculada,colegio,7a. avenida 11-109 zona 6,78232301,sin telefono,Mercedes Josefina Torres Galvez,...,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ,0,1,1,1
3,16-01-0141-46,16-005,ALTA VERAPAZ,COBAN,escuela nacional de ciencias comerciales,escuela,2a calle 11-10 zona 2,79514215,sin telefono,Rudy Adolfo Tot Och,...,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ,0,1,1,1
4,16-01-0142-46,16-005,ALTA VERAPAZ,COBAN,instituto normal mixto del norte emilio rosale...,instituto,3a ave 6-23 zona 11,79521468,sin telefono,Rudy Adolfo Tot Och,...,URBANA,ABIERTA,BILINGUE,VESPERTINA,DIARIO(REGULAR),ALTA VERAPAZ,0,0,4,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9325,19-09-0040-46,19-021,ZACAPA,LA UNION,liceo particular mixto jireh,liceo,barrio nuevo,79418369,sin telefono,Asbel Ivan Suchite Arroyo,...,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ZACAPA,0,1,1,1
9326,19-09-0048-46,19-021,ZACAPA,LA UNION,liceo particular mixto jireh,liceo,barrio nuevo,79418369,sin telefono,Asbel Ivan Suchite Arroyo,...,URBANA,ABIERTA,MONOLINGUE,SIN JORNADA,SEMIPRESENCIAL,ZACAPA,0,1,3,3
9327,19-10-0013-46,19-015,ZACAPA,HUITE,instituto diversificado,instituto,barrio buenos aires,47097386,sin telefono,Sildy Mariela Perez Franco,...,URBANA,ABIERTA,MONOLINGUE,NOCTURNA,DIARIO(REGULAR),ZACAPA,0,1,2,1
9328,19-10-1009-46,19-015,ZACAPA,HUITE,instituto mixto de educacion diversificada por...,instituto,barrio el campo,55958103,sin telefono,Sildy Mariela Perez Franco,...,URBANA,ABIERTA,MONOLINGUE,VESPERTINA,DIARIO(REGULAR),ZACAPA,0,1,4,1


In [71]:
analizarDistribucionColumna(data, 'PLAN_num')

🔍 Analizando la distribución de la columna 'PLAN_num'...
📊 Distribución de frecuencias:
PLAN_num
1    0.613076
2    0.255949
3    0.110289
0    0.020686
Name: proportion, dtype: float64
⚠️ Se sugiere agrupar las siguientes categorías en 'PLAN_num': [0]



In [72]:
analizarDistribucionColumna(data, 'DEPARTAMENTAL', umbral=0.05)

🔍 Analizando la distribución de la columna 'DEPARTAMENTAL'...
📊 Distribución de frecuencias:
DEPARTAMENTAL
GUATEMALA NORTE        0.112540
GUATEMALA SUR          0.089282
GUATEMALA OCCIDENTE    0.084137
ESCUINTLA              0.067310
SAN MARCOS             0.061522
HUEHUETENANGO          0.055305
QUETZALTENANGO         0.052626
SUCHITEPÉQUEZ          0.041265
ALTA VERAPAZ           0.040086
GUATEMALA ORIENTE      0.039979
IZABAL                 0.039443
PETÉN                  0.039228
CHIMALTENANGO          0.038478
SACATEPÉQUEZ           0.034191
RETALHULEU             0.033869
JUTIAPA                0.033226
QUICHÉ                 0.021758
CHIQUIMULA             0.018221
SANTA ROSA             0.016827
JALAPA                 0.016184
SOLOLÁ                 0.014791
EL PROGRESO            0.013398
BAJA VERAPAZ           0.012219
ZACAPA                 0.010075
TOTONICAPÁN            0.009646
QUICHÉ NORTE           0.004394
Name: proportion, dtype: float64
⚠️ Se sugiere agrupar las si

In [73]:
convertirCategoriasANumericas(data, ['DEPARTAMENTAL'])

🔢 Convirtiendo categorías a representación numérica...

🔍 Mapeo para la columna 'DEPARTAMENTAL':
  ALTA VERAPAZ -> 0
  BAJA VERAPAZ -> 1
  CHIMALTENANGO -> 2
  CHIQUIMULA -> 3
  EL PROGRESO -> 4
  ESCUINTLA -> 5
  GUATEMALA NORTE -> 6
  GUATEMALA OCCIDENTE -> 7
  GUATEMALA ORIENTE -> 8
  GUATEMALA SUR -> 9
  HUEHUETENANGO -> 10
  IZABAL -> 11
  JALAPA -> 12
  JUTIAPA -> 13
  PETÉN -> 14
  QUETZALTENANGO -> 15
  QUICHÉ -> 16
  QUICHÉ NORTE -> 17
  RETALHULEU -> 18
  SACATEPÉQUEZ -> 19
  SAN MARCOS -> 20
  SANTA ROSA -> 21
  SOLOLÁ -> 22
  SUCHITEPÉQUEZ -> 23
  TOTONICAPÁN -> 24
  ZACAPA -> 25
🆕 Columna DEPARTAMENTAL_num añadida con éxito.


Unnamed: 0,CODIGO,DISTRITO,DEPARTAMENTO,MUNICIPIO,ESTABLECIMIENTO,CLASIFICACION_ESTABLECIMIENTO,DIRECCION,TELEFONO_1,TELEFONO_2,SUPERVISOR,...,STATUS,MODALIDAD,JORNADA,PLAN,DEPARTAMENTAL,STATUS_num,MODALIDAD_num,JORNADA_num,PLAN_num,DEPARTAMENTAL_num
0,16-01-0138-46,16-031,ALTA VERAPAZ,COBAN,colegio coban,colegio,km.2 salida a san juan chamelco zona 8,77945104,sin telefono,Mercedes Josefina Torres Galvez,...,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ,0,1,1,1,0
1,16-01-0139-46,16-031,ALTA VERAPAZ,COBAN,colegio particular mixto verapaz,colegio,km 209.5 entrada a la ciudad,77367402,sin telefono,Mercedes Josefina Torres Galvez,...,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ,0,1,1,1,0
2,16-01-0140-46,16-031,ALTA VERAPAZ,COBAN,colegio la inmaculada,colegio,7a. avenida 11-109 zona 6,78232301,sin telefono,Mercedes Josefina Torres Galvez,...,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ,0,1,1,1,0
3,16-01-0141-46,16-005,ALTA VERAPAZ,COBAN,escuela nacional de ciencias comerciales,escuela,2a calle 11-10 zona 2,79514215,sin telefono,Rudy Adolfo Tot Och,...,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ,0,1,1,1,0
4,16-01-0142-46,16-005,ALTA VERAPAZ,COBAN,instituto normal mixto del norte emilio rosale...,instituto,3a ave 6-23 zona 11,79521468,sin telefono,Rudy Adolfo Tot Och,...,ABIERTA,BILINGUE,VESPERTINA,DIARIO(REGULAR),ALTA VERAPAZ,0,0,4,1,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9325,19-09-0040-46,19-021,ZACAPA,LA UNION,liceo particular mixto jireh,liceo,barrio nuevo,79418369,sin telefono,Asbel Ivan Suchite Arroyo,...,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ZACAPA,0,1,1,1,25
9326,19-09-0048-46,19-021,ZACAPA,LA UNION,liceo particular mixto jireh,liceo,barrio nuevo,79418369,sin telefono,Asbel Ivan Suchite Arroyo,...,ABIERTA,MONOLINGUE,SIN JORNADA,SEMIPRESENCIAL,ZACAPA,0,1,3,3,25
9327,19-10-0013-46,19-015,ZACAPA,HUITE,instituto diversificado,instituto,barrio buenos aires,47097386,sin telefono,Sildy Mariela Perez Franco,...,ABIERTA,MONOLINGUE,NOCTURNA,DIARIO(REGULAR),ZACAPA,0,1,2,1,25
9328,19-10-1009-46,19-015,ZACAPA,HUITE,instituto mixto de educacion diversificada por...,instituto,barrio el campo,55958103,sin telefono,Sildy Mariela Perez Franco,...,ABIERTA,MONOLINGUE,VESPERTINA,DIARIO(REGULAR),ZACAPA,0,1,4,1,25


In [74]:
analizarDistribucionColumna(data, 'DEPARTAMENTAL_num')

🔍 Analizando la distribución de la columna 'DEPARTAMENTAL_num'...
📊 Distribución de frecuencias:
DEPARTAMENTAL_num
6     0.112540
9     0.089282
7     0.084137
5     0.067310
20    0.061522
10    0.055305
15    0.052626
23    0.041265
0     0.040086
8     0.039979
11    0.039443
14    0.039228
2     0.038478
19    0.034191
18    0.033869
13    0.033226
16    0.021758
3     0.018221
21    0.016827
12    0.016184
22    0.014791
4     0.013398
1     0.012219
25    0.010075
24    0.009646
17    0.004394
Name: proportion, dtype: float64
⚠️ Se sugiere agrupar las siguientes categorías en 'DEPARTAMENTAL_num': [23, 0, 8, 11, 14, 2, 19, 18, 13, 16, 3, 21, 12, 22, 4, 1, 25, 24, 17]



In [75]:
data

Unnamed: 0,CODIGO,DISTRITO,DEPARTAMENTO,MUNICIPIO,ESTABLECIMIENTO,CLASIFICACION_ESTABLECIMIENTO,DIRECCION,TELEFONO_1,TELEFONO_2,SUPERVISOR,...,STATUS,MODALIDAD,JORNADA,PLAN,DEPARTAMENTAL,STATUS_num,MODALIDAD_num,JORNADA_num,PLAN_num,DEPARTAMENTAL_num
0,16-01-0138-46,16-031,ALTA VERAPAZ,COBAN,colegio coban,colegio,km.2 salida a san juan chamelco zona 8,77945104,sin telefono,Mercedes Josefina Torres Galvez,...,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ,0,1,1,1,0
1,16-01-0139-46,16-031,ALTA VERAPAZ,COBAN,colegio particular mixto verapaz,colegio,km 209.5 entrada a la ciudad,77367402,sin telefono,Mercedes Josefina Torres Galvez,...,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ,0,1,1,1,0
2,16-01-0140-46,16-031,ALTA VERAPAZ,COBAN,colegio la inmaculada,colegio,7a. avenida 11-109 zona 6,78232301,sin telefono,Mercedes Josefina Torres Galvez,...,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ,0,1,1,1,0
3,16-01-0141-46,16-005,ALTA VERAPAZ,COBAN,escuela nacional de ciencias comerciales,escuela,2a calle 11-10 zona 2,79514215,sin telefono,Rudy Adolfo Tot Och,...,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ,0,1,1,1,0
4,16-01-0142-46,16-005,ALTA VERAPAZ,COBAN,instituto normal mixto del norte emilio rosale...,instituto,3a ave 6-23 zona 11,79521468,sin telefono,Rudy Adolfo Tot Och,...,ABIERTA,BILINGUE,VESPERTINA,DIARIO(REGULAR),ALTA VERAPAZ,0,0,4,1,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9325,19-09-0040-46,19-021,ZACAPA,LA UNION,liceo particular mixto jireh,liceo,barrio nuevo,79418369,sin telefono,Asbel Ivan Suchite Arroyo,...,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ZACAPA,0,1,1,1,25
9326,19-09-0048-46,19-021,ZACAPA,LA UNION,liceo particular mixto jireh,liceo,barrio nuevo,79418369,sin telefono,Asbel Ivan Suchite Arroyo,...,ABIERTA,MONOLINGUE,SIN JORNADA,SEMIPRESENCIAL,ZACAPA,0,1,3,3,25
9327,19-10-0013-46,19-015,ZACAPA,HUITE,instituto diversificado,instituto,barrio buenos aires,47097386,sin telefono,Sildy Mariela Perez Franco,...,ABIERTA,MONOLINGUE,NOCTURNA,DIARIO(REGULAR),ZACAPA,0,1,2,1,25
9328,19-10-1009-46,19-015,ZACAPA,HUITE,instituto mixto de educacion diversificada por...,instituto,barrio el campo,55958103,sin telefono,Sildy Mariela Perez Franco,...,ABIERTA,MONOLINGUE,VESPERTINA,DIARIO(REGULAR),ZACAPA,0,1,4,1,25
