# **Mineduc Data Cleansing** ✨

***

## **Import Libraries** ⬇️

In [16]:
# Data manipulation and visualization
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import seaborn as sns

# Standard libraries
import warnings
warnings.filterwarnings('ignore')

# ===== ===== Reproducibility Seed ===== =====
# Set a fixed seed for the random number generator for reproducibility
random_state = 42

# Set matplotlib inline
%matplotlib inline

# Set default figure size
plt.rcParams['figure.figsize'] = (6, 4)

# Define custom color palette
palette = sns.color_palette("viridis", 12)

## **Data Upload** 📄

In [17]:
df = pd.read_csv('data/establecimientos.csv')
df

Unnamed: 0,CODIGO,DISTRITO,DEPARTAMENTO,MUNICIPIO,ESTABLECIMIENTO,DIRECCION,TELEFONO,SUPERVISOR,DIRECTOR,NIVEL,SECTOR,AREA,STATUS,MODALIDAD,JORNADA,PLAN,DEPARTAMENTAL
0,16-01-0138-46,16-031,ALTA VERAPAZ,COBAN,COLEGIO COBAN,KM.2 SALIDA A SAN JUAN CHAMELCO ZONA 8,77945104,MERCEDES JOSEFINA TORRES GALVEZ,GUSTAVO ADOLFO SIERRA POP,DIVERSIFICADO,PRIVADO,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ
1,16-01-0139-46,16-031,ALTA VERAPAZ,COBAN,COLEGIO PARTICULAR MIXTO VERAPAZ,KM 209.5 ENTRADA A LA CIUDAD,77367402,MERCEDES JOSEFINA TORRES GALVEZ,GILMA DOLORES GUAY PAZ DE LEAL,DIVERSIFICADO,PRIVADO,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ
2,16-01-0140-46,16-031,ALTA VERAPAZ,COBAN,"COLEGIO ""LA INMACULADA""",7A. AVENIDA 11-109 ZONA 6,78232301,MERCEDES JOSEFINA TORRES GALVEZ,VIRGINIA SOLANO SERRANO,DIVERSIFICADO,PRIVADO,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ
3,16-01-0141-46,16-005,ALTA VERAPAZ,COBAN,ESCUELA NACIONAL DE CIENCIAS COMERCIALES,2A CALLE 11-10 ZONA 2,79514215,RUDY ADOLFO TOT OCH,HÉCTOR ROLANDO CHUN POOU,DIVERSIFICADO,OFICIAL,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ
4,16-01-0142-46,16-005,ALTA VERAPAZ,COBAN,INSTITUTO NORMAL MIXTO DEL NORTE 'EMILIO ROSAL...,3A AVE 6-23 ZONA 11,79521468,RUDY ADOLFO TOT OCH,VICTOR HUGO DOMÍNGUEZ REYES,DIVERSIFICADO,OFICIAL,URBANA,ABIERTA,BILINGUE,VESPERTINA,DIARIO(REGULAR),ALTA VERAPAZ
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9349,19-09-0048-46,19-021,ZACAPA,LA UNION,"LICEO PARTICULAR MIXTO "" JIREH""",BARRIO NUEVO,79418369,ASBEL IVAN SUCHITE ARROYO,ANA MARÍA CUELLAR GUERRA,DIVERSIFICADO,PRIVADO,URBANA,ABIERTA,MONOLINGUE,SIN JORNADA,SEMIPRESENCIAL (UN DÍA A LA SEMANA),ZACAPA
9350,19-10-0013-46,19-015,ZACAPA,HUITE,INSTITUTO DIVERSIFICADO,BARRIO BUENOS AIRES,47097386,SILDY MARIELA PEREZ FRANCO,MARLON JOSUÉ ARCHILA LORENZO,DIVERSIFICADO,OFICIAL,URBANA,ABIERTA,MONOLINGUE,NOCTURNA,DIARIO(REGULAR),ZACAPA
9351,19-10-1009-46,19-015,ZACAPA,HUITE,INSTITUTO MIXTO DE EDUCACION DIVERSIFICADA POR...,BARRIO EL CAMPO,55958103,SILDY MARIELA PEREZ FRANCO,ROBIDIO PORTILLO SALGUERO,DIVERSIFICADO,COOPERATIVA,URBANA,ABIERTA,MONOLINGUE,VESPERTINA,DIARIO(REGULAR),ZACAPA
9352,19-11-0018-46,19-020,ZACAPA,SAN JORGE,INSTITUTO MIXTO DE EDUCACIÓN DIVERSIFICADA POR...,BARRIO EL CENTRO,41447589,ALBA LUZ MENDEZ,VICTOR HUGO GUERRA MONROY,DIVERSIFICADO,COOPERATIVA,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ZACAPA


## **Exploratory Analysis** 🔎

Este conjunto de datos se enfoca en la recopilación de información sobre establecimientos educativos en el país Guatemala. Los datos fueron obtenidos de la página oficial del [Ministerio de Educación](https://www.mineduc.gob.gt/BUSCAESTABLECIMIENTO_GE/). Incluye más de 9000 registros, aunque esto se detallará más adelante, que abarcan detalles de relevancia para el análisis y gestión de la educación en el país.

### **(1) Descripción y Análisis de los Datos**

In [18]:
# Print the number of records in the DataFrame
print("The given dataset has", df.shape[0], "registers and", df.shape[1], "columns.")

The given dataset has 9354 registers and 17 columns.


El conjunto de datos original contiene 9354 registros y 17 columnas, lo que sugiere que posee una dimensión relativamente grande. Cada uno de los 9354 registros representa una observación única, mientras que las 17 columnas corresponden a diferentes características o variables medidas para cada observación.

In [19]:
# Basic information about the dataset
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9354 entries, 0 to 9353
Data columns (total 17 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   CODIGO           9331 non-null   object
 1   DISTRITO         9123 non-null   object
 2   DEPARTAMENTO     9331 non-null   object
 3   MUNICIPIO        9331 non-null   object
 4   ESTABLECIMIENTO  9331 non-null   object
 5   DIRECCION        9280 non-null   object
 6   TELEFONO         8792 non-null   object
 7   SUPERVISOR       9122 non-null   object
 8   DIRECTOR         8434 non-null   object
 9   NIVEL            9331 non-null   object
 10  SECTOR           9331 non-null   object
 11  AREA             9331 non-null   object
 12  STATUS           9331 non-null   object
 13  MODALIDAD        9331 non-null   object
 14  JORNADA          9331 non-null   object
 15  PLAN             9331 non-null   object
 16  DEPARTAMENTAL    9331 non-null   object
dtypes: object(17)
memory usage: 1.2+ 

En el análisis preliminar del conjunto de datos, se observa que varias columnas, aunque almacenadas como objetos, contienen datos que podrían beneficiarse de una conversión a tipos más apropiados aunque no es escencial. Por ejemplo, las columnas CODIGO, TELEFONO y DISTRITO, a pesar de ser objetos, ***podrían*** ser tratadas como datos categóricos o numéricos si se requiere un análisis más detallado. Sin embargo, estas son decisiones que se tomarán en el futuro y por ahora es una simple observación.

### Variables del Conjunto de Datos

| Nombre           | Descripción                                                                                       | Clasificación                                                                                   |
|------------------|---------------------------------------------------------------------------------------------------|------------------------------------------------------------------------------------------------|
| Código           | Identifica de manera única a cada establecimiento.                                                | Variable cualitativa descriptiva                                                               |
| Establecimiento  | Nombre del establecimiento educativo.                                                             | Variable cualitativa descriptiva                                                               |
| Dirección        | Ubicación física del establecimiento.                                                             | Variable cualitativa descriptiva                                                               |
| Teléfono         | Número de teléfono del establecimiento.                                                           | Variable  cualitativa descriptiva                                                                 |
| Director         | Nombre del director del establecimiento.                                                          | Variable cualitativa descriptiva                                                               |
| Distrito         | Clasifica el establecimiento dentro de un distrito específico.                                     | Variable cualitativa categórica                                                                |
| Departamento     | Indica el departamento donde se encuentra cada establecimiento.                                    | Variable cualitativa categórica                                                                |
| Municipio        | Define el municipio donde se localiza cada establecimiento.                                        | Variable cualitativa categórica                                                                |
| Nivel            | Nivel educativo ofrecido por el establecimiento (ej. diversificado, primaria, etc.).               | Variable cualitativa categórica                                                                |
| Sector           | Tipo de sector educativo (ej. público, privado).                                                  | Variable cualitativa categórica                                                                |
| Área             | Área geográfica del establecimiento (ej. urbana, rural).                                          | Variable cualitativa categórica                                                                |
| Estado           | Estado actual del establecimiento (ej. abierto, cerrado).                                          | Variable cualitativa categórica                                                                |
| Modalidad        | Modalidad de enseñanza ofrecida (ej. monolingüe, bilingüe).                                        | Variable cualitativa categórica                                                                |
| Jornada          | Tipo de jornada educativa (ej. matutina, vespertina).                                              | Variable cualitativa categórica                                                                |
| Plan             | Plan educativo implementado (ej. diario, semanal).                                                | Variable cualitativa categórica                                                                |
| Departamental    | Departamento administrativo al que pertenece el establecimiento.                                   | Variable cualitativa categórica                                                                |
| Supervisor       | Nombre del supervisor del establecimiento.                                                        | Variable cualitativa categórica                                                                |

**Observaciones -->**

> - El conjunto de datos posee alrededor de 4 variables cualitativas descriptivas.
> - El resto de variables, 12 de ellas, son variables cualitaticas categóricas.

### **(2) Exploración y Limpieza Inicial de los Datos**

In [20]:
# Transpose the first 3 rows of the DataFrame
# to display column names as rows for better readability.
df.head(3).T

Unnamed: 0,0,1,2
CODIGO,16-01-0138-46,16-01-0139-46,16-01-0140-46
DISTRITO,16-031,16-031,16-031
DEPARTAMENTO,ALTA VERAPAZ,ALTA VERAPAZ,ALTA VERAPAZ
MUNICIPIO,COBAN,COBAN,COBAN
ESTABLECIMIENTO,COLEGIO COBAN,COLEGIO PARTICULAR MIXTO VERAPAZ,"COLEGIO ""LA INMACULADA"""
DIRECCION,KM.2 SALIDA A SAN JUAN CHAMELCO ZONA 8,KM 209.5 ENTRADA A LA CIUDAD,7A. AVENIDA 11-109 ZONA 6
TELEFONO,77945104,77367402,78232301
SUPERVISOR,MERCEDES JOSEFINA TORRES GALVEZ,MERCEDES JOSEFINA TORRES GALVEZ,MERCEDES JOSEFINA TORRES GALVEZ
DIRECTOR,GUSTAVO ADOLFO SIERRA POP,GILMA DOLORES GUAY PAZ DE LEAL,VIRGINIA SOLANO SERRANO
NIVEL,DIVERSIFICADO,DIVERSIFICADO,DIVERSIFICADO


**Modificación de Etiquetas de Variables -->**

Para facilitar la comprensión y el manejo del conjunto de datos, se procederá a modificar los nombres de las variables. Este cambio permitirá una organización más clara y una interpretación más precisa de la información.

In [21]:
rename_col = {
    'CODIGO': 'code',
    'DISTRITO': 'district',
    'DEPARTAMENTO': 'department',
    'MUNICIPIO': 'municipality',
    'ESTABLECIMIENTO': 'school_name',
    'DIRECCION': 'address',
    'TELEFONO': 'phone',
    'SUPERVISOR': 'supervisor',
    'DIRECTOR': 'director',
    'NIVEL': 'education_level',
    'SECTOR': 'sector',
    'AREA': 'area',
    'STATUS': 'status',
    'MODALIDAD': 'teaching_mode',
    'JORNADA': 'schedule',
    'PLAN': 'plan',
    'DEPARTAMENTAL': 'departmental'
}

In [22]:
# Use a pandas function to rename the current function
df = df.rename(columns = rename_col)
df.head(2)

Unnamed: 0,code,district,department,municipality,school_name,address,phone,supervisor,director,education_level,sector,area,status,teaching_mode,schedule,plan,departmental
0,16-01-0138-46,16-031,ALTA VERAPAZ,COBAN,COLEGIO COBAN,KM.2 SALIDA A SAN JUAN CHAMELCO ZONA 8,77945104,MERCEDES JOSEFINA TORRES GALVEZ,GUSTAVO ADOLFO SIERRA POP,DIVERSIFICADO,PRIVADO,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ
1,16-01-0139-46,16-031,ALTA VERAPAZ,COBAN,COLEGIO PARTICULAR MIXTO VERAPAZ,KM 209.5 ENTRADA A LA CIUDAD,77367402,MERCEDES JOSEFINA TORRES GALVEZ,GILMA DOLORES GUAY PAZ DE LEAL,DIVERSIFICADO,PRIVADO,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ


#### **(1) Frecuencias y Conteo de los Datos**

In [23]:
# Create a list with descriptive columns
descriptive = ["code", "school_name", "address", "director", "number"]

# Create a list with categorical columns
categorical = ["district", "department", "municipality", "education_level", "sector", "area", "status", "teaching_mode", "schedule", "plan", "departmental", "supervisor"]

In [24]:
group_size = 6  # Len of groups to show
num_groups = len(categorical) // group_size + (len(categorical) % group_size > 0) # Number of groups

# Iterate over the groups and print the description
for i in range(num_groups):
    start = i * group_size
    end = (i + 1) * group_size
    group_cols = categorical[start:end]    
    
    # Use .describe() to get the description of the columns
    description = df[group_cols].describe()
    styler = description.style.set_table_styles([
        {'selector': 'th', 'props': [('font-weight', 'bold')]}
    ])
    # Display the description
    display(styler)

Unnamed: 0,district,department,municipality,education_level,sector,area
count,9123,9331,9331,9331,9331,9331
unique,690,23,349,1,4,3
top,01-403,CIUDAD CAPITAL,ZONA 1,DIVERSIFICADO,PRIVADO,URBANA
freq,268,1564,633,9331,7956,7606


Unnamed: 0,status,teaching_mode,schedule,plan,departmental,supervisor
count,9331,9331,9331,9331,9331,9122
unique,4,2,6,13,26,659
top,ABIERTA,MONOLINGUE,DOBLE,DIARIO(REGULAR),GUATEMALA NORTE,CARLOS HUMBERTO GONZALEZ DE LEON
freq,6545,9039,3037,5721,1050,333


**Top 10 Valores Por Columna -->**

In [25]:
# See what are the 10 most frequent values for each of the dataframe columns
for column in df.columns:
    frequency_values = df[column].value_counts().head(10)
    print("Top 10 most frequent values for column '{}':".format(column))
    for index, (value, frequency) in enumerate(frequency_values.items(), start=1):
        print("{:<5} {:<30} {:<10}".format(index, value, frequency))
    print("\n===============================================")

Top 10 most frequent values for column 'code':
1     19-11-0018-46                  1         
2     16-01-0138-46                  1         
3     16-01-0139-46                  1         
4     19-06-0015-46                  1         
5     19-06-0008-46                  1         
6     19-06-0005-46                  1         
7     19-05-1080-46                  1         
8     19-05-0343-46                  1         
9     19-05-0052-46                  1         
10    19-05-0051-46                  1         

Top 10 most frequent values for column 'district':
1     01-403                         268       
2     11-017                         176       
3     05-033                         167       
4     01-411                         167       
5     18-008                         130       
6     05-007                         104       
7     01-641                         103       
8     18-039                         102       
9     03-002                         

**Observaciones -->**

Es importante señalar que la columna `code` contiene únicamente valores únicos para cada entrada, lo que sugiere que no aporta información significativa al conjunto de datos y podría considerarse prescindible para los análisis posteriores.

Por otro lado, la columna `district` presenta múltiples entradas repetidas, siendo 01-403 la más frecuente en el conjunto de datos. Esta repetición podría ser útil para identificar patrones en la distribución de la data, aunque se requiere un análisis más profundo para determinar su relevancia.

En cuanto a la columna `municipality`, se ha observado que contiene entradas inconsistentes. En esta columna se registran, en su mayoría, los nombres de los municipios de los departamentos, pero también aparecen nombres de zonas específicas de la ciudad capital, lo que indica una falta de un formato de entrada adecuado. En relación con esto último, es importante tener en cuenta que los municipios de Guatemala no incluyen sus zonas, por lo que la presencia de estas entradas no solo es inconsistente, sino también incorrecta en el contexto de los datos. Todo esto ees algo a tomar en consideración durante el proceso de limpieza.

Un aspecto interesante relacionado con la integridad de los datos se observa en la columna `director`. En esta columna, se encuentran 83 valores representados como "---", 28 como "----", 27 como "--" y 14 como "SIN DATO". Esta variedad en la representación de los valores nulos es significativa y debe ser considerada cuidadosamente en el análisis de datos faltantes. Es crucial realizar las modificaciones necesarias para clasificar correctamente estos valores nulos, ya que su manejo inadecuado podría afectar las conclusiones extraídas del conjunto de datos. Vemos este mismo problema en la columna `area`, donde los valores nulos tienen OTRO tipo de codificación, siendo esta "SIN ESPECIFICAR".

Por otro lado, la columna `education_level` presenta una notable falta de diversidad en sus entradas, ya que se limita únicamente al valor "DIVERSIFICADO". Esta homogeneidad plantea la pregunta sobre la utilidad de esta columna en la data, ya que no proporciona información escencial que permita realizar comparaciones o análisis significativos.

La columna `plan` presenta una distribución notablemente desigual en sus valores, con "DIARIO(REGULAR)" como el más frecuente y otros planes mostrando significativamente menos entradas.  Se considera que se debería realizar una limpieza de datos en esta columna, lo que incluye verificar la consistencia en la nomenclatura de los planes, unificar categorías similares, manejar posibles datos faltantes y considerar la eliminación o agrupación de planes con baja frecuencia que no aporten valor significativo.

La columna `departamental` incluye nombres de departamentos del país, pero también presenta regiones específicas que son inconsistentes en su nomenclatura. Dada esta situación, se sugiere agrupar ciertas entradas para proporcionar mayor coherencia y utilidad a la columna. En particular, sería recomendable unificar las diversas regiones de la ciudad capital bajo la etiqueta "Guatemala" y asegurarse de que no existan otras entradas que estén separadas por regiones, lo que podría llevar a confusiones en el análisis.

#### **(2) Análisis de Valores Duplicados**

In [26]:
# Check duplicate rows in dataset
df = df.drop_duplicates()

In [27]:
# Print the number of records in the DataFrame
print("The given dataset has", df.shape[0], "registers and", df.shape[1], "columns.")

The given dataset has 9332 registers and 17 columns.


**Observaciones -->**

> - Se identificaron 22 entradas duplicadas en el conjunto de datos, lo que representa aproximadamente el 0.5% del total.
> - Este problema ya fue abordado durante la etapa de limpieza preliminar.