# Avances del Proyecto 1

## Importación y unificación de datos

In [None]:
import pandas as pd
import os

columnas = ['CODIGO', 'DISTRITO', 'DEPARTAMENTO', 'MUNICIPIO', 'ESTABLECIMIENTO', 
            'DIRECCION', 'TELEFONO', 'SUPERVISOR', 'DIRECTOR', 'NIVEL', 'SECTOR', 
            'AREA', 'STATUS', 'MODALIDAD', 'JORNADA', 'PLAN', 'DEPARTAMENTAL']

carpeta = 'data/csv/'
dfs = []

for archivo in os.listdir(carpeta):
    if archivo.endswith('.csv'):
        ruta_completa = os.path.join(carpeta, archivo)
        temp_df = pd.read_csv(ruta_completa)
        print(f'Leyendo {archivo} con {temp_df.shape[0]} centros educativos')
        dfs.append(pd.read_csv(ruta_completa))

df = pd.concat(dfs, ignore_index=True)


Leyendo altaverapaz.csv con 294 centros educativos
Leyendo bajaverapaz.csv con 94 centros educativos
Leyendo chimaltenango.csv con 300 centros educativos
Leyendo chiquimula.csv con 136 centros educativos
Leyendo ciudadcapital.csv con 860 centros educativos
Leyendo elprogreso.csv con 97 centros educativos
Leyendo escuintla.csv con 393 centros educativos
Leyendo guatemala.csv con 1036 centros educativos
Leyendo huehuetenango.csv con 295 centros educativos
Leyendo izabal.csv con 273 centros educativos
Leyendo jalapa.csv con 121 centros educativos
Leyendo jutiapa.csv con 296 centros educativos
Leyendo peten.csv con 270 centros educativos
Leyendo quetzaltenango.csv con 365 centros educativos
Leyendo quiche.csv con 184 centros educativos
Leyendo retalhuleu.csv con 272 centros educativos
Leyendo sacatepequez.csv con 206 centros educativos
Leyendo sanmarcos.csv con 431 centros educativos
Leyendo santarosa.csv con 133 centros educativos
Leyendo solola.csv con 111 centros educativos
Leyendo such

### Obtener valores de columnas generales

In [None]:
for col in ['NIVEL', 'SECTOR', 'AREA', 'STATUS', 'MODALIDAD', 'JORNADA', 'PLAN', 'DEPARTAMENTAL']:
    print(f'Datos únicos de la columna {col}:\n{df[col].unique()}')

Datos únicos de la columna NIVEL:
['DIVERSIFICADO']
Datos únicos de la columna SECTOR:
['PRIVADO' 'OFICIAL' 'MUNICIPAL' 'COOPERATIVA']
Datos únicos de la columna AREA:
['URBANA' 'RURAL' 'SIN ESPECIFICAR']
Datos únicos de la columna STATUS:
['ABIERTA']
Datos únicos de la columna MODALIDAD:
['MONOLINGUE' 'BILINGUE']
Datos únicos de la columna JORNADA:
['MATUTINA' 'VESPERTINA' 'DOBLE' 'NOCTURNA' 'SIN JORNADA' 'INTERMEDIA']
Datos únicos de la columna PLAN:
['DIARIO(REGULAR)' 'FIN DE SEMANA' 'A DISTANCIA' 'SEMIPRESENCIAL'
 'SEMIPRESENCIAL (FIN DE SEMANA)' 'SEMIPRESENCIAL (UN DÍA A LA SEMANA)'
 'VIRTUAL A DISTANCIA' 'SEMIPRESENCIAL (DOS DÍAS A LA SEMANA)' 'SABATINO'
 'INTERCALADO' 'DOMINICAL' 'MIXTO']
Datos únicos de la columna DEPARTAMENTAL:
['ALTA VERAPAZ' 'BAJA VERAPAZ' 'CHIMALTENANGO' 'CHIQUIMULA'
 'GUATEMALA NORTE' 'GUATEMALA ORIENTE' 'GUATEMALA OCCIDENTE'
 'GUATEMALA SUR' 'EL PROGRESO' 'ESCUINTLA' 'HUEHUETENANGO' 'IZABAL'
 'JALAPA' 'JUTIAPA' 'PETÉN' 'QUETZALTENANGO' 'QUICHÉ' 'QUICHÉ NO

In [None]:
df.shape

(6584, 17)

## **1. Descripción general del dataset**

A continuación, se describen los datos obtenidos del sitio web del [Mineduc](https://www.mineduc.gob.gt/BUSCAESTABLECIMIENTO_GE/):

Los datos corresponden a los **6584** centros educativos a nivel nacional que imparten **educación diversificada**. Están organizados en **23 archivos CSV**, uno por cada **departamento** de Guatemala. Cada archivo contiene **17 columnas** con información relevante sobre los establecimientos:


* `CODIGO`: Identificador único del establecimiento, con el formato `XX-XX-XXXX-XX`.

  * **Primer bloque (`XX`)**: Código del departamento (ej. `18` para Izabal).
  * **Segundo bloque (`XX`)**: Código del municipio dentro del departamento.
  * **Tercer bloque (`XXXX`)**: Identificador interno del centro educativo.
  * **Cuarto bloque (`XX`)**: Es siempre `46`, posiblemente indica el nivel educativo (diversificado) o el sistema de codificación actual del Mineduc.

* `DISTRITO`: Código del distrito escolar al que pertenece el establecimiento. Tiene el formato `XX-XXX`, donde el primer número corresponde al departamento, y los últimos tres identifican las zonas operativas o educativas regionales dentro del departamento. **Ejemplo:** `18-007` y `18-008` son distritos distintos dentro de Izabal.

* `DEPARTAMENTO`: Nombre del departamento (ej. `IZABAL`).

* `MUNICIPIO`: Municipio donde se ubica el establecimiento (ej. `PUERTO BARRIOS`).

* `ESTABLECIMIENTO`: Nombre oficial del centro educativo. Puede incluir el tipo (`COLEGIO`, `ESCUELA`, `INSTITUTO`) y detalles como mixto, cristiano, etc.

* `DIRECCION`: Ubicación del centro.

* `TELEFONO`: Número telefónico del establecimiento, si está disponible.

* `SUPERVISOR`: Nombre del supervisor distrital asignado al establecimiento.

* `DIRECTOR`: Nombre del director o responsable del centro educativo.

* `NIVEL`: Máximo nivel educativo ofrecido. En este caso todos son `DIVERSIFICADO`.

* `SECTOR`: Define el sector del establecimiento, puede ser:
    - **PRIVADO**
    - **OFICIAL**
    - **MUNICIPAL**
    - **COOPERATIVA**

* `AREA`: Área geográfica según categorización del Mineduc: **URBANA**, **RURAL** o **SIN ESPECIFICAR**.

* `STATUS`: Estado de funcionamiento del centro educativo. En estos datos, el valor para todos es `ABIERTA`.

* `MODALIDAD`: Tipo de modalidad educativa: `MONOLINGUE` o `BILINGUE`.

* `JORNADA`: Jornada en que opera el centro: **MATUTINA**, **VESPERTINA**, **DOBLE**, **NOCTURNA**, **SIN JORNADA**, **INTERMEDIA**.

* `PLAN`: Plan educativo implementado:
    - **DIARIO(REGULAR)**
    - **FIN DE SEMANA**
    - **A DISTANCIA**
    - **SEMIPRESENCIAL**
    - **SEMIPRESENCIAL (FIN DE SEMANA)**
    - **SEMIPRESENCIAL (UN DÍA A LA SEMANA)**
    - **VIRTUAL A DISTANCIA**
    - **SEMIPRESENCIAL (DOS DÍAS A LA SEMANA)**
    - **SABATINO**
    - **INTERCALADO**
    - **DOMINICAL**
    - **MIXTO**

* `DEPARTAMENTAL`: Nombre del departamento al que pertenece el centro educativo. En algunos casos, describe subdivisiones regionales dentro de departamentos con alta densidad de establecimientos, como **GUATEMALA NORTE**, **GUATEMALA ORIENTE**, **GUATEMALA OCCIDENTE**, **GUATEMALA SUR**, o distinciones como **QUICHÉ** y **QUICHÉ NORTE**.

## 2. Variables que requieren limpieza

<!-- Enlistar las variables que tienen datos inconsistentes, errores comunes, o problemas de formato. Comentar brevemente por qué requieren limpieza. -->

Ejemplo:

* `ESTABLECIMIENTO`: hay diferencias por uso de mayúsculas, comillas, acentos inconsistentes.
* `DIRECCION`: muchas variaciones, errores ortográficos o campos incompletos.
* `SUPERVISOR` y `DIRECTOR`: hay diferencias por uso de mayúsculas/minúsculas o nombres mal escritos.
* `TELEFONO`: hay algunos vacíos, valores con caracteres no numéricos.

## 3. Estrategia de limpieza

<!-- Proponer pasos concretos para limpiar los datos. Puede variar por columna, indicando operaciones como normalización, eliminación de duplicados, corrección de errores, etc. -->

### `ESTABLECIMIENTO`

1. Convertir todos los nombres a mayúsculas.
2. Eliminar espacios duplicados y caracteres especiales innecesarios.
3. Corregir errores de escritura comunes (ej. "COLEGO" → "COLEGIO").
4. Eliminar registros duplicados si el nombre y la dirección coinciden.

## 4. Consideraciones adicionales

<!-- Comentar si se planea eliminar filas con datos faltantes, validar categorías de columnas como “MODALIDAD” o “PLAN”, o agregar nuevas columnas derivadas. -->

Ejemplo:

* Validar si todos los códigos `CODIGO` tienen un formato válido.
* Revisar si hay centros educativos con la misma dirección pero diferentes nombres.
* Agregar una columna `AÑO` si se desea filtrar por época de creación (si se infiere de alguna fuente externa).

> Tomar en consideración que pueden haber centros educativos repetidos pero puede que sea porque tengan dos modalidades, como este de Quiché con códigos **14-14-0070-46** y **14-14-0083-46**, pero uno es **DOBLE**,**FIN DE SEMANA** y el otro es **VESPERTINA**,**DIARIO(REGULAR)**