# Obtención y Limpieza de Datos

In [3]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import re

## Obtención de datos
Los datos fueron obtenidos de la página de [Ministerio de Educación](http://www.mineduc.gob.gt/BUSCAESTABLECIMIENTO_GE/). Los datos representan todas las instituciones escolares (con diversificado) a todo el nivel nacional. Descargados en ``data/raw`` y juntados en un solo archivo llamado ``dataframe.xlsx``.

## Limpieza de datos

In [4]:
df = pd.read_excel('data/dataframe.xlsx')
df.head()

Unnamed: 0,CODIGO,DISTRITO,DEPARTAMENTO,MUNICIPIO,ESTABLECIMIENTO,DIRECCION,TELEFONO,SUPERVISOR,DIRECTOR,NIVEL,SECTOR,AREA,STATUS,MODALIDAD,JORNADA,PLAN,DEPARTAMENTAL
0,16-01-0138-46,16-031,ALTA VERAPAZ,COBAN,COLEGIO COBAN,KM.2 SALIDA A SAN JUAN CHAMELCO ZONA 8,77945104,MERCEDES JOSEFINA TORRES GALVEZ,GUSTAVO ADOLFO SIERRA POP,DIVERSIFICADO,PRIVADO,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ
1,16-01-0139-46,16-031,ALTA VERAPAZ,COBAN,COLEGIO PARTICULAR MIXTO VERAPAZ,KM 209.5 ENTRADA A LA CIUDAD,77367402,MERCEDES JOSEFINA TORRES GALVEZ,GILMA DOLORES GUAY PAZ DE LEAL,DIVERSIFICADO,PRIVADO,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ
2,16-01-0140-46,16-031,ALTA VERAPAZ,COBAN,"COLEGIO ""LA INMACULADA""",7A. AVENIDA 11-109 ZONA 6,78232301,MERCEDES JOSEFINA TORRES GALVEZ,VIRGINIA SOLANO SERRANO,DIVERSIFICADO,PRIVADO,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ
3,16-01-0141-46,16-005,ALTA VERAPAZ,COBAN,ESCUELA NACIONAL DE CIENCIAS COMERCIALES,2A CALLE 11-10 ZONA 2,79514215,RUDY ADOLFO TOT OCH,HÉCTOR ROLANDO CHUN POOU,DIVERSIFICADO,OFICIAL,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ
4,16-01-0142-46,16-005,ALTA VERAPAZ,COBAN,INSTITUTO NORMAL MIXTO DEL NORTE 'EMILIO ROSAL...,3A AVE 6-23 ZONA 11,79521468,RUDY ADOLFO TOT OCH,VICTOR HUGO DOMÍNGUEZ REYES,DIVERSIFICADO,OFICIAL,URBANA,ABIERTA,BILINGUE,VESPERTINA,DIARIO(REGULAR),ALTA VERAPAZ


### Descripción del Set de Datos
Los datos incluyen información específica de los diferentes centros educativos en Guatemala con diversificado. Esta información incluye identificadores, ubicación, encargados, contacto y otros datos relevantes.

In [5]:
rows, cols = df.shape
print(f'Observaciones: {rows}, Variables: {cols}')

Observaciones: 9332, Variables: 17


In [6]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9332 entries, 0 to 9331
Data columns (total 17 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   CODIGO           9332 non-null   object
 1   DISTRITO         9124 non-null   object
 2   DEPARTAMENTO     9332 non-null   object
 3   MUNICIPIO        9332 non-null   object
 4   ESTABLECIMIENTO  9332 non-null   object
 5   DIRECCION        9281 non-null   object
 6   TELEFONO         8797 non-null   object
 7   SUPERVISOR       9123 non-null   object
 8   DIRECTOR         8435 non-null   object
 9   NIVEL            9332 non-null   object
 10  SECTOR           9332 non-null   object
 11  AREA             9332 non-null   object
 12  STATUS           9332 non-null   object
 13  MODALIDAD        9332 non-null   object
 14  JORNADA          9332 non-null   object
 15  PLAN             9332 non-null   object
 16  DEPARTAMENTAL    9332 non-null   object
dtypes: object(17)
memory usage: 1.2+ 

In [7]:
df.describe()

Unnamed: 0,CODIGO,DISTRITO,DEPARTAMENTO,MUNICIPIO,ESTABLECIMIENTO,DIRECCION,TELEFONO,SUPERVISOR,DIRECTOR,NIVEL,SECTOR,AREA,STATUS,MODALIDAD,JORNADA,PLAN,DEPARTAMENTAL
count,9332,9124,9332,9332,9332,9281,8797,9123,8435,9332,9332,9332,9332,9332,9332,9332,9332
unique,9332,690,23,349,5321,6004,5445,658,4677,1,4,3,4,2,6,13,26
top,19-11-0018-46,01-403,CIUDAD CAPITAL,ZONA 1,INSTITUTO NACIONAL DE EDUCACION DIVERSIFICADA,CABECERA MUNICIPAL,22067425,CARLOS HUMBERTO GONZALEZ DE LEON,---,DIVERSIFICADO,PRIVADO,URBANA,ABIERTA,MONOLINGUE,DOBLE,DIARIO(REGULAR),GUATEMALA NORTE
freq,1,268,1564,633,330,269,21,333,83,9332,7956,7604,6545,9040,3040,5719,1050


In [8]:
df.isnull().sum()

CODIGO               0
DISTRITO           208
DEPARTAMENTO         0
MUNICIPIO            0
ESTABLECIMIENTO      0
DIRECCION           51
TELEFONO           535
SUPERVISOR         209
DIRECTOR           897
NIVEL                0
SECTOR               0
AREA                 0
STATUS               0
MODALIDAD            0
JORNADA              0
PLAN                 0
DEPARTAMENTAL        0
dtype: int64

### Limpieza del Set de Datos

#### Variables con más operaciones de Limpieza


#### Estrategia por Variable
- CODIGO
    - Debido a que esta variable es un identificador único, se debe verificar que no existan duplicados o valores nulos.
- DISTRITO
    - Se debe verificar que no existan valores nulos.
- DEPARTAMENTO
    - Se debe verificar que no existan valores nulos.
    - Que los departamentos estén escritos correctamente y en mayúsculas.
- MUNICIPIO
    - Se debe verificar que no existan valores nulos.
    - Que los municipios estén escritos correctamente y en mayúsculas.
- ESTABLECIMIENTO
    - Se debe verificar que no existan valores nulos.
    - Que los establecimientos estén escritos en mayúsculas.
- DIRECCION
    - Que las direcciones estén escritas en mayúsculas.
    - Se debe verificar que no existan valores nulos.
        - Imputar valores nulos con un valor que represente la ausencia de una dirección.
- TELEFONO
    - Imputar valores nulos con un valor que represente la ausencia de un número de teléfono.
    - Eliminar valores que no sean números
    - Eliminar valores que no tengan 8 dígitos
- SUPERVISOR
    - Imputar valores nulos con un valor que represente la ausencia de un supervisor.
    - Que los nombres estén escritos en mayúsculas.
- DIRECTOR
    - Imputar valores nulos con un valor que represente la ausencia de un director.
    - Que los nombres estén escritos en mayúsculas.
- NIVEL
    - Verificar que no existan valores nulos.
    - Que los niveles estén escritos en mayúsculas.
    - Que sean todos de DIVERSIFICADO.
- SECTOR
    - Verificar que no existan valores nulos.
    - Que los sectores estén escritos en mayúsculas.
    - Que sean todos de OFICIAL | PRIVADO | COOPERATIVA | MUNICIPAL.
- AREA
    - Verificar que no existan valores nulos.
    - Que las áreas estén escritos en mayúsculas.
    - Que sean todos de URBANA | RURAL.
- STATUS
    - Verificar que no existan valores nulos.
    - Que los status estén escritos en mayúsculas.
- MODALIDAD
    - Verificar que no existan valores nulos.
    - Que sean todos de BILINGÜE | MONOLINGÜE.
    - Dado que es una variable binaria, cambiar de tipo y nombre a "BILINGUE".
        - 0: MONOLINGÜE
        - 1: BILINGÜE
- JORNADA
    - Se debe verificar que no existan valores nulos.
    - Que las jornadas estén escritas en mayúsculas.
- PLAN
    - Se debe verificar que no existan valores nulos.
    - Que los establecimientos estén escritos en mayúsculas.
- DEPARTAMENTAL
    - Se debe verificar que no existan valores nulos.
    - Que los establecimientos estén escritos en mayúsculas.

### Ejecución de la Limpieza

#### CODIGO

In [9]:
df['CODIGO'].duplicated().sum()

np.int64(0)

Podemos observar que no existen valores duplicados en la variable de ``CODIGO``

#### DISTRITO

In [10]:
df['DISTRITO'].isna().sum()

np.int64(208)

Al existir 208 valores nulos, procedemos a...

In [11]:
df.head()

Unnamed: 0,CODIGO,DISTRITO,DEPARTAMENTO,MUNICIPIO,ESTABLECIMIENTO,DIRECCION,TELEFONO,SUPERVISOR,DIRECTOR,NIVEL,SECTOR,AREA,STATUS,MODALIDAD,JORNADA,PLAN,DEPARTAMENTAL
0,16-01-0138-46,16-031,ALTA VERAPAZ,COBAN,COLEGIO COBAN,KM.2 SALIDA A SAN JUAN CHAMELCO ZONA 8,77945104,MERCEDES JOSEFINA TORRES GALVEZ,GUSTAVO ADOLFO SIERRA POP,DIVERSIFICADO,PRIVADO,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ
1,16-01-0139-46,16-031,ALTA VERAPAZ,COBAN,COLEGIO PARTICULAR MIXTO VERAPAZ,KM 209.5 ENTRADA A LA CIUDAD,77367402,MERCEDES JOSEFINA TORRES GALVEZ,GILMA DOLORES GUAY PAZ DE LEAL,DIVERSIFICADO,PRIVADO,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ
2,16-01-0140-46,16-031,ALTA VERAPAZ,COBAN,"COLEGIO ""LA INMACULADA""",7A. AVENIDA 11-109 ZONA 6,78232301,MERCEDES JOSEFINA TORRES GALVEZ,VIRGINIA SOLANO SERRANO,DIVERSIFICADO,PRIVADO,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ
3,16-01-0141-46,16-005,ALTA VERAPAZ,COBAN,ESCUELA NACIONAL DE CIENCIAS COMERCIALES,2A CALLE 11-10 ZONA 2,79514215,RUDY ADOLFO TOT OCH,HÉCTOR ROLANDO CHUN POOU,DIVERSIFICADO,OFICIAL,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ
4,16-01-0142-46,16-005,ALTA VERAPAZ,COBAN,INSTITUTO NORMAL MIXTO DEL NORTE 'EMILIO ROSAL...,3A AVE 6-23 ZONA 11,79521468,RUDY ADOLFO TOT OCH,VICTOR HUGO DOMÍNGUEZ REYES,DIVERSIFICADO,OFICIAL,URBANA,ABIERTA,BILINGUE,VESPERTINA,DIARIO(REGULAR),ALTA VERAPAZ


#### DEPARTAMENTO

In [12]:
df['DEPARTAMENTO'].isna().sum()

np.int64(0)

La variable ``DEPARTAMENTO`` no tiene valores nulos

In [13]:
# VALUE COUNTS SORTED BY DEPARTAMENTO
df['DEPARTAMENTO'].value_counts().sort_index()

DEPARTAMENTO
ALTA VERAPAZ       374
BAJA VERAPAZ       114
CHIMALTENANGO      359
CHIQUIMULA         170
CIUDAD CAPITAL    1564
EL PROGRESO        125
ESCUINTLA          628
GUATEMALA         1479
HUEHUETENANGO      516
IZABAL             368
JALAPA             151
JUTIAPA            310
PETEN              366
QUETZALTENANGO     491
QUICHE             244
RETALHULEU         316
SACATEPEQUEZ       319
SAN MARCOS         574
SANTA ROSA         157
SOLOLA             138
SUCHITEPEQUEZ      385
TOTONICAPAN         90
ZACAPA              94
Name: count, dtype: int64

Los departamentos están escritos correctamente y en mayúsculas.

#### MUNICIPIO

In [14]:
df['MUNICIPIO'].isna().sum()

np.int64(0)

La variable ``MUNICIPIO`` no tiene valores nulos

In [15]:
df[df['MUNICIPIO'].str.contains('[a-z]')]

Unnamed: 0,CODIGO,DISTRITO,DEPARTAMENTO,MUNICIPIO,ESTABLECIMIENTO,DIRECCION,TELEFONO,SUPERVISOR,DIRECTOR,NIVEL,SECTOR,AREA,STATUS,MODALIDAD,JORNADA,PLAN,DEPARTAMENTAL


Los municipios están escritos correctamente y en mayúsculas.

#### ESTABLECIMIENTO

In [16]:
df['ESTABLECIMIENTO'].isna().sum()

np.int64(0)

La variable ``ESTABLECIMIENTO`` no tiene valores nulos

In [17]:
df[df['ESTABLECIMIENTO'].str.contains('[a-z]')]

Unnamed: 0,CODIGO,DISTRITO,DEPARTAMENTO,MUNICIPIO,ESTABLECIMIENTO,DIRECCION,TELEFONO,SUPERVISOR,DIRECTOR,NIVEL,SECTOR,AREA,STATUS,MODALIDAD,JORNADA,PLAN,DEPARTAMENTAL


Los establecimientos están escritos en mayúsculas.

#### DIRECCION

In [18]:
df.shape

(9332, 17)

In [19]:
df['DIRECCION'].isna().sum()

np.int64(51)

In [20]:
df[df['DIRECCION'].isna()][['ESTABLECIMIENTO', 'DIRECCION']]

Unnamed: 0,ESTABLECIMIENTO,DIRECCION
96,INSTITUTO GUATEMALTECO DE EDUCACION RADIOFONIC...,
281,LICEO DE BACHILLERATO EN COMPUTACION Y EDUCACI...,
858,ESCUELA PRIVADA DE EDUCACION FISICA DE ORIENTE,
978,LICEO TECNICO CONCEPCION,
1104,COLEGIO NACIONAL AMERICANO,
1106,"INSTITUTO PRIVADO ""TECNICO AMERICANO""",
1107,COLEGIO KEPLER,
2149,COLEGIO MIXTO DIURNO 'FRANKLIN DELANO ROOSEVELT',
2150,CENTRO EDUCACIONAL DE ESTUDIOS ECONOMICO-ADMIN...,
2843,INSTITUTO GUATEMALTECO DE EDUCACION RADIOFONIC...,


Existen 51 establecimientos que no tienen especificada una dirección. Procedemos a imputar estos valores con un valor que represente la ausencia de una dirección.

In [21]:
df['DIRECCION'] = df['DIRECCION'].fillna('SIN DIRECCION')

In [22]:
df['DIRECCION'].isna().sum()

np.int64(0)

In [23]:
df[df['DIRECCION'].str.contains('[a-z]')]

Unnamed: 0,CODIGO,DISTRITO,DEPARTAMENTO,MUNICIPIO,ESTABLECIMIENTO,DIRECCION,TELEFONO,SUPERVISOR,DIRECTOR,NIVEL,SECTOR,AREA,STATUS,MODALIDAD,JORNADA,PLAN,DEPARTAMENTAL
592,04-01-0655-46,04-020,CHIMALTENANGO,CHIMALTENANGO,INST. PRIVADO MIXTO DE EDUC. DIVERSIFICADA COL...,"3a. CALLE 6-108 ZONA 1, COLONIA LAS MAJADAS",78392471.0,LESLY YOLANDA PEREZ CHAMALE,,DIVERSIFICADO,PRIVADO,URBANA,CERRADA TEMPORALMENTE,MONOLINGUE,MATUTINA,DIARIO(REGULAR),CHIMALTENANGO
1365,00-01-2984-46,,CIUDAD CAPITAL,ZONA 1,COLEGIO DE COMPUTACION 'BLAISE PASCAL',8a. AV. 3-30 ZONA 1,,,,DIVERSIFICADO,PRIVADO,URBANA,CERRADA TEMPORALMENTE,MONOLINGUE,NOCTURNA,DIARIO(REGULAR),GUATEMALA NORTE
3796,01-08-2975-46,,GUATEMALA,MIXCO,SAN LUIS GOZAGA,"8a. AVE. 6-12 ZONA 1, MIXCO, GUATEMALA",,,,DIVERSIFICADO,PRIVADO,URBANA,CERRADA TEMPORALMENTE,MONOLINGUE,MATUTINA,DIARIO(REGULAR),GUATEMALA OCCIDENTE
4486,01-15-2400-46,01-219,GUATEMALA,VILLA NUEVA,INSTITUTO PRIVADO MIXTO DE EDUCACION DIVERSIFI...,ANEXO I CASA No.14 COLONIA CIUDAD REAL II,,DAVID SALOMON MEJIA SAMAYOA,,DIVERSIFICADO,PRIVADO,URBANA,CERRADA TEMPORALMENTE,MONOLINGUE,MATUTINA,DIARIO(REGULAR),GUATEMALA SUR
4658,01-16-2893-46,,GUATEMALA,VILLA CANALES,CENTRO EDUCACIONAL BENEDICTINO,1a. AV. 5-77 ZONA 2,24480639.0,,,DIVERSIFICADO,PRIVADO,RURAL,CERRADA TEMPORALMENTE,MONOLINGUE,MATUTINA,DIARIO(REGULAR),GUATEMALA ORIENTE
7482,11-04-0117-46,,RETALHULEU,SAN MARTIN ZAPOTITLAN,INSTITUTO PRIVADO MIXTO DE EDUCACION DIVERSIFI...,APARTADO No. 3-11905,,,,DIVERSIFICADO,PRIVADO,RURAL,CERRADA TEMPORALMENTE,MONOLINGUE,MATUTINA,DIARIO(REGULAR),RETALHULEU


In [24]:
df['DIRECCION'] = df['DIRECCION'].str.upper()

En la dirección, al referirse a algunas calles/avenidas ordinales, se tenía una minúscula.

#### TELEFONO

In [25]:
df['TELEFONO'].isna().sum()

np.int64(535)

In [26]:
df['TELEFONO'] = df['TELEFONO'].fillna('')

In [27]:
df['TELEFONO'] = df['TELEFONO'].astype(str)

Podemos ver el pésimo formato de los números del teléfono. Existen también algunos con longitud de 7 dígitos, lo que implica que son números de teléfono de antes del 2000.

Hay números de teléfono separados por '-', '  ' o ', ', se elimina este carácter para los números con longitud de 8 dígitos (XXXX-XXXX) y para los de 7 (XXX-XXXX)

In [28]:
df['TELEFONO'] = df['TELEFONO'].apply(
    lambda x:
    x.split('/')[0]
    if len(x.split('/')[0]) in [8, 7]
    else x
)

Si el número se encuentra dividido por partes, lo unimos

In [29]:
df['TELEFONO'] = df['TELEFONO'].apply(
    lambda x:
    x.replace('-', '')
    if len(x.split('-')) == 2 and len(x.split('-')[0]) in [3, 4] and len(x.split('-')[1]) == 4
    else x
)

Función que realiza el procesado de números alternativos si es que existe más de un número en la celda, ya sea separado por un espacio en blanco, un guion o una coma.

In [30]:
def extract_phones(phone_str):

    phones = re.split(r'[\s,/-]+', phone_str)
    valid_phones = [phone for phone in phones if len(phone) in [7, 8]]
    primary_phone = valid_phones[0] if valid_phones else ''
    alt_phones = valid_phones[1:] if len(valid_phones) > 1 else []

    return primary_phone, alt_phones

In [31]:
df['TELEFONO'], df['TELEFONO_ALT'] = zip(*df['TELEFONO'].apply(extract_phones))

Dado que puede existir más de un teléfono alternativo la separacion de estos se estadariza usando comas.

In [32]:
df['TELEFONO_ALT'] = df['TELEFONO_ALT'].apply(lambda x: ','.join(x) if x else -1)

Ahora, la columna de número de teléfono puede ser numérica, los valores nulos se representan con -1

In [33]:
df['TELEFONO'] = df['TELEFONO'].replace('', -1).astype(int)
df['TELEFONO_ALT'] = df['TELEFONO_ALT'].replace('', -1)

Se verifica que no existan numeros con una longitud inválida, es decir, que no sea 7 ni 8.

In [34]:
df[df['TELEFONO'].apply(lambda x: len(str(x)) not in [7, 8] and x != -1)]

Unnamed: 0,CODIGO,DISTRITO,DEPARTAMENTO,MUNICIPIO,ESTABLECIMIENTO,DIRECCION,TELEFONO,SUPERVISOR,DIRECTOR,NIVEL,SECTOR,AREA,STATUS,MODALIDAD,JORNADA,PLAN,DEPARTAMENTAL,TELEFONO_ALT
5061,13-07-0039-46,13-051,HUEHUETENANGO,JACALTENANGO,INSTITUTO MIXTO COMUNITARIO DE EDUCACION BILIN...,ALDE EL LIMONAR,0,CESAR GODÍNEZ GIRÓN,MARIA ADICELA SILVESTRE DOMINGO,DIVERSIFICADO,PRIVADO,RURAL,CERRADA TEMPORALMENTE,BILINGUE,DOBLE,FIN DE SEMANA,HUEHUETENANGO,-1
5501,18-02-0347-46,18-017,IZABAL,LIVINGSTON,"INSTITUTO PRIVADO MIXTO ""HERMANO PEDRO DE BETA...",ALDEA LOS ANGELES,0,LEYVIMARLOT ENRIQUEZ ESPINOSA,MAGDALENA MARTINEZ MENDEZ,DIVERSIFICADO,PRIVADO,RURAL,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),IZABAL,53886336


In [35]:
df['TELEFONO'] = df['TELEFONO'].apply(lambda x: x if len(str(x)) in [7, 8] else -1)

Verificar que no existan número de teléfono nulos mientras que sí existen números de teléfono alternativos.

In [36]:
df[(df['TELEFONO'] == -1) & (df['TELEFONO_ALT'] != -1)]

Unnamed: 0,CODIGO,DISTRITO,DEPARTAMENTO,MUNICIPIO,ESTABLECIMIENTO,DIRECCION,TELEFONO,SUPERVISOR,DIRECTOR,NIVEL,SECTOR,AREA,STATUS,MODALIDAD,JORNADA,PLAN,DEPARTAMENTAL,TELEFONO_ALT
5501,18-02-0347-46,18-017,IZABAL,LIVINGSTON,"INSTITUTO PRIVADO MIXTO ""HERMANO PEDRO DE BETA...",ALDEA LOS ANGELES,-1,LEYVIMARLOT ENRIQUEZ ESPINOSA,MAGDALENA MARTINEZ MENDEZ,DIVERSIFICADO,PRIVADO,RURAL,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),IZABAL,53886336


In [37]:
df.loc[df['TELEFONO'] == -1, 'TELEFONO'] = df.loc[df['TELEFONO'] == -1, 'TELEFONO_ALT'].apply(lambda x: int(x) if x != -1 else -1)

In [38]:
df

Unnamed: 0,CODIGO,DISTRITO,DEPARTAMENTO,MUNICIPIO,ESTABLECIMIENTO,DIRECCION,TELEFONO,SUPERVISOR,DIRECTOR,NIVEL,SECTOR,AREA,STATUS,MODALIDAD,JORNADA,PLAN,DEPARTAMENTAL,TELEFONO_ALT
0,16-01-0138-46,16-031,ALTA VERAPAZ,COBAN,COLEGIO COBAN,KM.2 SALIDA A SAN JUAN CHAMELCO ZONA 8,77945104,MERCEDES JOSEFINA TORRES GALVEZ,GUSTAVO ADOLFO SIERRA POP,DIVERSIFICADO,PRIVADO,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ,-1
1,16-01-0139-46,16-031,ALTA VERAPAZ,COBAN,COLEGIO PARTICULAR MIXTO VERAPAZ,KM 209.5 ENTRADA A LA CIUDAD,77367402,MERCEDES JOSEFINA TORRES GALVEZ,GILMA DOLORES GUAY PAZ DE LEAL,DIVERSIFICADO,PRIVADO,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ,-1
2,16-01-0140-46,16-031,ALTA VERAPAZ,COBAN,"COLEGIO ""LA INMACULADA""",7A. AVENIDA 11-109 ZONA 6,78232301,MERCEDES JOSEFINA TORRES GALVEZ,VIRGINIA SOLANO SERRANO,DIVERSIFICADO,PRIVADO,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ,-1
3,16-01-0141-46,16-005,ALTA VERAPAZ,COBAN,ESCUELA NACIONAL DE CIENCIAS COMERCIALES,2A CALLE 11-10 ZONA 2,79514215,RUDY ADOLFO TOT OCH,HÉCTOR ROLANDO CHUN POOU,DIVERSIFICADO,OFICIAL,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ,-1
4,16-01-0142-46,16-005,ALTA VERAPAZ,COBAN,INSTITUTO NORMAL MIXTO DEL NORTE 'EMILIO ROSAL...,3A AVE 6-23 ZONA 11,79521468,RUDY ADOLFO TOT OCH,VICTOR HUGO DOMÍNGUEZ REYES,DIVERSIFICADO,OFICIAL,URBANA,ABIERTA,BILINGUE,VESPERTINA,DIARIO(REGULAR),ALTA VERAPAZ,-1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9327,19-09-0040-46,19-021,ZACAPA,LA UNION,"LICEO PARTICULAR MIXTO ""JIREH""",BARRIO NUEVO,79418369,ASBEL IVAN SUCHITE ARROYO,ANA MARÍA CUELLAR GUERRA,DIVERSIFICADO,PRIVADO,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ZACAPA,-1
9328,19-09-0048-46,19-021,ZACAPA,LA UNION,"LICEO PARTICULAR MIXTO "" JIREH""",BARRIO NUEVO,79418369,ASBEL IVAN SUCHITE ARROYO,ANA MARÍA CUELLAR GUERRA,DIVERSIFICADO,PRIVADO,URBANA,ABIERTA,MONOLINGUE,SIN JORNADA,SEMIPRESENCIAL (UN DÍA A LA SEMANA),ZACAPA,-1
9329,19-10-0013-46,19-015,ZACAPA,HUITE,INSTITUTO DIVERSIFICADO,BARRIO BUENOS AIRES,47097386,SILDY MARIELA PEREZ FRANCO,MARLON JOSUÉ ARCHILA LORENZO,DIVERSIFICADO,OFICIAL,URBANA,ABIERTA,MONOLINGUE,NOCTURNA,DIARIO(REGULAR),ZACAPA,-1
9330,19-10-1009-46,19-015,ZACAPA,HUITE,INSTITUTO MIXTO DE EDUCACION DIVERSIFICADA POR...,BARRIO EL CAMPO,55958103,SILDY MARIELA PEREZ FRANCO,ROBIDIO PORTILLO SALGUERO,DIVERSIFICADO,COOPERATIVA,URBANA,ABIERTA,MONOLINGUE,VESPERTINA,DIARIO(REGULAR),ZACAPA,-1


#### SUPERVISOR

In [39]:
df['SUPERVISOR'].isna().sum()

np.int64(209)

In [40]:
df['SUPERVISOR'] = df['SUPERVISOR'].fillna('SIN SUPERVISOR')

In [41]:
df['SUPERVISOR'] = df['SUPERVISOR'].str.upper()

In [42]:
df['SUPERVISOR'].isna().sum()

np.int64(0)

#### DIRECTOR

In [43]:
df['DIRECTOR'].isna().sum()

np.int64(897)

In [44]:
df['DIRECTOR'] = df['DIRECTOR'].fillna('SIN DIRECTOR')

In [45]:
df['DIRECTOR'] = df['DIRECTOR'].str.upper()

#### NIVEL

In [46]:
df['NIVEL'].isna().sum()

np.int64(0)

In [47]:
df['NIVEL'].value_counts()

NIVEL
DIVERSIFICADO    9332
Name: count, dtype: int64

Todos los valores son válidos. Hacemos el one hot encoding y eliminamos la variable original.

In [48]:
df = pd.concat([df, pd.get_dummies(df['NIVEL'], prefix='NIVEL')], axis=1)
df = df.drop(columns=['NIVEL'])

Se puede observar que todos los establecimientos son de nivel diversificado.

#### SECTOR

In [49]:
df['SECTOR'].isna().sum()

np.int64(0)

In [50]:
df['SECTOR'].value_counts()

SECTOR
PRIVADO        7956
OFICIAL         990
COOPERATIVA     245
MUNICIPAL       141
Name: count, dtype: int64

Se puede observar que todos los establecimientos son de un sector válido.

#### AREA

In [51]:
df['AREA'].isna().sum()

np.int64(0)

In [52]:
df['AREA'].value_counts()

AREA
URBANA             7604
RURAL              1726
SIN ESPECIFICAR       2
Name: count, dtype: int64

Solamente 2 establecimientos no tienen especificada el área. Esto se reflejará al momento de hacer el one hot encoding.

In [53]:
df = pd.concat([df, pd.get_dummies(df['AREA'], prefix='AREA')], axis=1)
df = df.drop(columns=['AREA', 'AREA_SIN ESPECIFICAR'])

#### STATUS

In [54]:
df['STATUS'].isna().sum()

np.int64(0)

In [55]:
df['STATUS'].value_counts()

STATUS
ABIERTA                  6545
CERRADA TEMPORALMENTE    2660
TEMPORAL TITULOS          124
TEMPORAL NOMBRAMIENTO       3
Name: count, dtype: int64

Todos los valores son válidos.

#### MODALIDAD

In [56]:
df['MODALIDAD'].isna().sum()

np.int64(0)

In [57]:
df['MODALIDAD'].value_counts()

MODALIDAD
MONOLINGUE    9040
BILINGUE       292
Name: count, dtype: int64

Dado que representa un valor numérico de los idiomas enseñados en la institución, se reemplaza por una variable ``MODALIDAD_NUM_IDIOMAS`` y se elimina la variable original.

In [58]:
df['MODALIDAD'] = df['MODALIDAD'].map({'MONOLINGUE': 1, 'BILINGUE': 2})
df = df.rename(columns={'MODALIDAD': 'MODALIDAD_NUM_IDIOMAS'})

#### JORNADA

In [59]:
df['JORNADA'].isna().sum()

np.int64(0)

In [60]:
df['JORNADA'].value_counts()

JORNADA
DOBLE          3040
VESPERTINA     2567
MATUTINA       2381
SIN JORNADA     964
NOCTURNA        289
INTERMEDIA       91
Name: count, dtype: int64

Todos los valores son válidos.

#### PLAN

In [61]:
df['PLAN'].isna().sum()

np.int64(0)

In [62]:
df['PLAN'].value_counts()

PLAN
DIARIO(REGULAR)                          5719
FIN DE SEMANA                            2331
SEMIPRESENCIAL (FIN DE SEMANA)            481
SEMIPRESENCIAL (UN DÍA A LA SEMANA)       398
A DISTANCIA                               143
SEMIPRESENCIAL                             86
SEMIPRESENCIAL (DOS DÍAS A LA SEMANA)      57
VIRTUAL A DISTANCIA                        50
SABATINO                                   41
DOMINICAL                                  19
MIXTO                                       3
INTERCALADO                                 2
IRREGULAR                                   2
Name: count, dtype: int64

Todos los valores son válidos.

#### DEPARTAMENTAL

In [63]:
df['DEPARTAMENTAL'].isna().sum()

np.int64(0)

In [64]:
df['DEPARTAMENTAL'].value_counts()

DEPARTAMENTAL
GUATEMALA NORTE        1050
GUATEMALA SUR           833
GUATEMALA OCCIDENTE     787
ESCUINTLA               628
SAN MARCOS              574
HUEHUETENANGO           516
QUETZALTENANGO          491
SUCHITEPÉQUEZ           385
ALTA VERAPAZ            374
GUATEMALA ORIENTE       373
IZABAL                  368
PETÉN                   366
CHIMALTENANGO           359
SACATEPÉQUEZ            319
RETALHULEU              316
JUTIAPA                 310
QUICHÉ                  203
CHIQUIMULA              170
SANTA ROSA              157
JALAPA                  151
SOLOLÁ                  138
EL PROGRESO             125
BAJA VERAPAZ            114
ZACAPA                   94
TOTONICAPÁN              90
QUICHÉ NORTE             41
Name: count, dtype: int64

Todos los valores son válidos.

### Exportación de Datos

In [65]:
df.head()

Unnamed: 0,CODIGO,DISTRITO,DEPARTAMENTO,MUNICIPIO,ESTABLECIMIENTO,DIRECCION,TELEFONO,SUPERVISOR,DIRECTOR,SECTOR,STATUS,MODALIDAD_NUM_IDIOMAS,JORNADA,PLAN,DEPARTAMENTAL,TELEFONO_ALT,NIVEL_DIVERSIFICADO,AREA_RURAL,AREA_URBANA
0,16-01-0138-46,16-031,ALTA VERAPAZ,COBAN,COLEGIO COBAN,KM.2 SALIDA A SAN JUAN CHAMELCO ZONA 8,77945104,MERCEDES JOSEFINA TORRES GALVEZ,GUSTAVO ADOLFO SIERRA POP,PRIVADO,ABIERTA,1,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ,-1,True,False,True
1,16-01-0139-46,16-031,ALTA VERAPAZ,COBAN,COLEGIO PARTICULAR MIXTO VERAPAZ,KM 209.5 ENTRADA A LA CIUDAD,77367402,MERCEDES JOSEFINA TORRES GALVEZ,GILMA DOLORES GUAY PAZ DE LEAL,PRIVADO,ABIERTA,1,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ,-1,True,False,True
2,16-01-0140-46,16-031,ALTA VERAPAZ,COBAN,"COLEGIO ""LA INMACULADA""",7A. AVENIDA 11-109 ZONA 6,78232301,MERCEDES JOSEFINA TORRES GALVEZ,VIRGINIA SOLANO SERRANO,PRIVADO,ABIERTA,1,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ,-1,True,False,True
3,16-01-0141-46,16-005,ALTA VERAPAZ,COBAN,ESCUELA NACIONAL DE CIENCIAS COMERCIALES,2A CALLE 11-10 ZONA 2,79514215,RUDY ADOLFO TOT OCH,HÉCTOR ROLANDO CHUN POOU,OFICIAL,ABIERTA,1,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ,-1,True,False,True
4,16-01-0142-46,16-005,ALTA VERAPAZ,COBAN,INSTITUTO NORMAL MIXTO DEL NORTE 'EMILIO ROSAL...,3A AVE 6-23 ZONA 11,79521468,RUDY ADOLFO TOT OCH,VICTOR HUGO DOMÍNGUEZ REYES,OFICIAL,ABIERTA,2,VESPERTINA,DIARIO(REGULAR),ALTA VERAPAZ,-1,True,False,True


Exportamos los datos limpios a un archivo CSV.

In [66]:
df.to_csv('data/clean.csv', index=False)