# Obtención y Limpieza de Datos

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

## Obtención de datos
Los datos fueron obtenidos de la página de [Ministerio de Educación](http://www.mineduc.gob.gt/BUSCAESTABLECIMIENTO_GE/). Los datos representan todas las instituciones escolares (con diversificado) a todo el nivel nacional. Descargados en ``data/raw`` y juntados en un solo archivo llamado ``dataframe.xlsx``.

## Limpieza de datos

In [2]:
df = pd.read_excel('data/dataframe.xlsx')
df.head()

Unnamed: 0,CODIGO,DISTRITO,DEPARTAMENTO,MUNICIPIO,ESTABLECIMIENTO,DIRECCION,TELEFONO,SUPERVISOR,DIRECTOR,NIVEL,SECTOR,AREA,STATUS,MODALIDAD,JORNADA,PLAN,DEPARTAMENTAL
0,16-01-0138-46,16-031,ALTA VERAPAZ,COBAN,COLEGIO COBAN,KM.2 SALIDA A SAN JUAN CHAMELCO ZONA 8,77945104,MERCEDES JOSEFINA TORRES GALVEZ,GUSTAVO ADOLFO SIERRA POP,DIVERSIFICADO,PRIVADO,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ
1,16-01-0139-46,16-031,ALTA VERAPAZ,COBAN,COLEGIO PARTICULAR MIXTO VERAPAZ,KM 209.5 ENTRADA A LA CIUDAD,77367402,MERCEDES JOSEFINA TORRES GALVEZ,GILMA DOLORES GUAY PAZ DE LEAL,DIVERSIFICADO,PRIVADO,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ
2,16-01-0140-46,16-031,ALTA VERAPAZ,COBAN,"COLEGIO ""LA INMACULADA""",7A. AVENIDA 11-109 ZONA 6,78232301,MERCEDES JOSEFINA TORRES GALVEZ,VIRGINIA SOLANO SERRANO,DIVERSIFICADO,PRIVADO,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ
3,16-01-0141-46,16-005,ALTA VERAPAZ,COBAN,ESCUELA NACIONAL DE CIENCIAS COMERCIALES,2A CALLE 11-10 ZONA 2,79514215,RUDY ADOLFO TOT OCH,HÉCTOR ROLANDO CHUN POOU,DIVERSIFICADO,OFICIAL,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ
4,16-01-0142-46,16-005,ALTA VERAPAZ,COBAN,INSTITUTO NORMAL MIXTO DEL NORTE 'EMILIO ROSAL...,3A AVE 6-23 ZONA 11,79521468,RUDY ADOLFO TOT OCH,VICTOR HUGO DOMÍNGUEZ REYES,DIVERSIFICADO,OFICIAL,URBANA,ABIERTA,BILINGUE,VESPERTINA,DIARIO(REGULAR),ALTA VERAPAZ


### Descripción del Set de Datos
Los datos incluyen información específica de los diferentes centros educativos en Guatemala con diversificado. Esta información incluye identificadores, ubicación, encargados, contacto y otros datos relevantes.

In [3]:
rows, cols = df.shape
print(f'Observaciones: {rows}, Variables: {cols}')

Observaciones: 9332, Variables: 17


In [9]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9332 entries, 0 to 9331
Data columns (total 17 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   CODIGO           9332 non-null   object
 1   DISTRITO         9124 non-null   object
 2   DEPARTAMENTO     9332 non-null   object
 3   MUNICIPIO        9332 non-null   object
 4   ESTABLECIMIENTO  9332 non-null   object
 5   DIRECCION        9281 non-null   object
 6   TELEFONO         8797 non-null   object
 7   SUPERVISOR       9123 non-null   object
 8   DIRECTOR         8435 non-null   object
 9   NIVEL            9332 non-null   object
 10  SECTOR           9332 non-null   object
 11  AREA             9332 non-null   object
 12  STATUS           9332 non-null   object
 13  MODALIDAD        9332 non-null   object
 14  JORNADA          9332 non-null   object
 15  PLAN             9332 non-null   object
 16  DEPARTAMENTAL    9332 non-null   object
dtypes: object(17)
memory usage: 1.2+ 

In [10]:
df.describe()

Unnamed: 0,CODIGO,DISTRITO,DEPARTAMENTO,MUNICIPIO,ESTABLECIMIENTO,DIRECCION,TELEFONO,SUPERVISOR,DIRECTOR,NIVEL,SECTOR,AREA,STATUS,MODALIDAD,JORNADA,PLAN,DEPARTAMENTAL
count,9332,9124,9332,9332,9332,9281,8797,9123,8435,9332,9332,9332,9332,9332,9332,9332,9332
unique,9332,690,23,349,5321,6004,5445,658,4677,1,4,3,4,2,6,13,26
top,16-01-0138-46,01-403,CIUDAD CAPITAL,ZONA 1,INSTITUTO NACIONAL DE EDUCACION DIVERSIFICADA,CABECERA MUNICIPAL,22067425,CARLOS HUMBERTO GONZALEZ DE LEON,---,DIVERSIFICADO,PRIVADO,URBANA,ABIERTA,MONOLINGUE,DOBLE,DIARIO(REGULAR),GUATEMALA NORTE
freq,1,268,1564,633,330,269,21,333,83,9332,7956,7604,6545,9040,3040,5719,1050


In [11]:
df.isnull().sum()

CODIGO               0
DISTRITO           208
DEPARTAMENTO         0
MUNICIPIO            0
ESTABLECIMIENTO      0
DIRECCION           51
TELEFONO           535
SUPERVISOR         209
DIRECTOR           897
NIVEL                0
SECTOR               0
AREA                 0
STATUS               0
MODALIDAD            0
JORNADA              0
PLAN                 0
DEPARTAMENTAL        0
dtype: int64

### Limpieza del Set de Datos

#### Variables con más operaciones de Limpieza


#### Estrategia por Variable
- CODIGO
    - Debido a que esta variable es un identificador único, se debe verificar que no existan duplicados o valores nulos.
- DISTRITO
    - Se debe verificar que no existan valores nulos.
- DEPARTAMENTO
    - Se debe verificar que no existan valores nulos.
    - Que los departamentos estén escritos correctamente y en mayúsculas.
- MUNICIPIO
    - Se debe verificar que no existan valores nulos.
    - Que los municipios estén escritos correctamente y en mayúsculas.
- ESTABLECIMIENTO
    - Se debe verificar que no existan valores nulos.
    - Que los establecimientos estén escritos en mayúsculas.
- DIRECCION
    - Que los departamentos estén escritos en mayúsculas.
- TELEFONO
    - Imputar valores nulos con un valor que represente la ausencia de un número de teléfono.
    - Eliminar valores que no sean números
    - Eliminar valores que no tengan 8 dígitos
- SUPERVISOR
    - Imputar valores nulos con un valor que represente la ausencia de un supervisor.
    - Que los nombres estén escritos en mayúsculas.
- DIRECTOR
    - Imputar valores nulos con un valor que represente la ausencia de un director.
    - Que los nombres estén escritos en mayúsculas.
- NIVEL
    - Verificar que no existan valores nulos.
    - Que los niveles estén escritos en mayúsculas.
    - Que sean todos de DIVERSIFICADO.
- SECTOR
    - Verificar que no existan valores nulos.
    - Que los sectores estén escritos en mayúsculas.
    - Que sean todos de OFICIAL | PRIVADO | COOPERATIVA | MUNICIPAL. 
- AREA
    - Verificar que no existan valores nulos.
    - Que las áreas estén escritos en mayúsculas.
    - Que sean todos de URBANA | RURAL.
- STATUS
    - Verificar que no existan valores nulos.
    - Que los status estén escritos en mayúsculas.
- MODALIDAD
    - Verificar que no existan valores nulos.
    - Que sean todos de BILINGÜE | MONOLINGÜE.
    - Dado que es una variable binaria, cambiar de tipo y nombre a "BILINGUE".
        - 0: MONOLINGÜE
        - 1: BILINGÜE
- JORNADA
    - Se debe verificar que no existan valores nulos.
    - Que las jornadas estén escritas en mayúsculas.
- PLAN
    - Se debe verificar que no existan valores nulos.
    - Que los establecimientos estén escritos en mayúsculas.
- DEPARTAMENTAL
    - Se debe verificar que no existan valores nulos.
    - Que los establecimientos estén escritos en mayúsculas.

In [13]:
df['PLAN'].unique()

array(['DIARIO(REGULAR)', 'FIN DE SEMANA', 'A DISTANCIA',
       'SEMIPRESENCIAL', 'SEMIPRESENCIAL (FIN DE SEMANA)',
       'SEMIPRESENCIAL (UN DÍA A LA SEMANA)', 'SABATINO',
       'SEMIPRESENCIAL (DOS DÍAS A LA SEMANA)', 'VIRTUAL A DISTANCIA',
       'DOMINICAL', 'MIXTO', 'INTERCALADO', 'IRREGULAR'], dtype=object)