## Descripción del conjunto de datos

In [4]:
import pandas as pd  
import os
from IPython.display import display, HTML

# Tamaño inicial de los datos

In [5]:

directory = os.getcwd()
files = os.listdir(directory + '/data')

data = []
for f in files:
    if f != 'DIVERSIFICADOS.csv':
        dataframe = pd.read_csv(directory + '/data/' + f)
        data.append((f, dataframe.shape[0], dataframe.shape[1]))

df = pd.DataFrame(data, columns=['Nombre del archivo', 'Filas', 'Columnas'])
display(HTML(df.to_html(index=False)))

Nombre del archivo,Filas,Columnas
SACATEPEQUEZ.csv,309,18
SUCHITEPEQUEZ.csv,377,18
SAN MARCOS.csv,557,18
PETEN.csv,379,18
CIUDAD CAPITAL.csv,1537,18
CHIQUIMULA.csv,172,18
SANTA ROSA.csv,155,18
IZABAL.csv,360,18
SOLOLA.csv,140,18
RETALHULEU.csv,311,18


# Limpieza

## Listado

Sin duda alguna todas las variables necesitan de limpieza ya que en todas las variables se han encontrado valores nulos.

Se debe de tener cuidado con los nombres de los institutos ya que hay muchas faltas ortográficas.

Se han encontrado un patrón de datos nulos como lo son ***"-"*** que estan de forma consecutiva, strings sin caracteres, Nans, etc en las siguientes variables:

- Establecimiento
- Distrito
- Telefono
- Director
- Supervisor
- Dirección

## Estrategia
- Código: No requiere limpieza.
- Distrito: Sustituir valores en blanco con NA
- Departamento: 
	- Eliminar espacios al inicio y al final.
	- Convertir todo a mayúsculas.
	- Hacer un encoding numérico para facilitar el procesamiento.
- Municipio: 
	- Eliminar espacios al inicio y al final.
	- Convertir todo a mayúsculas.
	- Hacer un encoding numérico.
- Establecimiento, Dirección:
	- Eliminar espacios al inicio y al final.
	- Convertir todo a mayúsculas.
- Teléfono:
	- Tomar en cuenta solo un teléfono cuando se vean dos. `79540830-79540909`.
	- Asegurar que tengan el número correcto de dígitos, de lo contrario es un teléfono inváldo y será reemplazado por `NA`.
- Supervisor, Director:
	- Tomar en cuenta valores como `--` como `NA`.
- Sector, Area, Status, Modalidad, Joranda, Plan:
	- Hacer encoding numérico.
- Nivel: 
	- Eliminar la columna dado que contiene un solo valor: Diversificado.



# Code Book


* **CODIGO** - (Cualitativo ordinal)
	- Descripción: Identifica los establecimientos educativos de todo el país. 
	- Posibles valores: Incluye valores de identificación únicos y numéricos para cada establecimiento educativo.
	
* **DISTRITO** - (Cualitativo nominal)
	- Descripción: Identifica el distrito en el cual se encuentra un centro educativo.
	- Posibles valores: Incluye valores de identificación únicos y numéricos para cada distrito.
	
* **DEPARTAMENTO** - (Cualitativo nominal)
	- Descripción: Departamento del territorio guatemalteco en el que se ubica un establecimiento educativo.
	- Posibles valores: Incluye los nombres de los 22 departamentos que conforman a Guatemala.
	- Encoding:
		- Guatemala - 0
		...

* **MUNICIPIO** - (Cualitativo nominal)
	- Descripción: Municipio dentro de un departamento guatemalteco donde se encuentra una institución académica.
	- Posibles valores: Incluye los nombres de los municipios que pertenecen a un departamento en particular.
	- Encoding:
		- Guatemala - 0
		...

* **ESTABLECIMIENTO** - (Cualitativo nominal)
	- Descripción: Nombre de un establecimiento educativo.
	- Posibles valores: Incluye los nombres de las instituciones académicas.

* **DIRECCIÓN** - (Cualitativo nominal)
	- Descripción: Descripción de la ubicación de un establecimiento educativo.
	- Posibles valores: Incluye nombres de calles, avenidas, zonas, números u otros detalles pertenencientes a la descripción de la ubicación del establecimiento educativo.

* **TELÉFONO** - (Cualitativo nominal)
	- Descripción: Número de teléfono al que se puede poner en contacto con el establecimiento educativo.
	- Posibles valores: Secuencias numéricas de 8 dígitos correspondientes al número de teléfono para contactarse con la institución.

* **SUPERVISOR** - (Cualitativo nominal)
	- Descripción: Nombre del supervisor de la institución académica.
	- Posibles valores: Nombres de personas suoervisoras de la institución.

* **DIRECTOR** - (Cualitativo nominal)
	- Descripción: Nombre del director de la institución académica.
	- Posibles valores: Nombres de personas que son directores de la institución.

* **SECTOR** - (Cualitativo nominal)
	- Descripción: Describe el tipo de sector que es la institución académica.
	- Posibles valores: Tipo de sector que caracteriza la institución.
	- Encoding:
		- PRIVADO - 0
		- OFICIAL - 1
		- COOPERATIVO - 2
		- MUNICIPAL - 3
		...

* **ÁREA** - (Cualitativo nominal)
	- Descripción: Describe el tipo de área que es la institución académica.
	- Posibles valores: Tipo de área que es la institución.
	- Encoding:
		- URBANA - 0
		- RURAL - 1
		...

* **STATUS** - (Cualitativo nominal)
	- Descripción: Describe el estado actual de como se encuentra la institutción académica.
	- Posibles valores: El estado de la institiución como (ABIERTA, CERRADA TEMPORALMENTE)
	- Encoding:
		- CERRADA TEMPORALMENTE - 0
		- ABIERTA - 1
		...

* **MODALIDAD** - (Cualitativo nominal)
	- Descripción: Describe el tipo de modalidad que manejan las instituciones.
	- Posibles valores: La cantidad de idiomas que emplean de forma descriptiva.
	- Encoding:
		- MATUTINA - 0
		- DOBLE - 1
		...

* **JORNADA** - (Cualitativo nominal)
	- Descripción: Describe el tipo de jornada que maneja la institución.
	- Posibles valores: El horario del tipo de jornada que ofrece cada institución.
	- Encoding:
		- MATUTINA - 0
		- VESPERTINA - 1
		- DOBLE - 2
		- SIN JORNADA - 3

* **PLAN** - (Cualitativo nominal)
	- Descripción: Describe el tipo de plan de horarios que ofrece la institución.
	- Posibles valores: Incluye los tipos de planes que ofrece la institución. 
	- Encodign:
		- FIN DE SEMANA - 0
		- A DISTANCIA - 1
		- SABATINO - 2
		- SEMIPRESENCIAL - 3
		- DIARIO - 4
		...

* **DEPARTAMENTAL** - (Cualitativo nominal)
	- Descripción: Describe el departamento en donde se encuentra la institución.
	- Posibles valores: Incluye los nombres de los 22 departamentos que conforman a Guatemala.
