## Descripción del conjunto de datos

In [21]:
import pandas as pd  
import os
from IPython.display import display, HTML

# Tamaño inicial de los datos

In [22]:

directory = os.getcwd()
files = os.listdir(directory + '/data')

data = []
for f in files:
    if f != 'DIVERSIFICADOS.csv':
        dataframe = pd.read_csv(directory + '/data/' + f)
        data.append((f, dataframe.shape[0], dataframe.shape[1]))

df = pd.DataFrame(data, columns=['Nombre del archivo', 'Filas', 'Columnas'])
display(HTML(df.to_html(index=False)))

Nombre del archivo,Filas,Columnas
ALTA VERAPAZ.csv,348,18
BAJA VERAPAZ.csv,120,18
CHIMALTENANGO.csv,349,18
CHIQUIMULA.csv,172,18
CIUDAD CAPITAL.csv,1537,18
EL PROGRESO.csv,122,18
ESCUINTLA.csv,599,18
GUATEMALA.csv,7672,18
HUEHUETENANGO.csv,496,18
IZABAL.csv,360,18


# Limpieza

## Listado

Sin duda alguna todas las variables necesitan de limpieza ya que en todas las variables se han encontrado valores nulos.

Se debe de tener cuidado con los nombres de los institutos ya que hay muchas faltas ortográficas.

Se han encontrado un patrón de datos nulos como lo son ***"-"*** que estan de forma consecutiva, strings sin caracteres, Nans, etc en las siguientes variables:

- Establecimiento
- Distrito
- Telefono
- Director
- Supervisor
- Dirección

## Estrategia
- Código: No requiere limpieza.
- Distrito: Sustituir valores en blanco con NA
- Departamento: 
	- Eliminar espacios al inicio y al final.
	- Convertir todo a mayúsculas.
	- Hacer un encoding numérico para facilitar el procesamiento.
- Municipio: 
	- Eliminar espacios al inicio y al final.
	- Convertir todo a mayúsculas.
	- Hacer un encoding numérico.
- Establecimiento, Dirección:
	- Eliminar espacios al inicio y al final.
	- Convertir todo a mayúsculas.
- Teléfono:
	- Tomar en cuenta solo un teléfono cuando se vean dos. `79540830-79540909`.
	- Asegurar que tengan el número correcto de dígitos, de lo contrario es un teléfono inváldo y será reemplazado por `NA`.
- Supervisor, Director:
	- Tomar en cuenta valores como `--` como `NA`.
- Sector, Area, Status, Modalidad, Joranda, Plan:
	- Hacer encoding numérico.
- Nivel: (SARA O Cris)



In [23]:
## Distrito 

data = pd.read_csv('data/DIVERSIFICADOS.csv', sep=',', encoding='latin-1')

## Remplazamos los espacios por NA
data = data.replace(r'^\s*$', pd.NA, regex=True)



In [24]:
## DePArtamento
from sklearn.preprocessing import LabelEncoder

# Getting the unique mapping of the original department values to the encoded values
department_mapping = data['DEPARTAMENTO'].str.strip().str.upper().unique()
department_mapping = {dep: idx for idx, dep in enumerate(department_mapping)}

# Displaying the department mapping
for key, value in department_mapping.items():
    print(key, ' : ', value)


#Trim spaces, convert to uppercase, and encode numerically
data['DEPARTAMENTO'] = data['DEPARTAMENTO'].str.strip().str.upper()
dep_encoder = LabelEncoder()
data['DEPARTAMENTO'] = dep_encoder.fit_transform(data['DEPARTAMENTO'])



ALTA VERAPAZ  :  0
BAJA VERAPAZ  :  1
CHIMALTENANGO  :  2
CHIQUIMULA  :  3
CIUDAD CAPITAL  :  4
EL PROGRESO  :  5
ESCUINTLA  :  6
HUEHUETENANGO  :  7
IZABAL  :  8
JALAPA  :  9
JUTIAPA  :  10
PETEN  :  11
QUETZALTENANGO  :  12
QUICHE  :  13
RETALHULEU  :  14
SACATEPEQUEZ  :  15
SAN MARCOS  :  16
SANTA ROSA  :  17
SOLOLA  :  18
SUCHITEPEQUEZ  :  19
TOTONICAPAN  :  20
ZACAPA  :  21


In [25]:

# Getting the unique mapping of the original department values to the encoded values
mun_mapping = data['MUNICIPIO'].str.strip().str.upper().unique()
mun_mapping = {dep: idx for idx, dep in enumerate(mun_mapping)}

# Displaying the department mapping
for key, value in mun_mapping.items():
    print(key, ' : ', value)

# Municipio: Trim spaces, convert to uppercase, and encode numerically
data['MUNICIPIO'] = data['MUNICIPIO'].str.strip().str.upper()
mun_encoder = LabelEncoder()
data['MUNICIPIO'] = mun_encoder.fit_transform(data['MUNICIPIO'])

COBAN  :  0
SANTA CRUZ VERAPAZ  :  1
SAN CRISTOBAL VERAPAZ  :  2
TACTIC  :  3
TAMAHU  :  4
SAN MIGUEL TUCURU  :  5
PANZOS  :  6
SENAHU  :  7
SAN PEDRO CARCHA  :  8
SAN JUAN CHAMELCO  :  9
LANQUIN  :  10
SANTA MARIA CAHABON  :  11
CHISEC  :  12
CHAHAL  :  13
FRAY BARTOLOME DE LAS CASAS  :  14
LA TINTA  :  15
RAXRUHA  :  16
SALAMA  :  17
SAN MIGUEL CHICAJ  :  18
RABINAL  :  19
CUBULCO  :  20
GRANADOS  :  21
SANTA CRUZ EL CHOL  :  22
SAN JERONIMO  :  23
PURULHA  :  24
CHIMALTENANGO  :  25
SAN JOSE POAQUIL  :  26
SAN MARTIN JILOTEPEQUE  :  27
SAN JUAN COMALAPA  :  28
SANTA APOLONIA  :  29
TECPAN GUATEMALA  :  30
PATZUN  :  31
SAN MIGUEL POCHUTA  :  32
PATZICIA  :  33
SANTA CRUZ BALANYA  :  34
ACATENANGO  :  35
SAN PEDRO YEPOCAPA  :  36
SAN ANDRES ITZAPA  :  37
PARRAMOS  :  38
ZARAGOZA  :  39
EL TEJAR  :  40
CHIQUIMULA  :  41
SAN JOSE LA ARADA  :  42
SAN JUAN ERMITA  :  43
JOCOTAN  :  44
CAMOTAN  :  45
OLOPA  :  46
ESQUIPULAS  :  47
CONCEPCION LAS MINAS  :  48
QUEZALTEPEQUE  :  49
SAN JACIN

In [26]:
# Establecimiento: Trim spaces, convert to uppercase
data['ESTABLECIMIENTO'] = data['ESTABLECIMIENTO'].str.strip().str.upper()

data['ESTABLECIMIENTO'].sample(10)

6560                                    LICEO "SAN JOSÃ"
1680                                  COLEGIO MESOAMERICA
7097    LICEO URRUTIA CEEP, CENTRO EDUCATIVO EXPERIMEN...
3246                         COLEGIO CRISTIANO "EMMANUEL"
4147      INSTITUTO TÃCNICO INDUSTRIAL "ALBERT EINSTEIN"
4978    ESCUELA NORMAL DE MAESTRAS DE EDUCACION PARA E...
6661    INSTITUTO PRIVADO MIXTO "SAN ANDRÃS DE LA VILLA"
5698                    COLEGIO CRISTIANO INTEGRAL ISRAEL
1848                      COLEGIO EN COMPUTACION SAN JUAN
443                CENTRO DE ESTUDIOS MAGISTERIALES 'CEM'
Name: ESTABLECIMIENTO, dtype: object

In [27]:
# Dirección: Trim spaces, convert to uppercase
data['DIRECCION'] = data['DIRECCION'].str.strip().str.upper()
data['DIRECCION'].sample(10)

6656                           COLONIA ALEJOS 1-93 ZONA 1
1136                                       2A. CALLE 6-77
4297    117.5 CARRETERA INTERAMERICANA, BARRIO INTERAM...
3232                            CALLE BELICE PARCELA A-43
3700                                   CABECERA MUNICIPAL
6119                              2A. AVENIDA 1-34 ZONA 2
3294                                    1RA. CALLE ZONA 8
1614                                   15 CALLE 'A' 10-36
5500                                          CANTON ILOM
405     2A. CALLE Y 4A. AVENIDA ZONA 3 FRENTE AL CAMPO...
Name: DIRECCION, dtype: object

In [28]:
# Function to clean the "Telefono" column
def clean_telefono(telefono):
    # Splitting by '-' and taking the first part
    telefono = str(telefono).split('-')[0]
    
    # Checking if the length of the phone number is correct (e.g., 8 digits)
    if len(telefono) != 8:
        return 'NA'
    return telefono

# Applying the cleaning function to the "Telefono" column
data['TELEFONO'] = data['TELEFONO'].apply(clean_telefono)

# Displaying some examples from the cleaned "Telefono" column
data['TELEFONO'].sample(10)


4817    40379592
6736    52071811
4576    79264648
3862    79482254
2403    45872960
831     79424111
1337          NA
3520    50474960
5761    41333379
4578    55164373
Name: TELEFONO, dtype: object

In [34]:
## Supervisor, Director: Convert -- to NAs
data.replace(['---------------------------- ----------------------------------','----------------------------', '----------------------------------',
                           ',--------,', ',-------,', ',------,', ',----,', ',---,', ',--,',
                           '', ' ', '---', 'NaN', 'nan', 'None', 'none', 'null', 'Null', 'NULL','<NA>'], 
                          pd.NA, inplace=True)

data['DIRECTOR'].sample(10)

6136                     HILDA GABRIELA GUZMAN PEC
138               THELMA FLORIDALMA FERNANDEZ MOYA
3028    MILVIA EMPERATRIZ AGUILAR PAPPA DE MORALES
7076                             ISRAEL CHOCOJ YAC
3567            CENDY ELIZABETH VILLATORO CASTILLO
3974           MARIA EUGENIA MOLINA ALDANA DE PAIZ
6927                     JUAN ANTONIO PEREZ GARCIA
4353                                           NaN
2899               MIRNA RUTILIA ALVAREZ BOJORQUEZ
5139           JAIME AUGUSTO SANTISTEBAN BENAVENTE
Name: DIRECTOR, dtype: object

# Code Book


* **CODIGO** - (Cualitativo ordinal)
	- Descripción
	- Posibles valores
* **DISTRITO** - (Cualitativo nominal)
	- Descripción:
	- Posibles valores: 
* **DEPARTAMENTO** - (Cualitativo nominal)
	- Descripción:
	- Posibles valores: 
	- Encoding:
		- Guatemala - 0
		...
* **MUNICIPIO** - (Cualitativo nominal)
* **ESTABLECIMIENTO** - (Cualitativo nominal)
* **DIRECCIÓN** - (Cualitativo nominal)
* **TELÉFONO** - (Cualitativo nominal)
* **SUPERVISOR** - (Cualitativo nominal)
* **DIRECTOR** - (Cualitativo nominal)
* **NIVEL** - (Cualitativo ordinal)
* **SECTOR** - (Cualitativo nominal)
* **ÁREA** - (Cualitativo nominal)
* **STATUS** - (Cualitativo nominal)
* **MODALIDAD** - (Cualitativo nominal)
* **JORNADA** - (Cualitativo nominal)
* **PLAN** - (Cualitativo nominal)
* **DEPARTAMENTAL** - (Cualitativo nominal)