# Proyecto 1 - Obtención y Limpieza de los datos
## Data Science
**Integrantes**
- Gustavo Gonzalez
- Pablo Orellana
- Diego Leiva
- Maria Ramirez
-----------------------------------------------------------------------------
En esta primera etapa se realizan los siguientes avances para el proyecto 1 del curso, incluyendo:
- Describir el set de datos
- Listar las variables que mas operaciones de limpieza necesitan
- Especificar la estrategia para limpiar el conjunto de datos

### Comprensión Inicial

#### Importar Librerías

In [1]:
# Manejo de archivos
import os 

# Manipulacion de datos
import pandas as pd
import numpy as np

# Visualizacion
import matplotlib.pyplot as plt
import seaborn as sns
from IPython.display import display

#### Cargar el Dataset al entorno

Datos obtenidos de-> https://www.mineduc.gob.gt/BUSCAESTABLECIMIENTO_GE/

In [2]:
# Ruta de la carpeta
folder_path = 'data'

# Obtener los nombres de los archivos
file_names = [file for file in os.listdir(folder_path) if file.endswith('.csv') and not file.startswith('~')]

# Diccionario para almacenar los dataframes
data_frames = {}

# Iterar sobre los nombres de los archivos
for file in file_names:
    # Construir la ruta del archivo
    file_path = os.path.join(folder_path, file)
    file_name = file.split('.')[0]
    
    # Leer el archivo csv y almacenarlo en un dataframe
    df = pd.read_csv(file_path, sep=';', encoding='utf-8')
    
    # Guardar el dataframe en el diccionario con el nombre del archivo como clave
    data_frames[file_name] = df

# Mostrar los nombres de los archivos
print(f"Se cargaron un total de {len(data_frames)} archivos\n")
print('Archivos cargados:')
for key in data_frames.keys():
    print(f"\t- {key}")

Se cargaron un total de 23 archivos

Archivos cargados:
	- ALTA_VERAPAZ
	- BAJA_VERAPAZ
	- CHIMALTENANGO
	- CHIQUIMULA
	- CIUDAD_CAPITAL
	- EL_PROGRESO
	- ESCUINTLA
	- GUATEMALA
	- HUEHUETENANGO
	- IZABAL
	- JALAPA
	- JUTIAPA
	- PETEN
	- QUETZALTENANGO
	- QUICHE
	- RETALHULEU
	- SACATEPEQUEZ
	- SANTA_ROZA
	- SAN_MARCOS
	- SOLOLA
	- SUCHITEPEQUEZ
	- TOTONICAPAN
	- ZACAPA


#### Visualizar estructura e información general de cada dataset

In [3]:
def get_info(df):
    info = pd.DataFrame({
        'Columnas': df.columns,
        'Tipos': df.dtypes,
        'Nulos': df.isnull().sum(),
        'Nulos (%)': (df.isnull().sum() * 100 / df.shape[0]).round(2),
        'Únicos': df.nunique(),
        'Duplicados': df.duplicated().sum()
    }).reset_index(drop=True)

    # Mostrar la informacion
    print(f"El dataframe tiene {df.shape[0]} filas y {df.shape[1]} columnas\n")
    display(info)

In [4]:
for dataset in data_frames.keys():
    print(f"Informacion del dataset: {dataset}")
    get_info(data_frames[dataset])
    print("\n",(100*'-'),"\n")

Informacion del dataset: ALTA_VERAPAZ
El dataframe tiene 374 filas y 17 columnas



Unnamed: 0,Columnas,Tipos,Nulos,Nulos (%),Únicos,Duplicados
0,CODIGO,object,0,0.0,374,0
1,DISTRITO,object,2,0.53,40,0
2,DEPARTAMENTO,object,0,0.0,1,0
3,MUNICIPIO,object,0,0.0,17,0
4,ESTABLECIMIENTO,object,0,0.0,183,0
5,DIRECCION,object,2,0.53,247,0
6,TELEFONO,object,20,5.35,227,0
7,SUPERVISOR,object,2,0.53,40,0
8,DIRECTOR,object,16,4.28,216,0
9,NIVEL,object,0,0.0,1,0



 ---------------------------------------------------------------------------------------------------- 

Informacion del dataset: BAJA_VERAPAZ
El dataframe tiene 114 filas y 17 columnas



Unnamed: 0,Columnas,Tipos,Nulos,Nulos (%),Únicos,Duplicados
0,CODIGO,object,0,0.0,114,0
1,DISTRITO,object,1,0.88,15,0
2,DEPARTAMENTO,object,0,0.0,1,0
3,MUNICIPIO,object,0,0.0,8,0
4,ESTABLECIMIENTO,object,0,0.0,52,0
5,DIRECCION,object,0,0.0,71,0
6,TELEFONO,object,6,5.26,74,0
7,SUPERVISOR,object,1,0.88,15,0
8,DIRECTOR,object,6,5.26,73,0
9,NIVEL,object,0,0.0,1,0



 ---------------------------------------------------------------------------------------------------- 

Informacion del dataset: CHIMALTENANGO
El dataframe tiene 359 filas y 17 columnas



Unnamed: 0,Columnas,Tipos,Nulos,Nulos (%),Únicos,Duplicados
0,CODIGO,object,0,0.0,359,0
1,DISTRITO,object,2,0.56,35,0
2,DEPARTAMENTO,object,0,0.0,1,0
3,MUNICIPIO,object,0,0.0,16,0
4,ESTABLECIMIENTO,object,0,0.0,225,0
5,DIRECCION,object,0,0.0,206,0
6,TELEFONO,object,14,3.9,194,0
7,SUPERVISOR,object,2,0.56,34,0
8,DIRECTOR,object,16,4.46,180,0
9,NIVEL,object,0,0.0,1,0



 ---------------------------------------------------------------------------------------------------- 

Informacion del dataset: CHIQUIMULA
El dataframe tiene 170 filas y 17 columnas



Unnamed: 0,Columnas,Tipos,Nulos,Nulos (%),Únicos,Duplicados
0,CODIGO,object,0,0.0,170,0
1,DISTRITO,object,1,0.59,25,0
2,DEPARTAMENTO,object,0,0.0,1,0
3,MUNICIPIO,object,0,0.0,11,0
4,ESTABLECIMIENTO,object,0,0.0,104,0
5,DIRECCION,object,2,1.18,118,0
6,TELEFONO,object,18,10.59,104,0
7,SUPERVISOR,object,1,0.59,22,0
8,DIRECTOR,object,18,10.59,103,0
9,NIVEL,object,0,0.0,1,0



 ---------------------------------------------------------------------------------------------------- 

Informacion del dataset: CIUDAD_CAPITAL
El dataframe tiene 1564 filas y 17 columnas



Unnamed: 0,Columnas,Tipos,Nulos,Nulos (%),Únicos,Duplicados
0,CODIGO,object,0,0.0,1564,0
1,DISTRITO,object,66,4.22,75,0
2,DEPARTAMENTO,object,0,0.0,1,0
3,MUNICIPIO,object,0,0.0,21,0
4,ESTABLECIMIENTO,object,0,0.0,1009,0
5,DIRECCION,object,5,0.32,1067,0
6,TELEFONO,object,102,6.52,843,0
7,SUPERVISOR,object,66,4.22,65,0
8,DIRECTOR,object,270,17.26,623,0
9,NIVEL,object,0,0.0,1,0



 ---------------------------------------------------------------------------------------------------- 

Informacion del dataset: EL_PROGRESO
El dataframe tiene 125 filas y 17 columnas



Unnamed: 0,Columnas,Tipos,Nulos,Nulos (%),Únicos,Duplicados
0,CODIGO,object,0,0.0,125,0
1,DISTRITO,object,3,2.4,15,0
2,DEPARTAMENTO,object,0,0.0,1,0
3,MUNICIPIO,object,0,0.0,8,0
4,ESTABLECIMIENTO,object,0,0.0,76,0
5,DIRECCION,object,0,0.0,69,0
6,TELEFONO,object,13,10.4,78,0
7,SUPERVISOR,object,3,2.4,15,0
8,DIRECTOR,object,9,7.2,73,0
9,NIVEL,object,0,0.0,1,0



 ---------------------------------------------------------------------------------------------------- 

Informacion del dataset: ESCUINTLA
El dataframe tiene 628 filas y 17 columnas



Unnamed: 0,Columnas,Tipos,Nulos,Nulos (%),Únicos,Duplicados
0,CODIGO,object,0,0.0,628,0
1,DISTRITO,object,10,1.59,23,0
2,DEPARTAMENTO,object,0,0.0,1,0
3,MUNICIPIO,object,0,0.0,14,0
4,ESTABLECIMIENTO,object,0,0.0,356,0
5,DIRECCION,object,2,0.32,447,0
6,TELEFONO,object,36,5.73,312,0
7,SUPERVISOR,object,10,1.59,22,0
8,DIRECTOR,object,61,9.71,275,0
9,NIVEL,object,0,0.0,1,0



 ---------------------------------------------------------------------------------------------------- 

Informacion del dataset: GUATEMALA
El dataframe tiene 1479 filas y 17 columnas



Unnamed: 0,Columnas,Tipos,Nulos,Nulos (%),Únicos,Duplicados
0,CODIGO,object,0,0.0,1479,0
1,DISTRITO,object,54,3.65,89,0
2,DEPARTAMENTO,object,0,0.0,1,0
3,MUNICIPIO,object,0,0.0,17,0
4,ESTABLECIMIENTO,object,0,0.0,937,0
5,DIRECCION,object,3,0.2,1115,0
6,TELEFONO,object,81,5.48,904,0
7,SUPERVISOR,object,54,3.65,85,0
8,DIRECTOR,object,200,13.52,748,0
9,NIVEL,object,0,0.0,1,0



 ---------------------------------------------------------------------------------------------------- 

Informacion del dataset: HUEHUETENANGO
El dataframe tiene 516 filas y 17 columnas



Unnamed: 0,Columnas,Tipos,Nulos,Nulos (%),Únicos,Duplicados
0,CODIGO,object,0,0.0,516,0
1,DISTRITO,object,5,0.97,52,0
2,DEPARTAMENTO,object,0,0.0,1,0
3,MUNICIPIO,object,0,0.0,32,0
4,ESTABLECIMIENTO,object,0,0.0,312,0
5,DIRECCION,object,4,0.78,288,0
6,TELEFONO,object,25,4.84,323,0
7,SUPERVISOR,object,5,0.97,47,0
8,DIRECTOR,object,36,6.98,297,0
9,NIVEL,object,0,0.0,1,0



 ---------------------------------------------------------------------------------------------------- 

Informacion del dataset: IZABAL
El dataframe tiene 368 filas y 17 columnas



Unnamed: 0,Columnas,Tipos,Nulos,Nulos (%),Únicos,Duplicados
0,CODIGO,object,0,0.0,368,0
1,DISTRITO,object,2,0.54,21,0
2,DEPARTAMENTO,object,0,0.0,1,0
3,MUNICIPIO,object,0,0.0,5,0
4,ESTABLECIMIENTO,object,0,0.0,205,0
5,DIRECCION,object,0,0.0,199,0
6,TELEFONO,object,13,3.53,203,0
7,SUPERVISOR,object,2,0.54,21,0
8,DIRECTOR,object,5,1.36,190,0
9,NIVEL,object,0,0.0,1,0



 ---------------------------------------------------------------------------------------------------- 

Informacion del dataset: JALAPA
El dataframe tiene 151 filas y 17 columnas



Unnamed: 0,Columnas,Tipos,Nulos,Nulos (%),Únicos,Duplicados
0,CODIGO,object,0,0.0,151,0
1,DISTRITO,object,0,0.0,15,0
2,DEPARTAMENTO,object,0,0.0,1,0
3,MUNICIPIO,object,0,0.0,7,0
4,ESTABLECIMIENTO,object,0,0.0,93,0
5,DIRECCION,object,2,1.32,108,0
6,TELEFONO,object,6,3.97,93,0
7,SUPERVISOR,object,0,0.0,15,0
8,DIRECTOR,object,9,5.96,92,0
9,NIVEL,object,0,0.0,1,0



 ---------------------------------------------------------------------------------------------------- 

Informacion del dataset: JUTIAPA
El dataframe tiene 310 filas y 17 columnas



Unnamed: 0,Columnas,Tipos,Nulos,Nulos (%),Únicos,Duplicados
0,CODIGO,object,0,0.0,310,0
1,DISTRITO,object,6,1.94,36,0
2,DEPARTAMENTO,object,0,0.0,1,0
3,MUNICIPIO,object,0,0.0,17,0
4,ESTABLECIMIENTO,object,0,0.0,197,0
5,DIRECCION,object,6,1.94,170,0
6,TELEFONO,float64,18,5.81,180,0
7,SUPERVISOR,object,6,1.94,34,0
8,DIRECTOR,object,23,7.42,167,0
9,NIVEL,object,0,0.0,1,0



 ---------------------------------------------------------------------------------------------------- 

Informacion del dataset: PETEN
El dataframe tiene 366 filas y 17 columnas



Unnamed: 0,Columnas,Tipos,Nulos,Nulos (%),Únicos,Duplicados
0,CODIGO,object,0,0.0,366,0
1,DISTRITO,object,10,2.73,37,0
2,DEPARTAMENTO,object,0,0.0,1,0
3,MUNICIPIO,object,0,0.0,14,0
4,ESTABLECIMIENTO,object,0,0.0,263,0
5,DIRECCION,object,8,2.19,195,0
6,TELEFONO,object,30,8.2,236,0
7,SUPERVISOR,object,10,2.73,35,0
8,DIRECTOR,object,17,4.64,225,0
9,NIVEL,object,0,0.0,1,0



 ---------------------------------------------------------------------------------------------------- 

Informacion del dataset: QUETZALTENANGO
El dataframe tiene 491 filas y 17 columnas



Unnamed: 0,Columnas,Tipos,Nulos,Nulos (%),Únicos,Duplicados
0,CODIGO,object,0,0.0,491,0
1,DISTRITO,object,18,3.67,37,0
2,DEPARTAMENTO,object,0,0.0,1,0
3,MUNICIPIO,object,0,0.0,24,0
4,ESTABLECIMIENTO,object,0,0.0,321,0
5,DIRECCION,object,2,0.41,369,0
6,TELEFONO,object,26,5.3,311,0
7,SUPERVISOR,object,18,3.67,36,0
8,DIRECTOR,object,54,11.0,256,0
9,NIVEL,object,0,0.0,1,0



 ---------------------------------------------------------------------------------------------------- 

Informacion del dataset: QUICHE
El dataframe tiene 244 filas y 17 columnas



Unnamed: 0,Columnas,Tipos,Nulos,Nulos (%),Únicos,Duplicados
0,CODIGO,object,0,0.0,244,0
1,DISTRITO,object,1,0.41,39,0
2,DEPARTAMENTO,object,0,0.0,1,0
3,MUNICIPIO,object,0,0.0,21,0
4,ESTABLECIMIENTO,object,0,0.0,166,0
5,DIRECCION,object,0,0.0,180,0
6,TELEFONO,float64,9,3.69,162,0
7,SUPERVISOR,object,1,0.41,39,0
8,DIRECTOR,object,9,3.69,166,0
9,NIVEL,object,0,0.0,1,0



 ---------------------------------------------------------------------------------------------------- 

Informacion del dataset: RETALHULEU
El dataframe tiene 316 filas y 17 columnas



Unnamed: 0,Columnas,Tipos,Nulos,Nulos (%),Únicos,Duplicados
0,CODIGO,object,0,0.0,316,0
1,DISTRITO,object,2,0.63,9,0
2,DEPARTAMENTO,object,0,0.0,1,0
3,MUNICIPIO,object,0,0.0,9,0
4,ESTABLECIMIENTO,object,0,0.0,176,0
5,DIRECCION,object,0,0.0,212,0
6,TELEFONO,float64,15,4.75,177,0
7,SUPERVISOR,object,2,0.63,8,0
8,DIRECTOR,object,18,5.7,156,0
9,NIVEL,object,0,0.0,1,0



 ---------------------------------------------------------------------------------------------------- 

Informacion del dataset: SACATEPEQUEZ
El dataframe tiene 319 filas y 17 columnas



Unnamed: 0,Columnas,Tipos,Nulos,Nulos (%),Únicos,Duplicados
0,CODIGO,object,0,0.0,319,0
1,DISTRITO,object,2,0.63,12,0
2,DEPARTAMENTO,object,0,0.0,1,0
3,MUNICIPIO,object,0,0.0,16,0
4,ESTABLECIMIENTO,object,0,0.0,192,0
5,DIRECCION,object,0,0.0,234,0
6,TELEFONO,object,12,3.76,206,0
7,SUPERVISOR,object,3,0.94,11,0
8,DIRECTOR,object,31,9.72,176,0
9,NIVEL,object,0,0.0,1,0



 ---------------------------------------------------------------------------------------------------- 

Informacion del dataset: SANTA_ROZA
El dataframe tiene 157 filas y 17 columnas



Unnamed: 0,Columnas,Tipos,Nulos,Nulos (%),Únicos,Duplicados
0,CODIGO,object,0,0.0,157,0
1,DISTRITO,object,1,0.64,23,0
2,DEPARTAMENTO,object,0,0.0,1,0
3,MUNICIPIO,object,0,0.0,14,0
4,ESTABLECIMIENTO,object,0,0.0,101,0
5,DIRECCION,object,2,1.27,93,0
6,TELEFONO,object,7,4.46,101,0
7,SUPERVISOR,object,1,0.64,22,0
8,DIRECTOR,object,11,7.01,96,0
9,NIVEL,object,0,0.0,1,0



 ---------------------------------------------------------------------------------------------------- 

Informacion del dataset: SAN_MARCOS
El dataframe tiene 574 filas y 17 columnas



Unnamed: 0,Columnas,Tipos,Nulos,Nulos (%),Únicos,Duplicados
0,CODIGO,object,0,0.0,574,0
1,DISTRITO,object,12,2.09,72,0
2,DEPARTAMENTO,object,0,0.0,1,0
3,MUNICIPIO,object,0,0.0,30,0
4,ESTABLECIMIENTO,object,0,0.0,252,0
5,DIRECCION,object,5,0.87,296,0
6,TELEFONO,object,35,6.1,313,0
7,SUPERVISOR,object,12,2.09,71,0
8,DIRECTOR,object,35,6.1,286,0
9,NIVEL,object,0,0.0,1,0



 ---------------------------------------------------------------------------------------------------- 

Informacion del dataset: SOLOLA
El dataframe tiene 138 filas y 17 columnas



Unnamed: 0,Columnas,Tipos,Nulos,Nulos (%),Únicos,Duplicados
0,CODIGO,object,0,0.0,138,0
1,DISTRITO,object,1,0.72,24,0
2,DEPARTAMENTO,object,0,0.0,1,0
3,MUNICIPIO,object,0,0.0,16,0
4,ESTABLECIMIENTO,object,0,0.0,95,0
5,DIRECCION,object,3,2.17,110,0
6,TELEFONO,float64,8,5.8,100,0
7,SUPERVISOR,object,1,0.72,24,0
8,DIRECTOR,object,8,5.8,95,0
9,NIVEL,object,0,0.0,1,0



 ---------------------------------------------------------------------------------------------------- 

Informacion del dataset: SUCHITEPEQUEZ
El dataframe tiene 385 filas y 17 columnas



Unnamed: 0,Columnas,Tipos,Nulos,Nulos (%),Únicos,Duplicados
0,CODIGO,object,0,0.0,385,0
1,DISTRITO,object,6,1.56,25,0
2,DEPARTAMENTO,object,0,0.0,1,0
3,MUNICIPIO,object,0,0.0,19,0
4,ESTABLECIMIENTO,object,0,0.0,197,0
5,DIRECCION,object,3,0.78,197,0
6,TELEFONO,object,28,7.27,191,0
7,SUPERVISOR,object,6,1.56,24,0
8,DIRECTOR,object,37,9.61,164,0
9,NIVEL,object,0,0.0,1,0



 ---------------------------------------------------------------------------------------------------- 

Informacion del dataset: TOTONICAPAN
El dataframe tiene 90 filas y 17 columnas



Unnamed: 0,Columnas,Tipos,Nulos,Nulos (%),Únicos,Duplicados
0,CODIGO,object,0,0.0,90,0
1,DISTRITO,object,1,1.11,15,0
2,DEPARTAMENTO,object,0,0.0,1,0
3,MUNICIPIO,object,0,0.0,8,0
4,ESTABLECIMIENTO,object,0,0.0,57,0
5,DIRECCION,object,1,1.11,60,0
6,TELEFONO,object,6,6.67,55,0
7,SUPERVISOR,object,1,1.11,15,0
8,DIRECTOR,object,4,4.44,48,0
9,NIVEL,object,0,0.0,1,0



 ---------------------------------------------------------------------------------------------------- 

Informacion del dataset: ZACAPA
El dataframe tiene 93 filas y 17 columnas



Unnamed: 0,Columnas,Tipos,Nulos,Nulos (%),Únicos,Duplicados
0,CODIGO,object,0,0.0,93,0
1,DISTRITO,object,2,2.15,18,0
2,DEPARTAMENTO,object,0,0.0,1,0
3,MUNICIPIO,object,0,0.0,11,0
4,ESTABLECIMIENTO,object,0,0.0,65,0
5,DIRECCION,object,1,1.08,62,0
6,TELEFONO,float64,7,7.53,67,0
7,SUPERVISOR,object,2,2.15,17,0
8,DIRECTOR,object,4,4.3,69,0
9,NIVEL,object,0,0.0,1,0



 ---------------------------------------------------------------------------------------------------- 



In [5]:
flag = False

# Obtener la lista de columnas de un dataframe
first_df_columns = list(data_frames.values())[0].columns.tolist()

# Comprobar si todas las columnas de los dataframes son iguales
all_same_columns = all(df.columns.tolist() == first_df_columns for df in data_frames.values())

if all_same_columns:
    print("Todos los dataframes tienen las mismas columnas.")
    print("Se pueden concatenar en un solo dataframe.")
    flag = True
else:
    print("PROBLEMA: Los dataframes no tienen las mismas columnas.")
    print("No se pueden concatenar en un solo dataframe.")
    flag = False


Todos los dataframes tienen las mismas columnas.
Se pueden concatenar en un solo dataframe.


#### Unificar los daframes en uno solo

Dado que todos los archivos poseen la misma estructura es posible integrarlos en unico dataframe

In [6]:
# Concatenar los dataframes en un solo dataframe
if flag:
    dataset = pd.concat(data_frames.values())
    dataset.reset_index(drop=True, inplace=True)
    get_info(dataset)

El dataframe tiene 9331 filas y 17 columnas



Unnamed: 0,Columnas,Tipos,Nulos,Nulos (%),Únicos,Duplicados
0,CODIGO,object,0,0.0,9331,0
1,DISTRITO,object,208,2.23,690,0
2,DEPARTAMENTO,object,0,0.0,23,0
3,MUNICIPIO,object,0,0.0,349,0
4,ESTABLECIMIENTO,object,0,0.0,5319,0
5,DIRECCION,object,51,0.55,6005,0
6,TELEFONO,object,535,5.73,5439,0
7,SUPERVISOR,object,209,2.24,658,0
8,DIRECTOR,object,897,9.61,4677,0
9,NIVEL,object,0,0.0,1,0


In [7]:
dataset.head()

Unnamed: 0,CODIGO,DISTRITO,DEPARTAMENTO,MUNICIPIO,ESTABLECIMIENTO,DIRECCION,TELEFONO,SUPERVISOR,DIRECTOR,NIVEL,SECTOR,AREA,STATUS,MODALIDAD,JORNADA,PLAN,DEPARTAMENTAL
0,16-01-0138-46,16-031,ALTA VERAPAZ,COBAN,COLEGIO COBAN,KM.2 SALIDA A SAN JUAN CHAMELCO ZONA 8,77945104,MERCEDES JOSEFINA TORRES GALVEZ,GUSTAVO ADOLFO SIERRA POP,DIVERSIFICADO,PRIVADO,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ
1,16-01-0139-46,16-031,ALTA VERAPAZ,COBAN,COLEGIO PARTICULAR MIXTO VERAPAZ,KM 209.5 ENTRADA A LA CIUDAD,77367402,MERCEDES JOSEFINA TORRES GALVEZ,GILMA DOLORES GUAY PAZ DE LEAL,DIVERSIFICADO,PRIVADO,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ
2,16-01-0140-46,16-031,ALTA VERAPAZ,COBAN,"COLEGIO ""LA INMACULADA""",7A. AVENIDA 11-109 ZONA 6,78232301,MERCEDES JOSEFINA TORRES GALVEZ,VIRGINIA SOLANO SERRANO,DIVERSIFICADO,PRIVADO,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ
3,16-01-0141-46,16-005,ALTA VERAPAZ,COBAN,ESCUELA NACIONAL DE CIENCIAS COMERCIALES,2A CALLE 11-10 ZONA 2,79514215,RUDY ADOLFO TOT OCH,HÉCTOR ROLANDO CHUN POOU,DIVERSIFICADO,OFICIAL,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ
4,16-01-0142-46,16-005,ALTA VERAPAZ,COBAN,INSTITUTO NORMAL MIXTO DEL NORTE 'EMILIO ROSAL...,3A AVE 6-23 ZONA 11,79521468,RUDY ADOLFO TOT OCH,VICTOR HUGO DOMÍNGUEZ REYES,DIVERSIFICADO,OFICIAL,URBANA,ABIERTA,BILINGUE,VESPERTINA,DIARIO(REGULAR),ALTA VERAPAZ


### Validar Mayúsculas

In [13]:
def check_uppercase(df):
    object_columns = df.select_dtypes(include=['object']).columns
    
    def is_uppercase(x):
        if isinstance(x, str):
            return x == x.upper()
        return True
    
    uppercase_check = df[object_columns].apply(lambda col: col.map(is_uppercase))
    
    if uppercase_check.all().all():
        print("Todos los datos de tipo texto están en mayúsculas.")
    else:
        print("Hay datos que no están en mayúsculas.")
        print("Columnas con datos que no están en mayúsculas:")
        print(uppercase_check.all())

check_uppercase(dataset)

Hay datos que no están en mayúsculas.
Columnas con datos que no están en mayúsculas:
CODIGO              True
DISTRITO            True
DEPARTAMENTO        True
MUNICIPIO           True
ESTABLECIMIENTO     True
DIRECCION          False
TELEFONO           False
SUPERVISOR          True
DIRECTOR            True
NIVEL               True
SECTOR              True
AREA                True
STATUS              True
MODALIDAD           True
JORNADA             True
PLAN                True
DEPARTAMENTAL       True
dtype: bool


Como se puede observar, tenemos que todas las columnas tienen los datos en letras mayúsculas. La variable "DIRECCION" y la variable "TELEFONO" aparecen como "False" debido a que en el caso de "TELEFONO" los datos son numéricos y en la comulna "DIRECCION" tenemos strings con números y letras.

## Estrategia de Limpieza
1. Unificación de Formato:
Convertir todos los textos a mayúsculas para mantener uniformidad.
Eliminar espacios en blanco adicionales al principio y al final de cada valor.
Reemplazar cualquier caracter especial como las tildes, para evitar discrepancias entre valores

2. Eliminación de Duplicados:
Revisar y eliminar filas duplicadas en función de una combinación de columnas clave como `CODIGO`, `ESTABLECIMIENTO`, `DIRECCION`, y `TELEFONO`.

3. Corrección de Errores Ortográficos:
Implementar una revisión ortográfica para detectar y corregir errores comunes.
Utilizar listas de valores esperados (por ejemplo, nombres de departamentos y municipios) para identificar y corregir errores de escritura.

#### Variables que requieren mas limpieza
1. `DIRECTOR` -> Debido a que tiene mas del 9% de datos faltantes sera necesario evaluar si eliminando los registros nulos se pierde mucha informacion, o si es necesario realizar una imputacion de datos, cuidando de no introducir un sesgo en los datos.
2. `TELEFONO` -> Debido a que tiene mas del 5% de datos faltantes sera necesario evaluar si eliminando los registros nulos se pierde mucha informacion, o si es necesario realizar una imputacion de datos

#### Especificaciones Por Variable
1. `CODIGO`
- Verificar que todos los códigos tengan un formato consistente (misma longitud y formato alfanumérico).
- Eliminar duplicados.

2. `DISTRITO`
- Normalizar los nombres de los distritos a un formato consistente (mayúsculas).
- Comparar con una lista de distritos válidos para corregir errores ortográficos.

3. `DEPARTAMENTO`
- Normalizar a mayúsculas.
- Corregir errores ortográficos y cambios de letras en nombres de departamentos comparando con una lista oficial.

4. `MUNICIPIO`
- Normalizar a mayúsculas.
- Corregir errores ortográficos y cambios de letras en nombres de municipios comparando con una lista oficial.

5. `ESTABLECIMIENTO`
- Normalizar a mayúsculas.
- Eliminar duplicados.
- Corregir errores ortográficos comunes y variaciones en nombres de establecimientos.

6. `DIRECCION`
- Normalizar a mayúsculas.
- Eliminar espacios adicionales y caracteres especiales innecesarios.

7. `TELEFONO`
- Formatear los números de teléfono para que sigan un patrón consistente (por ejemplo, incluir el código de área).
- Eliminar caracteres no numéricos excepto el guion o paréntesis, si son parte del formato deseado.

8. `SUPERVISOR y DIRECTOR`
- Normalizar nombres a mayúsculas.
- Separar nombres y apellidos si es necesario.
- Corregir errores ortográficos en nombres comunes.

9. `NIVEL`
- Normalizar a mayúsculas.
- Corregir y estandarizar nombres de niveles educativos según una lista de niveles válidos.

10. `SECTOR`
- Normalizar a mayúsculas.
- Corregir y estandarizar nombres de sectores (e.g., "PÚBLICO" o "PRIVADO").

11. `AREA`
- Normalizar a mayúsculas.
- Corregir errores ortográficos y estandarizar áreas geográficas.

12. `STATUS`
- Normalizar a mayúsculas.
- Verificar que los valores sean consistentes (e.g., "ACTIVO" o "INACTIVO").

13. `MODALIDAD`
- Normalizar a mayúsculas.
- Estandarizar nombres de modalidades educativas.

14. `JORNADA`
- Normalizar a mayúsculas.
- Corregir y estandarizar nombres de jornadas (e.g., "MATUTINA", "VESPERTINA").

15. `PLAN`
- Normalizar a mayúsculas.
- Verificar la consistencia y corregir errores en nombres de planes educativos.

16. `DEPARTAMENTAL`
- Normalizar a mayúsculas.
- Corregir y estandarizar nombres de departamentos de supervisión.