<h1 style="text-align:center;"><b>Data Science - Proyecto 1: Limpieza de Datos</b></h1>
<h3 style="text-align:center;">Alina Carías, Marcos Díaz, Ariela Mishaan </h3>

In [1]:
import os
import glob
import pandas as pd 
import re

In [16]:
#import sys
#!{sys.executable} -m pip install --user "thefuzz"

# Enlace al Repositorio

https://github.com/ArielaMishaanCohen/2-Proyecto-1.git 

# 1. Carga de datos

En este paso, no solamente se importaron los CSVs desde el fólder en el directorio, sino también se aprovechó el ciclo for para eliminar las filas y columnas vacías o inútiles que traían los exceles. Dado que todos venían en exactamente el mismo formato, se pudo inspeccionar exactamente qué era lo que se necesitaba, para hacer el proceso de forma masiva. El proceso es el siguiente: 

1. Carga de archivo csv en un dataframe de pandas. 
2. Leer solamente las filas donde hay datos relevantes (de la 27 hasta antes de las últimas 5)
3. Cambiar el encabezado, poner en él los nombres de las columnas. 
4. Borrar las columnas con solo datos inexistentes (NA - estas son por el formato en el que venían los archivos)
5. Resetear los índices del dataframe de pandas para que sean manejables los datos. 
6. Agregar el dataframe del departamento a la lista con todos los dataframes. 

In [2]:
folder_path = "Datos/CSVs" 
contenido = os.listdir(folder_path)
csv_files = glob.glob(f'{folder_path}/*.csv')

datos = []

for file_path in csv_files:
    print(f"Leyendo archivo: {file_path}")

    # Leer el df, borrando las primeras 27 filas de todos los archivos y las últimas 7
    df = pd.read_csv(file_path, header = None )[25:-5]

    # Cambiar el header para poner los nombres de las columnas
    new_header = df.iloc[0]  
    df2 = df[1:].copy()     
    df2.columns = new_header   

    # Borrar la segunda columna y las últimas dos
    indices = [1, -1,-2]
    df_dropped_multiple = df2.drop(df2.columns[indices], axis=1)

    # Resetear los índices
    df2 = df2.reset_index(drop = True)

    #Meter el dataframe a la lista
    datos.append(df2)

df_unido = pd.concat(datos, ignore_index=True)

print("\nImportación realizada con éxito")

Leyendo archivo: Datos/CSVs/Quiché.csv
Leyendo archivo: Datos/CSVs/Totonicapán.csv
Leyendo archivo: Datos/CSVs/Suchitepéquez.csv
Leyendo archivo: Datos/CSVs/Sololá.csv
Leyendo archivo: Datos/CSVs/Sacatepéquez.csv
Leyendo archivo: Datos/CSVs/San Marcos.csv
Leyendo archivo: Datos/CSVs/Ciudad Capital.csv
Leyendo archivo: Datos/CSVs/Chiquimula.csv
Leyendo archivo: Datos/CSVs/Santa Rosa.csv
Leyendo archivo: Datos/CSVs/Izabal.csv
Leyendo archivo: Datos/CSVs/Petén.csv
Leyendo archivo: Datos/CSVs/Retalhuleu.csv
Leyendo archivo: Datos/CSVs/Alta Verapaz.csv
Leyendo archivo: Datos/CSVs/Baja Verapaz.csv
Leyendo archivo: Datos/CSVs/Zacapa.csv
Leyendo archivo: Datos/CSVs/Chimaltenango.csv
Leyendo archivo: Datos/CSVs/Quetzaltenango.csv
Leyendo archivo: Datos/CSVs/Guatemala.csv
Leyendo archivo: Datos/CSVs/Escuintla.csv
Leyendo archivo: Datos/CSVs/Huehuetenango.csv
Leyendo archivo: Datos/CSVs/Jalapa.csv
Leyendo archivo: Datos/CSVs/El Progreso.csv
Leyendo archivo: Datos/CSVs/Jutiapa.csv

Importaci

Se importaron todos los datos. Como tiene todas las mismas columnas, se unen horizontalmente para integrarlo todo en un mismo dataframe y manejarlo como un conjunto de datos. 

# 2. Análisis del estado de los datos crudos

In [3]:
# Muestra la información del dataset unido
print(df_unido.info())


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6600 entries, 0 to 6599
Data columns (total 17 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   CODIGO           6600 non-null   object
 1   DISTRITO         6600 non-null   object
 2   DEPARTAMENTO     6600 non-null   object
 3   MUNICIPIO        6600 non-null   object
 4   ESTABLECIMIENTO  6600 non-null   object
 5   DIRECCION        6598 non-null   object
 6   TELEFONO         6554 non-null   object
 7   SUPERVISOR       6600 non-null   object
 8   DIRECTOR         6574 non-null   object
 9   NIVEL            6600 non-null   object
 10  SECTOR           6600 non-null   object
 11  AREA             6600 non-null   object
 12  STATUS           6600 non-null   object
 13  MODALIDAD        6600 non-null   object
 14  JORNADA          6600 non-null   object
 15  PLAN             6600 non-null   object
 16  DEPARTAMENTAL    6600 non-null   object
dtypes: object(17)
memory usage: 876.7

SE puede ver que hay 16 columnas, cada una con 6600 objetos no nulos. Esto quiere decir que en ninguna columna tenemos datos faltantes. 

In [4]:
# Revisa valores únicos por columna
for col in df_unido.columns:
    print(f"\nColumna: {col}")
    print(df_unido[col].value_counts(dropna=False).head())

# Revisa valores nulos
print()
print(df_unido.isnull().sum())


Columna: CODIGO
CODIGO
14-01-0077-46    1
01-03-0097-46    1
01-03-0129-46    1
01-03-0128-46    1
01-03-0127-46    1
Name: count, dtype: int64

Columna: DISTRITO
DISTRITO
01-403    160
11-017    139
01-411    103
05-033     94
18-039     84
Name: count, dtype: int64

Columna: DEPARTAMENTO
DEPARTAMENTO
GUATEMALA         1038
CIUDAD CAPITAL     867
SAN MARCOS         432
ESCUINTLA          393
QUETZALTENANGO     365
Name: count, dtype: int64

Columna: MUNICIPIO
MUNICIPIO
ZONA 1            303
MIXCO             300
VILLA NUEVA       223
QUETZALTENANGO    175
RETALHULEU        156
Name: count, dtype: int64

Columna: ESTABLECIMIENTO
ESTABLECIMIENTO
INSTITUTO NACIONAL DE EDUCACION DIVERSIFICADA                        286
INSTITUTO NACIONAL DE EDUCACIÓN DIVERSIFICADA                        102
CENTRO DE EDUCACIÓN EXTRAESCOLAR -CEEX-                               32
INSTITUTO DE EDUCACION DIVERSIFICADA POR COOPERATIVA DE ENSEÑANZA     22
INSTITUTO DE EDUCACIÓN DIVERSIFICADA POR COOPERATIVA D

Ahora se revisan los valores únicos por columna. Se observa que hay varios de Ciudad Capital y de Guatemala. Tendremos qeu unirlos. 

In [5]:
# Vista previa de los datos
print(df_unido.sample(10))

25           CODIGO DISTRITO    DEPARTAMENTO                  MUNICIPIO  \
2759  17-04-0099-46   17-002           PETEN                 SAN ANDRES   
6276  02-06-0022-46   02-020     EL PROGRESO                    SANSARE   
6070  13-27-0076-46   13-048   HUEHUETENANGO                  AGUACATAN   
2964  11-01-0078-46   11-016      RETALHULEU                 RETALHULEU   
5505  05-02-0074-46   05-007       ESCUINTLA  SANTA LUCIA COTZUMALGUAPA   
5496  05-02-0023-46   05-007       ESCUINTLA  SANTA LUCIA COTZUMALGUAPA   
3835  04-02-2629-46   04-022   CHIMALTENANGO           SAN JOSE POAQUIL   
5648  05-07-0037-46   05-012       ESCUINTLA                  LA GOMERA   
3797  04-01-2747-46   04-001   CHIMALTENANGO              CHIMALTENANGO   
1417  00-01-0727-46   01-403  CIUDAD CAPITAL                     ZONA 1   

25                                      ESTABLECIMIENTO  \
2759      CENTRO EDUCATIVO DE FORMACION INTEGRAL- CEFI-   
6276           COLEGIO SAGRADO CORAZÓN DE JÉSUS Y MARÍA 

Aquí se ve una vista previa del archivo todo unido. 

# 3. Operaciones de limpieza

### A. Unir los datos horizontalmente

Se unen los 23 dataframes para obtener un solo archivo y limpiarlo más efectivamente. 

In [6]:
todos = pd.concat(datos, ignore_index=True)
todos

# Verificación de que las filas son la cantidad correcta
contador = 0
for archivo in datos:
    contador = contador + len(archivo)

print(f'La cantidad de filas coincide: {len(todos) == contador}')
print(f'Hay {len(todos)} establecimientos educativos en Guatemala.')

# Cambiar encabezado a minúsculas


La cantidad de filas coincide: True
Hay 6600 establecimientos educativos en Guatemala.


#### Renombramiento de columnas (mayúsculas a minúsculas)

In [7]:
df_unido.columns = df_unido.columns.str.strip().str.lower().str.replace(' ', '_')

### B. Limpiar variable Teléfono

1. Se eliminan todos los espacios vacíos de la columna (" ") y caracteres no numéricos. 
2. Se mantienen solo los primeros 8 caracteres y se pasan todos al mismo formato.  
3. No se eliminan los registros nulos, sino solo se pone el valor NA. 

In [8]:
def clean_phone(phone):
    phone = str(phone)
    phone = re.sub(r'\D', '', phone)  # elimina cualquier carácter no numérico
    if len(phone) == 8:
        return f' {phone[:4]}-{phone[4:]}'
    elif len(phone) == 0:
        return None
    else:
        return phone  # conservar si no es estándar

df_unido['telefono'] = df_unido['telefono'].apply(clean_phone)

df_unido['telefono'].head(10)


0     7755-1548
1     7755-1551
2     7755-3814
3     7755-0476
4     7755-4695
5     7755-4630
6     7765-6620
7     7756-3692
8     7755-1705
9     7756-3633
Name: telefono, dtype: object

### C. Limpiar variables con nombres (director, supervisor) y dirección 

#### Eliminación de espacios duplicados y caracteres invisibles

In [9]:
text_cols = ['departamento', 'municipio', 'establecimiento', 'direccion', 'supervisor', 'director', 'nivel', 'sector', 'area', 'status', 'modalidad', 'jornada', 'plan', 'departamental']

for col in text_cols:
    df_unido[col] = df_unido[col].astype(str).str.strip()
    df_unido[col] = df_unido[col].str.replace(r'\s+', ' ', regex=True)


#### Corrección de caracteres especiales (tildes y ñ)

Aquí se utilizan reemplazos usuales que se ven cuando se abren los documentos con tildes u otros caracteres complicados. 

In [10]:
import unicodedata

def normalizar_texto(texto):
    if pd.isna(texto):
        return texto
    texto = str(texto)

    reemplazos = {
        "Ã¡": "á", "Ã©": "é", "Ã­": "í", "Ã³": "ó", "Ãº": "ú",
        "Ã": "Á", "Ã‰": "É", "Ã": "Í", "Ã“": "Ó", "Ãš": "Ú",
        "Ã±": "ñ", "Ã‘": "Ñ"
    }
    for k, v in reemplazos.items():
        texto = texto.replace(k, v)

    return texto

#### Correción de departamento “CIUDAD CAPITAL” a “GUATEMALA”

In [11]:
df_unido['departamento'] = df_unido['departamento'].replace(
    {'CIUDAD CAPITAL': 'GUATEMALA'}
)

#### Pasar texto de mayúsculas a formato de nombres propios

In [12]:
def to_title_case(texto):
    if pd.isna(texto):
        return texto
    return str(texto).lower().title()

cols_title_case = ['departamento', 'municipio', 'establecimiento', 'direccion', 'supervisor', 'director', 'nivel', 'sector', 'area', 'status', 'modalidad', 'jornada', 'plan', 'departamental']

for col in cols_title_case:
    if col in df_unido.columns:
        # Primero normalizar caracteres
        df_unido[col] = df_unido[col].apply(normalizar_texto)
        # Luego aplicar formato Título
        df_unido[col] = df_unido[col].apply(to_title_case)

#### Revisión y eliminación de valores faltantes en columnas clave

In [13]:
columnas_clave = ['departamento', 'municipio', 'establecimiento', 'direccion', 'supervisor', 'director', 'nivel', 'sector', 'area', 'status', 'modalidad', 'jornada', 'plan', 'departamental']
df_unido = df_unido.dropna(subset=columnas_clave)

#### Revisar que no haya duplicados con variaciones

Si se encuentran duplicados que podrían ser el mismo usando la librería fuzzy. Con esto, se encuentran nombres muy similares y se verifica si estos registros comparten número de teléfono. Si es así, el nombre del establecimiento se reemplaza por uno de los nombres para que todos los que sean iguales tengan el mismo. 

In [28]:
from thefuzz import fuzz, process

col_establecimiento = "establecimiento"
col_telefono = "telefono"

df_rev = df_unido.copy()
posibles_duplicados = []
nombres_unicos = df_rev[col_establecimiento].dropna().unique()

for nombre in nombres_unicos:
    coincidencias = process.extract(nombre, nombres_unicos, scorer=fuzz.token_sort_ratio, limit=None)
    similares = [t[0] for t in coincidencias if t[1] >= 90 and t[0] != nombre]  # umbral 90%
    if similares:
        posibles_duplicados.append((nombre, similares))

# Mostrar posibles duplicados por nombre
for base, sims in posibles_duplicados:
    print(f"REVISAR: '{base}' -- {sims}")


#Reemplazos
reemplazos_contador = 0
reemplazos_ejemplos = []

for base, sims in posibles_duplicados:

    phones_base = set(df_rev.loc[df_rev[col_establecimiento] == base, col_telefono].dropna().unique())
    if not phones_base:
        # si la "base" no tiene teléfonos asociados, no hay nada que comparar
        continue

    for similar in sims:
        # teléfonos asociados con la variante "similar"
        phones_similar = set(df_rev.loc[df_rev[col_establecimiento] == similar, col_telefono].dropna().unique())
        # teléfonos que comparten exactamente (intersección)
        shared_phones = phones_base & phones_similar

        for phone in shared_phones:
            mask = (df_rev[col_establecimiento] == similar) & (df_rev[col_telefono] == phone)
            n_replace = mask.sum()
            if n_replace > 0:
                # Reemplazar el nombre variante por la versión base en las filas con el mismo teléfono
                df_rev.loc[mask, col_establecimiento] = base
                reemplazos_contador += int(n_replace)
                reemplazos_ejemplos.append({
                    "telefono": phone,
                    "de": similar,
                    "a": base,
                    "n_reemplazadas": int(n_replace)
                })

# Resumen
print(f"\nReemplazos realizados: {reemplazos_contador}")
if reemplazos_ejemplos:
    print("Ejemplos de reemplazo (hasta 10):")
    for ex in reemplazos_ejemplos[:10]:
        print(ex)
else:
    print("No se detectaron casos en los que la variante y la base compartieran teléfono.")

REVISAR: 'Colegio Mixto Bilingue Intercultural "Q´Ij"' -- ['Colegio Mixto Bilingue Intercultural Q Ij']
REVISAR: 'Instituto Nacional De Educacion Diversificada' -- ['Instituto Nacional De Educación Diversificada', 'Instituto Nacional De Educaciòn Diversificada', 'Instituto Nacional De Educacion Diversificado', 'Instituto Nacional De Educación Diversificado', 'Instituto Nacional De Educacion Diversificada -Ined-', 'Instituto Nacional De Educacion Diversificada Ined', 'Instituto Nacional De Educacion Diversificada- Ined-', 'Instituto Nacional De Educacion Diversificada, Ined', 'Ined Instituto Nacional De Educación Diversificada', 'Instituto Nacional De Educación Diversificada -Ined-', 'Instituto Nacional De Educación Diversificada- Ined-', 'Instituto Nacional De Educación Diversificada, Ined', 'Instituto Nacional De Educacion Diversificada Puente', 'Instituto Nacional De Educacion Diversificada "Itzapa"', 'Instituto Nacional De Educacion Diversificado-Ined-', 'Instituto Municipal De Educ

# 4. Guardar datos limpios

In [29]:
df_rev.to_csv("dataset_limpio.csv", index=False, encoding='utf-8-sig')
print("Dataset limpio exportado como dataset_limpio.csv")

Dataset limpio exportado como dataset_limpio.csv
