In [1]:
import pandas as pd
import os

def describir_dataset(archivo):
    with open("estadisticas.txt", "w", encoding='utf-8') as f:  
        f.write("Análisis de todos los datasets\n")
        f.write("="*60 + "\n")
        
        for archivo in os.listdir("departamentos_csv"):
            if archivo.endswith(".csv"):
                print(f"\n--- Analizando el archivo: {archivo} ---")
                
                try:
                    df = pd.read_csv(f"departamentos_csv/{archivo}")
                    
                    f.write(f"\n--- Analizando el archivo: {archivo} ---\n")
                    f.write(f"\nESTADÍSTICAS DETALLADAS:\n")
                    f.write(f" Filas iniciales: {df.shape[0]}\n")
                    f.write(f" Variables iniciales: {df.shape[1]}\n")
                    
                    for col in df.columns:
                        f.write(f"\n Variable {col}:\n")
                        f.write(f" Tipo: {df[col].dtype}\n")
                        f.write(f" Valores únicos: {df[col].nunique()}\n")
                        f.write(f" Valores nulos: {df[col].isnull().sum()}\n")
                        f.write(f" Valores duplicados: {df[col].duplicated().sum()}\n")
                        
                        if df[col].dtype in ['int64', 'float64']:
                            f.write(f" Min: {df[col].min()}\n")
                            f.write(f" Max: {df[col].max()}\n")
                            f.write(f" Media: {df[col].mean():.2f}\n")
                        else:
                            valor_comun = df[col].mode().iloc[0] if not df[col].mode().empty else 'N/A'
                            f.write(f" Valor más común: {valor_comun}\n")
                    
                    f.write("\n" + "="*50 + "\n")
                    
                except Exception as e:
                    f.write(f"Error con {archivo}: {e}\n")
                    print(f"Error con {archivo}: {e}")

        
        
for archivo in os.listdir("departamentos_csv"):
    if archivo.endswith(".csv"):
        print(f"\n--- Analizando el archivo: {archivo} ---")
        respuesta = describir_dataset(archivo)


--- Analizando el archivo: alta_verapaz.csv ---

--- Analizando el archivo: alta_verapaz.csv ---

--- Analizando el archivo: baja_verapaz.csv ---

--- Analizando el archivo: chimaltenango.csv ---

--- Analizando el archivo: chiquimula.csv ---

--- Analizando el archivo: ciudad_capital.csv ---

--- Analizando el archivo: el_progreso.csv ---

--- Analizando el archivo: escuintla.csv ---

--- Analizando el archivo: guatemala.csv ---

--- Analizando el archivo: huehuetenango.csv ---

--- Analizando el archivo: izabal.csv ---

--- Analizando el archivo: jalapa.csv ---

--- Analizando el archivo: jutiapa.csv ---

--- Analizando el archivo: peten.csv ---

--- Analizando el archivo: quetzaltenango.csv ---

--- Analizando el archivo: quiche.csv ---

--- Analizando el archivo: retalhuleu.csv ---

--- Analizando el archivo: sacatepequez.csv ---

--- Analizando el archivo: santa_rosa.csv ---

--- Analizando el archivo: san_marcos.csv ---

--- Analizando el archivo: solola.csv ---

--- Analizando 

In [1]:
# Cargar y combinar todos los archivos para calcular total de filas y columnas
import pandas as pd
import os

ruta = "departamentos_csv"
archivos_csv = [os.path.join(ruta, f) for f in os.listdir(ruta) if f.endswith(".csv")]

df_list = [pd.read_csv(f, encoding='utf-8') for f in archivos_csv]
df_completo = pd.concat(df_list, ignore_index=True)

print("Filas totales:", df_completo.shape[0])
print("Columnas totales:", df_completo.shape[1])


Filas totales: 6584
Columnas totales: 18


### Descripción del conjunto de datos

El conjunto de datos fue construido a partir de múltiples archivos .csv, cada uno representando información educativa de un departamento del país.

Tras combinarlos, se obtuvo un dataset con 18,586 registros (filas) y 17 variables (columnas) en su forma cruda, sin limpieza. Estas variables incluyen información como nombre del establecimiento, municipio, supervisor, dirección, teléfono, entre otros.


-----------------------------------
### Liste las variables que más operaciones de limpieza necesitarán. 
----------------------------------

Tras el analizis de los arhcivos .csv de los diferentes departamentos, se observo que los datos presentan las siguientes características comunes:
 - Variables categóricas con escritura inconsistente, como el uso mixto de mayúsculas y minúsculas, errores ortográficos y abreviaturas no estandarizadas.

 - Columnas sin nombre útil (ej. Unnamed: 1), probablemente generadas por exportaciones de Excel mal estructuradas.

 - Duplicidad en valores clave, especialmente en nombres de establecimientos y supervisores, donde pequeños cambios en ortografía generan múltiples registros que deberían ser uno solo.

 - Formatos no estandarizados en campos como TELEFONO y DIRECCION, lo cual complica validaciones automáticas.

 - Presencia de caracteres especiales innecesarios en varias columnas.

 - Valores nulos o incompletos en campos relevantes, lo cual puede afectar análisis estadísticos posteriores.

### Variables que más operaciones de limpieza necesitarán

A partir del análisis de los archivos CSV, se identificaron las siguientes variables como las más problemáticas y que requerirán mayor cantidad de operaciones de limpieza:

- ESTABLECIMIENTO
  - Escritura inconsistente (mayúsculas, espacios, tildes).
  - Errores ortográficos.
  - Duplicados con diferencias mínimas de formato.

- DIRECCION  
  - Uso combinado de mayúsculas y minúsculas.
  - Caracteres especiales o símbolos innecesarios.
  - Información incompleta o ambigua.

- TELEFONO  
  - Formato inconsistente: uso de guiones, paréntesis, espacios o prefijos.
  - Algunos registros pueden tener valores inválidos o estar vacíos.

- SUPERVISOR / DIRECTOR 
  - Diferentes formas de escribir un mismo nombre.
  - Abreviaciones o errores ortográficos frecuentes.
  - Escritura inconsistente con y sin tildes.

- MUNICIPIO
  - Variaciones de nombre por errores ortográficos o uso de acentos.
  - Duplicidad con nombres levemente distintos.



### Estrategia para limpiar el conjunto de datos

- Para la variable "ESTABLECIMIENTO" se planea : 
1. Convertir todos los valores a mayúsculas o minúsculas para homogeneizar.

2. Hacer trimming al eliminar espacios innecesarios.

3. Usar herramientas de búsqueda aproximada, como fuzzy matching, para detectar nombres similares con diferencias mínimas.

4. Corregir errores ortográficos comunes en nombres repetidos.

5. Eliminar duplicados. 
----------------------------------

- Para la variable "DIRECCION" se planea:
1. Unificar el uso de mayúsculas y minúsculas para todo el campo.

2. Eliminar símbolos y caracteres especiales innecesarios. 

3. Corregir abreviaturas comunes como "AV" a "AVENIDA", para facilitar el análisis.

4. Completar valores ambiguos. 

5. Verificar patrones para dividir la dirección en partes.
----------------------------------

- Para la variable "TELEFONO" se planea: 
1. Eliminar espacios, guiones, paréntesis y otros caracteres no numéricos.

2. Validar longitud de 8 dígitos para detectar números inválidos.

3. Tratar valores nulos para evitar pérdida de datos.
----------------------------------

- Para las variables "SUPERVISOR / DIRECTOR" se planea:
1. Convertir nombres a mayúsculas o minúsculas.

2. Eliminar espacios innecesarios y normalizar caracteres acentuados.

3. Crear un catálogo de nombres estandarizados.
----------------------------------

- Para la variable "MUNICIPIO" se planea:  
1. Uniformar el uso de mayúsculas y minusculas y eliminar tildes.

2. Corregir errores ortográficos evidentes y mapear variaciones.

3. Reemplazar valores no válidos por un marcador, si no se puede corregir.
