## Proyecto 1
### Minería de datos
#### Javier Ovalle, José Ángel Morales, Ricardo Morales; 22103, 22689, 22289

Se importan las librerías a utilizar para leer los archivos html descargados

In [32]:
from bs4 import BeautifulSoup
import csv
import os
import pandas as pd
import numpy as np


El siguiente código lee cada uno de los archivos html y extrae el contenido de las tablas donde se muestran los datos útiles.

In [None]:
from bs4 import BeautifulSoup
import csv
import os

def process_html_files_to_single_csv(html_file_paths, output_csv_file="centros_educativos_todos.csv"): #Nombre de la función y nombre del archivo de salida por defecto
    """
    Lee el contenido HTML de múltiples archivos, extrae los datos de las tablas
    y los consolida en un único archivo CSV.

    Args:
        html_file_paths (list): Una lista de rutas a los archivos HTML de entrada. # CAMBIO: Tipo de argumento a lista
        output_csv_file (str): El nombre del archivo CSV de salida consolidado.
    """
    all_data = []
    headers = []
    first_file_processed = False #Bandera para controlar la escritura de encabezados

    for html_file_path in html_file_paths: #Bucle para iterar sobre múltiples archivos
        if not os.path.exists(html_file_path):
            print(f"Error: El archivo '{html_file_path}' no se encontró. Saltando este archivo.") #Mensaje de error más específico
            continue

        try:
            with open(html_file_path, 'r', encoding='utf-8') as f:
                html_content = f.read()
        except Exception as e:
            print(f"Error al leer el archivo HTML '{html_file_path}': {e}. Saltando este archivo.") 
            continue

        soup = BeautifulSoup(html_content, 'html.parser')

        # Encontrar la tabla por su ID
        table = soup.find('table', id='_ctl0_ContentPlaceHolder1_dgResultado')

        if not table:
            print(f"No se encontró la tabla con el ID '_ctl0_ContentPlaceHolder1_dgResultado' en '{html_file_path}'. Saltando este archivo.") 
            continue

        # Extraer los encabezados de la tabla solo una vez
        if not first_file_processed: #Condición para extraer encabezados solo la primera vez
            header_row = table.find('tr', style="background-color:LightSteelBlue;")
            if header_row:
                for th in header_row.find_all('td')[1:]:
                    headers.append(th.get_text(strip=True))
            else:
                print(f"No se encontraron los encabezados de la tabla en '{html_file_path}'.") 
                # Si no hay encabezados en el primer archivo, no podemos continuar con una estructura de CSV clara
                continue #Continuar al siguiente archivo si no hay encabezados

        # Extraer las filas de datos
        # Ignorar la primera fila que son los encabezados
        for row in table.find_all('tr')[1:]:
            row_data = []
            # Ignorar la primera celda que contiene el botón de selección
            for i, td in enumerate(row.find_all('td')):
                if i == 0:  # Saltar la primera columna (botón de selección)
                    continue
                row_data.append(td.get_text(strip=True))
            if row_data: # Solo añadir si hay datos reales
                all_data.append(row_data) # CAMBIO: Añadir a la lista consolidada

        first_file_processed = True #Marcar que al menos un archivo ha sido procesado

    # Guardar todos los datos en un único archivo CSV
    if not headers: # Verificar si se pudieron obtener los encabezados
        print("No se pudieron extraer los encabezados de ninguna tabla. No se creará el archivo CSV.")
        return

    if not all_data: # Verificar si se extrajo algún dato
        print("No se extrajo ningún dato de los archivos HTML. No se creará el archivo CSV.")
        return

    try:
        with open(output_csv_file, 'w', newline='', encoding='utf-8') as csvfile: # CAMBIO: Abrir en modo 'w' para escribir el archivo consolidado
            csv_writer = csv.writer(csvfile)
            csv_writer.writerow(headers)  # Escribir los encabezados una sola vez
            csv_writer.writerows(all_data)    # Escribir todos los datos
        print(f"Todos los datos se han consolidado y guardado exitosamente en '{output_csv_file}'")
    except Exception as e:
        print(f"Error al escribir el archivo CSV consolidado: {e}")


# --- Uso del script ---
# CAMBIO: Lista de archivos HTML de ejemplo (reemplaza con tus rutas reales)
html_files_to_process = [
    "C:\\Users\\javie\\Documents\\UVG\\Cuarto año\\Segundo Semestre\\Data Science\\Archivos P1DS\\AltaVerapaz.html",
    "C:\\Users\\javie\\Documents\\UVG\\Cuarto año\\Segundo Semestre\\Data Science\\Archivos P1DS\\BajaVerapaz.html", 
    "C:\\Users\\javie\\Documents\\UVG\\Cuarto año\\Segundo Semestre\\Data Science\\Archivos P1DS\\Chimaltenango.html",
    "C:\\Users\\javie\\Documents\\UVG\\Cuarto año\\Segundo Semestre\\Data Science\\Archivos P1DS\\Chiquimula.html",
    "C:\\Users\\javie\\Documents\\UVG\\Cuarto año\\Segundo Semestre\\Data Science\\Archivos P1DS\\ElProgreso.html",
    "C:\\Users\\javie\\Documents\\UVG\\Cuarto año\\Segundo Semestre\\Data Science\\Archivos P1DS\\Escuintla.html",
    "C:\\Users\\javie\\Documents\\UVG\\Cuarto año\\Segundo Semestre\\Data Science\\Archivos P1DS\\Guatemala.html",
    "C:\\Users\\javie\\Documents\\UVG\\Cuarto año\\Segundo Semestre\\Data Science\\Archivos P1DS\\Huehuetenango.html",
    "C:\\Users\\javie\\Documents\\UVG\\Cuarto año\\Segundo Semestre\\Data Science\\Archivos P1DS\\Izabal.html",
    "C:\\Users\\javie\\Documents\\UVG\\Cuarto año\\Segundo Semestre\\Data Science\\Archivos P1DS\\Jalapa.html",
    "C:\\Users\\javie\\Documents\\UVG\\Cuarto año\\Segundo Semestre\\Data Science\\Archivos P1DS\\Jutiapa.html",
    "C:\\Users\\javie\\Documents\\UVG\\Cuarto año\\Segundo Semestre\\Data Science\\Archivos P1DS\\Peten.html",
    "C:\\Users\\javie\\Documents\\UVG\\Cuarto año\\Segundo Semestre\\Data Science\\Archivos P1DS\\Quetzaltenango.html",
    "C:\\Users\\javie\\Documents\\UVG\\Cuarto año\\Segundo Semestre\\Data Science\\Archivos P1DS\\Quiche.html",
    "C:\\Users\\javie\\Documents\\UVG\\Cuarto año\\Segundo Semestre\\Data Science\\Archivos P1DS\\Retalhuleu.html",
    "C:\\Users\\javie\\Documents\\UVG\\Cuarto año\\Segundo Semestre\\Data Science\\Archivos P1DS\\Sacatepequez.html",
    "C:\\Users\\javie\\Documents\\UVG\\Cuarto año\\Segundo Semestre\\Data Science\\Archivos P1DS\\SanMarcos.html",
    "C:\\Users\\javie\\Documents\\UVG\\Cuarto año\\Segundo Semestre\\Data Science\\Archivos P1DS\\SantaRosa.html",
    "C:\\Users\\javie\\Documents\\UVG\\Cuarto año\\Segundo Semestre\\Data Science\\Archivos P1DS\\Solola.html",
    "C:\\Users\\javie\\Documents\\UVG\\Cuarto año\\Segundo Semestre\\Data Science\\Archivos P1DS\\Suchitepequez.html",
    "C:\\Users\\javie\\Documents\\UVG\\Cuarto año\\Segundo Semestre\\Data Science\\Archivos P1DS\\Totonicapan.html",
    "C:\\Users\\javie\\Documents\\UVG\\Cuarto año\\Segundo Semestre\\Data Science\\Archivos P1DS\\Zacapa.html",
]



process_html_files_to_single_csv(html_files_to_process) # CAMBIO: Llamada a la nueva función con la lista de archivos

Todos los datos se han consolidado y guardado exitosamente en 'centros_educativos_todos.csv'


Ahora solo se muestra la cola del archivo .csv mostrando que si se guardaron desde Alta Verapaz hasta Zacapa.

In [34]:
ejemplo = pd.read_csv("C:\\Users\\javie\\Documents\\UVG\\Cuarto año\\Segundo Semestre\\Data Science\\centros_educativos_todos.csv")
ejemplo.tail()

Unnamed: 0,CODIGO,DISTRITO,DEPARTAMENTO,MUNICIPIO,ESTABLECIMIENTO,DIRECCION,TELEFONO,SUPERVISOR,DIRECTOR,NIVEL,SECTOR,AREA,STATUS,MODALIDAD,JORNADA,PLAN,DEPARTAMENTAL
5750,19-09-0048-46,19-021,ZACAPA,LA UNION,"LICEO PARTICULAR MIXTO ""JIREH""",BARRIO NUEVO,79418369.0,ASBEL IVÁN SÚCHITE ARROYO,ANA MARÍA CUELLAR GUERRA,DIVERSIFICADO,PRIVADO,URBANA,ABIERTA,MONOLINGUE,SIN JORNADA,SEMIPRESENCIAL (UN DÍA A LA SEMANA),ZACAPA
5751,19-10-0013-46,19-015,ZACAPA,HUITE,INSTITUTO DIVERSIFICADO,BARRIO BUENOS AIRES,48579171.0,SILDY MARIELA PEREZ FRANCO,WUENDY JHOJANA SIERRA PAZ,DIVERSIFICADO,OFICIAL,URBANA,ABIERTA,MONOLINGUE,NOCTURNA,DIARIO(REGULAR),ZACAPA
5752,19-10-1009-46,19-015,ZACAPA,HUITE,INSTITUTO DIVERSIFICADO POR COOPERATIVA,BARRIO EL CAMPO,55958103.0,SILDY MARIELA PEREZ FRANCO,ROBIDIO PORTILLO SALGUERO,DIVERSIFICADO,COOPERATIVA,URBANA,ABIERTA,MONOLINGUE,VESPERTINA,DIARIO(REGULAR),ZACAPA
5753,19-11-0018-46,19-020,ZACAPA,SAN JORGE,INSTITUTO MIXTO DE EDUCACIÓN DIVERSIFICADA POR...,BARRIO EL CENTRO,41447589.0,ALBA LUZ MENDEZ,VICTOR HUGO GUERRA MONROY,DIVERSIFICADO,COOPERATIVA,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ZACAPA
5754,,,,,,,,,,,,,,,,,


In [None]:
import pandas as pd
import numpy as np

# --- 1. Cargar el conjunto de datos ---

try:
    df = pd.read_csv('centros_educativos_todos.csv', encoding='utf-8')
    print("Dataset cargado exitosamente.")
except FileNotFoundError:
    print("Error: 'centros_educativos_todos.csv' no encontrado. Asegúrate de que el archivo existe y la ruta es correcta.")

# --- 2. Describir el conjunto de datos ---
print("\n--- Descripción Inicial del Dataset ---")
print(f"Filas iniciales (registros crudos): {df.shape[0]}")
print(f"Número de variables (columnas): {df.shape[1]}")

print("\nInformación general del DataFrame:")
df.info()

print("\nEstadísticas descriptivas básicas para columnas numéricas (si las hay):")
print(df.describe(include='all')) # Incluye estadísticas para todas las columnas

print("\nValores nulos por columna:")
print(df.isnull().sum())

print("\nValores únicos por columna (primeros 10 si hay muchos):")
for col in df.columns:
    unique_values = df[col].nunique()
    if unique_values > 10:
        print(f"- {col}: {unique_values} valores únicos (ejemplo: {df[col].unique()[:5]}...)")
    else:
        print(f"- {col}: {unique_values} valores únicos ({df[col].unique()})")

# --- 3. Listar las variables que más operaciones de limpieza necesitarán ---
print("\n--- Variables que probablemente necesitarán más limpieza ---")
print("Basado en el análisis inicial y la naturaleza de los datos, las siguientes variables son candidatas para limpieza intensiva:")
print("1. Establecimiento")
print("2. Direccion")
print("3. Telefono")
print("4. Supervisor")
print("5. Director")
print("6. Nivel")
print("7. Sector")
print("8. Area")
print("9. Modalidad")
print("10. Jornada")
print("11. Plan")
print("\nOtras variables como 'CODIGO', 'DISTRITO', 'DEPARTAMENTO', 'MUNICIPIO', 'ESTATUS', 'DEPARTAMENTAL' también pueden requerir validación y estandarización.")

# --- 4. Especificar una estrategia para limpiar el conjunto de datos ---
print("\n--- Estrategia de Limpieza Detallada ---")

# Estrategia general para todas las columnas de texto
print("\nEstrategia General para Variables de Texto (Establecimiento, Direccion, Supervisor, Director, Nivel, Sector, Area, Modalidad, Jornada, Plan, Departamento, Municipio, Estatus, Departamental):")
print("  - **Eliminar espacios en blanco:** Eliminar espacios iniciales/finales (`.strip()`) y múltiples espacios internos (`re.sub(r'\s+', ' ', text)`).")
print("  - **Manejo de valores nulos/vacíos:** Identificar y decidir si rellenar con un valor por defecto (ej. 'DESCONOCIDO'), o dejar como `NaN` si no aplica.")
print("  - **Estandarización de mayúsculas/minúsculas:** Convertir todo a mayúsculas (`.str.upper()`) o minúsculas (`.str.lower()`) para asegurar consistencia en las comparaciones.")

print("\nEstrategia Específica por Variable:")

print("\nPara la variable 'ESTABLECIMIENTO':")
print("  - **Convertir todo a mayúsculas:** Esto ayuda a tratar 'Escuela' y 'escuela' como el mismo valor.")
print("  - **Eliminar duplicados (dentro de un contexto):** Si se refiere a nombres de establecimientos, se debe tener cuidado con los 'duplicados' que en realidad son nombres similares pero de diferentes establecimientos (ej. 'Escuela Primaria A' y 'Escuela Primaria B'). La eliminación de duplicados exactos es segura. Para nombres similares, se podría usar técnicas de 'fuzzy matching' para identificar posibles errores tipográficos.")
print("  - **Revisar errores ortográficos o de cambios de letras en nombres:**")
print("    - **Normalización de caracteres:** Reemplazar caracteres especiales o acentos por sus equivalentes sin acento (ej. 'á' por 'a', 'ñ' por 'n') para facilitar la comparación, pero *manteniendo los caracteres originales para la salida final* si se requiere precisión ortográfica en los informes.")
print("    - **Corrección manual/semi-automática:** Para errores obvios (ej. 'Esuela' por 'Escuela'), se puede usar un diccionario de correcciones o herramientas de 'fuzzy matching' para sugerir correcciones. Sin embargo, la validación humana es crucial para los nombres propios.")
print("    - **Consolidación de variaciones:** Si hay variaciones como 'Esc. Primaria' y 'Escuela Primaria', estandarizar a una forma preferida.")
print("  - **Eliminar valores como '&nbsp;':** Convertir estos a `NaN` o a una cadena vacía.")


print("\nPara la variable 'DIRECCION':")
print("  - **Convertir todo a mayúsculas/minúsculas:** Para consistencia.")
print("  - **Normalización de abreviaturas:** Estandarizar abreviaturas comunes (ej. 'Av.' a 'Avenida', 'Col.' a 'Colonia').")
print("  - **Eliminar información redundante o no estructurada:** Si hay descripciones largas, intentar extraer solo la parte relevante de la dirección.")
print("  - **Geocodificación (opcional):** Si se necesita, convertir direcciones a coordenadas geográficas para análisis espacial.")
print("  - **Manejo de '&nbsp;':** Convertir a `NaN` o a una cadena vacía.")

print("\nPara la variable 'TELEFONO':")
print("  - **Eliminar caracteres no numéricos:** Remover paréntesis, guiones, espacios, etc., dejando solo los dígitos.")
print("  - **Estandarizar formato:** Asegurar que todos los números tengan el mismo número de dígitos (ej. 8 dígitos para números de Guatemala). Rellenar con ceros si es necesario o marcar como inválidos si son demasiado cortos/largos.")
print("  - **Manejo de valores faltantes/inválidos:** Convertir '&nbsp;' o cadenas vacías a `NaN`. Decidir si los números con formato incorrecto deben ser `NaN` o intentar corregirlos.")

print("\nPara las variables 'SUPERVISOR' y 'DIRECTOR':")
print("  - **Convertir todo a mayúsculas/minúsculas:** Para consistencia.")
print("  - **Eliminar espacios extra:** Espacios iniciales/finales y múltiples espacios internos.")
print("  - **Estandarizar nombres:** Si hay variaciones en cómo se escriben los nombres de las mismas personas (ej. 'Juan Pérez' vs 'Perez, Juan'), aplicar reglas de estandarización. Esto puede requerir 'fuzzy matching' o un diccionario de nombres.")
print("  - **Manejo de valores nulos/vacíos:** Convertir '&nbsp;' o cadenas vacías a `NaN`.")

print("\nPara las variables 'NIVEL', 'SECTOR', 'AREA', 'MODALIDAD', 'JORNADA', 'PLAN', 'DEPARTAMENTO', 'MUNICIPIO', 'ESTATUS', 'DEPARTAMENTAL':")
print("  - **Convertir todo a mayúsculas/minúsculas:** Para consistencia.")
print("  - **Eliminar espacios extra:** Espacios iniciales/finales y múltiples espacios internos.")
print("  - **Estandarización de categorías:** Revisar los valores únicos (`.unique()`) y consolidar variaciones (ej. 'OFICIAL' vs 'Oficial', 'RURAL' vs 'Rural').")
print("  - **Manejo de valores nulos/vacíos:** Convertir '&nbsp;' o cadenas vacías a `NaN`.")
print("  - **Validación contra listas predefinidas:** Si existen listas de valores válidos para estas categorías (ej. lista de municipios de Guatemala), validar los datos contra ellas y corregir o marcar los valores inválidos.")

print("\n--- Consideraciones Adicionales para la Limpieza ---")
print("  - **Copia del DataFrame:** Siempre trabaja en una copia del DataFrame (`df.copy()`) para no modificar el original durante la limpieza.")
print("  - **Documentación:** Documenta cada paso de limpieza que realices para que sea reproducible.")
print("  - **Validación:** Después de cada paso de limpieza importante, valida los resultados (ej. revisa los valores únicos, cuenta los nulos, etc.).")
print("  - **Colaboración:** Si es posible, consulta con expertos en el dominio para validar las correcciones, especialmente en nombres propios y direcciones.")


Dataset cargado exitosamente.

--- Descripción Inicial del Dataset ---
Filas iniciales (registros crudos): 5755
Número de variables (columnas): 17

Información general del DataFrame:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5755 entries, 0 to 5754
Data columns (total 17 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   CODIGO           5733 non-null   object
 1   DISTRITO         5733 non-null   object
 2   DEPARTAMENTO     5733 non-null   object
 3   MUNICIPIO        5733 non-null   object
 4   ESTABLECIMIENTO  5733 non-null   object
 5   DIRECCION        5731 non-null   object
 6   TELEFONO         5687 non-null   object
 7   SUPERVISOR       5733 non-null   object
 8   DIRECTOR         5710 non-null   object
 9   NIVEL            5733 non-null   object
 10  SECTOR           5733 non-null   object
 11  AREA             5733 non-null   object
 12  STATUS           5733 non-null   object
 13  MODALIDAD        5733 non-null