## Proyecto 1
### Minería de datos
#### Javier Ovalle, José Ángel Morales, Ricardo Morales; 22103, 22689, 22289

Se importan las librerías a utilizar para leer los archivos html descargados

In [21]:
from bs4 import BeautifulSoup
import csv
import os


El siguiente código lee cada uno de los archivos html y extrae el contenido de las tablas donde se muestran los datos útiles.

In [27]:
from bs4 import BeautifulSoup
import csv
import os

def process_html_files_to_single_csv(html_file_paths, output_csv_file="centros_educativos_todos.csv"): # CAMBIO: Nombre de la función y nombre del archivo de salida por defecto
    """
    Lee el contenido HTML de múltiples archivos, extrae los datos de las tablas
    y los consolida en un único archivo CSV.

    Args:
        html_file_paths (list): Una lista de rutas a los archivos HTML de entrada. # CAMBIO: Tipo de argumento a lista
        output_csv_file (str): El nombre del archivo CSV de salida consolidado.
    """
    all_data = []
    headers = []
    first_file_processed = False # CAMBIO: Bandera para controlar la escritura de encabezados

    for html_file_path in html_file_paths: # CAMBIO: Bucle para iterar sobre múltiples archivos
        if not os.path.exists(html_file_path):
            print(f"Error: El archivo '{html_file_path}' no se encontró. Saltando este archivo.") # CAMBIO: Mensaje de error más específico
            continue

        try:
            with open(html_file_path, 'r', encoding='utf-8') as f:
                html_content = f.read()
        except Exception as e:
            print(f"Error al leer el archivo HTML '{html_file_path}': {e}. Saltando este archivo.") # CAMBIO: Mensaje de error más específico
            continue

        soup = BeautifulSoup(html_content, 'html.parser')

        # Encontrar la tabla por su ID
        table = soup.find('table', id='_ctl0_ContentPlaceHolder1_dgResultado')

        if not table:
            print(f"No se encontró la tabla con el ID '_ctl0_ContentPlaceHolder1_dgResultado' en '{html_file_path}'. Saltando este archivo.") # CAMBIO: Mensaje de error más específico
            continue

        # Extraer los encabezados de la tabla solo una vez
        if not first_file_processed: # CAMBIO: Condición para extraer encabezados solo la primera vez
            header_row = table.find('tr', style="background-color:LightSteelBlue;")
            if header_row:
                for th in header_row.find_all('td')[1:]:
                    headers.append(th.get_text(strip=True))
            else:
                print(f"No se encontraron los encabezados de la tabla en '{html_file_path}'.") # CAMBIO: Mensaje de error más específico
                # Si no hay encabezados en el primer archivo, no podemos continuar con una estructura de CSV clara
                continue # CAMBIO: Continuar al siguiente archivo si no hay encabezados

        # Extraer las filas de datos
        # Ignorar la primera fila que son los encabezados
        for row in table.find_all('tr')[1:]:
            row_data = []
            # Ignorar la primera celda que contiene el botón de selección
            for i, td in enumerate(row.find_all('td')):
                if i == 0:  # Saltar la primera columna (botón de selección)
                    continue
                row_data.append(td.get_text(strip=True))
            if row_data: # Solo añadir si hay datos reales
                all_data.append(row_data) # CAMBIO: Añadir a la lista consolidada

        first_file_processed = True # CAMBIO: Marcar que al menos un archivo ha sido procesado

    # Guardar todos los datos en un único archivo CSV
    if not headers: # CAMBIO: Verificar si se pudieron obtener los encabezados
        print("No se pudieron extraer los encabezados de ninguna tabla. No se creará el archivo CSV.")
        return

    if not all_data: # CAMBIO: Verificar si se extrajo algún dato
        print("No se extrajo ningún dato de los archivos HTML. No se creará el archivo CSV.")
        return

    try:
        with open(output_csv_file, 'w', newline='', encoding='utf-8') as csvfile: # CAMBIO: Abrir en modo 'w' para escribir el archivo consolidado
            csv_writer = csv.writer(csvfile)
            csv_writer.writerow(headers)  # Escribir los encabezados una sola vez
            csv_writer.writerows(all_data)    # Escribir todos los datos
        print(f"Todos los datos se han consolidado y guardado exitosamente en '{output_csv_file}'")
    except Exception as e:
        print(f"Error al escribir el archivo CSV consolidado: {e}")


# --- Uso del script ---
# CAMBIO: Lista de archivos HTML de ejemplo (reemplaza con tus rutas reales)
html_files_to_process = [
    "C:\\Users\\javie\\Documents\\UVG\\Cuarto año\\Segundo Semestre\\Data Science\\Archivos P1DS\\AltaVerapaz.html",
    "C:\\Users\\javie\\Documents\\UVG\\Cuarto año\\Segundo Semestre\\Data Science\\Archivos P1DS\\BajaVerapaz.html", # Descomenta y añade tus otros archivos HTML aquí
    "C:\\Users\\javie\\Documents\\UVG\\Cuarto año\\Segundo Semestre\\Data Science\\Archivos P1DS\\Chimaltenango.html",
    "C:\\Users\\javie\\Documents\\UVG\\Cuarto año\\Segundo Semestre\\Data Science\\Archivos P1DS\\Chiquimula.html",
    "C:\\Users\\javie\\Documents\\UVG\\Cuarto año\\Segundo Semestre\\Data Science\\Archivos P1DS\\ElProgreso.html",
    "C:\\Users\\javie\\Documents\\UVG\\Cuarto año\\Segundo Semestre\\Data Science\\Archivos P1DS\\Escuintla.html",
    "C:\\Users\\javie\\Documents\\UVG\\Cuarto año\\Segundo Semestre\\Data Science\\Archivos P1DS\\Guatemala.html",
    "C:\\Users\\javie\\Documents\\UVG\\Cuarto año\\Segundo Semestre\\Data Science\\Archivos P1DS\\Huehuetenango.html",
    "C:\\Users\\javie\\Documents\\UVG\\Cuarto año\\Segundo Semestre\\Data Science\\Archivos P1DS\\Izabal.html",
    "C:\\Users\\javie\\Documents\\UVG\\Cuarto año\\Segundo Semestre\\Data Science\\Archivos P1DS\\Jalapa.html",
    "C:\\Users\\javie\\Documents\\UVG\\Cuarto año\\Segundo Semestre\\Data Science\\Archivos P1DS\\Jutiapa.html",
    "C:\\Users\\javie\\Documents\\UVG\\Cuarto año\\Segundo Semestre\\Data Science\\Archivos P1DS\\Peten.html",
    "C:\\Users\\javie\\Documents\\UVG\\Cuarto año\\Segundo Semestre\\Data Science\\Archivos P1DS\\Quetzaltenango.html",
    "C:\\Users\\javie\\Documents\\UVG\\Cuarto año\\Segundo Semestre\\Data Science\\Archivos P1DS\\Quiche.html",
    "C:\\Users\\javie\\Documents\\UVG\\Cuarto año\\Segundo Semestre\\Data Science\\Archivos P1DS\\Retalhuleu.html",
    "C:\\Users\\javie\\Documents\\UVG\\Cuarto año\\Segundo Semestre\\Data Science\\Archivos P1DS\\Sacatepequez.html",
    "C:\\Users\\javie\\Documents\\UVG\\Cuarto año\\Segundo Semestre\\Data Science\\Archivos P1DS\\SanMarcos.html",
    "C:\\Users\\javie\\Documents\\UVG\\Cuarto año\\Segundo Semestre\\Data Science\\Archivos P1DS\\SantaRosa.html",
    "C:\\Users\\javie\\Documents\\UVG\\Cuarto año\\Segundo Semestre\\Data Science\\Archivos P1DS\\Solola.html",
    "C:\\Users\\javie\\Documents\\UVG\\Cuarto año\\Segundo Semestre\\Data Science\\Archivos P1DS\\Suchitepequez.html",
    "C:\\Users\\javie\\Documents\\UVG\\Cuarto año\\Segundo Semestre\\Data Science\\Archivos P1DS\\Totonicapan.html",
    "C:\\Users\\javie\\Documents\\UVG\\Cuarto año\\Segundo Semestre\\Data Science\\Archivos P1DS\\Zacapa.html",
]

# Si tus archivos están en una carpeta específica, puedes hacer algo como esto:
# folder_path = 'C:/Users/TuUsuario/Documentos/DepartamentosHTML' # Ejemplo de ruta de carpeta
# html_files_to_process = [os.path.join(folder_path, f) for f in os.listdir(folder_path) if f.endswith('.html')]


process_html_files_to_single_csv(html_files_to_process) # CAMBIO: Llamada a la nueva función con la lista de archivos

Todos los datos se han consolidado y guardado exitosamente en 'centros_educativos_todos.csv'


Ahora solo se muestra la cola del archivo .csv mostrando que si se guardaron desde Alta Verapaz hasta Zacapa.

In [31]:
ejemplo = pd.read_csv("C:\\Users\\javie\\Documents\\UVG\\Cuarto año\\Segundo Semestre\\Data Science\\centros_educativos_todos.csv")
ejemplo.tail()

Unnamed: 0,CODIGO,DISTRITO,DEPARTAMENTO,MUNICIPIO,ESTABLECIMIENTO,DIRECCION,TELEFONO,SUPERVISOR,DIRECTOR,NIVEL,SECTOR,AREA,STATUS,MODALIDAD,JORNADA,PLAN,DEPARTAMENTAL
5750,19-09-0048-46,19-021,ZACAPA,LA UNION,"LICEO PARTICULAR MIXTO ""JIREH""",BARRIO NUEVO,79418369.0,ASBEL IVÁN SÚCHITE ARROYO,ANA MARÍA CUELLAR GUERRA,DIVERSIFICADO,PRIVADO,URBANA,ABIERTA,MONOLINGUE,SIN JORNADA,SEMIPRESENCIAL (UN DÍA A LA SEMANA),ZACAPA
5751,19-10-0013-46,19-015,ZACAPA,HUITE,INSTITUTO DIVERSIFICADO,BARRIO BUENOS AIRES,48579171.0,SILDY MARIELA PEREZ FRANCO,WUENDY JHOJANA SIERRA PAZ,DIVERSIFICADO,OFICIAL,URBANA,ABIERTA,MONOLINGUE,NOCTURNA,DIARIO(REGULAR),ZACAPA
5752,19-10-1009-46,19-015,ZACAPA,HUITE,INSTITUTO DIVERSIFICADO POR COOPERATIVA,BARRIO EL CAMPO,55958103.0,SILDY MARIELA PEREZ FRANCO,ROBIDIO PORTILLO SALGUERO,DIVERSIFICADO,COOPERATIVA,URBANA,ABIERTA,MONOLINGUE,VESPERTINA,DIARIO(REGULAR),ZACAPA
5753,19-11-0018-46,19-020,ZACAPA,SAN JORGE,INSTITUTO MIXTO DE EDUCACIÓN DIVERSIFICADA POR...,BARRIO EL CENTRO,41447589.0,ALBA LUZ MENDEZ,VICTOR HUGO GUERRA MONROY,DIVERSIFICADO,COOPERATIVA,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ZACAPA
5754,,,,,,,,,,,,,,,,,
