# Web Scraping Selenium-Pandas Pipeline: Extracción, Transformación y Análisis de Votaciones de la Elección a Corte Suprema en Guatemala 2024

## Introducción

El proceso de elección de magistrados para la Corte Suprema de Justicia en Guatemala es uno de los eventos más importantes y complejos dentro del sistema político y judicial del país. Este proyecto tiene como objetivo analizar dicho proceso a través de técnicas avanzadas de extracción, limpieza y transformación de datos, culminando en un análisis de redes para entender los patrones de votación y las conexiones entre los diputados y los candidatos.

#### Objetivo Principal  
El proyecto busca extraer datos del sitio web oficial del Congreso de la República de Guatemala, donde se publican los resultados de las votaciones de cada candidato a magistrado. A partir de estos datos, se generará una **matriz de adyacencia** que representará las relaciones entre los diputados (quién votó por quién) y los candidatos (quiénes recibieron apoyo). Esta matriz será utilizada para realizar un análisis de redes con la herramienta Gephi, proporcionando una visualización clara de las dinámicas políticas y sociales en el proceso.

#### Desafíos Técnicos  
El desarrollo del proyecto enfrentó varios desafíos, entre ellos:  
1. **Contenido Dinámico del Sitio Web**:  
   - El uso de JavaScript para cargar los datos de votación dificultó la extracción directa con herramientas tradicionales como Requests o BeautifulSoup.  
   - La solución fue implementar Selenium para interactuar con el contenido dinámico y capturar los datos necesarios.  

2. **Estructura Fragmentada de los Datos**:  
   - Los resultados de las votaciones están divididos por candidato en páginas individuales, lo que requiere consolidar la información de múltiples fuentes en un único conjunto de datos coherente.  

3. **Transformación de Datos**:  
   - Los votos ("A FAVOR", "CONTRA", nulos) tuvieron que ser estandarizados en un formato binario (`1` para "A FAVOR" y `0` para "CONTRA"/nulos) para facilitar el análisis.  
   - La creación de la matriz de adyacencia implicó estructurar los datos en un formato que permita un análisis efectivo de redes.  

#### Metodología  
El proyecto siguió un enfoque sistemático que incluyó:  
1. **Extracción de Datos**: Uso de Selenium y BeautifulSoup para recopilar la información de votaciones directamente desde el sitio web del Congreso.  
2. **Limpieza y Transformación**: Uso de pandas para organizar, limpiar y estandarizar los datos, convirtiéndolos en un formato estructurado.  
3. **Análisis de Redes**: Generación de una matriz de adyacencia y su análisis visual en Gephi para identificar patrones de apoyo y conexiones políticas.  
4. **Exportación de Resultados**: Creación de archivos CSV que contienen los datos intermedios y finales, permitiendo su reutilización y transparencia.

#### Relevancia  
El análisis del proceso de votación no solo es valioso desde una perspectiva técnica, sino también social y política. Entender cómo los diputados votan en elecciones tan significativas revela dinámicas de poder, patrones de apoyo y posibles influencias externas en el sistema judicial. Al presentar los resultados de manera visual y estructurada, este proyecto aporta transparencia y fomenta el debate informado sobre la independencia judicial en Guatemala.

Esta introducción proporciona un contexto amplio y explica la importancia técnica y social del proyecto, así como los desafíos y soluciones adoptados para alcanzar sus objetivos.

## Contexto Social y Político del Proceso de Elección de Magistrados en Guatemala

En Guatemala, la elección de magistrados de la Corte Suprema de Justicia (CSJ) es un evento crucial que impacta directamente el sistema de justicia del país y la confianza ciudadana en sus instituciones. Este proceso, llevado a cabo por el Congreso de la República, está marcado por su importancia tanto social como política.

#### Importancia Social  
La Corte Suprema de Justicia es la máxima autoridad judicial en Guatemala, encargada de garantizar la aplicación de las leyes y proteger los derechos fundamentales de los ciudadanos. Los magistrados que integran esta corte tienen el poder de influir en decisiones críticas relacionadas con casos de corrupción, derechos humanos y la administración de justicia en general. Por ello, su elección genera gran interés y expectativa en la población, que demanda transparencia y objetividad en el proceso.

#### Relevancia Política  
El proceso de elección en el Congreso de la República está diseñado para seleccionar a los magistrados de una nómina previamente elaborada por la Comisión de Postulación, un órgano compuesto por representantes de diferentes sectores de la sociedad. Sin embargo, en los últimos años, este proceso ha estado bajo escrutinio debido a denuncias de politización y posibles influencias externas en las decisiones de los diputados. Esto ha generado preocupaciones sobre la independencia judicial y la capacidad del sistema para garantizar justicia imparcial.

#### Implicaciones  
La elección de magistrados no solo define la estructura del sistema judicial en los próximos años, sino que también refleja las dinámicas de poder y alianzas políticas dentro del Congreso. Por ello, el seguimiento y análisis de este proceso no solo es importante desde una perspectiva legal, sino también desde un punto de vista ciudadano y académico, ya que impacta profundamente el desarrollo del estado de derecho en Guatemala. 

Este contexto social y político ayuda a comprender por qué un análisis detallado de las votaciones, como el realizado en este proyecto, es fundamental para evaluar la transparencia y los patrones de apoyo en este proceso decisivo.

## Dinámica del Proceso de Elección de Magistrados y su Reflejo en la Estructura del Sitio Web

La elección de magistrados de la Corte Suprema de Justicia en Guatemala implica un proceso complejo y estructurado que se refleja en el diseño y la organización del sitio web oficial del Congreso de la República. Este sitio es la fuente principal para extraer datos sobre los patrones de votación y proporciona información clave sobre cómo se lleva a cabo el proceso. A continuación, se detalla la dinámica de la elección y cómo se representa en la estructura del sitio web.

#### Dinámica del Proceso de Elección  

1. **Selección de Candidatos**:  
   El proceso comienza con la Comisión de Postulación, que compila una lista de candidatos (generalmente 26) que cumplen con los requisitos para desempeñarse como magistrados. Esta lista es remitida al Congreso para su votación.  

2. **Votación en el Congreso**:  
   Durante una sesión plenaria, los diputados votan por cada candidato de manera individual. El proceso está diseñado para que cada candidato sea evaluado por separado, con votos emitidos como "A FAVOR" (a favor) o "CONTRA" (en contra). Los diputados también pueden abstenerse o estar ausentes, lo que resulta en votos nulos.  

3. **Requisito de Mayoría**:  
   Para ser elegido, un candidato debe obtener la mayoría absoluta de votos del total de diputados en el Congreso. Esto a menudo resulta en sesiones de votación prolongadas, ya que lograr la mayoría requerida puede ser complicado, especialmente en un ambiente político polarizado.  

4. **Transparencia Pública**:  
   Los resultados de cada sesión de votación se publican en el sitio web del Congreso, proporcionando detalles como el resultado de la votación para cada candidato y los votos individuales de los diputados. Este nivel de transparencia busca generar confianza pública, pero también abre el proceso a un análisis detallado.  

#### Reflejo del Proceso en el Sitio Web  

1. **Estructura de las Páginas**:  
   Cada sesión de votación para un candidato se documenta en una página específica. La estructura de estas páginas incluye:  
   - **Información del Candidato**: Detalles como el nombre del candidato y el cargo al que aspira.  
   - **Resultados de la Votación**: Tablas que muestran los votos emitidos por los diputados, clasificados como "A FAVOR," "CONTRA" o "AUSENCIA" (ausente/nulo).  
   - **Interactividad**: Menús desplegables y paginación que permiten navegar y visualizar los datos, que pueden incluir cientos de filas dependiendo del número de diputados.  

2. **Contenido Dinámico**:  
   Los datos de votación en el sitio web se generan dinámicamente mediante JavaScript. Esto significa que las tablas y otros elementos clave no están presentes en el código HTML crudo, lo que requiere herramientas como Selenium para interactuar con el sitio y cargar el contenido necesario.  

3. **Desafíos para la Extracción de Datos**:  
   - **Paginación**: Los datos de votación a menudo están divididos en varias páginas, lo que requiere navegación automatizada para recopilar toda la información relevante.  
   - **Menús y Filtros**: Los menús desplegables permiten filtrar los votos por tipo (por ejemplo, "A FAVOR," "CONTRA"), lo que debe ser manejado programáticamente para acceder al conjunto completo de datos.  
   - **Identificación de Tablas**: Las tablas no están etiquetadas de manera consistente, lo que hace necesario confiar en índices posicionales o identificadores específicos para extraer los datos correctos.  

4. **Presentación de los Datos**:  
   El sitio web proporciona información detallada para cada candidato, pero no consolida los resultados de todos los candidatos. Esta fragmentación refleja el proceso de votación, pero requiere procesamiento adicional para crear un conjunto de datos integral para el análisis.  

#### Aspectos clave

La estructura del sitio web refleja la naturaleza segmentada y centrada en el candidato del proceso de votación en el Congreso. Cada sesión es tratada como un evento independiente, con resultados individuales mostrados de manera transparente. Sin embargo, la presentación fragmentada y el uso de contenido dinámico plantean desafíos técnicos para la extracción de datos. Estos desafíos se abordan en este proyecto mediante automatización y procesamiento cuidadoso, permitiendo que los datos sin procesar se transformen en un formato unificado apto para el análisis de redes.  

#### Así es como se ve la sección de votos a favor en el sitio Web del Congreso de la República de Guatemala

![Captura sitio web a favor](https://raw.githubusercontent.com/cdberganza/Scraping_supreme_court_election_gt_2024/refs/heads/main/images/web_vote_in_favour_screenshot.png)

#### Así es como se ve la sección de votos en contra en el sitio Web del Congreso de la República de Guatemala

![Captura sitio en contra](https://raw.githubusercontent.com/cdberganza/Scraping_supreme_court_election_gt_2024/refs/heads/main/images/web_vote_against_screenshot.png)

#### Así es como se ve la sección de votos ausentes en el sitio Web del Congreso de la República de Guatemala

![Captura sitio web ausente](https://raw.githubusercontent.com/cdberganza/Scraping_supreme_court_election_gt_2024/refs/heads/main/images/web_null_vote_screenshot.png)

## Perspectiva Técnica del Proyecto

Este proyecto se centra en la extracción, transformación y análisis de datos de votación del proceso de elección de magistrados de la Corte Suprema en Guatemala. Desde una perspectiva técnica, combina técnicas de web scraping, procesamiento de datos y análisis de redes para generar información sobre los patrones de votación. A continuación, se describe la metodología técnica y las herramientas utilizadas:

#### 1. **Extracción de Datos**  
   - **Desafío**: Los datos se generan dinámicamente en el sitio web oficial del Congreso de Guatemala mediante JavaScript, lo que hace que herramientas de scraping tradicionales como Requests y BeautifulSoup sean insuficientes.  
   - **Solución**: Se utilizó Selenium, una herramienta de automatización para navegadores web, para interactuar con contenido dinámico y extraer la estructura HTML. El flujo de trabajo incluyó:  
     - Navegar a las URLs específicas de cada sesión de votación.  
     - Interactuar con menús desplegables y elementos dinámicos para revelar todos los datos relevantes.  
     - Capturar el código fuente de la página y analizarlo con BeautifulSoup para extraer datos estructurados.  

#### 2. **Transformación de Datos**  
   - **Preparación**: Las tablas extraídas se limpiaron y estandarizaron para garantizar la consistencia entre los datos de los candidatos. Los pasos clave incluyeron:  
     - Ordenar las filas alfabéticamente por los nombres de los diputados.  
     - Convertir los datos de votación a un formato binario (`1` para "A FAVOR" y `0` para "CONTRA" o ausencia).  
     - Renombrar columnas y reiniciar índices para una estructura uniforme.  
   - **Consolidación**: Los datos de las sesiones de votación individuales se transformaron en una matriz de adyacencia unificada que representa a los diputados como filas y a los candidatos como columnas.  

#### 3. **Exportación de Datos**  
   - Los resultados intermedios, incluidos los datos limpios de cada candidato y la matriz de adyacencia final, se exportaron como archivos CSV. Esto asegura la compatibilidad con herramientas externas para análisis adicionales.  

#### 4. **Análisis de Redes**  
   - **Herramienta**: La matriz de adyacencia se importó en Gephi, un software de análisis y visualización de redes.  
   - **Visualización**: Se utilizó Gephi para crear una representación gráfica donde:  
     - Los nodos representaron a los diputados y candidatos.  
     - Las aristas indicaron los votos "A FAVOR", revelando patrones de apoyo.  
   - **Resultado**: El grafo proporcionó una representación visual clara de las dinámicas de votación y conexiones.  

#### 5. **Tecnología Utilizada**  
   - **Librerías de Python**: Selenium, BeautifulSoup, pandas y NumPy fueron componentes clave de la implementación técnica.  
   - **Formatos de Datos**: Se utilizaron archivos CSV para garantizar la portabilidad y compatibilidad con herramientas analíticas.  
   - **Visualización**: Gephi fue la herramienta principal para el análisis y visualización de redes.  

Este marco técnico destaca la capacidad del proyecto para automatizar tareas complejas de extracción de datos, manejar contenido dinámico y transformar datos no estructurados en información útil para el análisis de redes. Demuestra un enfoque escalable y eficiente para procesar datos electorales de manera transparente y reproducible.

## Algoritmo, código y resultados

**Instalación de Librerías Necesarias**

En caso de que sea la primera vez que ejecutas este notebook o no tengas las librerías requeridas instaladas en tu entorno de trabajo, se incluye una celda de código para instalar las dependencias necesarias.

Esta celda utiliza el comando `pip` para instalar las siguientes librerías:

1. **`selenium`**: Permite la interacción automatizada con navegadores para extraer datos dinámicos del sitio web.
2. **`pandas`**: Usada para la limpieza, transformación y análisis de datos.
3. **`numpy`**: Facilita operaciones numéricas, como la creación de la matriz de adyacencia.
4. **`beautifulsoup4`**: Herramienta para analizar y extraer datos estructurados de contenido HTML.
da:

Una vez que las dependencias estén instaladas, puedes proceder a ejecutar el resto del notebook sin problemas. Si ya tienes estas librerías instaladas, puedes omitir esta celda sin afectar la ejecución del proyecto.

In [None]:
!pip install selenium pandas numpy beautifulsoup4

### Importar librerías

En esta sección inicial del proyecto, se importan las librerías y módulos esenciales para la extracción, limpieza y transformación de datos. A continuación, se detalla el propósito de cada una:

- **pandas**: Librería fundamental para el análisis y manipulación de datos estructurados. Se utilizará para trabajar con tablas (DataFrames) y realizar operaciones como limpieza y transformación de los datos extraídos.
- **numpy**: Complemento de pandas para operaciones numéricas avanzadas, como manejo de matrices y cálculos matemáticos.
- **BeautifulSoup**: Herramienta para extraer información de archivos HTML y XML. Aunque el proyecto requiere Selenium debido al uso de JavaScript en el sitio web, podría emplearse para procesar contenido HTML estático.
- **io.StringIO**: Módulo útil para manejar datos como si fueran archivos, facilitando pruebas rápidas y transformación de datos en memoria.
- **sys**: Proporciona acceso a variables y funciones del sistema. En este caso, podría ser utilizado para manejar excepciones o redirigir la salida.
- **selenium**: Biblioteca principal para la automatización de navegadores. Es clave para este proyecto porque el sitio web utiliza JavaScript para cargar las tablas de votaciones. Los módulos importados de Selenium incluyen:
  - **webdriver**: Controla el navegador para la extracción de datos.
  - **common.keys**: Simula interacciones del teclado, como presionar teclas específicas.
  - **common.by**: Permite localizar elementos en la página utilizando diferentes métodos (ID, nombre, clase, etc.).
  - **support.select**: Facilita la interacción con menús desplegables.
  - **support.wait** y **expected_conditions**: Implementan esperas explícitas para asegurarse de que los elementos dinámicos cargados con JavaScript estén disponibles antes de interactuar con ellos.

Estas herramientas son fundamentales para superar las principales dificultades del proyecto: manejar el contenido dinámico del sitio web y transformar las tablas extraídas en una matriz de adyacencia que permita un análisis de redes efectivo.

In [1]:
import pandas as pd
import numpy as np
from bs4 import BeautifulSoup
from io import StringIO
import sys
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.common.by import By
from selenium.webdriver.support.select import Select
from selenium.webdriver.support.wait import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

### Función: Extracción de Contenidos HTML ("Soups") desde URLs

La función `extract_soups(urls)` automatiza el proceso de extracción de contenido HTML (o "soups") desde una lista de URLs utilizando Selenium. A continuación, se detalla su funcionamiento:

1. **Propósito**:  
   La función navega por cada URL proporcionada en la lista `urls`, interactúa con elementos web cargados dinámicamente mediante JavaScript y recopila el contenido de la página como objetos de BeautifulSoup para su posterior procesamiento.

2. **Ejecución Paso a Paso**:  
   - **Inicialización**:  
     - Se crea una instancia de WebDriver de Chrome para automatizar las operaciones en el navegador.  
     - Se inicializa una lista vacía, `soups`, para almacenar el contenido HTML extraído.  
   - **Iteración sobre URLs**:  
     - La función itera por cada URL, cargándola en el navegador.  
     - Se utiliza un objeto `WebDriverWait` para asegurarse de que los elementos de la página estén completamente cargados antes de interactuar con ellos.  
   - **Manejo de Errores**:  
     - Si una página no se carga dentro del tiempo de espera, se muestra un mensaje, se cierra el navegador y el programa finaliza de manera controlada con `sys.exit(1)`.  
   - **Interacción con Menús Desplegables**:  
     - La función interactúa con los menús desplegables (como "A FAVOR", "CONTRA" y "AUSENCIA") para asegurarse de que todas las filas relevantes estén visibles.  
     - Utiliza el módulo `Select` de Selenium para seleccionar la opción que muestra todas las filas (valor `-1`).  
   - **Captura del Contenido de la Página**:  
     - Después de todas las interacciones, la función captura el contenido completo de la página y lo analiza con BeautifulSoup, agregando el resultado a la lista `soups`.  
   - **Finalización**:  
     - Una vez procesadas todas las URLs, se cierra el navegador y se imprime un mensaje de éxito.

3. **Puntos Clave**:  
   - **Contenido Dinámico**: La función asegura que los datos cargados dinámicamente mediante JavaScript (como menús desplegables) estén completamente visibles antes de analizar la página.  
   - **Retroalimentación al Usuario**: Los mensajes impresos informan al usuario sobre el progreso y posibles errores, mejorando la usabilidad del script.  
   - **Manejo de Errores**: El manejo adecuado de los tiempos de espera evita fallos inesperados si una página no se carga correctamente.  

4. **Salida**:  
   - La función devuelve una lista de objetos de BeautifulSoup, cada uno representando el contenido HTML procesado de una URL.

Esta función es crucial para superar el primer desafío del proyecto: extraer datos de páginas renderizadas con JavaScript. Prepara los datos HTML brutos para su posterior procesamiento y análisis.

In [2]:
def extract_soups(urls):

    print("Please wait while the web browser loads and the data extraction automation starts.")
    print("This may take several minutes...\n")
    driver = webdriver.Chrome()
    soups = []
    for url in urls:
        
        driver.get(url)
        wait = WebDriverWait(driver, 10)
        try:
            wait_element_vote_in_favor_length = wait.until(
                EC.presence_of_element_located((By.NAME, "congreso_a_favor_length"))
            )
        except:
            print("The timeout for loading the website has been exceeded. Please close the automated browser window if necessary and try again.\n")
            driver.close()
            sys.exit(1)
        
        element_select_vote_in_favour_length = Select(wait_element_vote_in_favor_length)
        element_select_vote_in_favour_length.select_by_value("-1")
                
        element_select_vote_against = wait.until(
            EC.presence_of_element_located((By.LINK_TEXT, "CONTRA"))
        )
        element_select_vote_against.click()
        
        wait_element_vote_against_length = wait.until(
            EC.presence_of_element_located((By.NAME, "congreso_contra_length"))
        )
        element_select_vote_against_length = Select(wait_element_vote_against_length)
        element_select_vote_against_length.select_by_value("-1")
        
        element_select_null_vote = wait.until(
            EC.presence_of_element_located((By.LINK_TEXT, "AUSENCIA"))
        )
        element_select_null_vote.click()
        
        wait_select_null_vote_length = wait.until(
            EC.presence_of_element_located((By.NAME, "congreso_votos_nulos_length"))
        )
        elemnt_select_null_vote_length = Select(wait_select_null_vote_length)
        elemnt_select_null_vote_length.select_by_value("-1")
                
        soup = BeautifulSoup(driver.page_source, "html.parser")
        soups.append(soup)

    driver.close()
    print("Soups extracted successfully!\n")

    return soups

### Función: Extracción de Metadatos desde un Objeto BeautifulSoup

La función `extract_metadata(soup)` se encarga de extraer información clave (metadatos) de un objeto de BeautifulSoup que representa el contenido HTML de una página. En este caso, extrae el nombre y el número del candidato a magistrado en las votaciones. A continuación, se detalla su funcionamiento:

1. **Propósito**:  
   Extraer el nombre y el número del candidato desde la estructura HTML de la página, donde esta información se encuentra dentro de un encabezado con el ID `"title_list"`. Si los datos no están disponibles o la estructura varía, la función maneja estos casos devolviendo valores `NaN`.

2. **Ejecución Paso a Paso**:  
   - **Acceso al Encabezado**:  
     - La función intenta localizar un elemento `<h5>` con el ID `"title_list"`.  
     - Si se encuentra, busca todos los párrafos (`<p>`) contenidos dentro del encabezado. En caso de error, se utiliza un objeto BeautifulSoup vacío como valor predeterminado.  
   - **Extracción del Nombre del Candidato**:  
     - El segundo párrafo (`title_paragraphs[1]`) debería contener el nombre del candidato, precedido por la frase `"Pregunta: ELECCIÓN DE"`.  
     - Si el texto cumple con esta estructura, se elimina el texto adicional dejando únicamente el nombre.  
     - Si el párrafo no sigue esta estructura o no está presente, se asigna un valor `NaN`.  
   - **Extracción del Número del Candidato**:  
     - El tercer párrafo (`title_paragraphs[2]`) debería contener el número del candidato, precedido por la palabra `"Número:"`.  
     - Si el texto cumple con esta estructura, se elimina el texto adicional para dejar solo el número.  
     - Si el párrafo no sigue esta estructura o no está presente, se asigna un valor `NaN`.  
   - **Manejo de Excepciones**:  
     - Para garantizar que la función no se detenga por errores imprevistos (por ejemplo, si el HTML no contiene los elementos esperados), se utiliza manejo de excepciones (`try-except`) para cada operación.

3. **Salida**:  
   - La función retorna una tupla `(candidate_name, candidate_number)` que contiene el nombre y el número del candidato. Si alguno de los valores no se encuentra, se devuelve `NaN`.

4. **Puntos Clave**:  
   - **Robustez**: El manejo de excepciones asegura que la función puede procesar páginas con estructuras incompletas o inesperadas sin generar errores críticos.  
   - **Flexibilidad**: La función incluye verificaciones para adaptarse a posibles variaciones en los datos textuales presentes en los párrafos.  
   - **Relevancia para el Proyecto**: Esta función extrae metadatos esenciales que se utilizarán para identificar a cada candidato en las votaciones, un paso crucial para consolidar la información en la matriz de adyacencia.

In [3]:
def extract_metadata(soup):

    try:
        title = soup.find("h5", id="title_list")
        title_paragraphs = title.find_all("p")
    except:
        title_paragraphs = BeautifulSoup("", "html.parser")
    try:
        if title_paragraphs[1].text != "Pregunta: ":
            candidate_name = title_paragraphs[1].text.replace("Pregunta: ELECCIÓN DE ", "").replace(" COMO MAGISTRADO DE LA CORTE SUPREMA DE JUSTICIA", "")
        else:
            candidate_name = np.nan
    except:
        candidate_name = np.nan
    try:
        if title_paragraphs[2].text != "Número: ":
            candidate_number = title_paragraphs[2].text.replace("Número: ", "")
        else:
            candidate_number = np.nan
    except:
        candidate_number = np.nan

    return candidate_name, candidate_number


### Función: Extracción y Consolidación de Tablas desde los Objetos BeautifulSoup

La función `extract_tables(soups)` se encarga de extraer las tablas de votaciones de una lista de objetos BeautifulSoup, transformándolas en objetos de pandas DataFrame. Además, consolida los datos correspondientes a cada candidato. A continuación, se explica en detalle su funcionamiento:

1. **Propósito**:  
   Extraer las tablas de votaciones de los diputados para cada candidato y consolidarlas en un único DataFrame por candidato. Este DataFrame incluirá los votos a favor, en contra y los votos nulos.

2. **Ejecución Paso a Paso**:  
   - **Inicialización**:  
     - Se crea una lista vacía, `dfs`, para almacenar los DataFrames generados.  
   - **Iteración sobre los objetos BeautifulSoup**:  
     - Para cada objeto `soup`, se utiliza la función `extract_metadata` para obtener el nombre y el número del candidato.  
     - Si el número del candidato no está disponible (`np.nan`), se omite esa iteración.  
   - **Extracción de Tablas**:  
     - Se intenta localizar todas las tablas presentes en el HTML usando `soup.find_all("table")`. Si no se encuentran tablas, se omite esa iteración.  
   - **Creación de DataFrames por Tipo de Voto**:  
     - Se intenta cargar las tablas correspondientes a los votos "A FAVOR", "CONTRA" y "AUSENCIA" usando `pd.read_html`.  
     - Cada tabla se identifica por su posición en la lista de tablas extraídas.  
     - Si alguna tabla no está disponible, se crea un DataFrame vacío con las columnas necesarias: `"NOMBRE DIPUTADO"`, `"ESTADO"` y `"VOTO"`.  
   - **Consolidación de Datos**:  
     - Los DataFrames de los tres tipos de votos se concatenan verticalmente (`axis=0`) en un único DataFrame que representa todas las votaciones de un candidato.  
     - Se asignan atributos (`attrs`) al DataFrame para almacenar el nombre y el número del candidato extraídos previamente.  
   - **Almacenamiento**:  
     - El DataFrame consolidado se agrega a la lista `dfs`.  
   - **Finalización**:  
     - Una vez procesados todos los objetos `soup`, se imprime un mensaje indicando el éxito de la operación.

3. **Salida**:  
   - La función devuelve una lista de pandas DataFrames, donde cada DataFrame contiene los datos de votación para un candidato, incluyendo los votos "A FAVOR", "CONTRA" y "AUSENCIA".

4. **Puntos Clave**:  
   - **Manejo de Errores**: Cada paso incluye manejo de excepciones para garantizar que errores en una iteración no afecten el procesamiento general.  
   - **Estructura Uniforme**: Los DataFrames generados tienen una estructura uniforme, facilitando su posterior consolidación y análisis.  
   - **Atributos Personalizados**: El uso de atributos en los DataFrames permite conservar metadatos (nombre y número del candidato) asociados a las tablas extraídas.  
   - **Relevancia para el Proyecto**: Esta función es clave para procesar los datos en bruto y prepararlos para la etapa final de consolidación en la matriz de adyacencia.  

In [19]:
def extract_tables(soups):

    dfs = []
    for soup in soups:
        
        df_name, df_number = extract_metadata(soup)
        
        if df_number == np.nan:
            continue
        
        try:
            tables = soup.find_all("table")
        except:
            continue
        
        try:
            df_vote_in_favor = pd.read_html(StringIO(str(tables)))[4]
        except:
            df_vote_in_favor = pd.DataFrame(columns=["NOMBRE DIPUTADO", "ESTADO", "VOTO"])
        try:
            df_vote_against = pd.read_html(StringIO(str(tables)))[5]
        except:
            df_vote_against = pd.DataFrame(columns=["NOMBRE DIPUTADO", "ESTADO", "VOTO"])
        try:
            df_null_vote = pd.read_html(StringIO(str(tables)))[6]
        except:
            df_null_vote = pd.DataFrame(columns=["NOMBRE DIPUTADO", "ESTADO", "VOTO"])
            
        df = pd.concat([df_vote_in_favor, df_vote_against, df_null_vote], axis=0, ignore_index=True)
        df.attrs["name"] = df_name
        df.attrs["number"] = df_number
        
        dfs.append(df)

    print("Tables have been successfully extracted from the soups and transformed into pandas dataframe objects\n")
    return dfs

### Función: Limpieza y Transformación de Datos (Data Wrangling)

La función `data_wrangling(df)` realiza la limpieza y transformación de un DataFrame para estructurarlo adecuadamente y prepararlo para su consolidación en la matriz de adyacencia. A continuación, se describe su funcionamiento:

1. **Propósito**:  
   Estandarizar, limpiar y transformar los datos de votación de cada candidato para que sigan un formato consistente. Esto incluye ordenar, eliminar columnas innecesarias, manejar valores faltantes y renombrar columnas.

2. **Ejecución Paso a Paso**:  
   - **Ordenar por Nombre del Diputado**:  
     - El DataFrame se ordena alfabéticamente por la columna `"NOMBRE DIPUTADO"`, asegurando un orden consistente para futuras comparaciones y consolidaciones.  
   - **Eliminar la Columna `"ESTADO"`**:  
     - Esta columna no es relevante para la matriz de adyacencia, por lo que se elimina.  
   - **Transformar los Valores de la Columna `"VOTO"`**:  
     - Los valores `"CONTRA"` y `"A FAVOR"` se reemplazan por `"0"` y `"1"`, respectivamente.  
     - Los valores faltantes (`np.nan`) también se convierten en `"0"`, asumiendo que la ausencia de un voto equivale a no estar a favor.  
   - **Manejo de Datos Vacíos o Inválidos**:  
     - Se eliminan las filas con datos no válidos, como `"Ningún dato disponible en esta tabla =("`.  
   - **Renombrar Columnas**:  
     - La columna `"VOTO"` se renombra con el nombre del candidato (almacenado en los atributos del DataFrame, `df.attrs["name"]`).  
     - La columna `"NOMBRE DIPUTADO"` se renombra como `"DIPUTADO"` para un formato más claro y uniforme.  
   - **Restablecer el Índice**:  
     - Después de las operaciones de limpieza y eliminación, el índice se restablece para mantener un DataFrame ordenado.  

3. **Salida**:  
   - La función devuelve un DataFrame limpio y estructurado con dos columnas principales: `"DIPUTADO"` (el nombre del diputado) y el nombre del candidato (con los votos correspondientes como valores).

4. **Puntos Clave**:  
   - **Consistencia en los Datos**: La limpieza asegura que el formato de los datos sea uniforme, lo que es crucial para consolidar los DataFrames en la matriz de adyacencia.  
   - **Estandarización de Valores**: Los votos se convierten en valores binarios (`1` para "A FAVOR" y `0` para "CONTRA" o ausente), lo que facilita su interpretación en el análisis de redes.  
   - **Preparación para la Consolidación**: Este paso es esencial para garantizar que los datos de cada candidato estén listos para integrarse con los de otros candidatos en una estructura común.  

In [5]:
def data_wrangling(df):
    
    df = df.sort_values(by="NOMBRE DIPUTADO")
    df = df.drop(columns=["ESTADO"])
    df['VOTO'] = df['VOTO'].replace({'CONTRA': '0', 'A FAVOR': '1', np.nan:"0"})
    df = df.replace("Ningún dato disponible en esta tabla =(", np.nan)
    df = df.dropna()
    df = df.rename(columns={'VOTO': df.attrs["name"]})
    df = df.rename(columns={'NOMBRE DIPUTADO': 'DIPUTADO'})
    df = df.reset_index(drop=True)
    
    return df

### Función: Limpieza y Transformación de Todos los DataFrames

La función `data_wrangling_all_dfs(dfs)` aplica el proceso de limpieza y transformación definido en la función `data_wrangling(df)` a una lista de DataFrames. Esto asegura que cada DataFrame esté estandarizado y preparado para la consolidación final. A continuación, se detalla su funcionamiento:

1. **Propósito**:  
   Automatizar la limpieza y transformación de múltiples DataFrames, representando los datos de votación de todos los candidatos, para garantizar consistencia y estructura uniforme en todos ellos.

2. **Ejecución Paso a Paso**:  
   - **Inicialización**:  
     - Se crea una lista vacía, `dfs_after_wrangling`, para almacenar los DataFrames procesados.  
   - **Iteración sobre la Lista de DataFrames**:  
     - Para cada DataFrame en la lista `dfs`, se aplica la función `data_wrangling(df)`.  
     - El DataFrame resultante de esta transformación es agregado a la lista `dfs_after_wrangling`.  
   - **Devolución del Resultado**:  
     - Una vez procesados todos los DataFrames, la lista `dfs_after_wrangling` es retornada como el resultado.

3. **Salida**:  
   - La función devuelve una lista de DataFrames transformados, listos para su consolidación en una matriz de adyacencia.

4. **Puntos Clave**:  
   - **Reutilización de Funcionalidad**: Aprovecha la lógica de limpieza y transformación previamente definida en `data_wrangling`, manteniendo el código modular y eficiente.  
   - **Consistencia en los Datos**: Garantiza que todos los DataFrames tengan un formato uniforme, necesario para integrarlos correctamente en pasos posteriores.  
   - **Preparación para la Consolidación**: Al procesar todos los DataFrames de manera uniforme, se facilita su combinación en una única estructura que represente las votaciones de todos los candidatos.  

In [6]:
def data_wrangling_all_dfs(dfs):
    
    dfs_after_wrangling = []
    for df in dfs:
        df_after_wrangling = data_wrangling(df)
        dfs_after_wrangling.append(df_after_wrangling)
        
    return dfs_after_wrangling

### Función: Generación de la Matriz de Adyacencia

La función `adjacency_matrix(dfs)` construye una matriz de adyacencia a partir de los DataFrames que contienen los datos de votación de los diputados para cada candidato. Esta matriz es esencial para representar las relaciones entre los diputados y los candidatos en un formato adecuado para el análisis de redes. A continuación, se detalla su funcionamiento:

1. **Propósito**:  
   Crear una matriz de adyacencia donde las filas representan a los diputados y las columnas a los candidatos. Los valores en la matriz indican si un diputado votó "A FAVOR" de un candidato (`1`) o no (`0`).

2. **Ejecución Paso a Paso**:  
   - **Inicialización de Listas y Conjuntos**:  
     - `candidates`: Lista para almacenar los nombres de los candidatos (columnas de la matriz).  
     - `congressmen`: Conjunto para recopilar los nombres únicos de los diputados (filas de la matriz).  
   - **Recopilación de Nombres**:  
     - Se recorren los DataFrames para extraer los nombres de los candidatos (segunda columna de cada DataFrame) y los nombres de los diputados (`DIPUTADO`).  
     - Los nombres de los candidatos y diputados se ordenan alfabéticamente para garantizar consistencia en la matriz.  
   - **Inicialización de la Matriz de Adyacencia**:  
     - Se crea un DataFrame con índices correspondientes a los nombres de los diputados y columnas a los nombres de los candidatos. Todos los valores iniciales son `0`.  
   - **Población de la Matriz**:  
     - Para cada DataFrame, se recorren las filas.  
     - Si el valor de voto del diputado para un candidato es `'1'` (voto "A FAVOR"), se actualiza el valor correspondiente en la matriz de adyacencia a `1`.  
   - **Devolución de la Matriz**:  
     - La matriz de adyacencia completamente poblada es retornada como un DataFrame.

3. **Salida**:  
   - Un DataFrame que representa la matriz de adyacencia, donde las filas son diputados, las columnas son candidatos y los valores son binarios (`1` para "A FAVOR" y `0` para lo contrario o ausencia de voto).

4. **Puntos Clave**:  
   - **Estructura Consistente**: El orden alfabético de diputados y candidatos garantiza que la matriz tenga un formato uniforme, independientemente del orden en los datos originales.  
   - **Relación Binaria**: La matriz de adyacencia captura únicamente las relaciones positivas ("A FAVOR"), ignorando otros tipos de voto, lo cual es ideal para un análisis centrado en las conexiones afirmativas.  
   - **Relevancia para el Proyecto**: Esta matriz es el producto final de las transformaciones previas y el insumo principal para el análisis de redes con Gephi.  

In [7]:
def adjacency_matrix(dfs):
    
    candidates = []
    congressmen = set()
    
    for df in dfs:
        candidates.append(df.columns.values[1])
        congressmen.update(df['DIPUTADO'].values)
        
    candidates = sorted(candidates)
    congressmen = sorted(list(congressmen))
    
    adjacency_matrix = pd.DataFrame(0, index=congressmen, columns=candidates)
    
    for df in dfs:
        for i, row in df.iterrows():
            congressman = row['DIPUTADO']
            candidate = df.columns[1]
            value = row[candidate]
            if value == '1':
                adjacency_matrix.loc[congressman, candidate] = 1

    return adjacency_matrix

### Función: Exportar DataFrames a Archivos CSV

La función `dfs_to_csvs(dfs)` exporta una lista de DataFrames a archivos CSV, asegurándose de conservar la información de cada candidato en un formato accesible para su posterior uso. A continuación, se detalla su funcionamiento:

1. **Propósito**:  
   Guardar cada DataFrame en un archivo CSV independiente, nombrando los archivos de manera consistente utilizando los atributos del DataFrame (`number` y `name`).

2. **Ejecución Paso a Paso**:  
   - **Iteración sobre los DataFrames**:  
     - La función recorre cada DataFrame en la lista `dfs`.  
   - **Exportación a CSV**:  
     - Se utiliza el método `to_csv` de pandas para guardar cada DataFrame como un archivo CSV en la carpeta `files`.  
     - El nombre del archivo incluye el número del candidato (`df.attrs["number"]`) y su nombre (`df.attrs["name"]`) para facilitar su identificación.  
   - **Manejo de Errores**:  
     - Si la exportación falla por cualquier motivo (por ejemplo, problemas de permisos o rutas inexistentes), se imprime un mensaje indicando que no se pudo exportar el archivo correspondiente.  
   - **Finalización**:  
     - Una vez procesados todos los DataFrames, se imprime un mensaje indicando que el proceso de exportación ha concluido.

3. **Salida**:  
   - Los archivos CSV se guardan en la carpeta `files` con nombres descriptivos que indican el número y el nombre del candidato.  
   - Se imprimen mensajes en la consola para informar el éxito o el fallo de la exportación de cada archivo.

4. **Puntos Clave**:  
   - **Organización Clara**: Los archivos CSV se nombran de manera intuitiva, lo que facilita su búsqueda y uso posterior.  
   - **Manejo de Errores**: La función incluye lógica para gestionar errores de exportación, evitando que un fallo detenga el proceso completo.  
   - **Relevancia para el Proyecto**: Esta función permite guardar los resultados intermedios, asegurando que los datos estén disponibles en un formato ampliamente utilizado (CSV) para futuras referencias o análisis adicionales.  

In [8]:
def dfs_to_csvs(dfs):

    for df in dfs:
        try:
            df.to_csv(f"files/{df.attrs["number"]} {df.attrs["name"]}.csv", index=False)
            print(f"{df.attrs["number"]} {df.attrs["name"]}.csv file has been exported")
        except:
            print(f"{df.attrs["number"]} {df.attrs["name"]}.csv file could not be exported")
            
    print("The process of exporting CSV files has been completed")

### Creación de la Lista de URLs

En esta celda, se genera una lista de URLs que corresponde a las páginas de votación de los candidatos en el sitio oficial del Congreso de la República de Guatemala. A continuación, se describe el propósito y la ejecución del código:

1. **Propósito**:  
   Crear una lista de URLs consecutivas para extraer los datos de votación correspondientes a los candidatos en un rango específico. Estas URLs serán utilizadas posteriormente para automatizar la extracción de datos.

2. **Ejecución Paso a Paso**:  
   - **Definición del Rango**:  
     - Las variables `a` y `b` establecen el rango de identificadores de las páginas de votación. En este caso, el rango es de `7900` a `7926` (excluyendo `b`).  
   - **Generación de la Lista de URLs**:  
     - Se utiliza una lista por comprensión (`list comprehension`) para generar las URLs.  
     - Cada URL se forma mediante una plantilla de cadena (`f-string`), que incorpora los valores del rango como parte del identificador único de cada página.  
     - El rango (`range(a, b)`) asegura que se iteran todos los números desde `7900` hasta `7925`, generando 26 URLs en total.  

3. **Salida**:  
   - La variable `urls` contiene una lista de 26 URLs, cada una apuntando a una página de detalle de votación específica en el sitio web del Congreso.

4. **Puntos Clave**:  
   - **Automatización**: La generación automática de URLs evita la necesidad de escribirlas manualmente, reduciendo errores y ahorrando tiempo.  
   - **Preparación para la Extracción**: Estas URLs se usarán como insumos para funciones posteriores que automatizan la navegación y extracción de datos de las páginas correspondientes.  
   - **Flexibilidad**: Cambiar los valores de `a` y `b` permite ajustar fácilmente el rango de páginas a procesar, lo que puede ser útil para futuras extensiones del proyecto.  

In [9]:
a = 7900
b = 7926
urls = [f"https://www.congreso.gob.gt/detalle_de_votacion/4{i}/41228" for i in range(a, b)]

### Extracción de Contenidos HTML ("Soups") y Consideraciones de Ejecución

En esta celda, se utiliza la función `extract_soups(urls)` para automatizar la extracción del contenido HTML de las páginas de votación especificadas en la lista de URLs generada previamente. A continuación, se explica en detalle su propósito, el comportamiento esperado y algunas consideraciones importantes para el usuario.

1. **Propósito**:  
   Obtener el contenido HTML completo de cada página de votación utilizando Selenium para interactuar con el contenido dinámico cargado mediante JavaScript. Estos contenidos ("soups") serán procesados posteriormente para extraer y transformar los datos necesarios.

2. **Ejecución**:  
   - La función `extract_soups(urls)` toma como entrada la lista de URLs generada en la celda anterior.  
   - La función utiliza un navegador automatizado (Selenium WebDriver) para:
     - Iniciar el navegador de manera controlada.
     - Cargar cada URL en la lista.
     - Interactuar con elementos de la página, como menús desplegables, para asegurarse de que todo el contenido necesario esté visible.
     - Capturar el contenido HTML renderizado dinámicamente.

3. **Consideraciones para el Usuario**:  
   - **Duración del Proceso**:  
     - **Paciencia es clave**: Este proceso puede tomar tiempo, ya que el navegador automatizado debe cargarse, navegar por cada página y realizar interacciones como seleccionar menús y esperar que el contenido se cargue completamente.  
     - Es normal que el navegador tarde unos segundos en abrirse y que se mantenga activo mientras se procesan las URLs.
   - **Mensajes en Consola**:  
     - **Inicio del Proceso**: Verá el mensaje:  
       `"Please wait while the web browser loads and the data extraction automation starts. This may take several minutes..."`  
       Esto indica que el navegador se está iniciando y que el proceso ha comenzado correctamente.  
     - **Timeout de Carga**: Si una página no se carga dentro del tiempo esperado, verá:  
       `"The timeout for loading the website has been exceeded. Please close the automated browser window if necessary and try again."`  
       En este caso, deberá cerrar manualmente la ventana del navegador y reiniciar el proceso.  
     - **Finalización Exitosa**: Al concluir el proceso, verá:  
       `"Soups extracted successfully!"`  
       Esto indica que todos los contenidos HTML han sido extraídos y están listos para el procesamiento posterior.  
   - **Interacción del Navegador**:  
     - Durante la ejecución, verá cómo el navegador abre páginas, selecciona menús y carga información automáticamente. Esto es normal y refleja el funcionamiento interno del script.  
     - Es importante no interferir manualmente con el navegador mientras este realiza las acciones automatizadas, ya que esto podría interrumpir el proceso.  

4. **Salida**:  
   - La variable `soups` contendrá una lista de objetos BeautifulSoup, cada uno representando el contenido HTML de una página de votación.

5. **Puntos Clave**:  
   - **Automatización del Proceso de Extracción**: Selenium permite interactuar con elementos dinámicos de la página, superando las limitaciones de herramientas más simples como Requests.  
   - **Preparación para la Limpieza y Análisis**: Los contenidos HTML extraídos son el insumo principal para las siguientes etapas de procesamiento, donde se transformarán en datos estructurados.  
   - **Guía para Usuarios Novatos**: Este nivel de automatización puede parecer extraño para usuarios sin experiencia previa, pero es un paso esencial para manejar sitios web que dependen de JavaScript para cargar contenido crítico.  

In [10]:
soups = extract_soups(urls)

Please wait while the web browser loads and the data extraction automation starts.
This may take several minutes...

Soups extracted successfully!



### Extracción de Tablas de Votación

En esta celda, se utiliza la función `extract_tables(soups)` para extraer las tablas de votación de la lista de objetos BeautifulSoup obtenidos anteriormente. Estas tablas representan los datos crudos de los votos para cada candidato. A continuación, se detalla su propósito y funcionamiento:

1. **Propósito**:  
   Extraer los datos de votación de cada contenido HTML ("soup") y crear objetos pandas DataFrame. Estos DataFrames organizan la información de votación en un formato estructurado, separando los votos en categorías como "A FAVOR" (a favor), "CONTRA" (en contra) y "AUSENCIA" (ausente/nulo).

2. **Ejecución**:  
   - La función `extract_tables(soups)` procesa cada objeto BeautifulSoup de la lista `soups`.  
   - Para cada candidato:
     - Se extraen los metadatos (como el nombre y el número del candidato) utilizando la función `extract_metadata`.  
     - Se identifican las tablas de votación y se convierten en DataFrames de pandas.  
     - Los DataFrames correspondientes a "A FAVOR", "CONTRA" y "AUSENCIA" se consolidan en un único DataFrame por candidato.  
   - Cada DataFrame consolidado incluye atributos de metadatos (`name` y `number`) para facilitar su identificación.

3. **Salida**:  
   - La variable `dfs` contiene una lista de DataFrames de pandas.  
   - Cada DataFrame corresponde a un candidato e incluye los datos detallados de votación, listos para ser limpiados y transformados en los siguientes pasos.

4. **Consideraciones para el Usuario**:  
   - **Procesamiento Automatizado**: La función procesa automáticamente todos los contenidos HTML, extrayendo y estructurando las tablas sin necesidad de intervención manual.  
   - **Posibles Vacíos en los Datos**: Si falta alguna tabla para una categoría específica de votación (por ejemplo, "AUSENCIA"), la función crea un DataFrame vacío para esa categoría para mantener la consistencia.  
   - **Retroalimentación en la Consola**: Los mensajes impresos por la función `extract_tables` informan al usuario sobre el estado del proceso de extracción, facilitando la identificación de posibles problemas.

5. **Relevancia para el Proyecto**:  
   - Estos DataFrames constituyen la base para los siguientes pasos, como la limpieza, transformación y creación de la matriz de adyacencia. Aseguran que todos los datos de votación estén estructurados de manera uniforme para su análisis.

In [20]:
dfs = extract_tables(soups)

Tables have been successfully extracted from the soups and transformed into pandas dataframe objects



### Visualización de los Datos Extraídos

Esta celda permite al usuario explorar los datos extraídos y ver un ejemplo de cómo se presentan los DataFrames generados. Proporciona información básica sobre un candidato específico y una vista parcial de sus datos de votación. A continuación, se explica el propósito y el funcionamiento de esta celda:

1. **Propósito**:  
   Ofrecer al usuario una forma sencilla de inspeccionar los datos extraídos para un candidato específico, verificando tanto los metadatos como el contenido del DataFrame.

2. **Ejecución**:  
   - **Índice Personalizable**:  
     - La variable `i` se utiliza para seleccionar el índice del DataFrame en la lista `dfs`. El usuario puede cambiar este índice para navegar entre los diferentes DataFrames generados.  
   - **Visualización de Metadatos**:  
     - Se imprime el número de la elección (`dfs[i].attrs["number"]`) y el nombre del candidato (`dfs[i].attrs["name"]`), facilitando la identificación del DataFrame seleccionado.  
   - **Vista del DataFrame**:  
     - Se muestra una vista combinada de las primeras 20 filas (`head(20)`) y las últimas 20 filas (`tail(20)`) del DataFrame seleccionado. Esto permite observar una muestra representativa de los datos sin necesidad de visualizar todo el DataFrame.

3. **Salida**:  
   - En la consola, se imprime:
     - El número de la elección correspondiente al candidato.  
     - El nombre del candidato.  
   - En el Jupyter Notebook, se despliega una vista estilizada del DataFrame, mostrando las primeras y últimas 20 filas.

4. **Consideraciones para el Usuario**:  
   - **Exploración Interactiva**: El usuario puede modificar el valor de `i` para inspeccionar los DataFrames de diferentes candidatos. Esto es útil para verificar la calidad y consistencia de los datos extraídos.  
   - **Contexto para los Datos**: Ver los metadatos asociados (número y nombre del candidato) ayuda a entender qué información está visualizando.  
   - **Limitación de Filas**: Mostrar solo las primeras y últimas filas es una estrategia para evitar sobrecargar la visualización cuando los DataFrames contienen un gran número de filas.  

5. **Relevancia para el Proyecto**:  
   - Esta celda permite validar los resultados intermedios del proceso de extracción y transformación de datos, asegurando que los DataFrames estén correctamente estructurados antes de proceder con los pasos siguientes.  

In [12]:
i = 2
print(f"Supreme Court election number: {dfs[i].attrs["number"]}")
print(f"Name of the candidate in election: {dfs[i].attrs["name"]}") 
pd.concat([dfs[i].head(20), dfs[i].tail(20)]).style

Supreme Court election number: 6
Name of the candidate in election: WENDY ANGELICA RAMÍREZ LÓPEZ


Unnamed: 0,NOMBRE DIPUTADO,ESTADO,VOTO
0,Ajcip Canel Hellen Magaly Alexandrá,PRESENTE,A FAVOR
1,Arana Roca Sergio David,PRESENTE,A FAVOR
2,Barragán Morales Gerson Geovanny,PRESENTE,A FAVOR
3,Blanco Lapola Orlando Joaquín,PRESENTE,A FAVOR
4,Chic Cardona José Alberto,PRESENTE,A FAVOR
5,Cifuentes Ovalle Pablo Leonel,PRESENTE,A FAVOR
6,Coc Figueroa Randy Araely,PRESENTE,A FAVOR
7,De León Benítez Alberto Eduardo,PRESENTE,A FAVOR
8,De León Torres Lourdes Teresita,PRESENTE,A FAVOR
9,Flores Divas Jairo Joaquín,PRESENTE,A FAVOR


### Transformación de Todos los DataFrames

En esta celda, se utiliza la función `data_wrangling_all_dfs(dfs)` para limpiar y transformar todos los DataFrames generados previamente a partir de los datos extraídos. Este paso asegura que los datos de votación estén estandarizados y listos para la consolidación final en la matriz de adyacencia. A continuación, se detalla el propósito y funcionamiento de esta celda:

1. **Propósito**:  
   Aplicar el proceso de limpieza y transformación de datos definido en la función `data_wrangling(df)` a todos los DataFrames de la lista `dfs`. Esto unifica el formato de los datos y garantiza su consistencia.

2. **Ejecución**:  
   - La función `data_wrangling_all_dfs(dfs)` toma como entrada la lista `dfs`, que contiene los DataFrames originales.  
   - Para cada DataFrame en la lista:
     - Se aplica la función `data_wrangling(df)` para:
       - Ordenar las filas.
       - Eliminar columnas innecesarias.
       - Estandarizar los valores de los votos a formato binario (`1` para "A FAVOR" y `0` para "CONTRA" o nulos).  
       - Renombrar columnas para facilitar su consolidación.  
   - Los DataFrames transformados se almacenan en una nueva lista llamada `transformed_dfs`.

3. **Salida**:  
   - La variable `transformed_dfs` contiene una lista de DataFrames transformados.  
   - Cada DataFrame sigue un formato uniforme, con columnas "DIPUTADO" y el nombre del candidato, y está listo para consolidarse en la matriz de adyacencia.

4. **Consideraciones para el Usuario**:  
   - **Automatización del Proceso**: Esta celda automatiza la limpieza y estandarización de los datos, eliminando la necesidad de realizar estos pasos manualmente para cada DataFrame.  
   - **Calidad y Consistencia**: La función asegura que los datos estén libres de inconsistencias y en un formato apropiado para los siguientes pasos del proyecto.  
   - **Impacto en el Proyecto**: Este paso es fundamental para garantizar que los datos se puedan consolidar y analizar correctamente en la matriz de adyacencia.

5. **Relevancia para el Proyecto**:  
   - La transformación de los DataFrames prepara los datos para su consolidación, facilitando la creación de una matriz de adyacencia uniforme y confiable, que es clave para el análisis de redes.  

In [13]:
transformed_dfs = data_wrangling_all_dfs(dfs)

### Visualización de los Datos Transformados

En esta celda, se ofrece al usuario una manera de inspeccionar cómo se han transformado los datos de votación después de aplicar los procesos de limpieza y estandarización. Esto ayuda a validar que los datos estén correctamente preparados para los pasos siguientes. A continuación, se detalla el propósito y la ejecución de esta celda:

1. **Propósito**:  
   Permitir al usuario verificar los resultados de la transformación de datos para un candidato específico, observando los cambios realizados en el formato y la estructura de los DataFrames.

2. **Ejecución**:  
   - **Selección del Índice**:  
     - La variable `i` define el índice del DataFrame en la lista `transformed_dfs` que el usuario desea inspeccionar.  
     - Cambiar el valor de `i` permite navegar entre los diferentes candidatos procesados.  
   - **Mostrar Metadatos**:  
     - Se imprimen el número de la elección (`transformed_dfs[i].attrs["number"]`) y el nombre del candidato (`transformed_dfs[i].attrs["name"]`), identificando claramente el DataFrame seleccionado.  
   - **Vista del DataFrame**:  
     - Se utiliza una combinación de las primeras 20 filas (`head(20)`) y las últimas 20 filas (`tail(20)`) del DataFrame transformado. Esto proporciona una muestra representativa de los datos sin sobrecargar la visualización.

3. **Salida**:  
   - En la consola:
     - Se imprime el número de la elección y el nombre del candidato correspondiente al DataFrame seleccionado.  
   - En el Jupyter Notebook:
     - Se despliega una vista estilizada del DataFrame, mostrando una muestra de las filas transformadas.

4. **Consideraciones para el Usuario**:  
   - **Exploración Interactiva**: El usuario puede modificar el valor de `i` para examinar cómo se han transformado los datos de otros candidatos.  
   - **Confirmación de Cambios**: Esta celda es útil para verificar que las columnas han sido renombradas, los valores de votos están en formato binario y la estructura es uniforme.  
   - **Limitación de Filas**: Mostrar solo las primeras y últimas filas evita sobrecargar la pantalla, especialmente si los DataFrames contienen muchas filas.

5. **Relevancia para el Proyecto**:  
   - Validar los resultados de la transformación asegura que los datos están correctamente estructurados antes de proceder a la consolidación final en la matriz de adyacencia.  

In [14]:
i = 2
print(f"Supreme Court election number: {transformed_dfs[i].attrs["number"]}")
print(f"Name of the candidate in election: {transformed_dfs[i].attrs["name"]}") 
pd.concat([transformed_dfs[i].head(20), transformed_dfs[i].tail(20)]).style

Supreme Court election number: 6
Name of the candidate in election: WENDY ANGELICA RAMÍREZ LÓPEZ


Unnamed: 0,DIPUTADO,WENDY ANGELICA RAMÍREZ LÓPEZ
0,Aguirre Estrada Luis Fernando,0
1,Ajcip Canel Hellen Magaly Alexandrá,1
2,Aldana Reyes Héctor Adolfo,0
3,Alejos Lorenzana Felipe,0
4,Alvarado Vásquez Manuel Geovany,0
5,Alvarez y Alvarez Cristian Rodolfo,0
6,Amézquita Del Valle César Augusto,0
7,Arana Roca Sergio David,1
8,Archila Cordón Manuel de Jesús,0
9,Arzú Escobar Alvaro Enrique,0


### Generación de la Matriz de Adyacencia

En esta celda, se utiliza la función `adjacency_matrix(transformed_dfs)` para consolidar los datos de votación en una matriz de adyacencia. Esta matriz es un componente clave del proyecto, ya que representa las relaciones entre los diputados y los candidatos en un formato binario adecuado para el análisis de redes. A continuación, se detalla su propósito y funcionamiento:

1. **Propósito**:  
   Crear una matriz de adyacencia donde las filas representan a los diputados, las columnas representan a los candidatos y los valores indican si un diputado votó "A FAVOR" de un candidato (`1`) o no (`0`).

2. **Ejecución**:  
   - La función `adjacency_matrix(transformed_dfs)` toma como entrada la lista `transformed_dfs`, que contiene los DataFrames ya transformados.  
   - A partir de estos DataFrames:  
     - Se recopilan los nombres de los diputados (filas) y de los candidatos (columnas).  
     - Se construye una matriz inicialmente llena de ceros.  
     - Se recorre cada DataFrame para actualizar los valores en la matriz. Cuando un diputado votó "A FAVOR" (`1`) por un candidato, el valor correspondiente en la matriz se actualiza.  

3. **Salida**:  
   - La variable `adjacency_matrix` contiene un DataFrame que representa la matriz de adyacencia:  
     - **Filas**: Los nombres de los diputados.  
     - **Columnas**: Los nombres de los candidatos.  
     - **Valores**: Binarios (`1` para "A FAVOR" y `0` para "CONTRA" o ausencia de voto).

4. **Consideraciones para el Usuario**:  
   - **Estructura Clara**: La matriz de adyacencia proporciona una representación compacta y fácilmente interpretable de las relaciones entre diputados y candidatos.  
   - **Validación Previa**: Es importante que todos los DataFrames en `transformed_dfs` hayan sido transformados correctamente para garantizar que la matriz sea precisa.  
   - **Utilidad para el Análisis**: Este DataFrame es el producto final necesario para realizar análisis de redes con herramientas como Gephi.

5. **Relevancia para el Proyecto**:  
   - La matriz de adyacencia es el resultado final de los procesos de extracción, limpieza y transformación de datos. Es un insumo esencial para analizar patrones de votación y relaciones entre diputados y candidatos en un contexto de redes.  

In [15]:
adjacency_matrix = adjacency_matrix(transformed_dfs)

### Visualización de la Matriz de Adyacencia

Esta celda ofrece una representación visual de la matriz de adyacencia, permitiendo al usuario inspeccionar las relaciones entre los diputados y los candidatos. Esta matriz resume los datos de votación en un formato binario y sirve como el resultado final estructurado del proyecto. A continuación, se detalla su propósito y ejecución:

1. **Propósito**:  
   Mostrar la matriz de adyacencia en un formato claro y estilizado para que el usuario pueda verificar visualmente las relaciones capturadas en los datos.

2. **Ejecución**:  
   - Se utiliza el método `adjacency_matrix.style` para crear una vista estilizada de la matriz de adyacencia.  
   - La visualización resultante muestra:  
     - **Filas**: Representan a los diputados.  
     - **Columnas**: Representan a los candidatos.  
     - **Valores**: Binarios (`1` para "A FAVOR" y `0` para "CONTRA" o ausencia de voto).

3. **Salida**:  
   - En el Jupyter Notebook, se despliega la matriz de adyacencia como un DataFrame estilizado. El formato de la matriz proporciona un resumen fácilmente interpretable de los patrones de votación.

4. **Consideraciones para el Usuario**:  
   - **Dimensiones de la Matriz**: Dependiendo del número de diputados y candidatos, la matriz puede ser grande. Puede ser necesario desplazarse para visualizar todas las filas y columnas.  
   - **Representación Binaria de Datos**: Cada celda contiene un `1` (indicando un voto "A FAVOR") o un `0` (indicando "CONTRA" o ausencia de voto). Esta representación simple está diseñada para el análisis de redes.  
   - **Resultado Final**: Esta matriz representa la culminación de todos los pasos de extracción, limpieza y transformación de datos, proporcionando el insumo para herramientas como Gephi.

5. **Relevancia para el Proyecto**:  
   - Esta visualización permite al usuario confirmar la precisión de la matriz de adyacencia antes de exportarla o proceder con el análisis de redes. Es el paso final de verificación para garantizar que los datos estén correctamente estructurados y listos para su uso.  

In [16]:
adjacency_matrix.style

Unnamed: 0,ASTRID SIOMARA MORALES VIRULA,CARLOS RAMIRO CONTRERAS VALENZUELA,CARLOS RODIMIRO LUCERO PAZ,CLAUDIA LUCRECIA PAREDES CASTAÑEDA,CLEMEN VANESSA JUÁREZ MIDENCE,CÉSAR AUGUSTO ÁVILA APARICIO,DIMAS JIMÉNEZ Y JIMÉNEZ,EDGAR ORLANDO RUANJO GODOY,ERWIN IVÁN ROMERO MORALES,ESTUARDO ADOLFO CÁRDENAS,FLOR DE MARÍA GARCÍA VILLATORO,FLOR DE MARÍA GÁLVEZ BARRIOS,GUSTAVO ADOLFO MORALES DUARTE,IGMAÍN GALICIA PIMENTEL,JENNY NOEMY ALVARADO TENI,JORGE ALBERTO GONZALEZ BARRIOS,JORGE EDUARDO TUCUX COYOY,LIDIA JUDITH URIZAR CASTELLANOS,LUIS MAURICIO CORADO CAMPOS,MANUEL DE JESÚS MEJICANOS JIMÉNEZ,MARIO RENÉ MANCILLA BARILLAS,MARTA SUSANA VIDES LAVARREDA,RENÉ GUILLERMO GIRÓN PALACIOS,TEODULO ILDEFONSO CIFUENTES MALDONADO,VILMA ROSSANA REYES GONZÁLEZ,WENDY ANGELICA RAMÍREZ LÓPEZ
Aguirre Estrada Luis Fernando,0,1,1,1,0,0,0,0,0,1,1,1,0,1,0,0,0,0,1,0,0,0,1,1,0,0
Ajcip Canel Hellen Magaly Alexandrá,0,1,1,1,1,0,1,0,0,1,1,1,1,1,1,1,0,0,1,0,0,0,1,1,0,1
Aldana Reyes Héctor Adolfo,0,1,1,1,1,0,1,0,0,1,1,1,1,1,1,1,0,0,1,0,0,0,1,1,0,0
Alejos Lorenzana Felipe,0,1,1,1,1,0,1,0,0,1,1,1,1,1,1,1,0,0,1,0,0,0,1,1,0,0
Alvarado Vásquez Manuel Geovany,0,1,1,1,1,0,1,0,0,1,1,1,1,1,1,1,0,0,1,0,0,0,1,1,0,0
Alvarez y Alvarez Cristian Rodolfo,1,1,1,1,0,0,0,0,1,1,1,1,1,1,0,0,1,0,0,0,1,0,1,1,1,0
Amézquita Del Valle César Augusto,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
Arana Roca Sergio David,0,1,1,1,1,0,1,0,0,1,1,1,1,1,1,0,0,0,1,0,0,0,1,1,0,1
Archila Cordón Manuel de Jesús,0,1,1,1,0,0,0,0,0,1,1,1,0,1,1,0,0,0,1,0,0,0,1,1,0,0
Arzú Escobar Alvaro Enrique,0,1,1,1,1,0,1,0,0,1,1,1,1,1,1,0,1,0,1,0,0,1,1,1,0,0


### Exportación de DataFrames a Archivos CSV

En esta celda, se utiliza la función `dfs_to_csvs(transformed_dfs)` para exportar los DataFrames transformados en archivos CSV. Esta acción permite guardar los resultados intermedios del proyecto en un formato ampliamente utilizado, facilitando su acceso y uso posterior. A continuación, se detalla el propósito y la ejecución de esta celda:

1. **Propósito**:  
   Guardar cada DataFrame transformado en un archivo CSV individual, con un nombre descriptivo que identifica claramente al candidato correspondiente.

2. **Ejecución**:  
   - La función `dfs_to_csvs(transformed_dfs)` toma como entrada la lista `transformed_dfs`, que contiene los DataFrames ya transformados.  
   - Para cada DataFrame:  
     - Se guarda como un archivo CSV en la carpeta `files`, utilizando el número y el nombre del candidato (almacenados en los atributos del DataFrame) para formar el nombre del archivo.  
     - Si la exportación tiene éxito, se imprime un mensaje en la consola indicando el nombre del archivo generado.  
     - En caso de error (por ejemplo, si la carpeta `files` no existe), se imprime un mensaje informando que el archivo no pudo ser exportado.

3. **Salida**:  
   - Se crean archivos CSV individuales para cada DataFrame en la carpeta `files`.  
   - En la consola, se muestran mensajes que informan el éxito o el fallo de la exportación de cada archivo.

4. **Consideraciones para el Usuario**:  
   - **Organización de Archivos**: Los archivos CSV se nombran utilizando el número y el nombre del candidato, facilitando su búsqueda e identificación.  
   - **Errores Potenciales**: Si los archivos no se exportan correctamente, se debe verificar que la carpeta `files` exista y que el sistema tenga los permisos necesarios para escribir en ella.  
   - **Compatibilidad**: Los archivos CSV pueden abrirse con cualquier herramienta que soporte este formato, lo que los hace accesibles incluso fuera del entorno del proyecto.

5. **Relevancia para el Proyecto**:  
   - Exportar los DataFrames permite preservar los resultados intermedios, ofreciendo un respaldo de los datos procesados y preparándolos para análisis adicionales o integraciones con otras herramientas.  

In [17]:
dfs_to_csvs(transformed_dfs)

4 CÉSAR AUGUSTO ÁVILA APARICIO.csv file has been exported
5 CARLOS RODIMIRO LUCERO PAZ.csv file has been exported
6 WENDY ANGELICA RAMÍREZ LÓPEZ.csv file has been exported
7 CLAUDIA LUCRECIA PAREDES CASTAÑEDA.csv file has been exported
8 GUSTAVO ADOLFO MORALES DUARTE.csv file has been exported
9 JORGE EDUARDO TUCUX COYOY.csv file has been exported
10 JENNY NOEMY ALVARADO TENI.csv file has been exported
11 IGMAÍN GALICIA PIMENTEL.csv file has been exported
12 FLOR DE MARÍA GÁLVEZ BARRIOS.csv file has been exported
13 CARLOS RAMIRO CONTRERAS VALENZUELA.csv file has been exported
14 MARTA SUSANA VIDES LAVARREDA.csv file has been exported
15 LIDIA JUDITH URIZAR CASTELLANOS.csv file has been exported
16 FLOR DE MARÍA GARCÍA VILLATORO.csv file has been exported
17 VILMA ROSSANA REYES GONZÁLEZ.csv file has been exported
18 DIMAS JIMÉNEZ Y JIMÉNEZ.csv file has been exported
19 CLEMEN VANESSA JUÁREZ MIDENCE.csv file has been exported
20 TEODULO ILDEFONSO CIFUENTES MALDONADO.csv file has been ex

### Exportación de la Matriz de Adyacencia a un Archivo CSV

En esta celda, se exporta la matriz de adyacencia generada a un archivo CSV utilizando el método `to_csv`. Este paso finaliza el procesamiento del proyecto, guardando la matriz en un formato accesible y ampliamente utilizado para su análisis posterior o uso en herramientas externas, como Gephi. A continuación, se explica el propósito y la ejecución de esta celda:

1. **Propósito**:  
   Guardar la matriz de adyacencia en un archivo CSV para facilitar su almacenamiento, intercambio y análisis con herramientas compatibles con este formato.

2. **Ejecución**:  
   - La función `to_csv` se aplica a la matriz de adyacencia (`adjacency_matrix`).  
   - El archivo se guarda en la carpeta `files` con el nombre `adjacency_matrix.csv`.  
   - Este archivo contiene:  
     - **Filas**: Los nombres de los diputados.  
     - **Columnas**: Los nombres de los candidatos.  
     - **Valores**: Binarios (`1` para "A FAVOR" y `0` para "CONTRA" o ausencia de voto).  

3. **Salida**:  
   - Un archivo CSV llamado `adjacency_matrix.csv` en la carpeta `files`, que contiene la matriz de adyacencia completa.

4. **Consideraciones para el Usuario**:  
   - **Ruta del Archivo**: Es importante asegurarse de que la carpeta `files` exista y que el sistema tenga permisos para guardar el archivo en ella.  
   - **Compatibilidad del Formato**: El archivo CSV puede abrirse y manipularse con una variedad de herramientas, como hojas de cálculo (Excel), editores de texto o software especializado como Gephi.  
   - **Finalización del Proyecto**: Este archivo representa el producto final del procesamiento y puede utilizarse directamente para realizar análisis de redes.

5. **Relevancia para el Proyecto**:  
   - Exportar la matriz de adyacencia asegura que los resultados del análisis estén respaldados y disponibles en un formato versátil. Es el paso final antes de utilizar los datos para visualizaciones o análisis adicionales en herramientas externas.  

In [18]:
adjacency_matrix.to_csv('files/adjacency_matrix.csv')

### Capturas de Pantalla: Resultados del Proyecto

A continuación, se presentan capturas de pantalla que ilustran los principales resultados generados durante el proyecto. Estas imágenes proporcionan una representación visual de los datos procesados y los análisis realizados:

#### 1. Ejemplo de Archivo CSV de un DataFrame de Elección

En esta captura se muestra el contenido de uno de los archivos CSV generados para una elección específica. Este archivo contiene los datos de votación estructurados para un candidato, con información sobre los diputados y sus respectivos votos:

- **Columnas**:
  - `DIPUTADO`: Nombre del diputado que participó en la votación.
  - El nombre del candidato: Representa si el diputado votó "A FAVOR" (`1`) o "CONTRA"/nulo (`0`) para ese candidato.
- **Formato**: Este archivo es generado automáticamente por el proceso de exportación y está listo para ser utilizado en análisis posteriores o integraciones.

![Captura del archivo csv generado](https://raw.githubusercontent.com/cdberganza/Scraping_supreme_court_election_gt_2024/refs/heads/main/images/csv_screenshot.png)

#### 2. Archivo CSV de la Matriz de Adyacencia

Aquí se muestra la matriz de adyacencia exportada en formato CSV. Este archivo representa la relación entre los diputados (filas) y los candidatos (columnas), en un formato binario:

- **Valores**:
  - `1`: Indica que el diputado votó "A FAVOR" del candidato correspondiente.
  - `0`: Indica que el diputado votó "CONTRA" o no emitió un voto.
- **Uso**: Este archivo es el producto final del procesamiento de datos y está diseñado para su análisis en herramientas de redes, como Gephi.

![Captura del archivo csv generado](https://raw.githubusercontent.com/cdberganza/Scraping_supreme_court_election_gt_2024/refs/heads/main/images/adjacency_matrix_screenshot.png)

#### 3. Imagen Generada por Gephi: Visualización de la Red

La última captura presenta la visualización de la red generada en Gephi, basada en la matriz de adyacencia:

- **Nodos**: Representan a los diputados y candidatos.  
- **Enlaces**: Indican las conexiones entre diputados y candidatos, definidos por los votos "A FAVOR".  
- **Relevancia**: Este grafo es el resultado del análisis de redes, proporcionando información visual sobre los patrones de votación y las relaciones entre los participantes en la elección.  

Estas capturas son clave para entender cómo los datos procesados se convierten en información útil para el análisis y la interpretación en un contexto de redes sociales y políticas.

![Captura del archivo csv generado](https://raw.githubusercontent.com/cdberganza/Scraping_supreme_court_election_gt_2024/refs/heads/main/images/Network.png)

### Conclusiones

El proyecto de análisis del proceso de elección de magistrados de la Corte Suprema de Justicia en Guatemala ha demostrado cómo el uso de herramientas tecnológicas avanzadas puede proporcionar una visión más clara y estructurada de un evento político y social de alta relevancia. A continuación, se presentan las principales conclusiones:

#### 1. **Extracción y Estandarización de Datos Complejos**  
   - **Contenido Dinámico Superado**: La implementación de Selenium permitió manejar la complejidad del contenido dinámico del sitio web del Congreso, superando las limitaciones de herramientas tradicionales como Requests.  
   - **Datos Estandarizados**: La transformación de los votos en un formato binario (`1` para "A FAVOR" y `0` para "CONTRA"/nulos) simplificó el análisis y permitió crear una matriz de adyacencia clara y funcional.  

#### 2. **Creación de una Matriz de Adyacencia Útil y Accesible**  
   - La matriz de adyacencia generada representa de manera precisa las relaciones entre diputados y candidatos. Esta estructura no solo facilita el análisis de redes, sino que también se convierte en un insumo reutilizable para futuros estudios.  

#### 3. **Análisis de Redes para Comprender las Dinámicas de Votación**  
   - La visualización en Gephi permitió identificar patrones de apoyo, alianzas políticas y posibles divisiones dentro del Congreso durante el proceso de elección. Esto ofrece un entendimiento más profundo de las dinámicas de poder y los factores que influyen en decisiones clave.  

#### 4. **Transparencia y Reutilización de Resultados**  
   - Los archivos CSV generados permiten almacenar y compartir los datos procesados de manera transparente, facilitando su uso por parte de otros investigadores, periodistas o ciudadanos interesados en el análisis del sistema judicial y político de Guatemala.  
   - Este enfoque refuerza la importancia de mantener los datos abiertos y accesibles para el escrutinio público.  

#### 5. **Impacto Social y Político del Proyecto**  
   - Al proporcionar una representación visual y estructurada de un proceso de elección tan crítico, el proyecto fomenta la transparencia y el debate informado sobre la independencia judicial en Guatemala.  
   - También resalta la importancia de monitorear y analizar procesos políticos para garantizar que estos sean justos y representen los intereses del país.

#### Lecciones Aprendidas  
   - **Automatización como Herramienta Esencial**: La automatización a través de Selenium y la programación con Python demostraron ser herramientas efectivas para manejar procesos complejos de extracción y transformación de datos.  
   - **Importancia de la Validación**: Cada paso del proceso, desde la extracción hasta el análisis final, requirió validación rigurosa para asegurar la precisión y confiabilidad de los resultados.  
   - **Versatilidad del Análisis de Redes**: El análisis de redes no solo sirvió para representar las conexiones entre diputados y candidatos, sino que también permitió interpretar patrones subyacentes de interacción y apoyo.

#### Perspectivas Futuras  
El proyecto sienta las bases para investigaciones futuras que podrían:  
   - Ampliar el análisis a otros procesos de votación en el Congreso.  
   - Incorporar análisis estadísticos adicionales para entender correlaciones entre votos y afiliaciones políticas.  
   - Diseñar herramientas interactivas que permitan a la ciudadanía explorar los resultados de manera más accesible.

En conclusión, este proyecto no solo resuelve un desafío técnico al manejar datos dinámicos y fragmentados, sino que también contribuye significativamente a la comprensión de las dinámicas políticas y sociales detrás de un proceso fundamental para el sistema de justicia de Guatemala.