# Jaime Guzmán

In [1]:
import time
import pandas as pd
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from datetime import datetime

def extract_articles_from_url(url, existing_data=None):
    """
    Extrae información de artículos desde una URL y concatena con un DataFrame existente si se proporciona.

    Args:
        url (str): URL de la página para extraer artículos.
        existing_data (pd.DataFrame, opcional): DataFrame existente con datos previos. Default: None.

    Returns:
        pd.DataFrame: DataFrame con la información de los artículos extraídos y los datos previos si se proporciona.
    """
    def extract_articles_info(driver):
        wait = WebDriverWait(driver, 10)
        articles = wait.until(EC.presence_of_all_elements_located((By.CSS_SELECTOR, "article.post")))

        data = []
        for article in articles:
            try:
                if article.is_displayed():
                    # Título
                    title_element = article.find_element(By.CSS_SELECTOR, ".entry-title a")
                    title = title_element.text
                    link = title_element.get_attribute("href")

                    # Autor
                    author_element = article.find_element(By.CSS_SELECTOR, ".author.vcard a")
                    author = author_element.text

                    # Fecha
                    date_element = article.find_element(By.CSS_SELECTOR, ".posted-on time.entry-date.published")
                    date = date_element.get_attribute("datetime")

                    # Categorías
                    categories_elements = article.find_elements(By.CSS_SELECTOR, ".cat-links a")
                    categories = [cat.text for cat in categories_elements]

                    # Imagen
                    image_element = article.find_element(By.CSS_SELECTOR, "figure img")
                    image_url = image_element.get_attribute("src")

                    # Resumen o contenido inicial
                    content_element = article.find_element(By.CSS_SELECTOR, ".entry-content p")
                    content = content_element.text

                    # Fecha de consulta
                    current_date = datetime.now().strftime('%Y-%m-%d %H:%M:%S')

                    data.append({
                        'Título': title,
                        'Enlace': link,
                        'Autor': author,
                        'Fecha Publicación': date,
                        'Categorías': ", ".join(categories),
                        'URL Imagen': image_url,
                        'Contenido': content,
                        'Fecha Consulta': current_date
                    })

            except Exception as e:
                print(f"Error al extraer datos de un artículo: {e}")

        return pd.DataFrame(data)

    wd = webdriver.Chrome()
    try:
        wd.get(url)
        WebDriverWait(wd, 10).until(EC.presence_of_element_located((By.CSS_SELECTOR, "article.post")))
        new_data = extract_articles_info(wd)
        
        # Concatenar con datos existentes si se proporciona
        if existing_data is not None:
            result_data = pd.concat([existing_data, new_data], ignore_index=True)
        else:
            result_data = new_data

        return result_data

    finally:
        wd.quit()

Apuntes constitucionales

In [2]:
url = "https://www.fjguzman.cl/apuntes-constitucionales/"
df = extract_articles_from_url(url)
df

Unnamed: 0,Título,Enlace,Autor,Fecha Publicación,Categorías,URL Imagen,Contenido,Fecha Consulta
0,Cinco mejoras para el Poder Judicial,https://www.fjguzman.cl/cinco-mejoras-para-el-...,Comunicaciones FJG,2023-12-15T13:23:04+00:00,"Apuntes Constitucionales, Noticias y Actividad...",https://www.fjguzman.cl/wp-content/uploads/202...,"En el presente apunte, se presentan las mejora...",2024-11-23 01:05:08
1,Derribando mitos: protección de los derechos e...,https://www.fjguzman.cl/derribando-mitos-prote...,Comunicaciones FJG,2023-12-13T18:06:31+00:00,"Apuntes Constitucionales, Noticias y Actividades",https://www.fjguzman.cl/wp-content/uploads/202...,No sólo la propuesta mantiene la protección al...,2024-11-23 01:05:08
2,Estado empresario en la propuesta de texto con...,https://www.fjguzman.cl/estado-empresario-en-l...,Comunicaciones FJG,2023-11-24T10:30:10+00:00,"Apuntes Constitucionales, Noticias y Actividades",https://www.fjguzman.cl/wp-content/uploads/202...,Con todos los cambios que se introdujeron a la...,2024-11-23 01:05:08
3,Objeción de conciencia y libertad religiosa,https://www.fjguzman.cl/objecion-de-conciencia...,Comunicaciones FJG,2023-11-15T13:04:06+00:00,"Apuntes Constitucionales, Noticias y Actividades",https://www.fjguzman.cl/wp-content/uploads/202...,La incorporación expresa de la objeción de con...,2024-11-23 01:05:08
4,Los atentados del activismo judicial,https://www.fjguzman.cl/los-atentados-del-acti...,Comunicaciones FJG,2023-10-04T09:00:34+00:00,"Apuntes Constitucionales, Noticias y Actividades",https://www.fjguzman.cl/wp-content/uploads/202...,Uno de los diagnósticos más transversales alca...,2024-11-23 01:05:08
5,Régimen público de las aguas en el debate cons...,https://www.fjguzman.cl/regimen-publico-de-las...,Comunicaciones FJG,2023-08-11T16:14:28+00:00,"Apuntes Constitucionales, Noticias y Actividades",https://www.fjguzman.cl/wp-content/uploads/202...,"En el contexto de escasez hídrica actual, el r...",2024-11-23 01:05:08
6,Deberes constitucionales en el anteproyecto de...,https://www.fjguzman.cl/deberes-constitucional...,Comunicaciones FJG,2023-07-26T13:32:35+00:00,"Apuntes Constitucionales, Noticias y Actividades",https://www.fjguzman.cl/wp-content/uploads/202...,Una de las novedades del anteproyecto de const...,2024-11-23 01:05:08
7,Estado social y subsidiariedad: ¿compatibles?,https://www.fjguzman.cl/estado-social-y-subsid...,Comunicaciones FJG,2023-06-14T22:00:24+00:00,"Apuntes Constitucionales, Noticias y Actividades",https://www.fjguzman.cl/wp-content/uploads/202...,Este apunte constituye una continuación del ya...,2024-11-23 01:05:08
8,Estado social vs. subsidiariedad: una aproxima...,https://www.fjguzman.cl/estado-social-vs-subsi...,Comunicaciones FJG,2023-05-17T21:56:50+00:00,"Apuntes Constitucionales, Noticias y Actividades",https://www.fjguzman.cl/wp-content/uploads/202...,"Uno de los puntos álgidos del debate, en el ma...",2024-11-23 01:05:08
9,Por qué el borrador de la Convención es un pel...,https://www.fjguzman.cl/por-que-el-borrador-de...,Comunicaciones FJG,2022-07-28T20:02:06+00:00,"Apuntes Constitucionales, Noticias y Actividades",https://www.fjguzman.cl/wp-content/uploads/202...,"A continuación, se presentan argumentos por lo...",2024-11-23 01:05:09


In [3]:
url = "https://www.fjguzman.cl/apuntes-constitucionales/page/2/"
df = extract_articles_from_url(url, existing_data=df)
df

Unnamed: 0,Título,Enlace,Autor,Fecha Publicación,Categorías,URL Imagen,Contenido,Fecha Consulta
0,Cinco mejoras para el Poder Judicial,https://www.fjguzman.cl/cinco-mejoras-para-el-...,Comunicaciones FJG,2023-12-15T13:23:04+00:00,"Apuntes Constitucionales, Noticias y Actividad...",https://www.fjguzman.cl/wp-content/uploads/202...,"En el presente apunte, se presentan las mejora...",2024-11-23 01:05:08
1,Derribando mitos: protección de los derechos e...,https://www.fjguzman.cl/derribando-mitos-prote...,Comunicaciones FJG,2023-12-13T18:06:31+00:00,"Apuntes Constitucionales, Noticias y Actividades",https://www.fjguzman.cl/wp-content/uploads/202...,No sólo la propuesta mantiene la protección al...,2024-11-23 01:05:08
2,Estado empresario en la propuesta de texto con...,https://www.fjguzman.cl/estado-empresario-en-l...,Comunicaciones FJG,2023-11-24T10:30:10+00:00,"Apuntes Constitucionales, Noticias y Actividades",https://www.fjguzman.cl/wp-content/uploads/202...,Con todos los cambios que se introdujeron a la...,2024-11-23 01:05:08
3,Objeción de conciencia y libertad religiosa,https://www.fjguzman.cl/objecion-de-conciencia...,Comunicaciones FJG,2023-11-15T13:04:06+00:00,"Apuntes Constitucionales, Noticias y Actividades",https://www.fjguzman.cl/wp-content/uploads/202...,La incorporación expresa de la objeción de con...,2024-11-23 01:05:08
4,Los atentados del activismo judicial,https://www.fjguzman.cl/los-atentados-del-acti...,Comunicaciones FJG,2023-10-04T09:00:34+00:00,"Apuntes Constitucionales, Noticias y Actividades",https://www.fjguzman.cl/wp-content/uploads/202...,Uno de los diagnósticos más transversales alca...,2024-11-23 01:05:08
5,Régimen público de las aguas en el debate cons...,https://www.fjguzman.cl/regimen-publico-de-las...,Comunicaciones FJG,2023-08-11T16:14:28+00:00,"Apuntes Constitucionales, Noticias y Actividades",https://www.fjguzman.cl/wp-content/uploads/202...,"En el contexto de escasez hídrica actual, el r...",2024-11-23 01:05:08
6,Deberes constitucionales en el anteproyecto de...,https://www.fjguzman.cl/deberes-constitucional...,Comunicaciones FJG,2023-07-26T13:32:35+00:00,"Apuntes Constitucionales, Noticias y Actividades",https://www.fjguzman.cl/wp-content/uploads/202...,Una de las novedades del anteproyecto de const...,2024-11-23 01:05:08
7,Estado social y subsidiariedad: ¿compatibles?,https://www.fjguzman.cl/estado-social-y-subsid...,Comunicaciones FJG,2023-06-14T22:00:24+00:00,"Apuntes Constitucionales, Noticias y Actividades",https://www.fjguzman.cl/wp-content/uploads/202...,Este apunte constituye una continuación del ya...,2024-11-23 01:05:08
8,Estado social vs. subsidiariedad: una aproxima...,https://www.fjguzman.cl/estado-social-vs-subsi...,Comunicaciones FJG,2023-05-17T21:56:50+00:00,"Apuntes Constitucionales, Noticias y Actividades",https://www.fjguzman.cl/wp-content/uploads/202...,"Uno de los puntos álgidos del debate, en el ma...",2024-11-23 01:05:08
9,Por qué el borrador de la Convención es un pel...,https://www.fjguzman.cl/por-que-el-borrador-de...,Comunicaciones FJG,2022-07-28T20:02:06+00:00,"Apuntes Constitucionales, Noticias y Actividades",https://www.fjguzman.cl/wp-content/uploads/202...,"A continuación, se presentan argumentos por lo...",2024-11-23 01:05:09


Revista realidad

In [4]:
url = "https://www.fjguzman.cl/revista-realidad/"
df = extract_articles_from_url(url, existing_data=df)
df

Unnamed: 0,Título,Enlace,Autor,Fecha Publicación,Categorías,URL Imagen,Contenido,Fecha Consulta
0,Cinco mejoras para el Poder Judicial,https://www.fjguzman.cl/cinco-mejoras-para-el-...,Comunicaciones FJG,2023-12-15T13:23:04+00:00,"Apuntes Constitucionales, Noticias y Actividad...",https://www.fjguzman.cl/wp-content/uploads/202...,"En el presente apunte, se presentan las mejora...",2024-11-23 01:05:08
1,Derribando mitos: protección de los derechos e...,https://www.fjguzman.cl/derribando-mitos-prote...,Comunicaciones FJG,2023-12-13T18:06:31+00:00,"Apuntes Constitucionales, Noticias y Actividades",https://www.fjguzman.cl/wp-content/uploads/202...,No sólo la propuesta mantiene la protección al...,2024-11-23 01:05:08
2,Estado empresario en la propuesta de texto con...,https://www.fjguzman.cl/estado-empresario-en-l...,Comunicaciones FJG,2023-11-24T10:30:10+00:00,"Apuntes Constitucionales, Noticias y Actividades",https://www.fjguzman.cl/wp-content/uploads/202...,Con todos los cambios que se introdujeron a la...,2024-11-23 01:05:08
3,Objeción de conciencia y libertad religiosa,https://www.fjguzman.cl/objecion-de-conciencia...,Comunicaciones FJG,2023-11-15T13:04:06+00:00,"Apuntes Constitucionales, Noticias y Actividades",https://www.fjguzman.cl/wp-content/uploads/202...,La incorporación expresa de la objeción de con...,2024-11-23 01:05:08
4,Los atentados del activismo judicial,https://www.fjguzman.cl/los-atentados-del-acti...,Comunicaciones FJG,2023-10-04T09:00:34+00:00,"Apuntes Constitucionales, Noticias y Actividades",https://www.fjguzman.cl/wp-content/uploads/202...,Uno de los diagnósticos más transversales alca...,2024-11-23 01:05:08
5,Régimen público de las aguas en el debate cons...,https://www.fjguzman.cl/regimen-publico-de-las...,Comunicaciones FJG,2023-08-11T16:14:28+00:00,"Apuntes Constitucionales, Noticias y Actividades",https://www.fjguzman.cl/wp-content/uploads/202...,"En el contexto de escasez hídrica actual, el r...",2024-11-23 01:05:08
6,Deberes constitucionales en el anteproyecto de...,https://www.fjguzman.cl/deberes-constitucional...,Comunicaciones FJG,2023-07-26T13:32:35+00:00,"Apuntes Constitucionales, Noticias y Actividades",https://www.fjguzman.cl/wp-content/uploads/202...,Una de las novedades del anteproyecto de const...,2024-11-23 01:05:08
7,Estado social y subsidiariedad: ¿compatibles?,https://www.fjguzman.cl/estado-social-y-subsid...,Comunicaciones FJG,2023-06-14T22:00:24+00:00,"Apuntes Constitucionales, Noticias y Actividades",https://www.fjguzman.cl/wp-content/uploads/202...,Este apunte constituye una continuación del ya...,2024-11-23 01:05:08
8,Estado social vs. subsidiariedad: una aproxima...,https://www.fjguzman.cl/estado-social-vs-subsi...,Comunicaciones FJG,2023-05-17T21:56:50+00:00,"Apuntes Constitucionales, Noticias y Actividades",https://www.fjguzman.cl/wp-content/uploads/202...,"Uno de los puntos álgidos del debate, en el ma...",2024-11-23 01:05:08
9,Por qué el borrador de la Convención es un pel...,https://www.fjguzman.cl/por-que-el-borrador-de...,Comunicaciones FJG,2022-07-28T20:02:06+00:00,"Apuntes Constitucionales, Noticias y Actividades",https://www.fjguzman.cl/wp-content/uploads/202...,"A continuación, se presentan argumentos por lo...",2024-11-23 01:05:09


Taller de coyuntura

In [5]:
url = "https://www.fjguzman.cl/taller-de-coyuntura/"
df = extract_articles_from_url(url, existing_data=df)
df

Unnamed: 0,Título,Enlace,Autor,Fecha Publicación,Categorías,URL Imagen,Contenido,Fecha Consulta
0,Cinco mejoras para el Poder Judicial,https://www.fjguzman.cl/cinco-mejoras-para-el-...,Comunicaciones FJG,2023-12-15T13:23:04+00:00,"Apuntes Constitucionales, Noticias y Actividad...",https://www.fjguzman.cl/wp-content/uploads/202...,"En el presente apunte, se presentan las mejora...",2024-11-23 01:05:08
1,Derribando mitos: protección de los derechos e...,https://www.fjguzman.cl/derribando-mitos-prote...,Comunicaciones FJG,2023-12-13T18:06:31+00:00,"Apuntes Constitucionales, Noticias y Actividades",https://www.fjguzman.cl/wp-content/uploads/202...,No sólo la propuesta mantiene la protección al...,2024-11-23 01:05:08
2,Estado empresario en la propuesta de texto con...,https://www.fjguzman.cl/estado-empresario-en-l...,Comunicaciones FJG,2023-11-24T10:30:10+00:00,"Apuntes Constitucionales, Noticias y Actividades",https://www.fjguzman.cl/wp-content/uploads/202...,Con todos los cambios que se introdujeron a la...,2024-11-23 01:05:08
3,Objeción de conciencia y libertad religiosa,https://www.fjguzman.cl/objecion-de-conciencia...,Comunicaciones FJG,2023-11-15T13:04:06+00:00,"Apuntes Constitucionales, Noticias y Actividades",https://www.fjguzman.cl/wp-content/uploads/202...,La incorporación expresa de la objeción de con...,2024-11-23 01:05:08
4,Los atentados del activismo judicial,https://www.fjguzman.cl/los-atentados-del-acti...,Comunicaciones FJG,2023-10-04T09:00:34+00:00,"Apuntes Constitucionales, Noticias y Actividades",https://www.fjguzman.cl/wp-content/uploads/202...,Uno de los diagnósticos más transversales alca...,2024-11-23 01:05:08
5,Régimen público de las aguas en el debate cons...,https://www.fjguzman.cl/regimen-publico-de-las...,Comunicaciones FJG,2023-08-11T16:14:28+00:00,"Apuntes Constitucionales, Noticias y Actividades",https://www.fjguzman.cl/wp-content/uploads/202...,"En el contexto de escasez hídrica actual, el r...",2024-11-23 01:05:08
6,Deberes constitucionales en el anteproyecto de...,https://www.fjguzman.cl/deberes-constitucional...,Comunicaciones FJG,2023-07-26T13:32:35+00:00,"Apuntes Constitucionales, Noticias y Actividades",https://www.fjguzman.cl/wp-content/uploads/202...,Una de las novedades del anteproyecto de const...,2024-11-23 01:05:08
7,Estado social y subsidiariedad: ¿compatibles?,https://www.fjguzman.cl/estado-social-y-subsid...,Comunicaciones FJG,2023-06-14T22:00:24+00:00,"Apuntes Constitucionales, Noticias y Actividades",https://www.fjguzman.cl/wp-content/uploads/202...,Este apunte constituye una continuación del ya...,2024-11-23 01:05:08
8,Estado social vs. subsidiariedad: una aproxima...,https://www.fjguzman.cl/estado-social-vs-subsi...,Comunicaciones FJG,2023-05-17T21:56:50+00:00,"Apuntes Constitucionales, Noticias y Actividades",https://www.fjguzman.cl/wp-content/uploads/202...,"Uno de los puntos álgidos del debate, en el ma...",2024-11-23 01:05:08
9,Por qué el borrador de la Convención es un pel...,https://www.fjguzman.cl/por-que-el-borrador-de...,Comunicaciones FJG,2022-07-28T20:02:06+00:00,"Apuntes Constitucionales, Noticias y Actividades",https://www.fjguzman.cl/wp-content/uploads/202...,"A continuación, se presentan argumentos por lo...",2024-11-23 01:05:09


In [6]:
url = "https://www.fjguzman.cl/taller-de-coyuntura/page/2/"
df = extract_articles_from_url(url, existing_data=df)
df.head()

Unnamed: 0,Título,Enlace,Autor,Fecha Publicación,Categorías,URL Imagen,Contenido,Fecha Consulta
0,Cinco mejoras para el Poder Judicial,https://www.fjguzman.cl/cinco-mejoras-para-el-...,Comunicaciones FJG,2023-12-15T13:23:04+00:00,"Apuntes Constitucionales, Noticias y Actividad...",https://www.fjguzman.cl/wp-content/uploads/202...,"En el presente apunte, se presentan las mejora...",2024-11-23 01:05:08
1,Derribando mitos: protección de los derechos e...,https://www.fjguzman.cl/derribando-mitos-prote...,Comunicaciones FJG,2023-12-13T18:06:31+00:00,"Apuntes Constitucionales, Noticias y Actividades",https://www.fjguzman.cl/wp-content/uploads/202...,No sólo la propuesta mantiene la protección al...,2024-11-23 01:05:08
2,Estado empresario en la propuesta de texto con...,https://www.fjguzman.cl/estado-empresario-en-l...,Comunicaciones FJG,2023-11-24T10:30:10+00:00,"Apuntes Constitucionales, Noticias y Actividades",https://www.fjguzman.cl/wp-content/uploads/202...,Con todos los cambios que se introdujeron a la...,2024-11-23 01:05:08
3,Objeción de conciencia y libertad religiosa,https://www.fjguzman.cl/objecion-de-conciencia...,Comunicaciones FJG,2023-11-15T13:04:06+00:00,"Apuntes Constitucionales, Noticias y Actividades",https://www.fjguzman.cl/wp-content/uploads/202...,La incorporación expresa de la objeción de con...,2024-11-23 01:05:08
4,Los atentados del activismo judicial,https://www.fjguzman.cl/los-atentados-del-acti...,Comunicaciones FJG,2023-10-04T09:00:34+00:00,"Apuntes Constitucionales, Noticias y Actividades",https://www.fjguzman.cl/wp-content/uploads/202...,Uno de los diagnósticos más transversales alca...,2024-11-23 01:05:08


In [7]:
url = "https://www.fjguzman.cl/taller-de-coyuntura/page/3/"
df = extract_articles_from_url(url, existing_data=df)
df

Unnamed: 0,Título,Enlace,Autor,Fecha Publicación,Categorías,URL Imagen,Contenido,Fecha Consulta
0,Cinco mejoras para el Poder Judicial,https://www.fjguzman.cl/cinco-mejoras-para-el-...,Comunicaciones FJG,2023-12-15T13:23:04+00:00,"Apuntes Constitucionales, Noticias y Actividad...",https://www.fjguzman.cl/wp-content/uploads/202...,"En el presente apunte, se presentan las mejora...",2024-11-23 01:05:08
1,Derribando mitos: protección de los derechos e...,https://www.fjguzman.cl/derribando-mitos-prote...,Comunicaciones FJG,2023-12-13T18:06:31+00:00,"Apuntes Constitucionales, Noticias y Actividades",https://www.fjguzman.cl/wp-content/uploads/202...,No sólo la propuesta mantiene la protección al...,2024-11-23 01:05:08
2,Estado empresario en la propuesta de texto con...,https://www.fjguzman.cl/estado-empresario-en-l...,Comunicaciones FJG,2023-11-24T10:30:10+00:00,"Apuntes Constitucionales, Noticias y Actividades",https://www.fjguzman.cl/wp-content/uploads/202...,Con todos los cambios que se introdujeron a la...,2024-11-23 01:05:08
3,Objeción de conciencia y libertad religiosa,https://www.fjguzman.cl/objecion-de-conciencia...,Comunicaciones FJG,2023-11-15T13:04:06+00:00,"Apuntes Constitucionales, Noticias y Actividades",https://www.fjguzman.cl/wp-content/uploads/202...,La incorporación expresa de la objeción de con...,2024-11-23 01:05:08
4,Los atentados del activismo judicial,https://www.fjguzman.cl/los-atentados-del-acti...,Comunicaciones FJG,2023-10-04T09:00:34+00:00,"Apuntes Constitucionales, Noticias y Actividades",https://www.fjguzman.cl/wp-content/uploads/202...,Uno de los diagnósticos más transversales alca...,2024-11-23 01:05:08
...,...,...,...,...,...,...,...,...
67,"Óscar Guillermo Garretón | La Unidad Popular, ...",https://www.fjguzman.cl/oscar-guillermo-garret...,Comunicaciones FJG,2023-06-30T14:23:59+00:00,"Noticias y Actividades, Taller de Coyuntura",https://www.fjguzman.cl/wp-content/uploads/202...,Taller de Coyuntura con Óscar Guillermo Garret...,2024-11-23 01:05:54
68,Manuel Inostroza | Crisis del sistema de Isapr...,https://www.fjguzman.cl/manuel-inostroza-crisi...,Comunicaciones FJG,2023-06-15T14:13:37+00:00,"Noticias y Actividades, Taller de Coyuntura",https://www.fjguzman.cl/wp-content/uploads/202...,"Taller de Coyuntura con Manuel Inostroza, ex s...",2024-11-23 01:05:55
69,Klaus Schmidt-Hebbel | Reformas emblemáticas: ...,https://www.fjguzman.cl/klaus-schmidt-hebbel/,Comunicaciones FJG,2023-06-01T16:22:13+00:00,"Noticias y Actividades, Taller de Coyuntura",https://www.fjguzman.cl/wp-content/uploads/202...,"Taller de Coyuntura con Klaus Schmidt-Hebbel, ...",2024-11-23 01:06:04
70,Ángel Rivero | Geografía del populismo,https://www.fjguzman.cl/angel-rivero-geografia...,Comunicaciones FJG,2023-04-15T14:05:03+00:00,"Noticias y Actividades, Taller de Coyuntura",https://www.fjguzman.cl/wp-content/uploads/202...,"Taller de Coyuntura con Ángel Rivero, Doctor e...",2024-11-23 01:06:05


## Resto

In [42]:
import time
import pandas as pd
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from datetime import datetime

def extract_articles_from_url2(url, existing_df=None):
    """
    Extrae información de artículos desde una URL y agrega los resultados a un DataFrame existente.
    
    Args:
        url (str): URL de la página para extraer artículos.
        existing_df (pd.DataFrame, optional): DataFrame al que agregar los artículos extraídos. Si no se proporciona, se crea uno nuevo.
    
    Returns:
        pd.DataFrame: DataFrame con los artículos extraídos agregados al existente (o uno nuevo si no se proporciona).
    """
    driver = webdriver.Chrome()
    
    try:
        driver.get(url)
        # Esperar a que cargue el contenido
        time.sleep(3)
        
        # Obtener todos los artículos
        articles = driver.find_elements(By.CLASS_NAME, "post-entry")
        
        data = []
        for article in articles:
            # Imagen
            try:
                img = article.find_element(By.CSS_SELECTOR, ".post-featured-image img")
                image_url = img.get_attribute("src")
            except:
                image_url = None
                
            # Título y enlace
            try:
                title = article.find_element(By.CLASS_NAME, "post-entry__title").text.strip()
                link = article.find_element(By.CSS_SELECTOR, ".post-entry__more a").get_attribute("href")
            except:
                continue  # Si no hay título o enlace, saltamos este artículo
                
            # Contenido
            try:
                content = article.find_element(By.CSS_SELECTOR, ".post-entry__content p").text.strip()
            except:
                content = None
            
            # Fecha actual de consulta
            current_date = datetime.now().strftime('%Y-%m-%d %H:%M:%S')
            
            # Crear diccionario con los datos
            article_data = {
                'Título': title,
                'Enlace': link,
                'Autor': 'No especificado',  # Campo fijo
                'Fecha Publicación': 'No especificada',  # Campo fijo
                'Categorías': 'Ideas & Propuestas',  # Campo fijo
                'URL Imagen': image_url,
                'Contenido': content,
                'Fecha Consulta': current_date
            }
            
            data.append(article_data)
        
        # Crear DataFrame con los nuevos datos
        new_df = pd.DataFrame(data)
        
        # Si ya existe un DataFrame proporcionado, concatenar los nuevos datos al existente
        if existing_df is not None:
            existing_df = pd.concat([existing_df, new_df], ignore_index=True)
        else:
            # Si no existe, devolver el nuevo DataFrame
            existing_df = new_df
        
        return existing_df
        
    except Exception as e:
        print(f"Error en la extracción: {str(e)}")
        return existing_df if existing_df is not None else pd.DataFrame()
        
    finally:
        driver.quit()

In [43]:
url = "https://www.fjguzman.cl/ideas-propuestas/page/2/"
aver = extract_articles_from_url2(url, aver)
aver

Unnamed: 0,Título,Enlace,Autor,Fecha Publicación,Categorías,URL Imagen,Contenido,Fecha Consulta
0,Trump y la relación con Chile y América Latina,https://www.fjguzman.cl/trump-y-la-relacion-co...,No especificado,No especificada,Ideas & Propuestas,https://www.fjguzman.cl/wp-content/uploads/202...,El presente Ideas & Propuestas analiza las imp...,2024-11-23 16:26:13
1,El secreto en el Informe Valech,https://www.fjguzman.cl/el-secreto-en-el-infor...,No especificado,No especificada,Ideas & Propuestas,https://www.fjguzman.cl/wp-content/uploads/202...,En el presente número de Ideas & Propuestas se...,2024-11-23 16:26:13
2,La eutanasia desde una óptica filosófica: John...,https://www.fjguzman.cl/la-eutanasia-desde-una...,No especificado,No especificada,Ideas & Propuestas,https://www.fjguzman.cl/wp-content/uploads/202...,"En el presente número de Ideas & Propuestas, s...",2024-11-23 16:26:13
3,A cinco años del 18-O: consecuencias de la ins...,https://www.fjguzman.cl/a-5-anos-del-18-o-cons...,No especificado,No especificada,Ideas & Propuestas,https://www.fjguzman.cl/wp-content/uploads/202...,En este número de Ideas & Propuestas se analiz...,2024-11-23 16:26:13
4,Una mayor recaudación sin aumentar impuestos,https://www.fjguzman.cl/una-mayor-recaudacion-...,No especificado,No especificada,Ideas & Propuestas,https://www.fjguzman.cl/wp-content/uploads/202...,En esta edición de Ideas & Propuestas repasamo...,2024-11-23 16:26:13
5,A dos años del triunfo del «Rechazo»,https://www.fjguzman.cl/a-dos-anos-del-triunfo...,No especificado,No especificada,Ideas & Propuestas,https://www.fjguzman.cl/wp-content/uploads/202...,En el segundo aniversario del plebiscito que d...,2024-11-23 16:26:13
6,Regulación del aborto en Chile,https://www.fjguzman.cl/regulacion-del-aborto-...,No especificado,No especificada,Ideas & Propuestas,https://www.fjguzman.cl/wp-content/uploads/202...,La cuenta pública de junio pasado volvió a pon...,2024-11-23 16:26:13
7,Venezuela ante el mundo: entre el fraude y la ...,https://www.fjguzman.cl/venezuela-ante-el-mund...,No especificado,No especificada,Ideas & Propuestas,https://www.fjguzman.cl/wp-content/uploads/202...,Ante los efectos producidos a lo largo de más ...,2024-11-23 16:26:13
8,Falta de consentimiento en la licitación previ...,https://www.fjguzman.cl/falta-de-consentimient...,No especificado,No especificada,Ideas & Propuestas,https://www.fjguzman.cl/wp-content/uploads/202...,"En el presente documento se analizará, desde l...",2024-11-23 16:26:13
9,La polémica del secreto bancario y la protecci...,https://www.fjguzman.cl/la-polemica-del-secret...,No especificado,No especificada,Ideas & Propuestas,https://www.fjguzman.cl/wp-content/uploads/202...,La insistencia del Gobierno actual en promover...,2024-11-23 16:26:13


In [29]:
aver

In [44]:
import time
from selenium import webdriver
from selenium.webdriver.common.by import By
from datetime import datetime

def extract_articles_from_multiple_pages(base_url, start_page=1, max_pages=100):
    """
    Itera sobre varias páginas y extrae los artículos, deteniéndose cuando una página no se encuentra.
    
    Args:
        base_url (str): URL base de las páginas, debe contener un marcador de página, e.g., 'page/{page_number}/'.
        start_page (int): Número de página inicial para empezar a iterar (por defecto es la página 1).
        max_pages (int): Número máximo de páginas a intentar antes de detener la búsqueda (por defecto es 100).
    
    Returns:
        pd.DataFrame: DataFrame con los artículos extraídos de todas las páginas procesadas.
    """
    current_page = start_page
    all_articles_df = pd.DataFrame()  # Inicializamos un DataFrame vacío
    
    while current_page <= max_pages:
        # Construir la URL de la página actual
        url = base_url.format(page_number=current_page)
        print(f"Extrayendo artículos de: {url}")
        
        # Llamar a la función extract_articles_from_url2 para obtener artículos de la página
        all_articles_df = extract_articles_from_url2(url, all_articles_df)
        
        # Verificar si se encontró una página de error (por ejemplo, página no encontrada)
        if all_articles_df is None or len(all_articles_df) == 0:
            print(f"No se encontraron artículos en la página {current_page}, o la página no existe.")
            break
        
        current_page += 1  # Pasar a la siguiente página
    
    return all_articles_df

In [46]:
# URL base de la página, con el marcador {page_number} para indicar el número de página
base_url = "https://www.fjguzman.cl/ideas-propuestas/page/{page_number}/"

# Llamamos a la función para extraer artículos de todas las páginas
aver = extract_articles_from_multiple_pages(base_url, start_page=1, max_pages=50)

# Ver el DataFrame con los artículos extraídos
aver

Extrayendo artículos de: https://www.fjguzman.cl/ideas-propuestas/page/1/
Extrayendo artículos de: https://www.fjguzman.cl/ideas-propuestas/page/2/
Extrayendo artículos de: https://www.fjguzman.cl/ideas-propuestas/page/3/
Extrayendo artículos de: https://www.fjguzman.cl/ideas-propuestas/page/4/
Extrayendo artículos de: https://www.fjguzman.cl/ideas-propuestas/page/5/
Extrayendo artículos de: https://www.fjguzman.cl/ideas-propuestas/page/6/
Extrayendo artículos de: https://www.fjguzman.cl/ideas-propuestas/page/7/
Extrayendo artículos de: https://www.fjguzman.cl/ideas-propuestas/page/8/
Extrayendo artículos de: https://www.fjguzman.cl/ideas-propuestas/page/9/
Extrayendo artículos de: https://www.fjguzman.cl/ideas-propuestas/page/10/
Extrayendo artículos de: https://www.fjguzman.cl/ideas-propuestas/page/11/
Extrayendo artículos de: https://www.fjguzman.cl/ideas-propuestas/page/12/
Extrayendo artículos de: https://www.fjguzman.cl/ideas-propuestas/page/13/
Extrayendo artículos de: https://w

Unnamed: 0,Título,Enlace,Autor,Fecha Publicación,Categorías,URL Imagen,Contenido,Fecha Consulta
0,Trump y la relación con Chile y América Latina,https://www.fjguzman.cl/trump-y-la-relacion-co...,No especificado,No especificada,Ideas & Propuestas,https://www.fjguzman.cl/wp-content/uploads/202...,El presente Ideas & Propuestas analiza las imp...,2024-11-23 17:29:18
1,El secreto en el Informe Valech,https://www.fjguzman.cl/el-secreto-en-el-infor...,No especificado,No especificada,Ideas & Propuestas,https://www.fjguzman.cl/wp-content/uploads/202...,En el presente número de Ideas & Propuestas se...,2024-11-23 17:29:18
2,La eutanasia desde una óptica filosófica: John...,https://www.fjguzman.cl/la-eutanasia-desde-una...,No especificado,No especificada,Ideas & Propuestas,https://www.fjguzman.cl/wp-content/uploads/202...,"En el presente número de Ideas & Propuestas, s...",2024-11-23 17:29:18
3,A cinco años del 18-O: consecuencias de la ins...,https://www.fjguzman.cl/a-5-anos-del-18-o-cons...,No especificado,No especificada,Ideas & Propuestas,https://www.fjguzman.cl/wp-content/uploads/202...,En este número de Ideas & Propuestas se analiz...,2024-11-23 17:29:18
4,Una mayor recaudación sin aumentar impuestos,https://www.fjguzman.cl/una-mayor-recaudacion-...,No especificado,No especificada,Ideas & Propuestas,https://www.fjguzman.cl/wp-content/uploads/202...,En esta edición de Ideas & Propuestas repasamo...,2024-11-23 17:29:18
...,...,...,...,...,...,...,...,...
405,Gobierno corporativo de CODELCO,https://www.fjguzman.cl/gobierno-corporativo-d...,No especificado,No especificada,Ideas & Propuestas,https://www.fjguzman.cl/wp-content/uploads/201...,Los estándares modernos de valoración de las e...,2024-11-23 17:36:11
406,Ombudsman: ¿La defensa que las personas necesi...,https://www.fjguzman.cl/ombudsman-la-defensa-q...,No especificado,No especificada,Ideas & Propuestas,https://www.fjguzman.cl/wp-content/uploads/201...,¿Requiere nuestro país un Defensor del Pueblo?...,2024-11-23 17:36:11
407,Radiografía al Auge,https://www.fjguzman.cl/radiografia-al-auge/,No especificado,No especificada,Ideas & Propuestas,https://www.fjguzman.cl/wp-content/uploads/201...,Hablar hoy de la reforma en salud se reduce a ...,2024-11-23 17:36:11
408,Subvenciones Escolares: La verdadera razón de ...,https://www.fjguzman.cl/subvenciones-escolares...,No especificado,No especificada,Ideas & Propuestas,https://www.fjguzman.cl/wp-content/uploads/201...,El Ministerio de Educación cuenta con suficien...,2024-11-23 17:36:11


In [61]:
jg = pd.concat([df, aver], ignore_index=True)
jg

Unnamed: 0,Título,Enlace,Autor,Fecha Publicación,Categorías,URL Imagen,Contenido,Fecha Consulta
0,Cinco mejoras para el Poder Judicial,https://www.fjguzman.cl/cinco-mejoras-para-el-...,Comunicaciones FJG,2023-12-15T13:23:04+00:00,"Apuntes Constitucionales, Noticias y Actividad...",https://www.fjguzman.cl/wp-content/uploads/202...,"En el presente apunte, se presentan las mejora...",2024-11-23 01:05:08
1,Derribando mitos: protección de los derechos e...,https://www.fjguzman.cl/derribando-mitos-prote...,Comunicaciones FJG,2023-12-13T18:06:31+00:00,"Apuntes Constitucionales, Noticias y Actividades",https://www.fjguzman.cl/wp-content/uploads/202...,No sólo la propuesta mantiene la protección al...,2024-11-23 01:05:08
2,Estado empresario en la propuesta de texto con...,https://www.fjguzman.cl/estado-empresario-en-l...,Comunicaciones FJG,2023-11-24T10:30:10+00:00,"Apuntes Constitucionales, Noticias y Actividades",https://www.fjguzman.cl/wp-content/uploads/202...,Con todos los cambios que se introdujeron a la...,2024-11-23 01:05:08
3,Objeción de conciencia y libertad religiosa,https://www.fjguzman.cl/objecion-de-conciencia...,Comunicaciones FJG,2023-11-15T13:04:06+00:00,"Apuntes Constitucionales, Noticias y Actividades",https://www.fjguzman.cl/wp-content/uploads/202...,La incorporación expresa de la objeción de con...,2024-11-23 01:05:08
4,Los atentados del activismo judicial,https://www.fjguzman.cl/los-atentados-del-acti...,Comunicaciones FJG,2023-10-04T09:00:34+00:00,"Apuntes Constitucionales, Noticias y Actividades",https://www.fjguzman.cl/wp-content/uploads/202...,Uno de los diagnósticos más transversales alca...,2024-11-23 01:05:08
...,...,...,...,...,...,...,...,...
477,Gobierno corporativo de CODELCO,https://www.fjguzman.cl/gobierno-corporativo-d...,No especificado,No especificada,Ideas & Propuestas,https://www.fjguzman.cl/wp-content/uploads/201...,Los estándares modernos de valoración de las e...,2024-11-23 17:36:11
478,Ombudsman: ¿La defensa que las personas necesi...,https://www.fjguzman.cl/ombudsman-la-defensa-q...,No especificado,No especificada,Ideas & Propuestas,https://www.fjguzman.cl/wp-content/uploads/201...,¿Requiere nuestro país un Defensor del Pueblo?...,2024-11-23 17:36:11
479,Radiografía al Auge,https://www.fjguzman.cl/radiografia-al-auge/,No especificado,No especificada,Ideas & Propuestas,https://www.fjguzman.cl/wp-content/uploads/201...,Hablar hoy de la reforma en salud se reduce a ...,2024-11-23 17:36:11
480,Subvenciones Escolares: La verdadera razón de ...,https://www.fjguzman.cl/subvenciones-escolares...,No especificado,No especificada,Ideas & Propuestas,https://www.fjguzman.cl/wp-content/uploads/201...,El Ministerio de Educación cuenta con suficien...,2024-11-23 17:36:11


Mirada política

In [52]:
# URL base de la página, con el marcador {page_number} para indicar el número de página
base_url = "https://www.fjguzman.cl/mirada-politica/page/{page_number}/"
mp = extract_articles_from_multiple_pages(base_url, start_page=1, max_pages=15)
mp

Extrayendo artículos de: https://www.fjguzman.cl/mirada-politica/page/1/
Extrayendo artículos de: https://www.fjguzman.cl/mirada-politica/page/2/
Extrayendo artículos de: https://www.fjguzman.cl/mirada-politica/page/3/
Extrayendo artículos de: https://www.fjguzman.cl/mirada-politica/page/4/
Extrayendo artículos de: https://www.fjguzman.cl/mirada-politica/page/5/
Extrayendo artículos de: https://www.fjguzman.cl/mirada-politica/page/6/
Extrayendo artículos de: https://www.fjguzman.cl/mirada-politica/page/7/
Extrayendo artículos de: https://www.fjguzman.cl/mirada-politica/page/8/
Extrayendo artículos de: https://www.fjguzman.cl/mirada-politica/page/9/
Extrayendo artículos de: https://www.fjguzman.cl/mirada-politica/page/10/
Extrayendo artículos de: https://www.fjguzman.cl/mirada-politica/page/11/
Extrayendo artículos de: https://www.fjguzman.cl/mirada-politica/page/12/
Extrayendo artículos de: https://www.fjguzman.cl/mirada-politica/page/13/
Extrayendo artículos de: https://www.fjguzman.c

Unnamed: 0,Título,Enlace,Autor,Fecha Publicación,Categorías,URL Imagen,Contenido,Fecha Consulta
0,Chile-Estados Unidos: Una mirada a la política...,https://www.fjguzman.cl/chile-estados-unidos-u...,No especificado,No especificada,Ideas & Propuestas,https://www.fjguzman.cl/wp-content/uploads/202...,El presente Mirada Política se revisa la polít...,2024-11-23 17:50:02
1,Caso Monsalve,https://www.fjguzman.cl/caso-monsalve/,No especificado,No especificada,Ideas & Propuestas,https://www.fjguzman.cl/wp-content/uploads/202...,La acusación formulada en contra del ex Subsec...,2024-11-23 17:50:02
2,Guía para las elecciones 2024,https://www.fjguzman.cl/manual-del-candidato-e...,No especificado,No especificada,Ideas & Propuestas,https://www.fjguzman.cl/wp-content/uploads/202...,"En este Mirada Política se abordan, de manera ...",2024-11-23 17:50:02
3,¿Qué pasó con el proyecto de ley de elecciones...,https://www.fjguzman.cl/que-paso-con-el-proyec...,No especificado,No especificada,Ideas & Propuestas,https://www.fjguzman.cl/wp-content/uploads/202...,Incerteza respecto al carácter voluntario del ...,2024-11-23 17:50:02
4,¿Cómo se aprobó la poco convencional ley corta...,https://www.fjguzman.cl/como-se-logro-aprobar-...,No especificado,No especificada,Ideas & Propuestas,https://www.fjguzman.cl/wp-content/uploads/202...,En esta Mirada Política analizaremos algunas r...,2024-11-23 17:50:02
...,...,...,...,...,...,...,...,...
187,Demanda de Chile contra Bolivia ante La Haya p...,https://www.fjguzman.cl/demanda-de-chile-contr...,No especificado,No especificada,Ideas & Propuestas,https://www.fjguzman.cl/wp-content/uploads/201...,Vemos que este camino tiene suficiente sustent...,2024-11-23 17:52:45
188,Balance 21 de mayo: gestión del Gobierno de la...,https://www.fjguzman.cl/balance-21-de-mayo-ges...,No especificado,No especificada,Ideas & Propuestas,https://www.fjguzman.cl/wp-content/uploads/201...,"Debido a lo anterior, el Gobierno de la Presid...",2024-11-23 17:52:46
189,Desborde Río Mapocho: ¿Y la responsabilidad de...,https://www.fjguzman.cl/desborde-rio-mapocho-y...,No especificado,No especificada,Ideas & Propuestas,https://www.fjguzman.cl/wp-content/uploads/201...,Es por esto que no queda más que esperar a que...,2024-11-23 17:52:46
190,Conflicto: taxi vs. Uber,https://www.fjguzman.cl/conflicto-taxi-vs-uber/,No especificado,No especificada,Ideas & Propuestas,https://www.fjguzman.cl/wp-content/uploads/201...,Toda normativa que pretenda regular Uber u otr...,2024-11-23 17:52:46


In [62]:
jg = pd.concat([jg, mp], ignore_index=True)
jg

Unnamed: 0,Título,Enlace,Autor,Fecha Publicación,Categorías,URL Imagen,Contenido,Fecha Consulta
0,Cinco mejoras para el Poder Judicial,https://www.fjguzman.cl/cinco-mejoras-para-el-...,Comunicaciones FJG,2023-12-15T13:23:04+00:00,"Apuntes Constitucionales, Noticias y Actividad...",https://www.fjguzman.cl/wp-content/uploads/202...,"En el presente apunte, se presentan las mejora...",2024-11-23 01:05:08
1,Derribando mitos: protección de los derechos e...,https://www.fjguzman.cl/derribando-mitos-prote...,Comunicaciones FJG,2023-12-13T18:06:31+00:00,"Apuntes Constitucionales, Noticias y Actividades",https://www.fjguzman.cl/wp-content/uploads/202...,No sólo la propuesta mantiene la protección al...,2024-11-23 01:05:08
2,Estado empresario en la propuesta de texto con...,https://www.fjguzman.cl/estado-empresario-en-l...,Comunicaciones FJG,2023-11-24T10:30:10+00:00,"Apuntes Constitucionales, Noticias y Actividades",https://www.fjguzman.cl/wp-content/uploads/202...,Con todos los cambios que se introdujeron a la...,2024-11-23 01:05:08
3,Objeción de conciencia y libertad religiosa,https://www.fjguzman.cl/objecion-de-conciencia...,Comunicaciones FJG,2023-11-15T13:04:06+00:00,"Apuntes Constitucionales, Noticias y Actividades",https://www.fjguzman.cl/wp-content/uploads/202...,La incorporación expresa de la objeción de con...,2024-11-23 01:05:08
4,Los atentados del activismo judicial,https://www.fjguzman.cl/los-atentados-del-acti...,Comunicaciones FJG,2023-10-04T09:00:34+00:00,"Apuntes Constitucionales, Noticias y Actividades",https://www.fjguzman.cl/wp-content/uploads/202...,Uno de los diagnósticos más transversales alca...,2024-11-23 01:05:08
...,...,...,...,...,...,...,...,...
669,Demanda de Chile contra Bolivia ante La Haya p...,https://www.fjguzman.cl/demanda-de-chile-contr...,No especificado,No especificada,Ideas & Propuestas,https://www.fjguzman.cl/wp-content/uploads/201...,Vemos que este camino tiene suficiente sustent...,2024-11-23 17:52:45
670,Balance 21 de mayo: gestión del Gobierno de la...,https://www.fjguzman.cl/balance-21-de-mayo-ges...,No especificado,No especificada,Ideas & Propuestas,https://www.fjguzman.cl/wp-content/uploads/201...,"Debido a lo anterior, el Gobierno de la Presid...",2024-11-23 17:52:46
671,Desborde Río Mapocho: ¿Y la responsabilidad de...,https://www.fjguzman.cl/desborde-rio-mapocho-y...,No especificado,No especificada,Ideas & Propuestas,https://www.fjguzman.cl/wp-content/uploads/201...,Es por esto que no queda más que esperar a que...,2024-11-23 17:52:46
672,Conflicto: taxi vs. Uber,https://www.fjguzman.cl/conflicto-taxi-vs-uber/,No especificado,No especificada,Ideas & Propuestas,https://www.fjguzman.cl/wp-content/uploads/201...,Toda normativa que pretenda regular Uber u otr...,2024-11-23 17:52:46


Libros

In [53]:
# URL base de la página, con el marcador {page_number} para indicar el número de página
base_url = "https://www.fjguzman.cl/libros/page/{page_number}/"
libros = extract_articles_from_multiple_pages(base_url, start_page=1, max_pages=15)
libros

Extrayendo artículos de: https://www.fjguzman.cl/libros/page/1/
Extrayendo artículos de: https://www.fjguzman.cl/libros/page/2/
Extrayendo artículos de: https://www.fjguzman.cl/libros/page/3/
Extrayendo artículos de: https://www.fjguzman.cl/libros/page/4/
Extrayendo artículos de: https://www.fjguzman.cl/libros/page/5/
Extrayendo artículos de: https://www.fjguzman.cl/libros/page/6/
Extrayendo artículos de: https://www.fjguzman.cl/libros/page/7/
Extrayendo artículos de: https://www.fjguzman.cl/libros/page/8/
Extrayendo artículos de: https://www.fjguzman.cl/libros/page/9/
Extrayendo artículos de: https://www.fjguzman.cl/libros/page/10/
Extrayendo artículos de: https://www.fjguzman.cl/libros/page/11/
Extrayendo artículos de: https://www.fjguzman.cl/libros/page/12/
Extrayendo artículos de: https://www.fjguzman.cl/libros/page/13/
Extrayendo artículos de: https://www.fjguzman.cl/libros/page/14/
Extrayendo artículos de: https://www.fjguzman.cl/libros/page/15/


Unnamed: 0,Título,Enlace,Autor,Fecha Publicación,Categorías,URL Imagen,Contenido,Fecha Consulta
0,Libro IP 2023-2024,https://www.fjguzman.cl/libro-ip-2023-2024/,No especificado,No especificada,Ideas & Propuestas,https://www.fjguzman.cl/wp-content/uploads/202...,Esta nueva edición de nuestro libro anual Idea...,2024-11-23 17:53:24
1,Propuestas locales para las urgencias de hoy,https://www.fjguzman.cl/propuestas-locales-par...,No especificado,No especificada,Ideas & Propuestas,https://www.fjguzman.cl/wp-content/uploads/202...,En un contexto donde Chile enfrenta desafíos ...,2024-11-23 17:53:24
2,Manual del Candidato 2024,https://www.fjguzman.cl/manual-del-candidato-2...,No especificado,No especificada,Ideas & Propuestas,https://www.fjguzman.cl/wp-content/uploads/202...,El Manual del Candidato 2024 de la Fundación J...,2024-11-23 17:53:24
3,Manual de Formación [Edición 2024],https://www.fjguzman.cl/manual-de-formacion-ed...,No especificado,No especificada,Ideas & Propuestas,https://www.fjguzman.cl/wp-content/uploads/202...,El «Manual de Formación: Principios Fundament...,2024-11-23 17:53:24
4,La Constitución hasta ahora,https://www.fjguzman.cl/la-constitucion-hasta-...,No especificado,No especificada,Ideas & Propuestas,https://www.fjguzman.cl/wp-content/uploads/202...,No se pierda la última versión de la Constituc...,2024-11-23 17:53:24
5,Ideas & Propuestas 2022-2023,https://www.fjguzman.cl/ideas-propuestas-2022-...,No especificado,No especificada,Ideas & Propuestas,https://www.fjguzman.cl/wp-content/uploads/202...,Esta nueva versión del libro Ideas & Propuesta...,2024-11-23 17:53:25
6,Manual de apoderados de mesa,https://www.fjguzman.cl/manual-de-apoderados-d...,No especificado,No especificada,Ideas & Propuestas,https://www.fjguzman.cl/wp-content/uploads/202...,El presente documento contiene una serie de re...,2024-11-23 17:53:25
7,Chile Fragmentado: el debate constituyente,https://www.fjguzman.cl/chile-fragmentado-el-d...,No especificado,No especificada,Ideas & Propuestas,https://www.fjguzman.cl/wp-content/uploads/202...,"Te invitamos a leer nuestro libro, que reúne e...",2024-11-23 17:53:25
8,El Caso Guzmán,https://www.fjguzman.cl/el-caso-guzman/,No especificado,No especificada,Ideas & Propuestas,https://www.fjguzman.cl/wp-content/uploads/202...,,2024-11-23 17:53:25
9,Ideas & Propuestas 2021-2022,https://www.fjguzman.cl/ideas-propuestas-2021-...,No especificado,No especificada,Ideas & Propuestas,https://www.fjguzman.cl/wp-content/uploads/202...,La versión 2021–2022 de Ideas & Propuestas con...,2024-11-23 17:53:25


In [63]:
jg = pd.concat([jg, libros], ignore_index=True)
jg

Unnamed: 0,Título,Enlace,Autor,Fecha Publicación,Categorías,URL Imagen,Contenido,Fecha Consulta
0,Cinco mejoras para el Poder Judicial,https://www.fjguzman.cl/cinco-mejoras-para-el-...,Comunicaciones FJG,2023-12-15T13:23:04+00:00,"Apuntes Constitucionales, Noticias y Actividad...",https://www.fjguzman.cl/wp-content/uploads/202...,"En el presente apunte, se presentan las mejora...",2024-11-23 01:05:08
1,Derribando mitos: protección de los derechos e...,https://www.fjguzman.cl/derribando-mitos-prote...,Comunicaciones FJG,2023-12-13T18:06:31+00:00,"Apuntes Constitucionales, Noticias y Actividades",https://www.fjguzman.cl/wp-content/uploads/202...,No sólo la propuesta mantiene la protección al...,2024-11-23 01:05:08
2,Estado empresario en la propuesta de texto con...,https://www.fjguzman.cl/estado-empresario-en-l...,Comunicaciones FJG,2023-11-24T10:30:10+00:00,"Apuntes Constitucionales, Noticias y Actividades",https://www.fjguzman.cl/wp-content/uploads/202...,Con todos los cambios que se introdujeron a la...,2024-11-23 01:05:08
3,Objeción de conciencia y libertad religiosa,https://www.fjguzman.cl/objecion-de-conciencia...,Comunicaciones FJG,2023-11-15T13:04:06+00:00,"Apuntes Constitucionales, Noticias y Actividades",https://www.fjguzman.cl/wp-content/uploads/202...,La incorporación expresa de la objeción de con...,2024-11-23 01:05:08
4,Los atentados del activismo judicial,https://www.fjguzman.cl/los-atentados-del-acti...,Comunicaciones FJG,2023-10-04T09:00:34+00:00,"Apuntes Constitucionales, Noticias y Actividades",https://www.fjguzman.cl/wp-content/uploads/202...,Uno de los diagnósticos más transversales alca...,2024-11-23 01:05:08
...,...,...,...,...,...,...,...,...
727,Asesinato en el Campus Oriente,https://www.fjguzman.cl/asesinato-en-el-campus...,No especificado,No especificada,Ideas & Propuestas,https://www.fjguzman.cl/wp-content/uploads/201...,Muchos años han pasado desde el asesinato de J...,2024-11-23 17:54:11
728,Ideas & Propuestas 2008-2009,https://www.fjguzman.cl/ideas-propuestas-2008-...,No especificado,No especificada,Ideas & Propuestas,https://www.fjguzman.cl/wp-content/uploads/201...,Comprende 23 trabajos publicados originalmente...,2024-11-23 17:54:11
729,Manual de gasto electoral – 2009,https://www.fjguzman.cl/manual-de-gasto-electo...,No especificado,No especificada,Ideas & Propuestas,https://www.fjguzman.cl/wp-content/uploads/201...,"Fundación Jaime Guzmán, Chile Transparente, Pr...",2024-11-23 17:54:11
730,Manual de Temas Municipales – 2008,https://www.fjguzman.cl/manual-de-temas-munici...,No especificado,No especificada,Ideas & Propuestas,https://www.fjguzman.cl/wp-content/uploads/201...,Texto que introduce en temas de interés munici...,2024-11-23 17:54:11


Infografías

In [54]:
# URL base de la página, con el marcador {page_number} para indicar el número de página
base_url = "https://www.fjguzman.cl/infografias/page/{page_number}/"
infog = extract_articles_from_multiple_pages(base_url, start_page=1, max_pages=3)
infog

Extrayendo artículos de: https://www.fjguzman.cl/infografias/page/1/
Extrayendo artículos de: https://www.fjguzman.cl/infografias/page/2/
Extrayendo artículos de: https://www.fjguzman.cl/infografias/page/3/


Unnamed: 0,Título,Enlace,Autor,Fecha Publicación,Categorías,URL Imagen,Contenido,Fecha Consulta
0,A favor: derribando mitos,https://www.fjguzman.cl/a-favor-derribando-mitos/,No especificado,No especificada,Ideas & Propuestas,https://www.fjguzman.cl/wp-content/uploads/202...,,2024-11-23 17:56:47
1,A favor: ¿por qué es mejor?,https://www.fjguzman.cl/por-que-es-mejor/,No especificado,No especificada,Ideas & Propuestas,https://www.fjguzman.cl/wp-content/uploads/202...,,2024-11-23 17:56:47
2,[Actualización] ¿Dónde están los asesinos de J...,https://www.fjguzman.cl/actualizacion-donde-es...,No especificado,No especificada,Ideas & Propuestas,https://www.fjguzman.cl/wp-content/uploads/201...,Actualizamos nuestra infografía con el parader...,2024-11-23 17:56:47
3,Mejores pensiones para los chilenos,https://www.fjguzman.cl/mejores-pensiones-para...,No especificado,No especificada,Ideas & Propuestas,https://www.fjguzman.cl/wp-content/uploads/201...,Un buen sistema de pensiones debe garantizar l...,2024-11-23 17:56:48
4,Modernización laboral para conciliar el trabaj...,https://www.fjguzman.cl/modernizacion-laboral-...,No especificado,No especificada,Ideas & Propuestas,https://www.fjguzman.cl/wp-content/uploads/201...,"La modernización laboral dignifica, abre oport...",2024-11-23 17:56:48
5,"Reforma Integral a la Salud: acceso, cobertura...",https://www.fjguzman.cl/reforma-integral-a-la-...,No especificado,No especificada,Ideas & Propuestas,https://www.fjguzman.cl/wp-content/uploads/201...,Con esta reforma habrá reglas claras y atenció...,2024-11-23 17:56:48
6,Tu nombre es mi recuerdo: Ley Mortinato,https://www.fjguzman.cl/tu-nombre-es-mi-recuer...,No especificado,No especificada,Ideas & Propuestas,https://www.fjguzman.cl/wp-content/uploads/201...,Los niños que no alcanzaron a nacer son person...,2024-11-23 17:56:48
7,Red: un sistema para las personas.,https://www.fjguzman.cl/red-un-sistema-para-la...,No especificado,No especificada,Ideas & Propuestas,https://www.fjguzman.cl/wp-content/uploads/201...,Red es mucho más que una marca. Es un nuevo si...,2024-11-23 17:56:48
8,Los beneficios de una modernización tributaria,https://www.fjguzman.cl/los-beneficios-de-una-...,No especificado,No especificada,Ideas & Propuestas,https://www.fjguzman.cl/wp-content/uploads/201...,La Modernización Tributaria ayudará a construi...,2024-11-23 17:56:49
9,Hacia una mejor protección al consumidor,https://www.fjguzman.cl/hacia-una-mejor-protec...,No especificado,No especificada,Ideas & Propuestas,https://www.fjguzman.cl/wp-content/uploads/201...,El proyecto busca mejorar la protección y prom...,2024-11-23 17:56:49


In [64]:
jg = pd.concat([jg, infog], ignore_index=True)
jg

Unnamed: 0,Título,Enlace,Autor,Fecha Publicación,Categorías,URL Imagen,Contenido,Fecha Consulta
0,Cinco mejoras para el Poder Judicial,https://www.fjguzman.cl/cinco-mejoras-para-el-...,Comunicaciones FJG,2023-12-15T13:23:04+00:00,"Apuntes Constitucionales, Noticias y Actividad...",https://www.fjguzman.cl/wp-content/uploads/202...,"En el presente apunte, se presentan las mejora...",2024-11-23 01:05:08
1,Derribando mitos: protección de los derechos e...,https://www.fjguzman.cl/derribando-mitos-prote...,Comunicaciones FJG,2023-12-13T18:06:31+00:00,"Apuntes Constitucionales, Noticias y Actividades",https://www.fjguzman.cl/wp-content/uploads/202...,No sólo la propuesta mantiene la protección al...,2024-11-23 01:05:08
2,Estado empresario en la propuesta de texto con...,https://www.fjguzman.cl/estado-empresario-en-l...,Comunicaciones FJG,2023-11-24T10:30:10+00:00,"Apuntes Constitucionales, Noticias y Actividades",https://www.fjguzman.cl/wp-content/uploads/202...,Con todos los cambios que se introdujeron a la...,2024-11-23 01:05:08
3,Objeción de conciencia y libertad religiosa,https://www.fjguzman.cl/objecion-de-conciencia...,Comunicaciones FJG,2023-11-15T13:04:06+00:00,"Apuntes Constitucionales, Noticias y Actividades",https://www.fjguzman.cl/wp-content/uploads/202...,La incorporación expresa de la objeción de con...,2024-11-23 01:05:08
4,Los atentados del activismo judicial,https://www.fjguzman.cl/los-atentados-del-acti...,Comunicaciones FJG,2023-10-04T09:00:34+00:00,"Apuntes Constitucionales, Noticias y Actividades",https://www.fjguzman.cl/wp-content/uploads/202...,Uno de los diagnósticos más transversales alca...,2024-11-23 01:05:08
...,...,...,...,...,...,...,...,...
750,Proyecto de Ley Identidad de Género,https://www.fjguzman.cl/proyecto-de-ley-identi...,No especificado,No especificada,Ideas & Propuestas,https://www.fjguzman.cl/wp-content/uploads/201...,La ley entrará en vigencia transcurridos 120 d...,2024-11-23 17:57:04
751,Desafíos de la ciberseguridad,https://www.fjguzman.cl/desafios-de-la-ciberse...,No especificado,No especificada,Ideas & Propuestas,https://www.fjguzman.cl/wp-content/uploads/201...,Nuestro país necesita un marco legal capaz de ...,2024-11-23 17:57:04
752,Cuestiones acerca de la objeción de conciencia...,https://www.fjguzman.cl/cuestiones-acerca-de-l...,No especificado,No especificada,Ideas & Propuestas,https://www.fjguzman.cl/wp-content/uploads/201...,Prohibir la objeción de conciencia institucion...,2024-11-23 17:57:04
753,A 40 años del Quiebre Institucional,https://www.fjguzman.cl/a-40-anos-del-quiebre-...,No especificado,No especificada,Ideas & Propuestas,https://www.fjguzman.cl/wp-content/uploads/201...,,2024-11-23 17:57:04


Videos

In [58]:
# URL base de la página, con el marcador {page_number} para indicar el número de página
base_url = "https://www.fjguzman.cl/videos/page/{page_number}/"
videos = extract_articles_from_multiple_pages(base_url, start_page=1, max_pages=7)
videos

Extrayendo artículos de: https://www.fjguzman.cl/videos/page/1/
Extrayendo artículos de: https://www.fjguzman.cl/videos/page/2/
Extrayendo artículos de: https://www.fjguzman.cl/videos/page/3/
Extrayendo artículos de: https://www.fjguzman.cl/videos/page/4/
Extrayendo artículos de: https://www.fjguzman.cl/videos/page/5/
Extrayendo artículos de: https://www.fjguzman.cl/videos/page/6/
Extrayendo artículos de: https://www.fjguzman.cl/videos/page/7/


Unnamed: 0,Título,Enlace,Autor,Fecha Publicación,Categorías,URL Imagen,Contenido,Fecha Consulta
0,Seminario | Reflexiones a cinco años del 18 de...,https://www.fjguzman.cl/seminario-reflexiones-...,No especificado,No especificada,Ideas & Propuestas,https://www.fjguzman.cl/wp-content/uploads/202...,"En el encuentro, organizado por 10 centros de ...",2024-11-23 18:05:17
1,Playlist | Razón y religión en el debate públi...,https://www.fjguzman.cl/playlist-razon-y-relig...,No especificado,No especificada,Ideas & Propuestas,https://www.fjguzman.cl/wp-content/uploads/202...,Cerca de 150 personas llegaron hasta el Salón ...,2024-11-23 18:05:17
2,Playlist | Pasantías 2024,https://www.fjguzman.cl/playlist-pasantias-2024/,No especificado,No especificada,Ideas & Propuestas,https://www.fjguzman.cl/wp-content/uploads/202...,"Pasantías 2024, ¡ve lo que fue un mes en la FJ...",2024-11-23 18:05:17
3,Playlist | Teresita Santa Cruz en radio Agricu...,https://www.fjguzman.cl/playlist-teresita-sant...,No especificado,No especificada,Ideas & Propuestas,https://www.fjguzman.cl/wp-content/uploads/202...,Teresita Santa Cruz en radio Agricultura.,2024-11-23 18:05:17
4,Playlist | Pensadores de inspiración cristiana...,https://www.fjguzman.cl/pensadores-de-inspirac...,No especificado,No especificada,Ideas & Propuestas,https://www.fjguzman.cl/wp-content/uploads/202...,"Por segundo año consecutivo, estudiamos la obr...",2024-11-23 18:05:17
...,...,...,...,...,...,...,...,...
72,Mariana Aylwin: “El país tiene que reconciliarse”,https://www.fjguzman.cl/mariana-aylwin-el-pais...,No especificado,No especificada,Ideas & Propuestas,https://www.fjguzman.cl/wp-content/uploads/201...,"Conversamos con la ex ministra de Educación, M...",2024-11-23 18:06:16
73,Guillermo Ramírez: “La gente quiere más libert...,https://www.fjguzman.cl/guillermo-ramirez-la-g...,No especificado,No especificada,Ideas & Propuestas,https://www.fjguzman.cl/wp-content/uploads/201...,Conversamos con el Diputado electo por el Dist...,2024-11-23 18:06:16
74,Gonzalo Cordero y las claves de la segunda vue...,https://www.fjguzman.cl/gonzalo-cordero-y-las-...,No especificado,No especificada,Ideas & Propuestas,https://www.fjguzman.cl/wp-content/uploads/201...,Le preguntamos a Gonzalo Cordero cuáles son la...,2024-11-23 18:06:16
75,Cecilia Pérez comenta el legado de Jaime Guzmán,https://www.fjguzman.cl/cecilia-perez-comenta-...,No especificado,No especificada,Ideas & Propuestas,https://www.fjguzman.cl/wp-content/uploads/201...,En el marco de la graduación del Bachillerato ...,2024-11-23 18:06:30


In [65]:
jg = pd.concat([jg, videos], ignore_index=True)
jg

Unnamed: 0,Título,Enlace,Autor,Fecha Publicación,Categorías,URL Imagen,Contenido,Fecha Consulta
0,Cinco mejoras para el Poder Judicial,https://www.fjguzman.cl/cinco-mejoras-para-el-...,Comunicaciones FJG,2023-12-15T13:23:04+00:00,"Apuntes Constitucionales, Noticias y Actividad...",https://www.fjguzman.cl/wp-content/uploads/202...,"En el presente apunte, se presentan las mejora...",2024-11-23 01:05:08
1,Derribando mitos: protección de los derechos e...,https://www.fjguzman.cl/derribando-mitos-prote...,Comunicaciones FJG,2023-12-13T18:06:31+00:00,"Apuntes Constitucionales, Noticias y Actividades",https://www.fjguzman.cl/wp-content/uploads/202...,No sólo la propuesta mantiene la protección al...,2024-11-23 01:05:08
2,Estado empresario en la propuesta de texto con...,https://www.fjguzman.cl/estado-empresario-en-l...,Comunicaciones FJG,2023-11-24T10:30:10+00:00,"Apuntes Constitucionales, Noticias y Actividades",https://www.fjguzman.cl/wp-content/uploads/202...,Con todos los cambios que se introdujeron a la...,2024-11-23 01:05:08
3,Objeción de conciencia y libertad religiosa,https://www.fjguzman.cl/objecion-de-conciencia...,Comunicaciones FJG,2023-11-15T13:04:06+00:00,"Apuntes Constitucionales, Noticias y Actividades",https://www.fjguzman.cl/wp-content/uploads/202...,La incorporación expresa de la objeción de con...,2024-11-23 01:05:08
4,Los atentados del activismo judicial,https://www.fjguzman.cl/los-atentados-del-acti...,Comunicaciones FJG,2023-10-04T09:00:34+00:00,"Apuntes Constitucionales, Noticias y Actividades",https://www.fjguzman.cl/wp-content/uploads/202...,Uno de los diagnósticos más transversales alca...,2024-11-23 01:05:08
...,...,...,...,...,...,...,...,...
827,Mariana Aylwin: “El país tiene que reconciliarse”,https://www.fjguzman.cl/mariana-aylwin-el-pais...,No especificado,No especificada,Ideas & Propuestas,https://www.fjguzman.cl/wp-content/uploads/201...,"Conversamos con la ex ministra de Educación, M...",2024-11-23 18:06:16
828,Guillermo Ramírez: “La gente quiere más libert...,https://www.fjguzman.cl/guillermo-ramirez-la-g...,No especificado,No especificada,Ideas & Propuestas,https://www.fjguzman.cl/wp-content/uploads/201...,Conversamos con el Diputado electo por el Dist...,2024-11-23 18:06:16
829,Gonzalo Cordero y las claves de la segunda vue...,https://www.fjguzman.cl/gonzalo-cordero-y-las-...,No especificado,No especificada,Ideas & Propuestas,https://www.fjguzman.cl/wp-content/uploads/201...,Le preguntamos a Gonzalo Cordero cuáles son la...,2024-11-23 18:06:16
830,Cecilia Pérez comenta el legado de Jaime Guzmán,https://www.fjguzman.cl/cecilia-perez-comenta-...,No especificado,No especificada,Ideas & Propuestas,https://www.fjguzman.cl/wp-content/uploads/201...,En el marco de la graduación del Bachillerato ...,2024-11-23 18:06:30


Columnas

In [59]:
# URL base de la página, con el marcador {page_number} para indicar el número de página
base_url = "https://www.fjguzman.cl/columnas/page/{page_number}/"
cols = extract_articles_from_multiple_pages(base_url, start_page=1, max_pages=36)
cols

Extrayendo artículos de: https://www.fjguzman.cl/columnas/page/1/
Extrayendo artículos de: https://www.fjguzman.cl/columnas/page/2/
Extrayendo artículos de: https://www.fjguzman.cl/columnas/page/3/
Extrayendo artículos de: https://www.fjguzman.cl/columnas/page/4/
Extrayendo artículos de: https://www.fjguzman.cl/columnas/page/5/
Extrayendo artículos de: https://www.fjguzman.cl/columnas/page/6/
Extrayendo artículos de: https://www.fjguzman.cl/columnas/page/7/
Extrayendo artículos de: https://www.fjguzman.cl/columnas/page/8/
Extrayendo artículos de: https://www.fjguzman.cl/columnas/page/9/
Extrayendo artículos de: https://www.fjguzman.cl/columnas/page/10/
Extrayendo artículos de: https://www.fjguzman.cl/columnas/page/11/
Extrayendo artículos de: https://www.fjguzman.cl/columnas/page/12/
Extrayendo artículos de: https://www.fjguzman.cl/columnas/page/13/
Extrayendo artículos de: https://www.fjguzman.cl/columnas/page/14/
Extrayendo artículos de: https://www.fjguzman.cl/columnas/page/15/
Extr

Unnamed: 0,Título,Enlace,Autor,Fecha Publicación,Categorías,URL Imagen,Contenido,Fecha Consulta
0,Costo de la delincuencia en el PIB,https://www.fjguzman.cl/costo-de-la-delincuenc...,No especificado,No especificada,Ideas & Propuestas,https://www.fjguzman.cl/wp-content/uploads/202...,La inseguridad es un obstáculo para el progres...,2024-11-23 18:06:59
1,Entre la desidia y la irresponsabilidad,https://www.fjguzman.cl/entre-la-desidia-y-la-...,No especificado,No especificada,Ideas & Propuestas,https://www.fjguzman.cl/wp-content/uploads/202...,La generación que hoy gobierna no siente urgen...,2024-11-23 18:07:00
2,Ante la crisis: compromiso del sector privado,https://www.fjguzman.cl/ante-la-crisis-comprom...,No especificado,No especificada,Ideas & Propuestas,https://www.fjguzman.cl/wp-content/uploads/202...,Es fundamental que el mundo privado que quiere...,2024-11-23 18:07:00
3,Lecciones después de Trump,https://www.fjguzman.cl/lecciones-despues-de-t...,No especificado,No especificada,Ideas & Propuestas,https://www.fjguzman.cl/wp-content/uploads/202...,La ciudadanía parece anteponer a la defensa de...,2024-11-23 18:07:00
4,Teletón,https://www.fjguzman.cl/teleton/,No especificado,No especificada,Ideas & Propuestas,https://www.fjguzman.cl/wp-content/uploads/202...,La Teletón demostró un año más que desde una i...,2024-11-23 18:07:00
...,...,...,...,...,...,...,...,...
506,Resultados del Simce 2013…. desafíos pendientes,https://www.fjguzman.cl/resultados-del-simce-2...,No especificado,No especificada,Ideas & Propuestas,https://www.fjguzman.cl/wp-content/uploads/201...,Señor director: La Agencia de Calidad de la Ed...,2024-11-23 18:16:04
507,Reforma educacional de Bachelet: Menos liberta...,https://www.fjguzman.cl/reforma-educacional-de...,No especificado,No especificada,Ideas & Propuestas,https://www.fjguzman.cl/wp-content/uploads/201...,"Columna Publicada en El Mercurio, artículo com...",2024-11-23 18:16:04
508,Declaración pública de la UDI contra ataques d...,https://www.fjguzman.cl/declaracion-publica-de...,No especificado,No especificada,Ideas & Propuestas,https://www.fjguzman.cl/wp-content/uploads/201...,“No hemos escuchado jamás al partido comunista...,2024-11-23 18:16:05
509,"Chile, los principios y Jaime Guzmán",https://www.fjguzman.cl/chile-los-principios-y...,No especificado,No especificada,Ideas & Propuestas,https://www.fjguzman.cl/wp-content/uploads/201...,La famosa frase “Chile cambió” llegó para qued...,2024-11-23 18:16:05


In [67]:
jg = pd.concat([jg, cols], ignore_index=True)
jg

Unnamed: 0,Título,Enlace,Autor,Fecha Publicación,Categorías,URL Imagen,Contenido,Fecha Consulta
0,Cinco mejoras para el Poder Judicial,https://www.fjguzman.cl/cinco-mejoras-para-el-...,Comunicaciones FJG,2023-12-15T13:23:04+00:00,"Apuntes Constitucionales, Noticias y Actividad...",https://www.fjguzman.cl/wp-content/uploads/202...,"En el presente apunte, se presentan las mejora...",2024-11-23 01:05:08
1,Derribando mitos: protección de los derechos e...,https://www.fjguzman.cl/derribando-mitos-prote...,Comunicaciones FJG,2023-12-13T18:06:31+00:00,"Apuntes Constitucionales, Noticias y Actividades",https://www.fjguzman.cl/wp-content/uploads/202...,No sólo la propuesta mantiene la protección al...,2024-11-23 01:05:08
2,Estado empresario en la propuesta de texto con...,https://www.fjguzman.cl/estado-empresario-en-l...,Comunicaciones FJG,2023-11-24T10:30:10+00:00,"Apuntes Constitucionales, Noticias y Actividades",https://www.fjguzman.cl/wp-content/uploads/202...,Con todos los cambios que se introdujeron a la...,2024-11-23 01:05:08
3,Objeción de conciencia y libertad religiosa,https://www.fjguzman.cl/objecion-de-conciencia...,Comunicaciones FJG,2023-11-15T13:04:06+00:00,"Apuntes Constitucionales, Noticias y Actividades",https://www.fjguzman.cl/wp-content/uploads/202...,La incorporación expresa de la objeción de con...,2024-11-23 01:05:08
4,Los atentados del activismo judicial,https://www.fjguzman.cl/los-atentados-del-acti...,Comunicaciones FJG,2023-10-04T09:00:34+00:00,"Apuntes Constitucionales, Noticias y Actividades",https://www.fjguzman.cl/wp-content/uploads/202...,Uno de los diagnósticos más transversales alca...,2024-11-23 01:05:08
...,...,...,...,...,...,...,...,...
1338,Resultados del Simce 2013…. desafíos pendientes,https://www.fjguzman.cl/resultados-del-simce-2...,No especificado,No especificada,Ideas & Propuestas,https://www.fjguzman.cl/wp-content/uploads/201...,Señor director: La Agencia de Calidad de la Ed...,2024-11-23 18:16:04
1339,Reforma educacional de Bachelet: Menos liberta...,https://www.fjguzman.cl/reforma-educacional-de...,No especificado,No especificada,Ideas & Propuestas,https://www.fjguzman.cl/wp-content/uploads/201...,"Columna Publicada en El Mercurio, artículo com...",2024-11-23 18:16:04
1340,Declaración pública de la UDI contra ataques d...,https://www.fjguzman.cl/declaracion-publica-de...,No especificado,No especificada,Ideas & Propuestas,https://www.fjguzman.cl/wp-content/uploads/201...,“No hemos escuchado jamás al partido comunista...,2024-11-23 18:16:05
1341,"Chile, los principios y Jaime Guzmán",https://www.fjguzman.cl/chile-los-principios-y...,No especificado,No especificada,Ideas & Propuestas,https://www.fjguzman.cl/wp-content/uploads/201...,La famosa frase “Chile cambió” llegó para qued...,2024-11-23 18:16:05


In [68]:
jg.to_excel("FundacionJaimeGuzman.xlsx", index=False)

# Iteración sobre links

In [72]:
import time
import pandas as pd
from selenium import webdriver
from selenium.webdriver.common.by import By
from datetime import datetime

def extract_info_from_url(driver, url):
    """
    Extrae información de un artículo desde una URL usando un webdriver existente.

    Args:
        driver (webdriver): El webdriver ya abierto.
        url (str): URL de la página para extraer información.

    Returns:
        dict: Diccionario con la información extraída del artículo.
    """
    try:
        driver.get(url)
        # Esperar a que cargue el contenido
        time.sleep(3)
        
        # Obtener el artículo
        article = driver.find_element(By.CSS_SELECTOR, "article.post")
        
        # Extraer los datos del artículo
        article_data = {}
        
        # Título
        try:
            article_data['Título'] = article.find_element(By.CLASS_NAME, "entry-title").text.strip()
        except:
            article_data['Título'] = None
        
        # Autor
        try:
            article_data['Autor'] = article.find_element(By.CSS_SELECTOR, ".byline .author .fn.n").text.strip()
        except:
            article_data['Autor'] = None
        
        # Fecha de publicación
        try:
            date_str = article.find_element(By.CSS_SELECTOR, ".posted-on time").get_attribute("datetime")
            article_data['Fecha Publicación'] = datetime.strptime(date_str, "%Y-%m-%dT%H:%M:%S+00:00").strftime('%Y-%m-%d %H:%M:%S')
        except:
            article_data['Fecha Publicación'] = None
        
        # Categorías
        try:
            categories = [cat.text.strip() for cat in article.find_elements(By.CSS_SELECTOR, ".cat-links a")]
            article_data['Categorías'] = ", ".join(categories) if categories else None
        except:
            article_data['Categorías'] = None
        
        # Contenido
        try:
            article_data['Contenido'] = article.find_element(By.CLASS_NAME, "entry-content").text.strip()
        except:
            article_data['Contenido'] = None
        
        # Enlace del artículo
        article_data['Enlace'] = url
        
        # Fecha de consulta (cuando se extrajo la información)
        article_data['Fecha Consulta'] = datetime.now().strftime('%Y-%m-%d %H:%M:%S')
        
        return article_data
    
    except Exception as e:
        print(f"Error en la extracción de {url}: {str(e)}")
        return None

In [101]:
jg.Categorías.unique()

array(['Apuntes Constitucionales, Noticias y Actividades, Sin categoría',
       'Apuntes Constitucionales, Noticias y Actividades',
       'Noticias y Actividades, Revista Realidad',
       'Noticias y Actividades, Revista Realidad, Sin categoría',
       'Revista Realidad', 'Noticias y Actividades, Taller de Coyuntura',
       'Noticias y Actividades, Sin categoría, Taller de Coyuntura',
       'Taller de Coyuntura', 'Ideas & Propuestas'], dtype=object)

In [76]:
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
import pandas as pd

def process_all_links(jg_df):
    """
    Procesa todos los enlaces de un DataFrame 'jg_df', extrayendo la información de cada artículo
    y almacenándola en un nuevo DataFrame 'publicaciones_jg'.

    Args:
        jg_df (pd.DataFrame): DataFrame que contiene una columna 'Enlace' con los enlaces de los artículos.

    Returns:
        pd.DataFrame: DataFrame con la información extraída de todos los enlaces.
    """
    # Configurar las opciones de Chrome para el modo headless
    chrome_options = Options()
    chrome_options.add_argument("--headless")  # Activar modo headless (sin interfaz gráfica)
    chrome_options.add_argument("--disable-gpu")  # Deshabilitar la aceleración por hardware (útil en headless)
    chrome_options.add_argument("--no-sandbox")  # Puede ser necesario en ciertos entornos (como contenedores)

    # Abrir el webdriver con las opciones configuradas
    driver = webdriver.Chrome(options=chrome_options)

    # Crear una lista para almacenar los datos de los artículos
    publicaciones_jg = []

    try:
        for _, row in jg_df.iterrows():
            url = row['Enlace']
            print(f"Extrayendo datos de: {url}")
            
            # Extraer la información del artículo
            article_data = extract_info_from_url(driver, url)
            
            if article_data:
                publicaciones_jg.append(article_data)
        
        # Crear un DataFrame con los artículos extraídos
        publicaciones_jg_df = pd.DataFrame(publicaciones_jg)
        
        return publicaciones_jg_df
    
    except Exception as e:
        print(f"Error en el proceso: {str(e)}")
        return pd.DataFrame()
    
    finally:
        driver.quit()  # Cerrar el webdriver al finalizar

In [79]:
jg_info = process_all_links(jg)
jg_info

Extrayendo datos de: https://www.fjguzman.cl/cinco-mejoras-para-el-poder-judicial/
Extrayendo datos de: https://www.fjguzman.cl/derribando-mitos-proteccion-de-los-derechos-en-la-nueva-constitucion/
Extrayendo datos de: https://www.fjguzman.cl/estado-empresario-en-la-propuesta-de-texto-constitucional/
Extrayendo datos de: https://www.fjguzman.cl/objecion-de-conciencia-y-libertad-religiosa/
Extrayendo datos de: https://www.fjguzman.cl/los-atentados-del-activismo-judicial/
Extrayendo datos de: https://www.fjguzman.cl/regimen-publico-de-las-aguas-en-el-debate-constitucional/
Extrayendo datos de: https://www.fjguzman.cl/deberes-constitucionales-en-el-anteproyecto-de-la-comision-de-expertos/
Extrayendo datos de: https://www.fjguzman.cl/estado-social-y-subsidiariedad-compatibles/
Extrayendo datos de: https://www.fjguzman.cl/estado-social-vs-subsidiaridad-una-aproximacion/
Extrayendo datos de: https://www.fjguzman.cl/por-que-el-borrador-de-la-convencion-es-un-peligro-para-las-universidades/
Ex

Unnamed: 0,Título,Autor,Fecha Publicación,Categorías,Contenido,Enlace,Fecha Consulta
0,Cinco mejoras para el Poder Judicial,Comunicaciones FJG,2023-12-15 13:23:04,"Apuntes Constitucionales, Noticias y Actividad...","Sin justicia, no habrá paz. Así se ha exclamad...",https://www.fjguzman.cl/cinco-mejoras-para-el-...,2024-11-23 23:33:16
1,Derribando mitos: protección de los derechos e...,Comunicaciones FJG,2023-12-13 18:06:31,"Apuntes Constitucionales, Noticias y Actividades",Se ha corrido el rumor de que el proyecto de t...,https://www.fjguzman.cl/derribando-mitos-prote...,2024-11-23 23:33:19
2,Estado empresario en la propuesta de texto con...,Comunicaciones FJG,2023-11-24 10:30:10,"Apuntes Constitucionales, Noticias y Actividades",Con todos los cambios que se introdujeron a la...,https://www.fjguzman.cl/estado-empresario-en-l...,2024-11-23 23:33:23
3,Objeción de conciencia y libertad religiosa,Comunicaciones FJG,2023-11-15 13:04:06,"Apuntes Constitucionales, Noticias y Actividades",La incorporación expresa de la objeción de con...,https://www.fjguzman.cl/objecion-de-conciencia...,2024-11-23 23:33:27
4,Los atentados del activismo judicial,Comunicaciones FJG,2023-10-04 09:00:34,"Apuntes Constitucionales, Noticias y Actividades",Uno de los diagnósticos más transversales alca...,https://www.fjguzman.cl/los-atentados-del-acti...,2024-11-23 23:33:32
...,...,...,...,...,...,...,...
1337,Resultados del Simce 2013…. desafíos pendientes,Comunicaciones FJG,2014-06-13 12:42:17,Opinión,Señor director:\nLa Agencia de Calidad de la E...,https://www.fjguzman.cl/resultados-del-simce-2...,2024-11-24 01:06:48
1338,Reforma educacional de Bachelet: Menos liberta...,Comunicaciones FJG,2014-05-22 13:36:03,Opinión,"Columna Publicada en El Mercurio, artículo com...",https://www.fjguzman.cl/reforma-educacional-de...,2024-11-24 01:06:53
1339,Declaración pública de la UDI contra ataques d...,Comunicaciones FJG,2014-04-24 15:28:43,Opinión,“No hemos escuchado jamás al partido comunista...,https://www.fjguzman.cl/declaracion-publica-de...,2024-11-24 01:06:58
1340,"Chile, los principios y Jaime Guzmán",Comunicaciones FJG,2014-04-02 15:16:19,Opinión,La famosa frase “Chile cambió” llegó para qued...,https://www.fjguzman.cl/chile-los-principios-y...,2024-11-24 01:07:02


In [81]:
jg_info2 = jg_info[:3]
jg_info2

Unnamed: 0,Título,Autor,Fecha Publicación,Categorías,Contenido,Enlace,Fecha Consulta
0,Cinco mejoras para el Poder Judicial,Comunicaciones FJG,2023-12-15 13:23:04,"Apuntes Constitucionales, Noticias y Actividad...","Sin justicia, no habrá paz. Así se ha exclamad...",https://www.fjguzman.cl/cinco-mejoras-para-el-...,2024-11-23 23:33:16
1,Derribando mitos: protección de los derechos e...,Comunicaciones FJG,2023-12-13 18:06:31,"Apuntes Constitucionales, Noticias y Actividades",Se ha corrido el rumor de que el proyecto de t...,https://www.fjguzman.cl/derribando-mitos-prote...,2024-11-23 23:33:19
2,Estado empresario en la propuesta de texto con...,Comunicaciones FJG,2023-11-24 10:30:10,"Apuntes Constitucionales, Noticias y Actividades",Con todos los cambios que se introdujeron a la...,https://www.fjguzman.cl/estado-empresario-en-l...,2024-11-23 23:33:23


In [86]:
# Guardar el DataFrame como JSON en un archivo de texto
jg_info.to_json("FundacionJaimeGuzman_COMPLETO.json", orient='records', lines=True)

print("Archivo guardado como .json")

Archivo guardado como .json


In [87]:
import pandas as pd

# Leer el archivo JSON por línea (JSON de registros)
uu = pd.read_json("FundacionJaimeGuzman_COMPLETO.json", lines=True)

# Ver los primeros registros
uu

Unnamed: 0,Título,Autor,Fecha Publicación,Categorías,Contenido,Enlace,Fecha Consulta
0,Cinco mejoras para el Poder Judicial,Comunicaciones FJG,2023-12-15 13:23:04,"Apuntes Constitucionales, Noticias y Actividad...","Sin justicia, no habrá paz. Así se ha exclamad...",https://www.fjguzman.cl/cinco-mejoras-para-el-...,2024-11-23 23:33:16
1,Derribando mitos: protección de los derechos e...,Comunicaciones FJG,2023-12-13 18:06:31,"Apuntes Constitucionales, Noticias y Actividades",Se ha corrido el rumor de que el proyecto de t...,https://www.fjguzman.cl/derribando-mitos-prote...,2024-11-23 23:33:19
2,Estado empresario en la propuesta de texto con...,Comunicaciones FJG,2023-11-24 10:30:10,"Apuntes Constitucionales, Noticias y Actividades",Con todos los cambios que se introdujeron a la...,https://www.fjguzman.cl/estado-empresario-en-l...,2024-11-23 23:33:23
3,Objeción de conciencia y libertad religiosa,Comunicaciones FJG,2023-11-15 13:04:06,"Apuntes Constitucionales, Noticias y Actividades",La incorporación expresa de la objeción de con...,https://www.fjguzman.cl/objecion-de-conciencia...,2024-11-23 23:33:27
4,Los atentados del activismo judicial,Comunicaciones FJG,2023-10-04 09:00:34,"Apuntes Constitucionales, Noticias y Actividades",Uno de los diagnósticos más transversales alca...,https://www.fjguzman.cl/los-atentados-del-acti...,2024-11-23 23:33:32
...,...,...,...,...,...,...,...
1337,Resultados del Simce 2013…. desafíos pendientes,Comunicaciones FJG,2014-06-13 12:42:17,Opinión,Señor director:\nLa Agencia de Calidad de la E...,https://www.fjguzman.cl/resultados-del-simce-2...,2024-11-24 01:06:48
1338,Reforma educacional de Bachelet: Menos liberta...,Comunicaciones FJG,2014-05-22 13:36:03,Opinión,"Columna Publicada en El Mercurio, artículo com...",https://www.fjguzman.cl/reforma-educacional-de...,2024-11-24 01:06:53
1339,Declaración pública de la UDI contra ataques d...,Comunicaciones FJG,2014-04-24 15:28:43,Opinión,“No hemos escuchado jamás al partido comunista...,https://www.fjguzman.cl/declaracion-publica-de...,2024-11-24 01:06:58
1340,"Chile, los principios y Jaime Guzmán",Comunicaciones FJG,2014-04-02 15:16:19,Opinión,La famosa frase “Chile cambió” llegó para qued...,https://www.fjguzman.cl/chile-los-principios-y...,2024-11-24 01:07:02


In [106]:
jg_info.columns

Index(['Fecha', 'Autor', 'Categoria', 'Nombre de la noticia',
       'Medio de comunicación', 'Enlace', 'Corpus'],
      dtype='object')

In [None]:
jg_info["Medio de comunicación"] = "Fundación Jaime Guzmán"

jg_info  = jg_info[['Fecha Publicación', 'Autor','Categorías', 'Título', 'Medio de comunicación', 'Enlace', 'Contenido']]

In [114]:
# Cambiar nombres de las columnas
jg_info = jg_info.rename(columns={
    'Fecha Publicación': 'Fecha',
    'Autor': 'Área',
    'Categorías': 'Categoria',
    'Título': 'Nombre de la noticia',
    'Medio de comunicación': 'Think tank',
    'Contenido': 'Corpus'
})

In [111]:
jg_info

Unnamed: 0,Fecha,Autor,Categoria,Nombre de la noticia,Think tank,Enlace,Corpus
0,2023-12-15 13:23:04,Comunicaciones FJG,"Apuntes Constitucionales, Noticias y Actividad...",Cinco mejoras para el Poder Judicial,Fundación Jaime Guzmán,https://www.fjguzman.cl/cinco-mejoras-para-el-...,"Sin justicia, no habrá paz. Así se ha exclamad..."
1,2023-12-13 18:06:31,Comunicaciones FJG,"Apuntes Constitucionales, Noticias y Actividades",Derribando mitos: protección de los derechos e...,Fundación Jaime Guzmán,https://www.fjguzman.cl/derribando-mitos-prote...,Se ha corrido el rumor de que el proyecto de t...
2,2023-11-24 10:30:10,Comunicaciones FJG,"Apuntes Constitucionales, Noticias y Actividades",Estado empresario en la propuesta de texto con...,Fundación Jaime Guzmán,https://www.fjguzman.cl/estado-empresario-en-l...,Con todos los cambios que se introdujeron a la...
3,2023-11-15 13:04:06,Comunicaciones FJG,"Apuntes Constitucionales, Noticias y Actividades",Objeción de conciencia y libertad religiosa,Fundación Jaime Guzmán,https://www.fjguzman.cl/objecion-de-conciencia...,La incorporación expresa de la objeción de con...
4,2023-10-04 09:00:34,Comunicaciones FJG,"Apuntes Constitucionales, Noticias y Actividades",Los atentados del activismo judicial,Fundación Jaime Guzmán,https://www.fjguzman.cl/los-atentados-del-acti...,Uno de los diagnósticos más transversales alca...
...,...,...,...,...,...,...,...
1337,2014-06-13 12:42:17,Comunicaciones FJG,Opinión,Resultados del Simce 2013…. desafíos pendientes,Fundación Jaime Guzmán,https://www.fjguzman.cl/resultados-del-simce-2...,Señor director:\nLa Agencia de Calidad de la E...
1338,2014-05-22 13:36:03,Comunicaciones FJG,Opinión,Reforma educacional de Bachelet: Menos liberta...,Fundación Jaime Guzmán,https://www.fjguzman.cl/reforma-educacional-de...,"Columna Publicada en El Mercurio, artículo com..."
1339,2014-04-24 15:28:43,Comunicaciones FJG,Opinión,Declaración pública de la UDI contra ataques d...,Fundación Jaime Guzmán,https://www.fjguzman.cl/declaracion-publica-de...,“No hemos escuchado jamás al partido comunista...
1340,2014-04-02 15:16:19,Comunicaciones FJG,Opinión,"Chile, los principios y Jaime Guzmán",Fundación Jaime Guzmán,https://www.fjguzman.cl/chile-los-principios-y...,La famosa frase “Chile cambió” llegó para qued...


In [98]:
import pandas as pd
import re

# Reemplazar caracteres ilegales en el DataFrame
def clean_illegal_characters(df):
    # Usar una expresión regular para eliminar caracteres de control
    return df.applymap(lambda x: re.sub(r'[\x00-\x1F\x7F]', '', str(x)) if isinstance(x, str) else x)

# Limpiar el DataFrame de caracteres ilegales
jg_info_clean = clean_illegal_characters(jg_info)

# Guardar el DataFrame limpio como archivo .xlsx
jg_info_clean.to_excel("FundacionJaimeGuzman_COMPLETO.xlsx", index=False)

print("Archivo guardado como .xlsx")

Archivo guardado como .xlsx


In [99]:
jg_info_clean

Unnamed: 0,Fecha,Autor,Categoria,Nombre de la noticia,Medio de comunicación,Enlace,Corpus
0,2023-12-15 13:23:04,Comunicaciones FJG,"Apuntes Constitucionales, Noticias y Actividad...",Cinco mejoras para el Poder Judicial,Fundación Jaime Guzmán,https://www.fjguzman.cl/cinco-mejoras-para-el-...,"Sin justicia, no habrá paz. Así se ha exclamad..."
1,2023-12-13 18:06:31,Comunicaciones FJG,"Apuntes Constitucionales, Noticias y Actividades",Derribando mitos: protección de los derechos e...,Fundación Jaime Guzmán,https://www.fjguzman.cl/derribando-mitos-prote...,Se ha corrido el rumor de que el proyecto de t...
2,2023-11-24 10:30:10,Comunicaciones FJG,"Apuntes Constitucionales, Noticias y Actividades",Estado empresario en la propuesta de texto con...,Fundación Jaime Guzmán,https://www.fjguzman.cl/estado-empresario-en-l...,Con todos los cambios que se introdujeron a la...
3,2023-11-15 13:04:06,Comunicaciones FJG,"Apuntes Constitucionales, Noticias y Actividades",Objeción de conciencia y libertad religiosa,Fundación Jaime Guzmán,https://www.fjguzman.cl/objecion-de-conciencia...,La incorporación expresa de la objeción de con...
4,2023-10-04 09:00:34,Comunicaciones FJG,"Apuntes Constitucionales, Noticias y Actividades",Los atentados del activismo judicial,Fundación Jaime Guzmán,https://www.fjguzman.cl/los-atentados-del-acti...,Uno de los diagnósticos más transversales alca...
...,...,...,...,...,...,...,...
1337,2014-06-13 12:42:17,Comunicaciones FJG,Opinión,Resultados del Simce 2013…. desafíos pendientes,Fundación Jaime Guzmán,https://www.fjguzman.cl/resultados-del-simce-2...,Señor director:La Agencia de Calidad de la Edu...
1338,2014-05-22 13:36:03,Comunicaciones FJG,Opinión,Reforma educacional de Bachelet: Menos liberta...,Fundación Jaime Guzmán,https://www.fjguzman.cl/reforma-educacional-de...,"Columna Publicada en El Mercurio, artículo com..."
1339,2014-04-24 15:28:43,Comunicaciones FJG,Opinión,Declaración pública de la UDI contra ataques d...,Fundación Jaime Guzmán,https://www.fjguzman.cl/declaracion-publica-de...,“No hemos escuchado jamás al partido comunista...
1340,2014-04-02 15:16:19,Comunicaciones FJG,Opinión,"Chile, los principios y Jaime Guzmán",Fundación Jaime Guzmán,https://www.fjguzman.cl/chile-los-principios-y...,La famosa frase “Chile cambió” llegó para qued...


In [104]:
jg_info_clean

Unnamed: 0,Fecha,Autor,Categoria,Nombre de la noticia,Medio de comunicación,Enlace,Corpus
0,2023-12-15 13:23:04,Comunicaciones FJG,"Apuntes Constitucionales, Noticias y Actividad...",Cinco mejoras para el Poder Judicial,Fundación Jaime Guzmán,https://www.fjguzman.cl/cinco-mejoras-para-el-...,"Sin justicia, no habrá paz. Así se ha exclamad..."
1,2023-12-13 18:06:31,Comunicaciones FJG,"Apuntes Constitucionales, Noticias y Actividades",Derribando mitos: protección de los derechos e...,Fundación Jaime Guzmán,https://www.fjguzman.cl/derribando-mitos-prote...,Se ha corrido el rumor de que el proyecto de t...
2,2023-11-24 10:30:10,Comunicaciones FJG,"Apuntes Constitucionales, Noticias y Actividades",Estado empresario en la propuesta de texto con...,Fundación Jaime Guzmán,https://www.fjguzman.cl/estado-empresario-en-l...,Con todos los cambios que se introdujeron a la...
3,2023-11-15 13:04:06,Comunicaciones FJG,"Apuntes Constitucionales, Noticias y Actividades",Objeción de conciencia y libertad religiosa,Fundación Jaime Guzmán,https://www.fjguzman.cl/objecion-de-conciencia...,La incorporación expresa de la objeción de con...
4,2023-10-04 09:00:34,Comunicaciones FJG,"Apuntes Constitucionales, Noticias y Actividades",Los atentados del activismo judicial,Fundación Jaime Guzmán,https://www.fjguzman.cl/los-atentados-del-acti...,Uno de los diagnósticos más transversales alca...
...,...,...,...,...,...,...,...
1337,2014-06-13 12:42:17,Comunicaciones FJG,Opinión,Resultados del Simce 2013…. desafíos pendientes,Fundación Jaime Guzmán,https://www.fjguzman.cl/resultados-del-simce-2...,Señor director:La Agencia de Calidad de la Edu...
1338,2014-05-22 13:36:03,Comunicaciones FJG,Opinión,Reforma educacional de Bachelet: Menos liberta...,Fundación Jaime Guzmán,https://www.fjguzman.cl/reforma-educacional-de...,"Columna Publicada en El Mercurio, artículo com..."
1339,2014-04-24 15:28:43,Comunicaciones FJG,Opinión,Declaración pública de la UDI contra ataques d...,Fundación Jaime Guzmán,https://www.fjguzman.cl/declaracion-publica-de...,“No hemos escuchado jamás al partido comunista...
1340,2014-04-02 15:16:19,Comunicaciones FJG,Opinión,"Chile, los principios y Jaime Guzmán",Fundación Jaime Guzmán,https://www.fjguzman.cl/chile-los-principios-y...,La famosa frase “Chile cambió” llegó para qued...


In [130]:
import pandas as pd
import re

# Función para extraer autor, medio y fecha
def extract_metadata(row):
    # Intentamos la primera estructura: "Por Autor\nMedio, Fecha"
    match1 = re.match(r"^(Por\s)(.*?)\n(.*?), (\d{1,2} de \w+ \d{4})", row['Corpus'])
    if match1:
        autor = match1.group(2)  # Autor está después de "Por "
        medio = match1.group(3)  # Medio está antes de la coma
        fecha = match1.group(4)  # Fecha está después de la coma
        # Crear el corpus2 eliminando autor, medio y fecha del principio
        corpus2 = re.sub(r"^(Por\s" + re.escape(autor) + r"\n" + re.escape(medio) + r", " + re.escape(fecha) + r"\n)", "", row['Corpus'])
    else:
        # Intentamos la segunda estructura: "Texto largo... Medio, Fecha al final"
        match2 = re.search(r"(.*?), (.*?), (\d{1,2} de \w+ \d{4})$", row['Corpus'])
        if match2:
            autor = match2.group(1)  # Autor está antes de la primera coma
            medio = match2.group(2)  # Medio está entre las comas
            fecha = match2.group(3)  # Fecha está después de la última coma
            # Crear el corpus2 eliminando autor, medio y fecha del final
            corpus2 = re.sub(r"\s?" + re.escape(autor) + r",\s?" + re.escape(medio) + r",\s?" + re.escape(fecha) + r"$", "", row['Corpus'])
        else:
            autor = None
            medio = None
            fecha = None
            corpus2 = row['Corpus']

    return pd.Series([autor, medio, fecha, corpus2])

# Crear una copia del DataFrame original
jg_info2 = jg_info.copy()

# Aplicar la función a las filas del DataFrame
jg_info2[['Autor', 'Medio de comunicación', 'Fecha de publicación', 'Corpus2']] = jg_info2.apply(extract_metadata, axis=1)

# Paso 1: Eliminar "Por " del autor si existe
jg_info2['Autor'] = jg_info2['Autor'].str.replace(r'^Por ', '', regex=True)

# Paso 2: Convertir la fecha a formato datetime (sin hora)
jg_info2['Fecha de publicación'] = pd.to_datetime(jg_info2['Fecha de publicación'], format='%d de %B %Y').dt.date

jg_info2

Unnamed: 0,Fecha,Área,Categoria,Nombre de la noticia,Think tank,Enlace,Corpus,Autor,Medio de comunicación,Fecha de publicación,Corpus2
0,2023-12-15 13:23:04,Comunicaciones FJG,"Apuntes Constitucionales, Noticias y Actividad...",Cinco mejoras para el Poder Judicial,Fundación Jaime Guzmán,https://www.fjguzman.cl/cinco-mejoras-para-el-...,"Sin justicia, no habrá paz. Así se ha exclamad...",,,,"Sin justicia, no habrá paz. Así se ha exclamad..."
1,2023-12-13 18:06:31,Comunicaciones FJG,"Apuntes Constitucionales, Noticias y Actividades",Derribando mitos: protección de los derechos e...,Fundación Jaime Guzmán,https://www.fjguzman.cl/derribando-mitos-prote...,Se ha corrido el rumor de que el proyecto de t...,,,,Se ha corrido el rumor de que el proyecto de t...
2,2023-11-24 10:30:10,Comunicaciones FJG,"Apuntes Constitucionales, Noticias y Actividades",Estado empresario en la propuesta de texto con...,Fundación Jaime Guzmán,https://www.fjguzman.cl/estado-empresario-en-l...,Con todos los cambios que se introdujeron a la...,,,,Con todos los cambios que se introdujeron a la...
3,2023-11-15 13:04:06,Comunicaciones FJG,"Apuntes Constitucionales, Noticias y Actividades",Objeción de conciencia y libertad religiosa,Fundación Jaime Guzmán,https://www.fjguzman.cl/objecion-de-conciencia...,La incorporación expresa de la objeción de con...,,,,La incorporación expresa de la objeción de con...
4,2023-10-04 09:00:34,Comunicaciones FJG,"Apuntes Constitucionales, Noticias y Actividades",Los atentados del activismo judicial,Fundación Jaime Guzmán,https://www.fjguzman.cl/los-atentados-del-acti...,Uno de los diagnósticos más transversales alca...,,,,Uno de los diagnósticos más transversales alca...
...,...,...,...,...,...,...,...,...,...,...,...
1337,2014-06-13 12:42:17,Comunicaciones FJG,Opinión,Resultados del Simce 2013…. desafíos pendientes,Fundación Jaime Guzmán,https://www.fjguzman.cl/resultados-del-simce-2...,Señor director:\nLa Agencia de Calidad de la E...,,,,Señor director:\nLa Agencia de Calidad de la E...
1338,2014-05-22 13:36:03,Comunicaciones FJG,Opinión,Reforma educacional de Bachelet: Menos liberta...,Fundación Jaime Guzmán,https://www.fjguzman.cl/reforma-educacional-de...,"Columna Publicada en El Mercurio, artículo com...",,,,"Columna Publicada en El Mercurio, artículo com..."
1339,2014-04-24 15:28:43,Comunicaciones FJG,Opinión,Declaración pública de la UDI contra ataques d...,Fundación Jaime Guzmán,https://www.fjguzman.cl/declaracion-publica-de...,“No hemos escuchado jamás al partido comunista...,,,,“No hemos escuchado jamás al partido comunista...
1340,2014-04-02 15:16:19,Comunicaciones FJG,Opinión,"Chile, los principios y Jaime Guzmán",Fundación Jaime Guzmán,https://www.fjguzman.cl/chile-los-principios-y...,La famosa frase “Chile cambió” llegó para qued...,,,,La famosa frase “Chile cambió” llegó para qued...


In [131]:
# Limpiar el DataFrame de caracteres ilegales
jg_info_clean2 = clean_illegal_characters(jg_info2)

# Guardar el DataFrame limpio como archivo .xlsx
jg_info_clean2.to_excel("FundacionJaimeGuzman_COMPLETOv2.xlsx", index=False)

print("Archivo guardado como .xlsx")

Archivo guardado como .xlsx


# Ideas Republicanas

In [1]:
import pandas as pd
from bs4 import BeautifulSoup
import json

def extract_links_from_gallery(html_content):
    soup = BeautifulSoup(html_content, 'html.parser')
    
    # Buscar todos los elementos de la galería
    gallery_items = soup.find_all('div', class_='eael-filterable-gallery-item-wrap')
    if not gallery_items:
        return pd.DataFrame()
    
    # Extraer información de cada item
    data = []
    for item in gallery_items:
        # Buscar el enlace
        link_tag = item.find('a', href=True)
        if link_tag:
            link = link_tag['href']
            
            # Buscar el título
            title_tag = item.find('h5', class_='fg-item-title')
            title = title_tag.text.strip() if title_tag else ''
            
            # Buscar la fecha
            date_tag = item.find('p')
            date = date_tag.text.strip() if date_tag else ''
            
            # Guardar los datos
            data.append({
                'titulo': title,
                'enlace': link,
                'fecha': date
            })
    
    # Crear DataFrame
    df = pd.DataFrame(data)
    
    # Limpiar los datos
    df['titulo'] = df['titulo'].str.strip()
    df['fecha'] = df['fecha'].str.strip()
    
    return df

# Leer el contenido del archivo HTML
with open('ideas_rep1.html', 'r', encoding='utf-8') as file:
    html_content = file.read()

# Crear el DataFrame
df = extract_links_from_gallery(html_content)

# Mostrar el resultado
print(df.to_string(index=False))

                                                                    titulo                               enlace        fecha
                Carta al Director: "Isapres, Democracia y Responsabilidad" https://ideasrepublicanas.cl/?p=5657    9 de Mayo
    Carta al Director: "Principio de Reserva Legal en Materia Tribuataria" https://ideasrepublicanas.cl/?p=5651    2 de Mayo
                             Carta al Director: "Los rostros del gobierno" https://ideasrepublicanas.cl/?p=5645    1 de Mayo
                           Carta al Director: "RUF y tribunales militares" https://ideasrepublicanas.cl/?p=5636    1 de Mayo
                              Carta al Director: "¿Congreso Asilvestrado?" https://ideasrepublicanas.cl/?p=5630  23 de Abril
                                  Carta al Director: "La Cotona Antibalas" https://ideasrepublicanas.cl/?p=5767  16 de Abril
                              Carta al Director: "Ley de Uso de la Fuerza" https://ideasrepublicanas.cl/?p=5622   5 de Abril


In [2]:
df

Unnamed: 0,titulo,enlace,fecha
0,"Carta al Director: ""Isapres, Democracia y Resp...",https://ideasrepublicanas.cl/?p=5657,9 de Mayo
1,"Carta al Director: ""Principio de Reserva Legal...",https://ideasrepublicanas.cl/?p=5651,2 de Mayo
2,"Carta al Director: ""Los rostros del gobierno""",https://ideasrepublicanas.cl/?p=5645,1 de Mayo
3,"Carta al Director: ""RUF y tribunales militares""",https://ideasrepublicanas.cl/?p=5636,1 de Mayo
4,"Carta al Director: ""¿Congreso Asilvestrado?""",https://ideasrepublicanas.cl/?p=5630,23 de Abril
5,"Carta al Director: ""La Cotona Antibalas""",https://ideasrepublicanas.cl/?p=5767,16 de Abril
6,"Carta al Director: ""Ley de Uso de la Fuerza""",https://ideasrepublicanas.cl/?p=5622,5 de Abril
7,"Carta al Director: ""La mujer del César no sólo...",https://ideasrepublicanas.cl/?p=5606,2 de Febrero
8,Carta al Director: “Consternación”,https://ideasrepublicanas.cl/?p=3257,
9,Carta al Director: “Reglas son reglas”,https://ideasrepublicanas.cl/?p=3235,


In [14]:
import os
import pandas as pd
from bs4 import BeautifulSoup

def extract_links_from_gallery_from_folder(folder_path):
    # Crear un DataFrame vacío para concatenar los datos
    all_data = []
    
    # Obtener todos los archivos HTML en la carpeta
    html_files = [f for f in os.listdir(folder_path) if f.endswith('.html')]
    
    if not html_files:
        print("No se encontraron archivos HTML en la carpeta.")
        return pd.DataFrame()
    
    # Iterar sobre cada archivo HTML
    for file_name in html_files:
        file_path = os.path.join(folder_path, file_name)
        
        # Leer el contenido del archivo HTML
        with open(file_path, 'r', encoding='utf-8') as file:
            html_content = file.read()
        
        # Mostrar el progreso en consola
        print(f"Procesando el archivo: {file_name}")
        
        # Extraer los datos del archivo
        df = extract_links_from_gallery(html_content)
        
        if not df.empty:
            # Agregar una columna con el nombre del archivo para distinguir el origen
            df['archivo_origen'] = file_name
            all_data.append(df)

        print(len(df))
    
    # Concatenar todos los DataFrames de los archivos
    if all_data:
        final_df = pd.concat(all_data, ignore_index=True)
        return final_df
    else:
        print("No se extrajeron datos de ningún archivo.")
        return pd.DataFrame()

def extract_links_from_gallery(html_content):
    soup = BeautifulSoup(html_content, 'html.parser')
    
    # Buscar los elementos de la galería o columnas
    gallery_items = soup.find_all('div', class_=['eael-filterable-gallery-item-wrap', 'elementor-column'])
    
    # También buscar los encabezados que contienen enlaces
    heading_items = soup.find_all('div', class_='elementor-widget-heading')
    
    if not gallery_items and not heading_items:
        return pd.DataFrame()
    
    data = []

    # Extraer los enlaces y demás datos de los elementos de galería
    for item in gallery_items:
        link_tag = item.find('a', href=True)
        if link_tag:
            link = link_tag['href']
            
            title_tag = item.find(['h5', 'h3', 'h4'], class_='fg-item-title')
            title = title_tag.text.strip() if title_tag else ''
            
            date_tag = item.find(['h4', 'p'])
            date = date_tag.text.strip() if date_tag else ''
            
            data.append({
                'titulo': title,
                'enlace': link,
                'fecha': date
            })
    
    # Extraer los enlaces de los encabezados que contienen un enlace
    for item in heading_items:
        link_tag = item.find('a', href=True)
        if link_tag:
            link = link_tag['href']
            title = link_tag.text.strip()
            data.append({
                'titulo': title,
                'enlace': link,
                'fecha': ''  # No hay fecha asociada a estos elementos
            })
    
    # Crear DataFrame
    df = pd.DataFrame(data)
    
    # Limpiar los datos
    df['titulo'] = df['titulo'].str.strip()
    df['fecha'] = df['fecha'].str.strip()
    
    return df

    
    # Crear DataFrame
    df = pd.DataFrame(data)
    
    # Limpiar los datos
    df['titulo'] = df['titulo'].str.strip()
    df['fecha'] = df['fecha'].str.strip()
    
    return df

# Llamada a la función para procesar los archivos en una carpeta
folder_path = r"D:\Escritorio D\Scrap Rodrigo\Ideas Republicanas"  # Sustituye por la ruta de tu carpeta
df_final = extract_links_from_gallery_from_folder(folder_path)

df_final

Procesando el archivo: ideas_rep1.html
11
Procesando el archivo: ideas_semana.html
6
Procesando el archivo: minutas_de_opinion.html
7


Unnamed: 0,titulo,enlace,fecha,archivo_origen
0,"Carta al Director: ""Isapres, Democracia y Resp...",https://ideasrepublicanas.cl/?p=5657,9 de Mayo,ideas_rep1.html
1,"Carta al Director: ""Principio de Reserva Legal...",https://ideasrepublicanas.cl/?p=5651,2 de Mayo,ideas_rep1.html
2,"Carta al Director: ""Los rostros del gobierno""",https://ideasrepublicanas.cl/?p=5645,1 de Mayo,ideas_rep1.html
3,"Carta al Director: ""RUF y tribunales militares""",https://ideasrepublicanas.cl/?p=5636,1 de Mayo,ideas_rep1.html
4,"Carta al Director: ""¿Congreso Asilvestrado?""",https://ideasrepublicanas.cl/?p=5630,23 de Abril,ideas_rep1.html
5,"Carta al Director: ""La Cotona Antibalas""",https://ideasrepublicanas.cl/?p=5767,16 de Abril,ideas_rep1.html
6,"Carta al Director: ""Ley de Uso de la Fuerza""",https://ideasrepublicanas.cl/?p=5622,5 de Abril,ideas_rep1.html
7,"Carta al Director: ""La mujer del César no sólo...",https://ideasrepublicanas.cl/?p=5606,2 de Febrero,ideas_rep1.html
8,Carta al Director: “Consternación”,https://ideasrepublicanas.cl/?p=3257,,ideas_rep1.html
9,Carta al Director: “Reglas son reglas”,https://ideasrepublicanas.cl/?p=3235,,ideas_rep1.html


## Otra prueba

In [30]:
import os
import pandas as pd
from bs4 import BeautifulSoup

def extract_links_from_gallery_from_folder(folder_path):
    # Crear un DataFrame vacío para concatenar los datos
    all_data = []
    
    # Obtener todos los archivos HTML en la carpeta
    html_files = [f for f in os.listdir(folder_path) if f.endswith('.html')]
    
    if not html_files:
        print("No se encontraron archivos HTML en la carpeta.")
        return pd.DataFrame()
    
    # Iterar sobre cada archivo HTML
    for file_name in html_files:
        file_path = os.path.join(folder_path, file_name)
        
        # Leer el contenido del archivo HTML
        with open(file_path, 'r', encoding='utf-8') as file:
            html_content = file.read()
        
        # Mostrar el progreso en consola
        print(f"Procesando el archivo: {file_name}")
        
        # Extraer los datos del archivo
        df = extract_links_from_gallery(html_content)
        
        if not df.empty:
            # Agregar una columna con el nombre del archivo para distinguir el origen
            df['archivo_origen'] = file_name
            all_data.append(df)

        print(len(df))
    
    # Concatenar todos los DataFrames de los archivos
    if all_data:
        final_df = pd.concat(all_data, ignore_index=True)
        return final_df
    else:
        print("No se extrajeron datos de ningún archivo.")
        return pd.DataFrame()

def extract_links_from_gallery(html_content):
    soup = BeautifulSoup(html_content, 'html.parser')
    
    # Buscar los elementos de galería o columnas
    gallery_items = soup.find_all('div', class_=['eael-filterable-gallery-item-wrap', 'elementor-column'])
    
    # Buscar los elementos con encabezados que contienen enlaces (en widgets o botones)
    heading_items = soup.find_all('div', class_='elementor-widget-heading')
    image_items = soup.find_all('div', class_='elementor-widget-image')
    button_items = soup.find_all('div', class_='elementor-widget-button')
    
    # Buscar específicamente los títulos <h3> con clase 'elementor-heading-title'
    h3_titles = soup.find_all('h3', class_='elementor-heading-title')

    if not gallery_items and not heading_items and not image_items and not button_items and not h3_titles:
        return pd.DataFrame()
    
    data = []

    # Extraer los enlaces de los elementos de galería
    for item in gallery_items:
        link_tag = item.find('a', href=True)
        if link_tag:
            link = link_tag['href']
            
            title_tag = item.find(['h5', 'h3', 'h4'], class_='fg-item-title')
            title = title_tag.text.strip() if title_tag else ''
            
            date_tag = item.find(['h4', 'p'])
            date = date_tag.text.strip() if date_tag else ''
            
            data.append({
                'titulo': title,
                'enlace': link,
                'fecha': date
            })
    
    # Extraer los enlaces de los encabezados (títulos) y sus posibles enlaces
    for item in heading_items:
        link_tag = item.find('a', href=True)
        if link_tag:
            link = link_tag['href']
            title = link_tag.text.strip()
            data.append({
                'titulo': title,
                'enlace': link,
                'fecha': ''  # No hay fecha asociada a estos elementos
            })

    # Extraer enlaces de las imágenes con su enlace asociado
    for item in image_items:
        link_tag = item.find('a', href=True)
        if link_tag:
            link = link_tag['href']
            # Puedes optar por usar el texto alternativo de la imagen o su URL
            title = item.find('img')['alt'] if item.find('img') else ''
            data.append({
                'titulo': title,
                'enlace': link,
                'fecha': ''  # Sin fecha asociada
            })

    # Extraer enlaces de los botones
    for item in button_items:
        link_tag = item.find('a', href=True)
        if link_tag:
            link = link_tag['href']
            title = item.find('span', class_='elementor-button-text').text.strip() if item.find('span', class_='elementor-button-text') else ''
            data.append({
                'titulo': title,
                'enlace': link,
                'fecha': ''  # No hay fecha asociada
            })
    
    # Extraer títulos directamente desde los <h3 class="elementor-heading-title">
    for item in h3_titles:
        title = item.text.strip()
        link_tag = item.find('a', href=True)
        if link_tag:
            link = link_tag['href']
            data.append({
                'titulo': title,
                'enlace': link,
                'fecha': ''  # No hay fecha asociada a estos elementos
            })
    
    # Crear DataFrame
    df = pd.DataFrame(data)
    
    # Limpiar los datos
    df['titulo'] = df['titulo'].str.strip()
    df['fecha'] = df['fecha'].str.strip()
    
    return df

# Llamada a la función para procesar los archivos en una carpeta
folder_path = r"D:\Escritorio D\Scrap Rodrigo\Ideas Republicanas"  # Sustituye por la ruta de tu carpeta
df_final = extract_links_from_gallery_from_folder(folder_path)

df_final

Procesando el archivo: ideas_rep1.html
11
Procesando el archivo: ideas_semana.html
12
Procesando el archivo: minutas_de_opinion.html
14


Unnamed: 0,titulo,enlace,fecha,archivo_origen
0,"Carta al Director: ""Isapres, Democracia y Resp...",https://ideasrepublicanas.cl/?p=5657,9 de Mayo,ideas_rep1.html
1,"Carta al Director: ""Principio de Reserva Legal...",https://ideasrepublicanas.cl/?p=5651,2 de Mayo,ideas_rep1.html
2,"Carta al Director: ""Los rostros del gobierno""",https://ideasrepublicanas.cl/?p=5645,1 de Mayo,ideas_rep1.html
3,"Carta al Director: ""RUF y tribunales militares""",https://ideasrepublicanas.cl/?p=5636,1 de Mayo,ideas_rep1.html
4,"Carta al Director: ""¿Congreso Asilvestrado?""",https://ideasrepublicanas.cl/?p=5630,23 de Abril,ideas_rep1.html
5,"Carta al Director: ""La Cotona Antibalas""",https://ideasrepublicanas.cl/?p=5767,16 de Abril,ideas_rep1.html
6,"Carta al Director: ""Ley de Uso de la Fuerza""",https://ideasrepublicanas.cl/?p=5622,5 de Abril,ideas_rep1.html
7,"Carta al Director: ""La mujer del César no sólo...",https://ideasrepublicanas.cl/?p=5606,2 de Febrero,ideas_rep1.html
8,Carta al Director: “Consternación”,https://ideasrepublicanas.cl/?p=3257,,ideas_rep1.html
9,Carta al Director: “Reglas son reglas”,https://ideasrepublicanas.cl/?p=3235,,ideas_rep1.html


In [49]:
import os
import pandas as pd
from bs4 import BeautifulSoup

def extract_links_from_gallery_from_folder(folder_path):
    # Crear un DataFrame vacío para concatenar los datos
    all_data = []
    
    # Obtener todos los archivos HTML en la carpeta
    html_files = [f for f in os.listdir(folder_path) if f.endswith('.html')]
    
    if not html_files:
        print("No se encontraron archivos HTML en la carpeta.")
        return pd.DataFrame()
    
    # Iterar sobre cada archivo HTML
    for file_name in html_files:
        file_path = os.path.join(folder_path, file_name)
        
        # Leer el contenido del archivo HTML
        with open(file_path, 'r', encoding='utf-8') as file:
            html_content = file.read()
        
        # Mostrar el progreso en consola
        print(f"Procesando el archivo: {file_name}")
        
        # Extraer los datos del archivo
        df = extract_links_from_gallery(html_content)
        
        if not df.empty:
            # Agregar una columna con el nombre del archivo para distinguir el origen
            df['archivo_origen'] = file_name
            all_data.append(df)

        print(f"Cantidad de elementos extraídos: {len(df)}")
    
    # Concatenar todos los DataFrames de los archivos
    if all_data:
        final_df = pd.concat(all_data, ignore_index=True)
        return final_df
    else:
        print("No se extrajeron datos de ningún archivo.")
        return pd.DataFrame()

def extract_links_from_gallery(html_content):
    soup = BeautifulSoup(html_content, 'html.parser')
    
    # Buscar todos los elementos de columna
    column_items = soup.find_all('div', class_='elementor-column')
    
    if not column_items:
        return pd.DataFrame()
    
    data = []

    # Iterar sobre cada columna
    for item in column_items:
        # Extraer el enlace de la imagen
        image_link = ''
        image_title = ''
        image_tag = item.find('div', class_='elementor-widget-image')
        if image_tag:
            link_tag = image_tag.find('a', href=True)
            if link_tag:
                image_link = link_tag['href']
            img_tag = image_tag.find('img', alt=True)
            if img_tag:
                image_title = img_tag['alt']
        
        # Extraer la fecha (si está presente)
        date = ''
        date_tag = item.find('h4', class_='elementor-heading-title')
        if date_tag:
            date_link_tag = date_tag.find('a', href=True)
            if date_link_tag:
                date = date_link_tag.text.strip()
        
        # Extraer el título (si está presente)
        title = ''
        title_tag = item.find('h3', class_='elementor-heading-title')
        if title_tag:
            title = title_tag.text.strip()

        # Extraer el enlace del botón (si está presente)
        button_link = ''
        button_text = ''
        button_tag = item.find('div', class_='elementor-widget-button')
        if button_tag:
            button_a_tag = button_tag.find('a', href=True)
            if button_a_tag:
                button_link = button_a_tag['href']
            button_span_tag = button_tag.find('span', class_='elementor-button-text')
            if button_span_tag:
                button_text = button_span_tag.text.strip()

        # Agregar los datos extraídos a la lista
        data.append({
            'titulo': title,
            'enlace_imagen': image_link,
            'titulo_imagen': image_title,
            'fecha': date,
            'titulo_boton': button_text,
            'enlace_boton': button_link
        })
    
    # Crear DataFrame con los datos extraídos
    df = pd.DataFrame(data)
    
    # Limpiar los datos
    df['titulo'] = df['titulo'].str.strip()
    df['fecha'] = df['fecha'].str.strip()
    df['titulo_imagen'] = df['titulo_imagen'].str.strip()
    df['titulo_boton'] = df['titulo_boton'].str.strip()

    return df


# Llamada a la función para procesar los archivos en una carpeta
folder_path = r"D:\Escritorio D\Scrap Rodrigo\Ideas Republicanas"  # Sustituye por la ruta de tu carpeta
df_final1 = extract_links_from_gallery_from_folder(folder_path)

df_final1

Procesando el archivo: documentos_estudio.html
Cantidad de elementos extraídos: 0
Procesando el archivo: ideas_rep1.html
Cantidad de elementos extraídos: 0
Procesando el archivo: ideas_semana.html
Cantidad de elementos extraídos: 3
Procesando el archivo: minutas_de_opinion.html
Cantidad de elementos extraídos: 3


Unnamed: 0,titulo,enlace_imagen,titulo_imagen,fecha,titulo_boton,enlace_boton,archivo_origen
0,Divide y vencerás,https://ideasrepublicanas.cl/wp-content/upload...,,10 Mayo 2024,Leer,https://ideasrepublicanas.cl/wp-content/upload...,ideas_semana.html
1,Sucedáneo de seguridad,https://ideasrepublicanas.cl/wp-content/upload...,,26 Abril 2024,Leer,https://ideasrepublicanas.cl/wp-content/upload...,ideas_semana.html
2,La tumba de la salud,https://ideasrepublicanas.cl/wp-content/upload...,,5 Abril 2024,Leer,https://ideasrepublicanas.cl/wp-content/upload...,ideas_semana.html
3,CAE ¿Quienes pagan el perdonazo?,https://ideasrepublicanas.cl/wp-content/upload...,,24 Mayo 2024,Leer,https://ideasrepublicanas.cl/wp-content/upload...,minutas_de_opinion.html
4,Editorial IR,http://a,,15 Mar 2024,Leer,http://a,minutas_de_opinion.html
5,Editorial IR,http://a,,28 Mar 2024,Leer,http://a,minutas_de_opinion.html


In [50]:
import os
import pandas as pd
from bs4 import BeautifulSoup

def extract_links_from_gallery_from_folder(folder_path):
    # Crear un DataFrame vacío para concatenar los datos
    all_data = []
    
    # Obtener todos los archivos HTML en la carpeta
    html_files = [f for f in os.listdir(folder_path) if f.endswith('.html')]
    
    if not html_files:
        print("No se encontraron archivos HTML en la carpeta.")
        return pd.DataFrame()
    
    # Iterar sobre cada archivo HTML
    for file_name in html_files:
        file_path = os.path.join(folder_path, file_name)
        
        # Leer el contenido del archivo HTML
        with open(file_path, 'r', encoding='utf-8') as file:
            html_content = file.read()
        
        # Mostrar el progreso en consola
        print(f"Procesando el archivo: {file_name}")
        
        # Extraer los datos del archivo
        df = extract_links_from_gallery(html_content)
        
        if not df.empty:
            # Agregar una columna con el nombre del archivo para distinguir el origen
            df['archivo_origen'] = file_name
            all_data.append(df)

        print(len(df))
    
    # Concatenar todos los DataFrames de los archivos
    if all_data:
        final_df = pd.concat(all_data, ignore_index=True)
        return final_df
    else:
        print("No se extrajeron datos de ningún archivo.")
        return pd.DataFrame()

def extract_links_from_gallery(html_content):
    soup = BeautifulSoup(html_content, 'html.parser')
    
    # Buscar los elementos de galería de filtro con la clase 'eael-filterable-gallery-item-wrap'
    gallery_items = soup.find_all('div', class_='eael-filterable-gallery-item-wrap')
    
    if not gallery_items:
        return pd.DataFrame()
    
    data = []

    # Extraer los enlaces y títulos de los elementos de la galería
    for item in gallery_items:
        # Buscar el enlace
        link_tag = item.find('a', href=True)
        if link_tag:
            link = link_tag['href']
            
            # Buscar el título dentro de <h5 class="fg-item-title">
            title_tag = item.find('h5', class_='fg-item-title')
            title = title_tag.text.strip() if title_tag else ''
            
            # Buscar la fecha dentro de <p class="fg-item-content">
            date_tag = item.find('p', class_='fg-item-content')
            date = date_tag.text.strip() if date_tag else ''
            
            # Buscar la imagen
            image_tag = item.find('img', class_='gallery-item-thumbnail')
            image_url = image_tag['src'] if image_tag else ''
            
            data.append({
                'titulo': title,
                'enlace': link,
                'fecha': date,
                'enlace_imagen': image_url
            })
    
    # Crear DataFrame con los datos extraídos
    df = pd.DataFrame(data)
    
    # Limpiar los datos
    df['titulo'] = df['titulo'].str.strip()
    df['fecha'] = df['fecha'].str.strip()
    df['enlace_imagen'] = df['enlace_imagen'].str.strip()

    return df


# Llamada a la función para procesar los archivos en una carpeta
folder_path = r"D:\Escritorio D\Scrap Rodrigo\Ideas Republicanas"  # Sustituye por la ruta de tu carpeta
df_final = extract_links_from_gallery_from_folder(folder_path)

df_final

Procesando el archivo: documentos_estudio.html
33
Procesando el archivo: ideas_rep1.html
11
Procesando el archivo: ideas_semana.html
0
Procesando el archivo: minutas_de_opinion.html
0


Unnamed: 0,titulo,enlace,fecha,enlace_imagen,archivo_origen
0,Jaime González K.: Diputados: menos es más,https://ideasrepublicanas.cl/?p=5492,,https://test.accionrepublicana.cl/wp-content/u...,documentos_estudio.html
1,Cicatrices en la salud,https://ideasrepublicanas.cl/?p=5492,,https://test.accionrepublicana.cl/wp-content/u...,documentos_estudio.html
2,Incendios y ¿Seguridad?,https://ideasrepublicanas.cl/?p=3752,,https://test.accionrepublicana.cl/wp-content/u...,documentos_estudio.html
3,"TPP 11, una nueva página en el país para escribir",https://ideasrepublicanas.cl/?p=3714,,https://test.accionrepublicana.cl/wp-content/u...,documentos_estudio.html
4,Sicariato en Chile,https://ideasrepublicanas.cl/?p=3805,,https://test.accionrepublicana.cl/wp-content/u...,documentos_estudio.html
5,Ley Solo si es si - El caso español,https://ideasrepublicanas.cl/?p=3790,,https://test.accionrepublicana.cl/wp-content/u...,documentos_estudio.html
6,Agoniza el Sistema de Salud ¿Dónde está el doc...,https://ideasrepublicanas.cl/?p=3772,,https://test.accionrepublicana.cl/wp-content/u...,documentos_estudio.html
7,Nuevo proceso constituyente,https://ideasrepublicanas.cl/?p=3738,,https://test.accionrepublicana.cl/wp-content/u...,documentos_estudio.html
8,2023: Iberoamérica al Rojo,https://ideasrepublicanas.cl/?p=3676,,https://test.accionrepublicana.cl/wp-content/u...,documentos_estudio.html
9,"Sistema de admision escolar ""La tómbola que an...",https://ideasrepublicanas.cl/?p=3647,,https://test.accionrepublicana.cl/wp-content/u...,documentos_estudio.html


In [61]:
import os
import pandas as pd
from bs4 import BeautifulSoup

def extract_links_from_gallery_from_folder(folder_path):
    # Crear un DataFrame vacío para concatenar los datos
    all_data = []
    
    # Obtener todos los archivos HTML en la carpeta
    html_files = [f for f in os.listdir(folder_path) if f.endswith('.html')]
    
    if not html_files:
        print("No se encontraron archivos HTML en la carpeta.")
        return pd.DataFrame()
    
    # Iterar sobre cada archivo HTML
    for file_name in html_files:
        file_path = os.path.join(folder_path, file_name)
        
        # Leer el contenido del archivo HTML
        with open(file_path, 'r', encoding='utf-8') as file:
            html_content = file.read()
        
        # Mostrar el progreso en consola
        print(f"Procesando el archivo: {file_name}")
        
        # Extraer los datos del archivo
        df = extract_links_from_gallery(html_content)
        
        if not df.empty:
            # Agregar una columna con el nombre del archivo para distinguir el origen
            df['archivo_origen'] = file_name
            all_data.append(df)

        print(len(df))
    
    # Concatenar todos los DataFrames de los archivos
    if all_data:
        final_df = pd.concat(all_data, ignore_index=True)
        return final_df
    else:
        print("No se extrajeron datos de ningún archivo.")
        return pd.DataFrame()

def extract_links_from_gallery(html_content):
    soup = BeautifulSoup(html_content, 'html.parser')
    
    # Buscar todos los elementos de columna
    column_items = soup.find_all('div', class_='elementor-column')
    
    if not column_items:
        return pd.DataFrame()
    
    data = []

    # Iterar sobre cada columna
    for item in column_items:
        # Extraer los enlaces de imagen
        image_link = ''
        image_title = ''
        image_tag = item.find('div', class_='elementor-widget-image')
        if image_tag:
            link_tag = image_tag.find('a', href=True)
            if link_tag:
                image_link = link_tag['href']
            img_tag = image_tag.find('img', alt=True)
            if img_tag:
                image_title = img_tag['alt']
        
        # Extraer la fecha (si está presente)
        date = ''
        date_tag = item.find('h4', class_='elementor-heading-title')
        if date_tag:
            date_link_tag = date_tag.find('a', href=True)
            if date_link_tag:
                date = date_link_tag.text.strip()
        
        # Extraer el título (si está presente)
        title = ''
        title_tag = item.find('h3', class_='elementor-heading-title')
        if title_tag:
            title = title_tag.text.strip()

        # Extraer el enlace del botón (si está presente)
        button_link = ''
        button_text = ''
        button_tag = item.find('div', class_='elementor-widget-button')
        if button_tag:
            button_a_tag = button_tag.find('a', href=True)
            if button_a_tag:
                button_link = button_a_tag['href']
            button_span_tag = button_tag.find('span', class_='elementor-button-text')
            if button_span_tag:
                button_text = button_span_tag.text.strip()

        # Agregar los datos extraídos a la lista
        data.append({
            'titulo': title,
            'enlace_imagen': image_link,
            'titulo_imagen': image_title,
            'fecha': date,
            'titulo_boton': button_text,
            'enlace_boton': button_link
        })
    
    # Crear DataFrame con los datos extraídos
    df = pd.DataFrame(data)
    
    # Limpiar los datos
    df['titulo'] = df['titulo'].str.strip()
    df['fecha'] = df['fecha'].str.strip()
    df['titulo_imagen'] = df['titulo_imagen'].str.strip()
    df['titulo_boton'] = df['titulo_boton'].str.strip()

    return df


# Llamada a la función para procesar los archivos en una carpeta
folder_path = r"D:\Escritorio D\Scrap Rodrigo\Ideas Republicanas"  # Sustituye por la ruta de tu carpeta
df_final = extract_links_from_gallery_from_folder(folder_path)

df_final

Procesando el archivo: documentos_estudio.html
0
Procesando el archivo: ideas_rep1.html
0
Procesando el archivo: ideas_semana.html
3
Procesando el archivo: minutas_de_opinion.html
3
Procesando el archivo: videos.html
3


Unnamed: 0,titulo,enlace_imagen,titulo_imagen,fecha,titulo_boton,enlace_boton,archivo_origen
0,Divide y vencerás,https://ideasrepublicanas.cl/wp-content/upload...,,10 Mayo 2024,Leer,https://ideasrepublicanas.cl/wp-content/upload...,ideas_semana.html
1,Sucedáneo de seguridad,https://ideasrepublicanas.cl/wp-content/upload...,,26 Abril 2024,Leer,https://ideasrepublicanas.cl/wp-content/upload...,ideas_semana.html
2,La tumba de la salud,https://ideasrepublicanas.cl/wp-content/upload...,,5 Abril 2024,Leer,https://ideasrepublicanas.cl/wp-content/upload...,ideas_semana.html
3,CAE ¿Quienes pagan el perdonazo?,https://ideasrepublicanas.cl/wp-content/upload...,,24 Mayo 2024,Leer,https://ideasrepublicanas.cl/wp-content/upload...,minutas_de_opinion.html
4,Editorial IR,http://a,,15 Mar 2024,Leer,http://a,minutas_de_opinion.html
5,Editorial IR,http://a,,28 Mar 2024,Leer,http://a,minutas_de_opinion.html
6,Editorial IR: Los dos Chile,,,,,,videos.html
7,Alcaldes en problemas: Las investigaciones que...,,,,,,videos.html
8,"El presidente Boric, ¿merece respeto?",,,,,,videos.html


## Iterar sobre enlaces

In [None]:
import time
import pandas as pd
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.by import By
from datetime import datetime

def extract_info_from_url(driver, url):
    """
    Extrae el contenido y el autor de un artículo desde una URL usando un webdriver existente.

    Args:
        driver (webdriver): El webdriver ya abierto.
        url (str): URL de la página para extraer información.

    Returns:
        dict: Diccionario con la información extraída del artículo.
    """
    try:
        driver.get(url)
        # Esperar a que cargue el contenido
        time.sleep(3)
        
        # Obtener el artículo
        article = driver.find_element(By.CSS_SELECTOR, "div.entry-content.clear")
        
        # Extraer los datos del artículo
        article_data = {}
        
        # Contenido del artículo (Corpus)
        try:
            corpus = ' '.join([p.text.strip() for p in article.find_elements(By.TAG_NAME, 'p')])
            article_data['Corpus'] = corpus
        except:
            article_data['Corpus'] = None
        
        # Autor (buscar los <strong> y la estructura asociada)
        try:
            # Buscar todos los párrafos en el artículo
            paragraphs = article.find_elements(By.TAG_NAME, "p")
            author_name = None

            # Buscar autor dentro de <strong> en los párrafos
            for para in paragraphs:
                # Ver si hay un <strong> dentro de este párrafo
                strong_tags = para.find_elements(By.TAG_NAME, "strong")
                if strong_tags:
                    # Si encontramos un <strong> que parece el autor, tomamos el primer <strong>
                    author_name = strong_tags[0].text.strip()
                    break
            
            # Si no se encuentra en el formato esperado, intentar de otras formas
            if not author_name:
                # Intentar buscar el nombre del autor en cualquier otro lugar específico
                author_paragraphs = article.find_elements(By.XPATH, "//p[strong]")
                if author_paragraphs:
                    # Si hay un párrafo con <strong>, obtener el primer <strong> como autor
                    author_name = author_paragraphs[0].find_element(By.TAG_NAME, "strong").text.strip()
            
            # Guardar el autor si se encontró
            article_data['Autor'] = author_name if author_name else None

        except Exception as e:
            print(f"Error al extraer el autor: {str(e)}")
            article_data['Autor'] = None
        
        return article_data
    
    except Exception as e:
        print(f"Error en la extracción de {url}: {str(e)}")
        return None

In [None]:

def process_all_links(df):
    """
    Procesa todos los enlaces de un DataFrame 'df', extrayendo el contenido y el autor de cada artículo
    y almacenándolos en las columnas 'Corpus' y 'Autor' del DataFrame.

    Args:
        df (pd.DataFrame): DataFrame que contiene una columna 'enlace' con los enlaces de los artículos.

    Returns:
        pd.DataFrame: DataFrame con las columnas 'Corpus' y 'Autor' actualizadas.
    """
    # Configurar las opciones de Chrome para el modo headless
    chrome_options = Options()
    chrome_options.add_argument("--headless")  # Activar modo headless (sin interfaz gráfica)
    chrome_options.add_argument("--disable-gpu")  # Deshabilitar la aceleración por hardware (útil en headless)
    chrome_options.add_argument("--no-sandbox")  # Puede ser necesario en ciertos entornos (como contenedores)

    # Abrir el webdriver con las opciones configuradas
    driver = webdriver.Chrome(options=chrome_options)
    #driver = webdriver.Chrome()

    # Crear listas para almacenar los datos de los artículos
    corpus_list = []
    autor_list = []

    try:
        # Recorrer los enlaces en el DataFrame
        for _, row in df.iterrows():
            url = row['enlace']
            print(f"Extrayendo datos de: {url}")
            
            # Extraer la información del artículo
            article_data = extract_info_from_url(driver, url)
            
            if article_data:
                corpus_list.append(article_data.get('Corpus', ''))
                autor_list.append(article_data.get('Autor', ''))
            else:
                corpus_list.append('')
                autor_list.append('')
        
        # Actualizar el DataFrame con los datos extraídos
        df['Corpus'] = corpus_list
        df['Autor'] = autor_list
        
        return df
    
    except Exception as e:
        print(f"Error en el proceso: {str(e)}")
        return df
    
    finally:
        driver.quit()  # Cerrar el webdriver al finalizar


# Ejemplo de uso
# Suponiendo que df_final es el DataFrame con los enlaces a procesar
#df_final2 = df_final[:3]
df_final22 = process_all_links(df_final)

# Mostrar el DataFrame actualizado
df_final22

In [60]:
def process_all_links(df):
    """
    Procesa todos los enlaces de un DataFrame 'df', extrayendo el contenido y el autor de cada artículo
    y almacenándolos en las columnas 'Corpus' y 'Autor' del DataFrame.

    Args:
        df (pd.DataFrame): DataFrame que contiene una columna 'enlace' con los enlaces de los artículos.

    Returns:
        pd.DataFrame: DataFrame con las columnas 'Corpus' y 'Autor' actualizadas.
    """
    # Configurar las opciones de Chrome para el modo headless
    chrome_options = Options()
    chrome_options.add_argument("--headless")  # Activar modo headless (sin interfaz gráfica)
    chrome_options.add_argument("--disable-gpu")  # Deshabilitar la aceleración por hardware (útil en headless)
    chrome_options.add_argument("--no-sandbox")  # Puede ser necesario en ciertos entornos (como contenedores)

    # Abrir el webdriver con las opciones configuradas
    driver = webdriver.Chrome(options=chrome_options)

    # Crear listas para almacenar los datos de los artículos
    corpus_list = []
    autor_list = []

    try:
        # Total de filas a procesar
        total_rows = len(df)

        # Recorrer los enlaces en el DataFrame
        for index, row in df.iterrows():
            url = row['enlace']
            print(f"Extrayendo datos de: {url}")

            # Extraer la información del artículo
            article_data = extract_info_from_url(driver, url)

            # Almacenar los datos extraídos
            if article_data:
                corpus_list.append(article_data.get('Corpus', ''))
                autor_list.append(article_data.get('Autor', ''))
            else:
                corpus_list.append('')
                autor_list.append('')

            # Mostrar el progreso en cada iteración
            print(f"Progreso: {index + 1}/{total_rows} ({(index + 1) / total_rows * 100:.2f}%)")
            
            # Mostrar los primeros 20 caracteres del corpus y el autor
            print(f"Fila procesada - Autor: {article_data.get('Autor', 'N/A')}, Corpus: {article_data.get('Corpus', '')[:20]}")
        
        # Actualizar el DataFrame con los datos extraídos
        df['Corpus'] = corpus_list
        df['Autor'] = autor_list
        
        return df

    except Exception as e:
        print(f"Error en el proceso: {str(e)}")
        return df

    finally:
        driver.quit()  # Cerrar el webdriver al finalizar


# Ejemplo de uso
# Suponiendo que df_final es el DataFrame con los enlaces a procesar
#df_final2 = df_final[:3]  # Puedes probar con un subconjunto si lo deseas
df_final22 = process_all_links(df_final)

# Mostrar el DataFrame actualizado
df_final22

Extrayendo datos de: https://ideasrepublicanas.cl/?p=5492
Progreso: 1/44 (2.27%)
Fila procesada - Autor: Jaime González K., Corpus: Los cambios de los ú
Extrayendo datos de: https://ideasrepublicanas.cl/?p=5492
Progreso: 2/44 (4.55%)
Fila procesada - Autor: Jaime González K., Corpus: Los cambios de los ú
Extrayendo datos de: https://ideasrepublicanas.cl/?p=3752
Progreso: 3/44 (6.82%)
Fila procesada - Autor: Jaime González Kazazian, Corpus: Al menos, la molesti
Extrayendo datos de: https://ideasrepublicanas.cl/?p=3714
Progreso: 4/44 (9.09%)
Fila procesada - Autor: None, Corpus: El TPP 11 finalmente
Extrayendo datos de: https://ideasrepublicanas.cl/?p=3805
Progreso: 5/44 (11.36%)
Fila procesada - Autor: Descarga el documento aquí, Corpus: El aumento en los ho
Extrayendo datos de: https://ideasrepublicanas.cl/?p=3790
Progreso: 6/44 (13.64%)
Fila procesada - Autor: Descarga el documento aquí, Corpus: La ley «Sólo sí es s
Extrayendo datos de: https://ideasrepublicanas.cl/?p=3772
Progreso: 7

Unnamed: 0,titulo,enlace,fecha,enlace_imagen,archivo_origen,Corpus,Autor
0,Jaime González K.: Diputados: menos es más,https://ideasrepublicanas.cl/?p=5492,,https://test.accionrepublicana.cl/wp-content/u...,documentos_estudio.html,Los cambios de los últimos años han generado f...,Jaime González K.
1,Cicatrices en la salud,https://ideasrepublicanas.cl/?p=5492,,https://test.accionrepublicana.cl/wp-content/u...,documentos_estudio.html,Los cambios de los últimos años han generado f...,Jaime González K.
2,Incendios y ¿Seguridad?,https://ideasrepublicanas.cl/?p=3752,,https://test.accionrepublicana.cl/wp-content/u...,documentos_estudio.html,"Al menos, la molestia que nos causan los incen...",Jaime González Kazazian
3,"TPP 11, una nueva página en el país para escribir",https://ideasrepublicanas.cl/?p=3714,,https://test.accionrepublicana.cl/wp-content/u...,documentos_estudio.html,El TPP 11 finalmente entró en vigencia en Chi...,
4,Sicariato en Chile,https://ideasrepublicanas.cl/?p=3805,,https://test.accionrepublicana.cl/wp-content/u...,documentos_estudio.html,El aumento en los homicidios no ha dejado indi...,Descarga el documento aquí
5,Ley Solo si es si - El caso español,https://ideasrepublicanas.cl/?p=3790,,https://test.accionrepublicana.cl/wp-content/u...,documentos_estudio.html,La ley «Sólo sí es sí» aprobada por el Parlame...,Descarga el documento aquí
6,Agoniza el Sistema de Salud ¿Dónde está el doc...,https://ideasrepublicanas.cl/?p=3772,,https://test.accionrepublicana.cl/wp-content/u...,documentos_estudio.html,"En Chile, la situación del sistema de salud es...",Descarga el documento aquí
7,Nuevo proceso constituyente,https://ideasrepublicanas.cl/?p=3738,,https://test.accionrepublicana.cl/wp-content/u...,documentos_estudio.html,Conoce todos los detalles sobre lo nuevo que s...,Descarga el documento aquí
8,2023: Iberoamérica al Rojo,https://ideasrepublicanas.cl/?p=3676,,https://test.accionrepublicana.cl/wp-content/u...,documentos_estudio.html,El año 2023 comienza con una cartografía polít...,Descarga el documento aquí
9,"Sistema de admision escolar ""La tómbola que an...",https://ideasrepublicanas.cl/?p=3647,,https://test.accionrepublicana.cl/wp-content/u...,documentos_estudio.html,Descarga el documento aquí A dos años del fun...,Descarga el documento aquí


## Unión

In [63]:
df_final.columns

Index(['titulo', 'enlace_imagen', 'titulo_imagen', 'fecha', 'titulo_boton',
       'enlace_boton', 'archivo_origen'],
      dtype='object')

In [None]:
df_final['Autor'] = ""
df_final["Medio de comunicación"] = ""
df_final["Think tank"] = "Ideas Republicanas"

df_final  = df_final[['fecha', 'archivo_origen', 'titulo', 'Think tank', 'enlace_imagen', 'Autor', 'titulo_imagen', 'titulo_boton',
       'enlace_boton']]

# Cambiar nombres de las columnas
df_final = df_final.rename(columns={
    'fecha': 'Fecha',
    'archivo_origen': 'Categoria',
    'titulo': 'Nombre de la noticia',
    'enlace_imagen': 'Enlace'
})

In [65]:
df_final22.columns

Index(['titulo', 'enlace', 'fecha', 'enlace_imagen', 'archivo_origen',
       'Corpus', 'Autor'],
      dtype='object')

In [66]:
df_final22["Think tank"] = "Ideas Republicanas"

df_final22  = df_final22[['fecha', 'archivo_origen', 'titulo', 'Think tank', 'enlace', 'enlace_imagen', 'Autor', 'Corpus']]

# Cambiar nombres de las columnas
df_final22 = df_final22.rename(columns={
    'fecha': 'Fecha',
    'archivo_origen': 'Categoria',
    'titulo': 'Nombre de la noticia',
    'enlace_imagen': 'Enlace'
})

In [67]:
df_final.columns

Index(['Fecha', 'Categoria', 'Nombre de la noticia', 'Think tank', 'Enlace',
       'Autor', 'titulo_imagen', 'titulo_boton', 'enlace_boton'],
      dtype='object')

In [68]:
df_final22.columns

Index(['Fecha', 'Categoria', 'Nombre de la noticia', 'Think tank', 'enlace',
       'Enlace', 'Autor', 'Corpus'],
      dtype='object')

In [69]:
df_combinado = pd.concat([df_final, df_final22], ignore_index=True, sort=False)
df_combinado

Unnamed: 0,Fecha,Categoria,Nombre de la noticia,Think tank,Enlace,Autor,titulo_imagen,titulo_boton,enlace_boton,enlace,Corpus
0,10 Mayo 2024,ideas_semana.html,Divide y vencerás,Ideas Republicanas,https://ideasrepublicanas.cl/wp-content/upload...,,,Leer,https://ideasrepublicanas.cl/wp-content/upload...,,
1,26 Abril 2024,ideas_semana.html,Sucedáneo de seguridad,Ideas Republicanas,https://ideasrepublicanas.cl/wp-content/upload...,,,Leer,https://ideasrepublicanas.cl/wp-content/upload...,,
2,5 Abril 2024,ideas_semana.html,La tumba de la salud,Ideas Republicanas,https://ideasrepublicanas.cl/wp-content/upload...,,,Leer,https://ideasrepublicanas.cl/wp-content/upload...,,
3,24 Mayo 2024,minutas_de_opinion.html,CAE ¿Quienes pagan el perdonazo?,Ideas Republicanas,https://ideasrepublicanas.cl/wp-content/upload...,,,Leer,https://ideasrepublicanas.cl/wp-content/upload...,,
4,15 Mar 2024,minutas_de_opinion.html,Editorial IR,Ideas Republicanas,http://a,,,Leer,http://a,,
5,28 Mar 2024,minutas_de_opinion.html,Editorial IR,Ideas Republicanas,http://a,,,Leer,http://a,,
6,,videos.html,Editorial IR: Los dos Chile,Ideas Republicanas,,,,,,,
7,,videos.html,Alcaldes en problemas: Las investigaciones que...,Ideas Republicanas,,,,,,,
8,,videos.html,"El presidente Boric, ¿merece respeto?",Ideas Republicanas,,,,,,,
9,,documentos_estudio.html,Jaime González K.: Diputados: menos es más,Ideas Republicanas,https://test.accionrepublicana.cl/wp-content/u...,Jaime González K.,,,,https://ideasrepublicanas.cl/?p=5492,Los cambios de los últimos años han generado f...


In [70]:
df_combinado.to_excel("Ideas Republicanas.xlsx", index = False)