# ICAL

In [8]:
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.options import Options
import time
import pandas as pd  # Importar pandas para manejar los datos en formato DataFrame

# Crear el driver
def create_driver(headless=False):
    options = Options()
    if headless:
        options.add_argument("--headless")
    driver = webdriver.Chrome(options=options)
    return driver

# Función para hacer scroll hasta tres cuartas partes de la página
def scroll_to_three_quarters(driver):
    # Obtener la altura total de la página
    total_height = driver.execute_script("return document.body.scrollHeight")
    target_height = total_height * 0.75  # Calcular 75% de la altura total

    # Realizar scroll hacia abajo hasta el 75% de la altura total
    current_height = 0
    while current_height < target_height:
        driver.execute_script(f"window.scrollTo(0, {current_height + 500});")  # Desplazar 500px cada vez
        time.sleep(2)  # Esperar un poco para que cargue el contenido
        current_height += 500  # Aumentar la altura desplazada

    print("Se ha alcanzado el 75% de la página.")

# Función para extraer los artículos de una página
def extract_articles(driver, articles_xpath):
    articles = driver.find_elements(By.XPATH, articles_xpath)
    print(f"Total de artículos encontrados para extraer: {len(articles)}")
    articles_data = []
    
    for article in articles:
        try:
            # Extraer título
            title = article.find_element(By.XPATH, ".//h3[@class='entry-title']/a").text
            link = article.find_element(By.XPATH, ".//h3[@class='entry-title']/a").get_attribute("href")
            
            # Extraer la imagen
            img_url = article.find_element(By.XPATH, ".//div[@class='post-thumbnail-wrap']//img").get_attribute("src")
            
            # Extraer la fecha
            date_month = article.find_element(By.XPATH, ".//span[@class='entry-month']").text
            date_day = article.find_element(By.XPATH, ".//span[@class='entry-date updated']").text
            date_year = article.find_element(By.XPATH, ".//span[@class='entry-year']").text
            date = f"{date_day} {date_month} {date_year}"
            
            # Agregar los datos del artículo al listado
            articles_data.append({
                'title': title,
                'link': link,
                'image_url': img_url,
                'date': date
            })
        except Exception as e:
            print(f"Error al extraer datos de un artículo: {e}")
    
    # Convertir los datos a un DataFrame de pandas
    return pd.DataFrame(articles_data)

# Función para extraer artículos de una sola página (con scroll)
def extract_all_articles(driver, base_url, articles_xpath):
    driver.get(base_url)
    
    # Esperar que la página cargue completamente
    time.sleep(3)
    
    # Realizar el scroll hasta el 75% de la página
    scroll_to_three_quarters(driver)
    
    # Extraer los artículos de la página
    articles = extract_articles(driver, articles_xpath)
    
    return articles

# Main script
def main():
    # Crear el driver (sin modo headless para ver la ejecución)
    driver = create_driver(headless=False)
    
    # URL base del sitio
    base_url = "https://ical.cl/noticias"
    
    # XPath de los artículos
    articles_xpath = "//div[@class='iso-container dt-isotope cont-id-0 mobile-paddings iso-item-ready']//article"
    
    # Extraer todos los artículos de la página inicial
    all_articles = extract_all_articles(driver, base_url, articles_xpath)
    
    # Cerrar el navegador después de terminar
    driver.quit()

    # Retornar el DataFrame con los artículos extraídos
    return all_articles

# Ejecutar el script
if __name__ == "__main__":
    pub = main()  # Llamar a la función y almacenar el DataFrame resultante en "all_articles"

    # Mostrar los primeros 5 artículos como ejemplo
    print(pub.head())  # Muestra los primeros 5 artículos extraídos

Se ha alcanzado el 75% de la página.
Total de artículos encontrados para extraer: 62
                                               title  \
0  Luis Emilio Recabarren: trayectoria de una vid...   
1  Sindicalismo y Poder: La Ruta Marcada por Reca...   
2  Luis Emilio Recabarren y su aporte a la concie...   
3  El pensamiento del hombre que tenía por meta l...   
4  Luis Emilio Recabarren: “Gota a gota el agua r...   

                                                link  \
0  https://ical.cl/noticias/opinion/2024/12/18/lu...   
1  https://ical.cl/noticias/opinion/2024/12/18/si...   
2  https://ical.cl/noticias/opinion/2024/12/18/lu...   
3  https://ical.cl/noticias/opinion/2024/12/18/el...   
4  https://ical.cl/noticias/opinion/2024/12/18/lu...   

                                           image_url         date  
0  https://ical.cl/wp-content/uploads/2024/12/pau...  18 Dic 2024  
1  https://ical.cl/wp-content/uploads/2024/12/eri...  18 Dic 2024  
2  https://ical.cl/wp-content/uploads

In [10]:
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
import time
import pandas as pd  # Importar pandas para manejar los datos en formato DataFrame

# Crear el driver
def create_driver(headless=False):
    options = Options()
    if headless:
        options.add_argument("--headless")
    driver = webdriver.Chrome(options=options)
    return driver

# Función para hacer scroll hasta tres cuartas partes de la página
def scroll_to_three_quarters(driver):
    # Obtener la altura total de la página
    total_height = driver.execute_script("return document.body.scrollHeight")
    target_height = total_height * 0.75  # Calcular 75% de la altura total

    # Realizar scroll hacia abajo hasta el 75% de la altura total
    current_height = 0
    while current_height < target_height:
        driver.execute_script(f"window.scrollTo(0, {current_height + 500});")  # Desplazar 500px cada vez
        time.sleep(2)  # Esperar un poco para que cargue el contenido
        current_height += 500  # Aumentar la altura desplazada

    print("Se ha alcanzado el 75% de la página.")

# Función para extraer los artículos de una página
def extract_articles(driver, articles_xpath):
    articles = driver.find_elements(By.XPATH, articles_xpath)
    print(f"Total de artículos encontrados para extraer: {len(articles)}")
    articles_data = []
    
    for article in articles:
        try:
            # Extraer título
            title = article.find_element(By.XPATH, ".//h3[@class='entry-title']/a").text
            link = article.find_element(By.XPATH, ".//h3[@class='entry-title']/a").get_attribute("href")
            
            # Extraer la imagen
            img_url = article.find_element(By.XPATH, ".//div[@class='post-thumbnail-wrap']//img").get_attribute("src")
            
            # Extraer la fecha
            date_month = article.find_element(By.XPATH, ".//span[@class='entry-month']").text
            date_day = article.find_element(By.XPATH, ".//span[@class='entry-date updated']").text
            date_year = article.find_element(By.XPATH, ".//span[@class='entry-year']").text
            date = f"{date_day} {date_month} {date_year}"
            
            # Agregar los datos del artículo al listado
            articles_data.append({
                'title': title,
                'link': link,
                'image_url': img_url,
                'date': date
            })
        except Exception as e:
            print(f"Error al extraer datos de un artículo: {e}")
    
    # Convertir los datos a un DataFrame de pandas
    return pd.DataFrame(articles_data)

# Función para iterar sobre las páginas usando los enlaces de paginación
def iterate_pages(driver, base_url, articles_xpath, pagination_xpath):
    page_num = 1
    all_articles_data = []
    
    while True:
        print(f"Extrayendo artículos de la página {page_num}...")

        # Realizar el scroll hasta el 75% de la página
        scroll_to_three_quarters(driver)

        # Extraer los artículos de la página actual
        articles_data = extract_articles(driver, articles_xpath)
        all_articles_data.append(articles_data)

        try:
            # Esperar hasta que el enlace de la siguiente página sea clickeable
            next_page_button = WebDriverWait(driver, 10).until(
                EC.element_to_be_clickable((By.XPATH, f"{pagination_xpath}[@data-page-num='{page_num + 1}']"))
            )
            # Hacer clic en el siguiente enlace de la página
            next_page_button.click()

            # Esperar que los artículos se recarguen después de hacer clic en la siguiente página
            time.sleep(3)

            # Incrementar el número de la página
            page_num += 1

        except Exception as e:
            print("No hay más páginas o se ha alcanzado la última página.")
            break  # Salir si no hay más páginas

    # Concatenar todos los artículos en un solo DataFrame
    return pd.concat(all_articles_data, ignore_index=True)

# Main script
def main():
    # Crear el driver (sin modo headless para ver la ejecución)
    driver = create_driver(headless=False)
    
    # URL base del sitio
    base_url = "https://ical.cl/noticias"
    
    # XPath de los artículos y la paginación
    articles_xpath = "//div[@class='iso-container dt-isotope cont-id-0 mobile-paddings iso-item-ready']//article"
    pagination_xpath = "//a[@class='page']"  # Ajusta este XPath si es necesario

    # Ir a la página inicial
    driver.get(base_url)

    # Iterar sobre las páginas y extraer los artículos
    all_articles = iterate_pages(driver, base_url, articles_xpath, pagination_xpath)
    
    # Cerrar el navegador después de terminar
    driver.quit()

    # Retornar el DataFrame con todos los artículos extraídos
    return all_articles

# Ejecutar el script
if __name__ == "__main__":
    pub = main()  # Llamar a la función y almacenar el DataFrame resultante en "all_articles"

    # Mostrar los primeros 5 artículos como ejemplo
    print(pub.head())  # Muestra los primeros 5 artículos extraídos

Extrayendo artículos de la página 1...
Se ha alcanzado el 75% de la página.
Total de artículos encontrados para extraer: 62
Extrayendo artículos de la página 2...
Se ha alcanzado el 75% de la página.
Total de artículos encontrados para extraer: 62
No hay más páginas o se ha alcanzado la última página.
                                               title  \
0  Luis Emilio Recabarren: trayectoria de una vid...   
1  Sindicalismo y Poder: La Ruta Marcada por Reca...   
2  Luis Emilio Recabarren y su aporte a la concie...   
3  El pensamiento del hombre que tenía por meta l...   
4  Luis Emilio Recabarren: “Gota a gota el agua r...   

                                                link  \
0  https://ical.cl/noticias/opinion/2024/12/18/lu...   
1  https://ical.cl/noticias/opinion/2024/12/18/si...   
2  https://ical.cl/noticias/opinion/2024/12/18/lu...   
3  https://ical.cl/noticias/opinion/2024/12/18/el...   
4  https://ical.cl/noticias/opinion/2024/12/18/lu...   

                       

In [12]:
pub

Unnamed: 0,title,link,image_url,date
0,Luis Emilio Recabarren: trayectoria de una vid...,https://ical.cl/noticias/opinion/2024/12/18/lu...,https://ical.cl/wp-content/uploads/2024/12/pau...,18 Dic 2024
1,Sindicalismo y Poder: La Ruta Marcada por Reca...,https://ical.cl/noticias/opinion/2024/12/18/si...,https://ical.cl/wp-content/uploads/2024/12/eri...,18 Dic 2024
2,Luis Emilio Recabarren y su aporte a la concie...,https://ical.cl/noticias/opinion/2024/12/18/lu...,https://ical.cl/wp-content/uploads/2024/12/Nat...,18 Dic 2024
3,El pensamiento del hombre que tenía por meta l...,https://ical.cl/noticias/opinion/2024/12/18/el...,https://ical.cl/wp-content/uploads/2024/12/Vic...,18 Dic 2024
4,Luis Emilio Recabarren: “Gota a gota el agua r...,https://ical.cl/noticias/opinion/2024/12/18/lu...,https://ical.cl/wp-content/uploads/2024/12/Oya...,18 Dic 2024
...,...,...,...,...
119,,https://ical.cl/noticias/opinion/2023/04/13/5-...,"data:image/svg+xml,%3Csvg%20xmlns%3D'http%3A%2...",
120,,https://ical.cl/noticias/opinion/2023/04/08/le...,"data:image/svg+xml,%3Csvg%20xmlns%3D'http%3A%2...",
121,,https://ical.cl/noticias/opinion/2023/04/04/el...,"data:image/svg+xml,%3Csvg%20xmlns%3D'http%3A%2...",
122,,https://ical.cl/noticias/opinion/2023/03/18/a-...,"data:image/svg+xml,%3Csvg%20xmlns%3D'http%3A%2...",


In [25]:
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.options import Options
import time
import pandas as pd
from urllib.parse import urlparse

# Crear el driver
def create_driver(headless=False):
    options = Options()
    if headless:
        options.add_argument("--headless")
    driver = webdriver.Chrome(options=options)
    return driver

# Función para extraer el título
def extract_title(driver):
    try:
        # Localizamos el título dentro del <h1> que contiene el <span> con el texto
        title_element = driver.find_element(By.CSS_SELECTOR, "div.fancy-title-head h1.fancy-title span")
        return title_element.text.strip()  # Devuelve el texto sin espacios adicionales
    except Exception as e:
        print(f"Error al extraer el título: {e}")
        return None

# Función para extraer el autor
def extract_author(driver):
    try:
        author = driver.find_element(By.XPATH, "//div[@class='uvc-main-heading ult-responsive']//h4").text
        return author
    except Exception as e:
        print(f"Error al extraer el autor: {e}")
        return None

# Función para extraer la fecha del URL
def extract_date_from_url(url):
    try:
        # Extraemos la parte de la fecha del URL (formato yyyy/mm/dd)
        path = urlparse(url).path
        date_parts = path.split('/')
        if len(date_parts) >= 3:
            return f"{date_parts[3]}/{date_parts[4]}/{date_parts[5]}"
        else:
            return None
    except Exception as e:
        print(f"Error al extraer la fecha del URL: {e}")
        return None

# Función para extraer el contenido (ajustada a la estructura que proporcionaste)
def extract_content(driver):
    try:
        # Localizamos el contenedor que contiene el texto principal del artículo
        content_elements = driver.find_elements(By.CSS_SELECTOR, ".wpb_wrapper p")  # Todos los <p> dentro de .wpb_wrapper
        
        # Extraemos el texto de cada párrafo y lo concatenamos
        content = " ".join([el.text for el in content_elements])
        return content
    except Exception as e:
        print(f"Error al extraer el contenido: {e}")
        return None

# Función para extraer más información de cada página
def extract_details_from_links(df):
    # Crear el driver
    driver = create_driver(headless=True)
    
    # Lista para almacenar los resultados
    detailed_data = []

    # Iterar sobre cada enlace del DataFrame
    for index, row in df.iterrows():
        link = row['link']  # Suponiendo que la columna 'link' tiene las URLs
        print(f"Extrayendo detalles del enlace: {link}")
        
        # Abrir el enlace en el navegador
        driver.get(link)
        
        # Esperar a que la página cargue completamente
        time.sleep(1.3)

        # Extraer la información
        title = extract_title(driver)  # Llamamos a la nueva función para obtener el título
        author = extract_author(driver)
        date = extract_date_from_url(link)
        content = extract_content(driver)
        
        # Almacenar la información en el formato adecuado
        detailed_data.append({
            'title': title,  # Usamos el título extraído
            'link': link,
            'image_url': row['image_url'],  # Suponiendo que el DataFrame tiene una columna 'image_url'
            'date': date,
            'author': author,
            'content': content
        })
        
    # Cerrar el navegador después de extraer los datos
    driver.quit()

    # Crear un DataFrame con la información extraída
    detailed_df = pd.DataFrame(detailed_data)
    
    # Concatenar el DataFrame original con el DataFrame detallado
    final_df = pd.concat([df, detailed_df], axis=1)
    
    return final_df

# Main script
def main():
    
    # Extraer los detalles de cada página
    detailed_df = extract_details_from_links(pub)
    
    # Devolver y mostrar el DataFrame final con la información adicional
    print(detailed_df)  # Imprime el DataFrame final
    return detailed_df

# Ejecutar el script
if __name__ == "__main__":
    ical_not = main()  # Llamar a la función main para obtener el DataFrame final

ical_not

Extrayendo detalles del enlace: https://ical.cl/noticias/opinion/2024/12/18/luis-emilio-recabarren-trayectoria-de-una-vida-emblematica-en-la-lucha-por-un-nuevo-orden-societario/
Extrayendo detalles del enlace: https://ical.cl/noticias/opinion/2024/12/18/sindicalismo-y-poder-la-ruta-marcada-por-recabarren/
Extrayendo detalles del enlace: https://ical.cl/noticias/opinion/2024/12/18/luis-emilio-recabarren-y-su-aporte-a-la-conciencia-de-clase-y-genero/
Extrayendo detalles del enlace: https://ical.cl/noticias/opinion/2024/12/18/el-pensamiento-del-hombre-que-tenia-por-meta-las-estrellas-a-100-anos-de-la-muerte-de-recabarren/
Extrayendo detalles del enlace: https://ical.cl/noticias/opinion/2024/12/18/luis-emilio-recabarren-gota-a-gota-el-agua-rompe-la-piedra/
Extrayendo detalles del enlace: https://ical.cl/noticias/opinion/2024/12/18/cien-anos-con-recabarren/
Extrayendo detalles del enlace: https://ical.cl/noticias/opinion/2024/12/18/luis-emilio-recabarren-y-la-izquierda-socialista-comunista-

Unnamed: 0,title,link,image_url,date,title.1,link.1,image_url.1,date.1,author,content
0,Luis Emilio Recabarren: trayectoria de una vid...,https://ical.cl/noticias/opinion/2024/12/18/lu...,https://ical.cl/wp-content/uploads/2024/12/pau...,18 Dic 2024,Luis Emilio Recabarren: trayectoria de una vid...,https://ical.cl/noticias/opinion/2024/12/18/lu...,https://ical.cl/wp-content/uploads/2024/12/pau...,2024/12/18,Paula Vidal Molina,Extracto del artículo de autoría de Paula Vid...
1,Sindicalismo y Poder: La Ruta Marcada por Reca...,https://ical.cl/noticias/opinion/2024/12/18/si...,https://ical.cl/wp-content/uploads/2024/12/eri...,18 Dic 2024,Sindicalismo y Poder: La Ruta Marcada por Reca...,https://ical.cl/noticias/opinion/2024/12/18/si...,https://ical.cl/wp-content/uploads/2024/12/eri...,2024/12/18,Eric Campos,"En el crisol de la historia de Chile, Luis Emi..."
2,Luis Emilio Recabarren y su aporte a la concie...,https://ical.cl/noticias/opinion/2024/12/18/lu...,https://ical.cl/wp-content/uploads/2024/12/Nat...,18 Dic 2024,Luis Emilio Recabarren y su aporte a la concie...,https://ical.cl/noticias/opinion/2024/12/18/lu...,https://ical.cl/wp-content/uploads/2024/12/Nat...,2024/12/18,Natalia Cuevas,"“Las industrias y la propiedad, que arrojan a ..."
3,El pensamiento del hombre que tenía por meta l...,https://ical.cl/noticias/opinion/2024/12/18/el...,https://ical.cl/wp-content/uploads/2024/12/Vic...,18 Dic 2024,El pensamiento del hombre que tenía por meta l...,https://ical.cl/noticias/opinion/2024/12/18/el...,https://ical.cl/wp-content/uploads/2024/12/Vic...,2024/12/18,Vicente Díaz Meneses,"El 19 de diciembre del presente año, se cumpli..."
4,Luis Emilio Recabarren: “Gota a gota el agua r...,https://ical.cl/noticias/opinion/2024/12/18/lu...,https://ical.cl/wp-content/uploads/2024/12/Oya...,18 Dic 2024,Luis Emilio Recabarren: “Gota a gota el agua r...,https://ical.cl/noticias/opinion/2024/12/18/lu...,https://ical.cl/wp-content/uploads/2024/12/Oya...,2024/12/18,Kemy Oyarzún,“El hombre quiere para sí la mejor mujer del m...
...,...,...,...,...,...,...,...,...,...,...
119,,https://ical.cl/noticias/opinion/2023/04/13/5-...,"data:image/svg+xml,%3Csvg%20xmlns%3D'http%3A%2...",,5 preguntas a los Pacos de Chile antes que la ...,https://ical.cl/noticias/opinion/2023/04/13/5-...,"data:image/svg+xml,%3Csvg%20xmlns%3D'http%3A%2...",2023/04/13,Tito Tricot,"Tenía tan solo 10 años cuando, ya anocheciendo..."
120,,https://ical.cl/noticias/opinion/2023/04/08/le...,"data:image/svg+xml,%3Csvg%20xmlns%3D'http%3A%2...",,“Legítima defensa privilegiada” El eufemismo p...,https://ical.cl/noticias/opinion/2023/04/08/le...,"data:image/svg+xml,%3Csvg%20xmlns%3D'http%3A%2...",2023/04/08,Daniela Poblete,Mientras la humanidad le da un nombre a la vio...
121,,https://ical.cl/noticias/opinion/2023/04/04/el...,"data:image/svg+xml,%3Csvg%20xmlns%3D'http%3A%2...",,El rol de las y los científicos sobre la polít...,https://ical.cl/noticias/opinion/2023/04/04/el...,"data:image/svg+xml,%3Csvg%20xmlns%3D'http%3A%2...",2023/04/04,Pablo Lobos Ruiz,En los últimos meses se ha observado mucho mov...
122,,https://ical.cl/noticias/opinion/2023/03/18/a-...,"data:image/svg+xml,%3Csvg%20xmlns%3D'http%3A%2...",,A no desdibujar la figura de Patricio Bunster,https://ical.cl/noticias/opinion/2023/03/18/a-...,"data:image/svg+xml,%3Csvg%20xmlns%3D'http%3A%2...",2023/03/18,Ana Carvajal,"La danza, quizás por su momentánea existencia ..."


In [27]:
ical_not.to_excel("Ical.xlsx", index=False)