### Paso 1: Importación de variables

In [1]:
import pandas as pd
import time
import random
import undetected_chromedriver as uc
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.chrome.service import Service
from webdriver_manager.chrome import ChromeDriverManager
from selenium.common.exceptions import NoSuchElementException
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from random import shuffle

### Paso 2: Definición de opciones para el navegador

In [2]:
chrome_options = Options()
chrome_options.add_argument('--no-sandbox')
chrome_options.add_argument("--start-maximized")
chrome_options.add_argument('--window-size=1420,1080')
chrome_options.add_argument('--disable-dev-shm-usage')
chrome_options.add_argument('--disable-gpu')
chrome_options.add_argument("--disable-notifications")
chrome_options.add_argument("--remote-debugging-port=9222")
chrome_options.add_experimental_option("excludeSwitches", ["enable-automation"])
chrome_options.add_experimental_option('useAutomationExtension', False)
chrome_options.add_experimental_option("excludeSwitches", ["disable-popup-blocking"])

### Paso 3: Estructuración del WebScraping para captura de links

In [3]:
# PASO 3.1: Definición de variables para captura de información -----------------------------------------------------------------------#
headers = []
headers_text = []
headers_link = []
all_news = []

# PASO 3.1.1 Definición de frases de interés a consultar (serviran para iteración en ciclo) -------------------------------------------#
phrases_of_interest = [
    'Cambio climático',
    'Recalentamiento global',
    'Emisiones de CO2',
    'Gases de efecto invernadero (GEI)',
    'Temperatura'
    'Oleada de calor',
    'Muerte por calor',
    'Contaminación del aire',
    'Calidad del aire',
    'Polución',
    'Descontaminación',
    'Contaminación del agua',
    'Acidificación del océano',
    'Desastre ambiental',
    'Catástrofe ambiental',
    'Deforestación',
    'Reforestación',
    'Tala de árboles',
    'Siembra de árboles',
    'Reciclaje',
    'Economía circular',
    'Matriz energética',
    'Energía limpia',
    'Energía renovable',
    'Energías alternativas',
    'Energías verdes',
    'Derecho ambiental',
    'Regulación ambiental',
    'Normativa ambiental',
    'Convención Marco de las Naciones Unidas sobre Cambio Climático,',
    'Acuerdo de París',
    'Protocolo de Tokio',
    'Transición energética',
    'Sostenibilidad ambiental',
    'Refugiado climático ',
    'Estrategia 2050'
]

In [4]:
# PASO 3.2: Aviso para el usuario final de que se inicio el web-scraping --------------------------------------------------------------#
print("Se inició el Web Scraping a 'Semana', por favor espere...") # Mensaje para visualización del inicio del proceso

Se inició el Web Scraping a 'Semana', por favor espere...


In [5]:
# PASO 3.3: Estructura base para acceder a la página en cuestión ----------------------------------------------------------------------#
service = Service(executable_path=r'../chromedriver-win64/chromedriver.exe') # Creación del servicio mediante el driver
options = webdriver.ChromeOptions() # Definición de variable con las opciones para chrome
driver = webdriver.Chrome(service=service, options=options) # Creación del objeto del WebDriver
driver.get("https://www.semana.com/") # Página principal
time.sleep(random.randrange(1,5)) # Simulación de comportamiento humano

In [6]:
# PASO 3.4: Estructura base para acceder a la página en cuestión ----------------------------------------------------------------------#
button_xpath = '//*[@id="fusion-app"]/div/header/div[3]/div[4]/div/div[1]/div[1]/div[1]/div[1]/div/label' # xpath del botón
menu_button = driver.find_element(By.XPATH, button_xpath) # Botón de lupa (sidebar)
menu_button.click(); # Acción de click en el botón
time.sleep(random.randrange(3,5)) # Simulación de comportamiento humano

In [7]:
# PASO 3.5: Ubicación y selección del campo para búsqueda -----------------------------------------------------------------------------#
search_bar = driver.find_element(By.XPATH, '//*[@id="queryly_query"]') # Campo de búsqueda (ventana emergente)

In [8]:
# PASO 3.6: Ciclo para iterar sobre las frases de interés en el campo para búsqueda ---------------------------------------------------#
for phrase in phrases_of_interest:
    search_bar.clear() # Limpieza del campo
    search_bar.send_keys(phrase) # Envío de la frase de interés al campo de búsqueda
    time.sleep(random.randrange(3,5)) # Simulación de comportamiento humano
    search_bar.send_keys(Keys.RETURN) # Envío de consulta (Enter)    
    
    # 3.6.1 Control de excepción en caso dado que el filtro de "Medio ambiente" no esté presente en la página
    try:
        # Si está presente el filtro se aplica
        css_selector = 'div.filter_item[data-filter-value="Medio ambiente"] a' # Definición del css del filtro
        filter_button = driver.find_element(By.CSS_SELECTOR, css_selector) # Intento de encontrar el botón para aplicar el filtro
        filter_button.click() # Acción de click en el botón
    except NoSuchElementException:
        pass # Si NO está presente el filtro NO se aplica y la iteración continua
    
    
    # Cantida de resultados encontrados
    results = driver.find_element(By.XPATH, '//*[@id="resultdata"]')

    # Simulación de comportamiento humano
    time.sleep(random.randrange(3,5))

    # Ciclo para recorrer todas las páginas
    while(True):
        
        # Simulación de comportamiento humano
        time.sleep(random.randrange(3,5))
        
        # Div (contiene las noticias o artículos)
        elements = driver.find_elements(By.CSS_SELECTOR, "div.queryly_item_row")
        
        for element in elements:
        # ****************************************************************************************************************
            headers =  element.find_elements(By.TAG_NAME, 'a')
            if headers: 
                for header in headers:
                    headers_text.append(header.text)
                    headers_link.append(header.get_attribute('href'))
            else: 
                headers_text.append('...')
                headers_link.append('...')
        # ****************************************************************************************************************

        # Construcción del diccionario 
        news = {
            "headers_text": headers_text, # Título de la noticia
            "headers_link": headers_link, # Link de la noticia
            "phrase"      : phrase        # Frase de búsqueda en iteración actual
        }

        # Construcción inicial del dataframe
        df = pd.DataFrame(news)

        # Modo DEBUG (como el dd de Laravel)
        display(df)

        # Simulación de comportamiento humano
        time.sleep(random.randrange(3,5))

        # Control del error al momento de finalizar el páginado
        try:

            # Simulación de comportamiento humano (clic página siguiente)
            next_button = driver.find_element(By.CSS_SELECTOR, 'a.next_btn')
            driver.execute_script("arguments[0].scrollIntoView(true);", next_button)

            # Condicional para validación de existencia del elemento
            if next_button: 
                elements = []
                # Simulación de comportamiento humano
                time.sleep(random.randrange(3,5))
                next_button.click()
            else: break;
        except Exception as e:
            break # Si (NO) encuentra el botón de siguiente cierra el ciclo y continua en el ciclo padre
        except NoSuchElementException:
            break # Si (NO) encuentra el botón de siguiente cierra el ciclo y continua en el ciclo padre
        except TimeoutException:
            break # Si (NO) encuentra el botón de siguiente cierra el ciclo y continua en el ciclo padre

    # 3.6.x Repetición del proceso de búsqueda
    button_xpath = '//*[@id="fusion-app"]/div/header/div[2]/div[3]/div/div[1]/div[1]/div[1]/div[1]/div/label' # xpath del botón
    menu_button = driver.find_element(By.XPATH, button_xpath) # Botón de lupa (sidebar)
    menu_button.click(); # Acción de click en el botón
    time.sleep(random.randrange(3,5)) # Simulación de comportamiento humano
    search_bar = driver.find_element(By.XPATH, '//*[@id="queryly_query"]') # Campo de búsqueda (ventana emergente)
    
    time.sleep(random.randrange(3,5)) # Simulación de comportamiento humano


Unnamed: 0,headers_text,headers_link
0,Inundaciones en Brasil: un testimonio impactan...,https://www.semana.com/mundo/articulo/inundaci...
1,África abre sus puertas a inversiones verdes e...,https://www.semana.com/mundo/africa/articulo/a...
2,Responsable climático de la ONU critica fuerte...,https://www.semana.com/mundo/articulo/responsa...
3,"“El cambio climático es real y es aterrador”, ...",https://www.semana.com/cultura/cine/articulo/e...
4,“Los últimos ocho años fueron los más caluroso...,https://www.semana.com/sostenible/medio-ambien...
5,Greta Thunberg denuncia ‘traición climática’ p...,https://www.semana.com/mundo/articulo/greta-th...
6,Siete modos en los que puede ayudar a frenar e...,https://www.semana.com/sostenible/medio-ambien...
7,La batalla contra las especies invasoras: un d...,https://www.semana.com/medio-ambiente/articulo...
8,¿El cambio climático es un problema para el ag...,https://www.semana.com/sostenible/medio-ambien...
9,Colombia es el país con mayor preocupación en ...,https://www.semana.com/sostenible/medio-ambien...


Unnamed: 0,headers_text,headers_link
0,Inundaciones en Brasil: un testimonio impactan...,https://www.semana.com/mundo/articulo/inundaci...
1,África abre sus puertas a inversiones verdes e...,https://www.semana.com/mundo/africa/articulo/a...
2,Responsable climático de la ONU critica fuerte...,https://www.semana.com/mundo/articulo/responsa...
3,"“El cambio climático es real y es aterrador”, ...",https://www.semana.com/cultura/cine/articulo/e...
4,“Los últimos ocho años fueron los más caluroso...,https://www.semana.com/sostenible/medio-ambien...
5,Greta Thunberg denuncia ‘traición climática’ p...,https://www.semana.com/mundo/articulo/greta-th...
6,Siete modos en los que puede ayudar a frenar e...,https://www.semana.com/sostenible/medio-ambien...
7,La batalla contra las especies invasoras: un d...,https://www.semana.com/medio-ambiente/articulo...
8,¿El cambio climático es un problema para el ag...,https://www.semana.com/sostenible/medio-ambien...
9,Colombia es el país con mayor preocupación en ...,https://www.semana.com/sostenible/medio-ambien...


Unnamed: 0,headers_text,headers_link
0,Inundaciones en Brasil: un testimonio impactan...,https://www.semana.com/mundo/articulo/inundaci...
1,África abre sus puertas a inversiones verdes e...,https://www.semana.com/mundo/africa/articulo/a...
2,Responsable climático de la ONU critica fuerte...,https://www.semana.com/mundo/articulo/responsa...
3,"“El cambio climático es real y es aterrador”, ...",https://www.semana.com/cultura/cine/articulo/e...
4,“Los últimos ocho años fueron los más caluroso...,https://www.semana.com/sostenible/medio-ambien...
5,Greta Thunberg denuncia ‘traición climática’ p...,https://www.semana.com/mundo/articulo/greta-th...
6,Siete modos en los que puede ayudar a frenar e...,https://www.semana.com/sostenible/medio-ambien...
7,La batalla contra las especies invasoras: un d...,https://www.semana.com/medio-ambiente/articulo...
8,¿El cambio climático es un problema para el ag...,https://www.semana.com/sostenible/medio-ambien...
9,Colombia es el país con mayor preocupación en ...,https://www.semana.com/sostenible/medio-ambien...


Unnamed: 0,headers_text,headers_link
0,Inundaciones en Brasil: un testimonio impactan...,https://www.semana.com/mundo/articulo/inundaci...
1,África abre sus puertas a inversiones verdes e...,https://www.semana.com/mundo/africa/articulo/a...
2,Responsable climático de la ONU critica fuerte...,https://www.semana.com/mundo/articulo/responsa...
3,"“El cambio climático es real y es aterrador”, ...",https://www.semana.com/cultura/cine/articulo/e...
4,“Los últimos ocho años fueron los más caluroso...,https://www.semana.com/sostenible/medio-ambien...
...,...,...
75,Cambio climático derrite a Groenlandia a un ri...,https://www.semana.com/cambio-climatico-y-groe...
76,Cientos de científicos piden a Trump no negar ...,https://www.semana.com/trump-cientos-de-cienti...
77,Cambio climático pasa factura a los viñedos au...,https://www.semana.com/cambio-climatico-pasa-f...
78,La agricultura quiere ser una solución al camb...,https://www.semana.com/agricultura-quiere-ser-...


Unnamed: 0,headers_text,headers_link
0,Inundaciones en Brasil: un testimonio impactan...,https://www.semana.com/mundo/articulo/inundaci...
1,África abre sus puertas a inversiones verdes e...,https://www.semana.com/mundo/africa/articulo/a...
2,Responsable climático de la ONU critica fuerte...,https://www.semana.com/mundo/articulo/responsa...
3,"“El cambio climático es real y es aterrador”, ...",https://www.semana.com/cultura/cine/articulo/e...
4,“Los últimos ocho años fueron los más caluroso...,https://www.semana.com/sostenible/medio-ambien...
...,...,...
95,Fundador de Amazon donará US$10.000 millones p...,https://www.semana.com/medio-ambiente/articulo...
96,Pueblos indígenas le responderán a la ONU fren...,https://www.semana.com/medio-ambiente/articulo...
97,Uribe asume compromisos en cumbre de cambio cl...,https://www.semana.com/uribe-asume-compromisos...
98,Carrera verde: un aporte a la mitigación del c...,https://www.semana.com/medio-ambiente/articulo...


Unnamed: 0,headers_text,headers_link
0,Inundaciones en Brasil: un testimonio impactan...,https://www.semana.com/mundo/articulo/inundaci...
1,África abre sus puertas a inversiones verdes e...,https://www.semana.com/mundo/africa/articulo/a...
2,Responsable climático de la ONU critica fuerte...,https://www.semana.com/mundo/articulo/responsa...
3,"“El cambio climático es real y es aterrador”, ...",https://www.semana.com/cultura/cine/articulo/e...
4,“Los últimos ocho años fueron los más caluroso...,https://www.semana.com/sostenible/medio-ambien...
...,...,...
115,¿Qué pasa si descarbonizamos la economía? Juan...,https://www.semana.com/nacion/medio-ambiente/a...
116,Acuerdo “ambicioso”: la propuesta de la ONU pa...,https://www.semana.com/mundo/articulo/acuerdo-...
117,Cambio climático aumentará la violencia en el ...,https://www.semana.com/medio-ambiente/articulo...
118,El país que el cambio climático está borrando ...,https://www.semana.com/medio-ambiente/articulo...


Unnamed: 0,headers_text,headers_link
0,Inundaciones en Brasil: un testimonio impactan...,https://www.semana.com/mundo/articulo/inundaci...
1,África abre sus puertas a inversiones verdes e...,https://www.semana.com/mundo/africa/articulo/a...
2,Responsable climático de la ONU critica fuerte...,https://www.semana.com/mundo/articulo/responsa...
3,"“El cambio climático es real y es aterrador”, ...",https://www.semana.com/cultura/cine/articulo/e...
4,“Los últimos ocho años fueron los más caluroso...,https://www.semana.com/sostenible/medio-ambien...
...,...,...
135,Rendirse no es una opción: la conclusión tras ...,https://www.semana.com/medio-ambiente/articulo...
136,Cambio climático: cuáles son los países de Amé...,https://www.semana.com/medio-ambiente/articulo...
137,Por su impacto en el cambio climático expertos...,https://www.semana.com/medio-ambiente/articulo...
138,Europa es la zona del mundo que se está calent...,https://www.semana.com/sostenibilidad/medio-am...


Unnamed: 0,headers_text,headers_link
0,Inundaciones en Brasil: un testimonio impactan...,https://www.semana.com/mundo/articulo/inundaci...
1,África abre sus puertas a inversiones verdes e...,https://www.semana.com/mundo/africa/articulo/a...
2,Responsable climático de la ONU critica fuerte...,https://www.semana.com/mundo/articulo/responsa...
3,"“El cambio climático es real y es aterrador”, ...",https://www.semana.com/cultura/cine/articulo/e...
4,“Los últimos ocho años fueron los más caluroso...,https://www.semana.com/sostenible/medio-ambien...
...,...,...
155,Cinco ciudades lideran la lucha contra el camb...,https://www.semana.com/ciudades-que-lideran-la...
156,Día de la Tierra: desde cuándo se conmemora y ...,https://www.semana.com/sostenible/medio-ambien...
157,Construirán la primera planta híbrida de energ...,https://www.semana.com/economia/empresas/artic...
158,Alerta: en el mundo hay más especies en peligr...,https://www.semana.com/sostenible/medio-ambien...


Unnamed: 0,headers_text,headers_link
0,Inundaciones en Brasil: un testimonio impactan...,https://www.semana.com/mundo/articulo/inundaci...
1,África abre sus puertas a inversiones verdes e...,https://www.semana.com/mundo/africa/articulo/a...
2,Responsable climático de la ONU critica fuerte...,https://www.semana.com/mundo/articulo/responsa...
3,"“El cambio climático es real y es aterrador”, ...",https://www.semana.com/cultura/cine/articulo/e...
4,“Los últimos ocho años fueron los más caluroso...,https://www.semana.com/sostenible/medio-ambien...
...,...,...
175,Cambio climático seca laguna en Centroamérica\...,https://www.semana.com/sostenible/medio-ambien...
176,Cafeteros ven al cambio climático como un reto...,https://www.semana.com/sostenible/medio-ambien...
177,El ambicioso plan para que Colombia reduzca má...,https://www.semana.com/sostenibilidad/medio-am...
178,Nivel del mar de costas de EE. UU. subirá hast...,https://www.semana.com/sostenibilidad/medio-am...


Unnamed: 0,headers_text,headers_link
0,Inundaciones en Brasil: un testimonio impactan...,https://www.semana.com/mundo/articulo/inundaci...
1,África abre sus puertas a inversiones verdes e...,https://www.semana.com/mundo/africa/articulo/a...
2,Responsable climático de la ONU critica fuerte...,https://www.semana.com/mundo/articulo/responsa...
3,"“El cambio climático es real y es aterrador”, ...",https://www.semana.com/cultura/cine/articulo/e...
4,“Los últimos ocho años fueron los más caluroso...,https://www.semana.com/sostenible/medio-ambien...
...,...,...
195,Carrera Verde: competencia que regala árboles ...,https://www.semana.com/medio-ambiente/articulo...
196,Declaración de la Naturaleza Urbana: ¿qué es y...,https://www.semana.com/sostenible/medio-ambien...
197,ONU: el mundo se acerca peligrosamente a un au...,https://www.semana.com/sostenible/medio-ambien...
198,¿Qué iniciativas impulsa el sector aéreo para ...,https://www.semana.com/sostenible/medio-ambien...


NoSuchWindowException: Message: no such window: target window already closed
from unknown error: web view not found
  (Session info: chrome=117.0.5938.63)
Stacktrace:
	GetHandleVerifier [0x00007FF697C27862+54818]
	(No symbol) [0x00007FF697B96A92]
	(No symbol) [0x00007FF697A4DA3B]
	(No symbol) [0x00007FF697A2DEE8]
	(No symbol) [0x00007FF697AB3237]
	(No symbol) [0x00007FF697AC6C6F]
	(No symbol) [0x00007FF697AAE883]
	(No symbol) [0x00007FF697A83691]
	(No symbol) [0x00007FF697A848D4]
	GetHandleVerifier [0x00007FF697F8B962+3610402]
	GetHandleVerifier [0x00007FF697FE1830+3962352]
	GetHandleVerifier [0x00007FF697FD9D1F+3930847]
	GetHandleVerifier [0x00007FF697CC3616+693206]
	(No symbol) [0x00007FF697BA15F8]
	(No symbol) [0x00007FF697B9D904]
	(No symbol) [0x00007FF697B9DA32]
	(No symbol) [0x00007FF697B8E0E3]
	BaseThreadInitThunk [0x00007FFEF967269D+29]
	RtlUserThreadStart [0x00007FFEFAC8A9F8+40]


In [None]:
driver.quit()