# Scraping articles by John Ackerman

In [17]:
import time
import re

import pandas as pd
import numpy as np

import requests
from urllib.request import urlopen
from bs4 import BeautifulSoup

from selenium import webdriver
from selenium.common.exceptions import NoSuchElementException
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.firefox.options import Options
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.support.ui import WebDriverWait

## Get links of all articles

In [18]:
# Configure driver
profile = webdriver.FirefoxProfile()
user_agent = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:86.0) Gecko/20100101 Firefox/86.0'
profile.set_preference("general.useragent.override", user_agent)
options = Options()
options.headless = True

# Launch driver
driver = webdriver.Firefox(profile, options=options)
#driver.maximize_window()
driver.get('https://johnackerman.mx/category/la-jornada/')

while True: 
    time.sleep(2)
    try: 
        #Wait for the button "Cargar más" to load
        WebDriverWait(driver, 20).until(EC.presence_of_element_located((By.CLASS_NAME, 'gridlove-pagination.gridlove-load-more')))
        
        #Click on "Cargar más" button
        driver.find_element_by_class_name('gridlove-pagination.gridlove-load-more').click()
    
    except:
        print('No more "Cargar más" buttons to click')
        break
        
# Get links of articles
pageSource = driver.page_source
soup = BeautifulSoup(pageSource, 'html.parser')
links = []
for link in soup.find_all('h2', {'class': 'entry-title h3'}):
    x = link.a['href']
    links.append(x)

No more "Cargar más" buttons to click


In [19]:
len(links)

82

## Extract content of each article

In [230]:
def ackerman_content_scrapper(link):
    
    """Get title, date, and body of an article of John Ackerman"""
    
    # Get text of website
    html = urlopen(link)
    soup = BeautifulSoup(html, 'lxml')
    
    if link == ('https://johnackerman.mx/la-unam-de-pie/' or 'https://johnackerman.mx/hegemonia-democratica/'):
        # Get title
        title = soup.find('h1', {'class': 'entry-title'}).get_text()

        # Get date
        date = soup.find('span', {'class': 'updated'}).get_text()

        # Get body of article
        body = soup.find('div', {'class':'entry-content'}).find_all('p')
        texto = []
        for i in range(len(body)):
            parrafo = body[i].get_text()
            texto.append(parrafo)
        texto_unido = '<\n\n> '.join(texto)
        texto_unido
    
    
    else: 
        # Get title
        title = soup.find('h1', {'class': 'entry-title'}).get_text()

        # Get date
        date = soup.find('div', {'class': 'entry-headline h5'}).p.get_text()

        # Get body of article
        body = soup.find_all('p' , {'style': 'text-align: justify;'})
        texto = []
        for i in range(len(body)):
            parrafo = body[i].get_text()
            texto.append(parrafo)
        texto_unido = '<\n\n> '.join(texto)
    
    # Return
    return title, date, body

In [231]:
# Create variables to store information
data_ackerman = {'title': '', 'date': '', 'body': ''}
titles = []
dates = []
bodies = []

In [232]:
# Store information
for link in links:  
    try: 
        title, date, body = ackerman_content_scrapper(link)
        time.sleep(1)
        titles.append(title)
        dates.append(date)
        bodies.append(body)
        
    except AttributeError:
        print(f'Error in {link}')

Error in https://johnackerman.mx/hegemonia-democratica/


In [233]:
# Format information
data_ackerman['title'] = titles
data_ackerman['date'] = dates
data_ackerman['body'] = bodies

In [234]:
data = pd.DataFrame(data_ackerman)
data.head(10)

Unnamed: 0,title,date,body
0,El mensaje de Alberto Fernández,"La Jornada, 1º de Marzo de 2021","[[La visita de , [Alberto Fernández], a Méxic..."
1,Lecciones de Texas,"La Jornada, 22 de Febrero 2021",[[[El mercado energético tejano rebasa los sue...
2,Soberanía energética,"La Jornada, 15 de Febrero 2021","[[Las reformas propuestas por el , [Presidente..."
3,"Nuestro reto, crear una “nueva ideología de iz...",Publicada el 10 de Febrero de 2021,"[[El director del , [Programa Universitario de..."
4,Regular las redes,"La Jornada, 8 de Febrero 2021",[[[El principal riesgo para la libertad de exp...
5,Vacunas: adiós a las patentes,"La Jornada, 1º Febrero 2021.",[[[La comunidad internacional está fallando gr...
6,Biden: ¿Peligro para México?,"La Jornada, 25 de enero de 2021","[[México se benefició con , [la errática polít..."
7,INE censor,"La Jornada, 18 de enero 2021","[[El pasado viernes, 15 de enero, [ el Institu..."
8,La disputa por los organismos autónomos,"La Jornada, 11 de enero 2021.","[[Por: , [John M. Ackerman], (, [@JohnMAckerm..."
9,Morena en vilo,"La Jornada, 4 de enero de 2021","[[[Morena ya llegó al poder], pero sigue comp..."


In [235]:
data.tail(10)

Unnamed: 0,title,date,body
41,Las ranas pidiendo rey,"La Jornada, 4 de noviembre, 2019",[[El diálogo circular establecido por el Presi...
42,Lecciones de Culiacán,"La Jornada, 21 de octubre, 2019","[[La gran noticia no es que el hijo de, [ Joaq..."
43,Medina Mora y el fin del viejo régimen,"La Jornada, 07 de octubre, 2019",[[El levantamiento popular del 1 de julio de 2...
44,La 4T cumple con los maestros,"La Jornada, 23 de septiembre, 2019",[[[La contrarreforma educativa de Enrique Peña...
45,Retroceso democrático en el Congreso,"La Jornada, 9 de septiembre, 2019","[[La llegada de , [Laura Rojas y Mónica Fernán..."
46,El Gobierno feminista de Claudia Sheinbaum,"La Jornada, 26 de agosto, 2019",[[Está fuera de cualquier duda el compromiso d...
47,Lula libre,"La Jornada, 12 de agosto, 2019","[[[El atrincheramiento de la derecha global], ..."
48,Mélenchon en México,"La Jornada, 29 de julio, 2019","[[[Jean-Luc Mélenchon], es uno de los líderes..."
49,AMLO el radical,"La Jornada, 15 de julio, 2019",[[La experiencia de detentar el poder gubernam...
50,"La UNAM, de pie","10 septiembre, 2018",[[Les salió el tiro por la culata a los provoc...


In [239]:
data['source'] = 'La Jornada'
data['link'] = links[:-1]
data.insert(0, 'author', 'John Ackerman')
data.tail()

Unnamed: 0,author,title,date,body,source,link
46,John Ackerman,El Gobierno feminista de Claudia Sheinbaum,"La Jornada, 26 de agosto, 2019",[[Está fuera de cualquier duda el compromiso d...,La Jornada,https://johnackerman.mx/el-gobierno-feminista-...
47,John Ackerman,Lula libre,"La Jornada, 12 de agosto, 2019","[[[El atrincheramiento de la derecha global], ...",La Jornada,https://johnackerman.mx/lula-libre/
48,John Ackerman,Mélenchon en México,"La Jornada, 29 de julio, 2019","[[[Jean-Luc Mélenchon], es uno de los líderes...",La Jornada,https://johnackerman.mx/melenchon-en-mexico/
49,John Ackerman,AMLO el radical,"La Jornada, 15 de julio, 2019",[[La experiencia de detentar el poder gubernam...,La Jornada,https://johnackerman.mx/amlo-el-radical/
50,John Ackerman,"La UNAM, de pie","10 septiembre, 2018",[[Les salió el tiro por la culata a los provoc...,La Jornada,https://johnackerman.mx/la-unam-de-pie/


In [240]:
# Save as csv
data.to_csv('../Data/data_Ackerman_LaJornada', index=False)