In [61]:
import time
import locale
import requests
import pyautogui
import pandas as pd
from bs4 import BeautifulSoup
from datetime import datetime
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from selenium.common.exceptions import NoSuchElementException
from selenium.webdriver.common.action_chains import ActionChains

In [2]:
url = 'https://actualidad.rt.com/opinion/john-ackerman'

In [31]:
def init_driver():
    """
    Method used to create an instance of Firefox we can control through Selenium.
    We set the user_agent to the current version of Firefox, other preferences can be integrated.
    @return: webdriver.Firefox
    """
    profile = webdriver.FirefoxProfile()
    user_agent = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:86.0) Gecko/20100101 Firefox/86.0'

    profile.set_preference("general.useragent.override", user_agent)
    driver = webdriver.Firefox(profile)
    driver.maximize_window()
    time.sleep(2)
    
    return driver

In [36]:
def rt_url_scrapper(url_1):
    """
    Method used to scrap with Selenium the data from the received url.
    @input: str (url)
    @return: dict
    """
    notes_dict = {}
    count = 1
    
    driver = init_driver()
    driver.get(url_1)
    time.sleep(2)
    
    try:
        #Close Accept Cookies banner
        driver.find_element_by_xpath('/html/body/div[3]/div/div[2]').click()
    except:
        pass

    actions = ActionChains(driver)
    while True:
        try:
            #Click button to load more results while it exists in the HTML
            driver.find_element_by_xpath('/html/body/div[1]/main/div/section/div[1]/div[4]/div[2]/div/div/button').click()
            time.sleep(2)
            actions.send_keys(Keys.END)
        except Exception as e:
            break
    
    #Get all the notes on th webpage
    notes = driver.find_element_by_xpath('/html/body/div[1]/main/div/section/div[1]/div[4]/div[1]')
    
    #Iterate through all the notes to get the data we care about: title, date and url
    for note in notes.find_elements_by_class_name('Section-is1to1-sm_is1to1-xs_is1to1'):
        title = note.find_element_by_class_name('SimpleCard-title').text
        url_title = note.find_element_by_tag_name('a').get_attribute('href')
        date_title = note.find_element_by_class_name('SimpleCard-meta').text
        notes_dict[count] = {'Title': title, 'Url': url_title, 'Date': date_title}
        count += 1
    
    driver.close()
    #Return the dictionary with all the data
    return notes_dict

In [41]:
scrapped_notes_urls = rt_url_scrapper(url)

In [43]:
df_rt_ackerman = pd.DataFrame.from_dict(scrapped_notes_urls, orient = 'index')
df_rt_ackerman.shape

(127, 3)

In [49]:
df_rt_ackerman.iloc[1].Url

'https://actualidad.rt.com/opinion/john-ackerman/370274-oposicion-mexico-aires-golpistas-amlo'

### Iterate over all URL's to scrap the contents of the articles

In [54]:
articles = []

driver = init_driver()
for article in df_rt_ackerman.Url:
    driver.get(article)
    time.sleep(1.5)
    articles.append(driver.find_element_by_xpath('/html/body/div[1]/main/div/section/div[1]/div[2]/div/div/div/div/div/div[5]').text)

driver.close()
len(articles)

127

### Append the articles content to the main DataFrame

In [55]:
df_rt_ackerman['Body'] = articles
df_rt_ackerman.head()

Unnamed: 0,Title,Url,Date,Article
1,¿La llegada de Joseph Biden a la Casa Blanca e...,https://actualidad.rt.com/opinion/john-ackerma...,"23 dic 2020, 18:46","Pocos extrañarán a Donald Trump, pero hay bast..."
2,"La oposición en México, con aires golpistas, q...",https://actualidad.rt.com/opinion/john-ackerma...,"18 oct 2020, 18:38",Fracasaron los golpistas.\nQuisieron utilizar ...
3,Las confesiones de Emilio Lozoya confirman una...,https://actualidad.rt.com/opinion/john-ackerma...,"31 ago 2020, 18:32",Enrique Peña Nieto fue un presidente espurio.\...
4,La crisis sanitaria en México ha traído olas d...,https://actualidad.rt.com/opinion/john-ackerma...,"8 abr 2020, 14:02","En México, ¡ni la crisis sanitaria logra frena..."
5,La Cuarta Transformación será feminista o no será,https://actualidad.rt.com/opinion/john-ackerma...,"28 feb 2020, 19:01",Es inaceptable el uso político de la digna cau...


In [90]:
df_rt_ackerman['Source'] = 'RT'
df_rt_ackerman['Author'] = 'John Ackerman'
df_rt_ackerman.head()

Unnamed: 0,Title,Url,Date,Article,Source,Author
1,¿La llegada de Joseph Biden a la Casa Blanca e...,https://actualidad.rt.com/opinion/john-ackerma...,23-12-2020,"Pocos extrañarán a Donald Trump, pero hay bast...",RT,John Ackerman
2,"La oposición en México, con aires golpistas, q...",https://actualidad.rt.com/opinion/john-ackerma...,18-10-2020,Fracasaron los golpistas.\nQuisieron utilizar ...,RT,John Ackerman
3,Las confesiones de Emilio Lozoya confirman una...,https://actualidad.rt.com/opinion/john-ackerma...,31-08-2020,Enrique Peña Nieto fue un presidente espurio.\...,RT,John Ackerman
4,La crisis sanitaria en México ha traído olas d...,https://actualidad.rt.com/opinion/john-ackerma...,08-04-2020,"En México, ¡ni la crisis sanitaria logra frena...",RT,John Ackerman
5,La Cuarta Transformación será feminista o no será,https://actualidad.rt.com/opinion/john-ackerma...,28-02-2020,Es inaceptable el uso político de la digna cau...,RT,John Ackerman


In [88]:
locale.setlocale(locale.LC_ALL, 'esp_esp')

'Spanish_Spain.1252'

In [86]:
#Convert the dates to a format we can use
dict_dates = {'ene':'enero', 'feb':'febrero', 'mar':'marzo', 'abr':'abril', 'may':'mayo', 'jun':'junio', 'jul':'julio', 'ago':'agosto', 'sep':'septiembre', 'oct':'octubre', 'nov':'noviembre', 'dic':'diciembre'}

for month in dict_dates:
    df_rt_ackerman['Date'] = df_rt_ackerman['Date'].apply(lambda x: x.replace(month, dict_dates[month]))

df_rt_ackerman.head()

Unnamed: 0,Title,Url,Date,Article,Source
1,¿La llegada de Joseph Biden a la Casa Blanca e...,https://actualidad.rt.com/opinion/john-ackerma...,"23 diciembre 2020, 18:46","Pocos extrañarán a Donald Trump, pero hay bast...",RT
2,"La oposición en México, con aires golpistas, q...",https://actualidad.rt.com/opinion/john-ackerma...,"18 octubre 2020, 18:38",Fracasaron los golpistas.\nQuisieron utilizar ...,RT
3,Las confesiones de Emilio Lozoya confirman una...,https://actualidad.rt.com/opinion/john-ackerma...,"31 agosto 2020, 18:32",Enrique Peña Nieto fue un presidente espurio.\...,RT
4,La crisis sanitaria en México ha traído olas d...,https://actualidad.rt.com/opinion/john-ackerma...,"8 abril 2020, 14:02","En México, ¡ni la crisis sanitaria logra frena...",RT
5,La Cuarta Transformación será feminista o no será,https://actualidad.rt.com/opinion/john-ackerma...,"28 febrero 2020, 19:01",Es inaceptable el uso político de la digna cau...,RT


In [89]:
df_rt_ackerman['Date'] = df_rt_ackerman['Date'].apply(lambda x: datetime.strptime(x, '%d %B %Y, %H:%M').strftime('%d-%m-%Y'))
df_rt_ackerman.head()

Unnamed: 0,Title,Url,Date,Article,Source
1,¿La llegada de Joseph Biden a la Casa Blanca e...,https://actualidad.rt.com/opinion/john-ackerma...,23-12-2020,"Pocos extrañarán a Donald Trump, pero hay bast...",RT
2,"La oposición en México, con aires golpistas, q...",https://actualidad.rt.com/opinion/john-ackerma...,18-10-2020,Fracasaron los golpistas.\nQuisieron utilizar ...,RT
3,Las confesiones de Emilio Lozoya confirman una...,https://actualidad.rt.com/opinion/john-ackerma...,31-08-2020,Enrique Peña Nieto fue un presidente espurio.\...,RT
4,La crisis sanitaria en México ha traído olas d...,https://actualidad.rt.com/opinion/john-ackerma...,08-04-2020,"En México, ¡ni la crisis sanitaria logra frena...",RT
5,La Cuarta Transformación será feminista o no será,https://actualidad.rt.com/opinion/john-ackerma...,28-02-2020,Es inaceptable el uso político de la digna cau...,RT


In [92]:
df_rt_ackerman.head()

Unnamed: 0,Title,Url,Date,Body,Source,Author
1,¿La llegada de Joseph Biden a la Casa Blanca e...,https://actualidad.rt.com/opinion/john-ackerma...,23-12-2020,"Pocos extrañarán a Donald Trump, pero hay bast...",RT,John Ackerman
2,"La oposición en México, con aires golpistas, q...",https://actualidad.rt.com/opinion/john-ackerma...,18-10-2020,Fracasaron los golpistas.\nQuisieron utilizar ...,RT,John Ackerman
3,Las confesiones de Emilio Lozoya confirman una...,https://actualidad.rt.com/opinion/john-ackerma...,31-08-2020,Enrique Peña Nieto fue un presidente espurio.\...,RT,John Ackerman
4,La crisis sanitaria en México ha traído olas d...,https://actualidad.rt.com/opinion/john-ackerma...,08-04-2020,"En México, ¡ni la crisis sanitaria logra frena...",RT,John Ackerman
5,La Cuarta Transformación será feminista o no será,https://actualidad.rt.com/opinion/john-ackerma...,28-02-2020,Es inaceptable el uso político de la digna cau...,RT,John Ackerman


In [93]:
#Rename the columns to match to the other dataframes
df_rt_ackerman.rename(columns = {'Title':'title', 'Url': 'link', 'Date':'date', 'Source':'source', 'Body':'body', 'Author':'author'}, inplace = True)
df_rt_ackerman.head()

Unnamed: 0,title,link,date,body,source,author
1,¿La llegada de Joseph Biden a la Casa Blanca e...,https://actualidad.rt.com/opinion/john-ackerma...,23-12-2020,"Pocos extrañarán a Donald Trump, pero hay bast...",RT,John Ackerman
2,"La oposición en México, con aires golpistas, q...",https://actualidad.rt.com/opinion/john-ackerma...,18-10-2020,Fracasaron los golpistas.\nQuisieron utilizar ...,RT,John Ackerman
3,Las confesiones de Emilio Lozoya confirman una...,https://actualidad.rt.com/opinion/john-ackerma...,31-08-2020,Enrique Peña Nieto fue un presidente espurio.\...,RT,John Ackerman
4,La crisis sanitaria en México ha traído olas d...,https://actualidad.rt.com/opinion/john-ackerma...,08-04-2020,"En México, ¡ni la crisis sanitaria logra frena...",RT,John Ackerman
5,La Cuarta Transformación será feminista o no será,https://actualidad.rt.com/opinion/john-ackerma...,28-02-2020,Es inaceptable el uso político de la digna cau...,RT,John Ackerman


In [95]:
#Save the dataframe to a CSV file for cleaning and processing.
df_rt_ackerman.to_csv('..\\Data\\RT_Ackerman_20210306.csv', index = False)