# Scraper del periódico El Espectador

## Extraer

In [1]:
import requests
from bs4 import BeautifulSoup

In [2]:
url = 'https://www.elespectador.com'
espectador_request = requests.get(url)
espectador_soup = BeautifulSoup(espectador_request.text, 'lxml')

In [3]:
articles_list = espectador_soup.find('section').find_all('div', attrs = {'class':'Card-title card-title h5'})
articles_links = []
for article in articles_list:
    articles_links.append(url+article.a.get('href'))

articles_links

['https://www.elespectador.com/noticias/bogota/en-vivo-este-viernes-bogota-vivira-una-tercera-jornada-de-protestas/',
 'https://www.elespectador.com/noticias/judicial/tribunal-de-cundinamarca-suspendio-desembolso-de-credito-a-avianca-por-us370-millones/',
 'https://www.elespectador.com/noticias/bogota/centro-cultural-julieth-ramirez-un-clamor-por-la-justicia-y-la-paz/',
 'https://www.elespectador.com/noticias/judicial/mancuso-y-jorge-40-los-acusadores-de-francisco-santos/',
 'https://www.elespectador.com/noticias/salud/colombia-suma-702088-casos-confirmados-de-coronavirus-este-viernes/',
 'https://www.elespectador.com/noticias/educacion/educacion-deberia-ser-una-prioridad-nacional/',
 'https://www.elespectador.com/noticias/el-mundo/el-reemplazo-de-evo-morales-en-su-candidatura-al-senado-de-bolivia/',
 'https://www.elespectador.com/noticias/nacional/isla-de-la-amargura-un-desplazamiento-que-refleja-el-miedo-en-el-bajo-cauca/',
 'https://www.elespectador.com/noticias/cultura/josephine-ma

In [4]:
def article_extraction_info(article_soup):
    article = {}
    try:
        title = article_soup.find('h1', attrs = {'class':'Article-Title'}).text
        article['title'] = title
    except Exception as e:
        title = None
        article['title'] = title
    try:
        date = article_soup.find('time', attrs = {'class':'Article-Time'}).text
        article['date'] = date
    except Exception as e:
        date = None
        article['date'] = date
    try:
        author = article_soup.find('span', attrs = {'class':'Article-Author'}).text
        article['author'] = author
    except Exception as e:
        author = None
        article['author'] = author
    try:
        body_list = article_soup.find('section').find_all('p', attrs = {'class':'font--secondary'})
        body = []
        for item in body_list:
            body.append(item.text)
        article['body'] = body
    except Exception as e:
        body = None
        article['body'] = body
    
    if article['title'] == None:
        return None
    
    return article

In [5]:
def scrape_article(article_link):
    try:
        article_request = requests.get(article_link)
    except Exception as e:
        print('Error scrapeando URL', url)
        print(e)
        return None
    if article_request.status_code != 200:
        print(f'Error obteniendo Artículo {url}')
        print(f'Status code: {nota.status_code}')
        return None
    article_soup = BeautifulSoup(article_request.text, 'lxml')
    return_dict = article_extraction_info(article_soup)
    return_dict['url'] = article_link
    return return_dict

In [6]:
def extract_articles(articles_links):
    data = []
    for i, article_url in enumerate(articles_links):
        print(f'Scraping article {i+1}/{len(articles_links)}')
        try:
            data.append(scrape_article(article_url))
        except Exception as e:
            print('Article Empty')
            print(e)
        
    return data

In [7]:
articles = extract_articles(articles_links)

Scraping article 1/84
Scraping article 2/84
Scraping article 3/84
Scraping article 4/84
Scraping article 5/84
Scraping article 6/84
Scraping article 7/84
Scraping article 8/84
Scraping article 9/84
Scraping article 10/84
Scraping article 11/84
Scraping article 12/84
Scraping article 13/84
Scraping article 14/84
Article Empty
'NoneType' object does not support item assignment
Scraping article 15/84
Scraping article 16/84
Scraping article 17/84
Scraping article 18/84
Scraping article 19/84
Article Empty
'NoneType' object does not support item assignment
Scraping article 20/84
Scraping article 21/84
Scraping article 22/84
Scraping article 23/84
Scraping article 24/84
Scraping article 25/84
Scraping article 26/84
Scraping article 27/84
Scraping article 28/84
Scraping article 29/84
Article Empty
'NoneType' object does not support item assignment
Scraping article 30/84
Scraping article 31/84
Scraping article 32/84
Scraping article 33/84
Scraping article 34/84
Scraping article 35/84
Scraping 

In [8]:
articles

[{'title': 'En vivo: este viernes, Bogotá vive una tercera jornada de protestas ',
  'date': 'Hace 40 minutos',
  'author': 'Por: Redacción Bogotá',
  'body': ['Se espera que, en el transcurso de la tarde, las manifestaciones se originen en el Parque de los Hippies, la estación de Policía de Barrios Unidos y la Plaza de Bolívar, entre otros lugares. Familiares de Javier Ordóñez hacen un llamado a la protesta pacífica.',
   'Manifestantes en Bogotá se preparan para salir a las calles por tercer día consecutivo, luego que se conocieran los abusos policiales de los que fue víctima Javier Ordóñez, abogado que murió tras las repetidas descargas eléctricas de un taser y, según denuncian sus familiares, ser golpeado brutalmente por los uniformados en el CAI Villa Luz.',
   'Las protestas han estado acompañadas por actuaciones violentas en las que, según se evidencia en videos grabados por la ciudadanía, uniformados han utilizado armas de fuego para contener a los manifestantes (a pesar de las

In [9]:
import pandas as pd

In [10]:
df = pd.DataFrame(articles)

In [11]:
df

Unnamed: 0,title,date,author,body,url
0,"En vivo: este viernes, Bogotá vive una tercera...",Hace 40 minutos,Por: Redacción Bogotá,"[Se espera que, en el transcurso de la tarde, ...",https://www.elespectador.com/noticias/bogota/e...
1,Tribunal de Cundinamarca suspendió desembolso ...,11 Sep 2020 - 11:31 p. m.,Por: Redacción Judicial,[El polémico trámite que se había anunciado se...,https://www.elespectador.com/noticias/judicial...
2,"Centro Cultural Julieth Ramírez, un clamor por...",11 Sep 2020 - 9:08 p. m.,Por: Redacción Cultura,"[La comunidad de La Gaitana, Suba, creó un Cen...",https://www.elespectador.com/noticias/bogota/c...
3,"Mancuso y “Jorge 40”, los acusadores de Franci...",11 Sep 2020 - 10:09 p. m.,Por: Redacción Judicial,"[En una carta que se divulgó esta semana, “Jor...",https://www.elespectador.com/noticias/judicial...
4,Colombia suma 702.088 casos confirmados de cor...,11 Sep 2020 - 10:21 p. m.,Por: Redacción Vivir,[El Ministerio de Salud informó que este viern...,https://www.elespectador.com/noticias/salud/co...
...,...,...,...,...,...
63,Tres cartas de los lectores,11 Sep 2020 - 5:00 a. m.,Por: Cartas de los lectores,"[No llamar las cosas por su nombre, En 1981 pr...",https://www.elespectador.com/opinion/una-repli...
64,Plántate,11 Sep 2020 - 5:00 a. m.,Por: Madame Papita,[Seis meses plantados en la sala de la casa pe...,https://www.elespectador.com/opinion/plantate/
65,¿Pretende Duque acabar con la libertad de prensa?,11 Sep 2020 - 5:00 a. m.,Por: Óscar Sevillano,[El presidente Iván Duque está en mora de resp...,https://www.elespectador.com/opinion/pretende-...
66,"El “homo remotus”, fruto ácido",11 Sep 2020 - 5:00 a. m.,Por: Arturo Guerrero,[El trabajo en casa está perfilándose como el ...,https://www.elespectador.com/opinion/el-homo-r...


In [12]:
df.to_csv('/home/oscar-dev/Platzimaster/Week10/NewsScraper/espectador-scraper.csv')