## News scraping

This notebook exctracts news from www.minuto30.com based on the tutorial in https://www.dataquest.io/blog/web-scraping-tutorial-python/

Get the html code for the headlines page for Medellín

In [2]:
import requests
from bs4 import BeautifulSoup
import pandas as pd
import re

page_med = requests.get("https://www.minuto30.com/medellin/")
soup_med = BeautifulSoup(page_med.content, 'html.parser')
print(soup_med.prettify())

<!DOCTYPE html>
<html class="no-js mh-two-sb" lang="es-ES" prefix="og: http://ogp.me/ns#">
 <head>
  <meta charset="utf-8"/>
  <meta content="width=device-width, initial-scale=1.0" name="viewport"/>
  <meta content="114618011892957" property="fb:pages">
   <meta content="1528507260734296" property="fb:app_id">
    <meta content="#6b9120" name="theme-color"/>
    <script async="async" src="https://www.googletagservices.com/tag/js/gpt.js">
    </script>
    <script>
     var googletag = googletag || {};
  googletag.cmd = googletag.cmd || [];
    </script>
    <!-- Start Alexa Certify Javascript -->
    <script type="text/javascript">
     _atrk_opts = { atrk_acct:"LuBai1aoZM00Wq", domain:"minuto30.com",dynamic: true};
(function() { var as = document.createElement('script'); as.type = 'text/javascript'; as.async = true; as.src = "https://d31qbv1cthcecs.cloudfront.net/atrk.js"; var s = document.getElementsByTagName('script')[0];s.parentNode.insertBefore(as, s); })();
    </script>
    <nos

The page presents all the artciles in a container of class "main-content". Within that container, news articles are in boxes of the class "mh-posts-list-content".

We extract the code in the main container and then find all the articles. We display the code for the first article.

In [3]:
news = soup_med.find(id="main-content")
articles = news.find_all(class_="mh-posts-list-content")
ar = articles[0]
print(ar.prettify())

<div class="mh-posts-list-content clearfix">
 <header class="mh-posts-list-header">
  <h3 class="entry-title mh-posts-list-title">
   <a href="https://www.minuto30.com/caminaba-por-el-barrio-cristobal-cuando-motorizados-se-acercaron-y-dispararon-en-su-contra/635435/" rel="bookmark" title="Caminaba por el barrio Cristóbal cuando motorizados se acercaron y dispararon en su contra">
    Caminaba por el barrio Cristóbal cuando motorizados se acercaron y dispararon en su contra
   </a>
  </h3>
  <div class="mh-meta entry-meta">
   <span class="entry-meta-date updated">
    <i class="fa fa-clock-o">
    </i>
    <a href="https://www.minuto30.com/date/2018/06/">
     2 junio, 2018
    </a>
   </span>
   <span class="entry-meta-author author vcard">
    <i class="fa fa-user">
    </i>
    <a class="fn" href="https://www.minuto30.com/author/mauricio-berrio/">
     Mauricio Berrío
    </a>
   </span>
  </div>
 </header>
 <div class="mh-posts-list-excerpt clearfix">
  <div class="mh-excerpt">
   

We extract the title, date, and author from each article.

In [4]:
titles = news.select(".mh-posts-list-content .entry-title")
titles = [ti.get_text() for ti in titles]
titles = [re.sub("(\\n|\\t)","",ti) for ti in titles]
print(titles)

dates = news.select(".mh-meta .entry-meta-date")
dates = [d.get_text() for d in dates]
print(dates)

authors = news.select(".mh-meta .entry-meta-author")
authors = [at.get_text() for at in authors]
print(authors)

['Caminaba por el barrio Cristóbal cuando motorizados se acercaron y dispararon en su contra', 'VIDEO y FOTOS: Se le montaron a la volqueta y le dispararon en repetidas ocasiones', 'Dos carros y tres motos fueron recuperados por la Policía en el Valle de Aburrá', 'VIDEO: Una valiente patrullera, entre los policías que lograron frustrar el robo a banco en La América', 'FOTOS: Debido a una fuga en la red hay interrupción del servicio de acueducto en sectores de Medellín y Bello', 'FOTOS: Dos menores caminaban por El Danubio y fueron atacados a disparos', 'En medio de una riña un hombre resultó muerto en el Centro de Medellín', 'Ladrón fue capturado en Las Palmas con elementos avaluados en $400.000', 'EN VIDEO: Tracto camión se quedó sin frenos bajando del túnel de Occidente', 'Capturado en el barrio 13 de Noviembre']
['2 junio, 2018', '2 junio, 2018', '2 junio, 2018', '2 junio, 2018', '2 junio, 2018', '2 junio, 2018', '2 junio, 2018', '2 junio, 2018', '1 junio, 2018', '1 junio, 2018']
['

We organize the results in a dataframe.

In [5]:
news = pd.DataFrame({
        "date": dates, 
        "author": authors, 
        "title": titles
    })
print(news)

              author           date  \
0    Mauricio Berrío  2 junio, 2018   
1    Mauricio Berrío  2 junio, 2018   
2    Mauricio Berrío  2 junio, 2018   
3      ZPaola Agredo  2 junio, 2018   
4      ZPaola Agredo  2 junio, 2018   
5    Mauricio Berrío  2 junio, 2018   
6    Mauricio Berrío  2 junio, 2018   
7    Mauricio Berrío  2 junio, 2018   
8  Stephany Ceballos  1 junio, 2018   
9    Mauricio Berrío  1 junio, 2018   

                                               title  
0  Caminaba por el barrio Cristóbal cuando motori...  
1  VIDEO y FOTOS: Se le montaron a la volqueta y ...  
2  Dos carros y tres motos fueron recuperados por...  
3  VIDEO: Una valiente patrullera, entre los poli...  
4  FOTOS: Debido a una fuga en la red hay interru...  
5  FOTOS: Dos menores caminaban por El Danubio y ...  
6  En medio de una riña un hombre resultó muerto ...  
7  Ladrón fue capturado en Las Palmas con element...  
8  EN VIDEO: Tracto camión se quedó sin frenos ba...  
9             Captur