# Práctica Independiente - Web Scraping

El objetivo de esta práctica independiente es construir una tabla que contenga todas las noticias de la página principal del diario [La Prensa](http://www.laprensa.com.ar/) del día de hoy. La tabla debe contener los siguientes campos: fecha, título, sección y URL al artículo. Para ello, pueden ir por pasos:

1. Primero, extraigan un listado de URLs a cada noticia de la página del diario.
2. Segundo, definan una función que recorra el listado de URLs, ingrese en cada nota y almacene la información requerida en un diccionario.
3. Tercero, vuelquen los resultados en un DataFrame.

Para parsear el HTML de la respuesta, pueden usar tanto regex como `BeautifulSoup`, según les convenga.

In [1]:
import requests
import re
from bs4 import BeautifulSoup
import pandas as pd

In [2]:
# En esta práctica, trabajaremos con el portal del diario La Prensa
url = 'http://www.laprensa.com.ar/'
resp = requests.get(url)

## Trabajando con expresiones regulares

- Primero, extraigan un listado de URLs a cada noticia de la página del diario.

In [3]:
# Usamos el navegador para identificar la estructura de los datos que queremos extraer y creamos el patrón de búsqueda

pattern = '<div class="title"><a href="(.+?)"'

In [4]:
# Generamos una lista por comprensión a partir de todas las coincidencias 

urls = [url for url in re.findall(pattern, resp.text)]
urls

['http://www.laprensa.com.ar/478201-Macri-sobre-el-acuerdo-con-la-UE-Muchas-empresas-se-van-a-animar-a-invertir-en-el-pais.note.aspx',
 'http://www.laprensa.com.ar/478195-Cristina-Kirchner-viajo-a-Cuba-para-visitar-a-su-hija-Florencia.note.aspx',
 'http://www.laprensa.com.ar/478202-Vidal-el-acuerdo-con-la-UE-generara-desarrollo-mas-trabajo-y-mas-dignidad.note.aspx',
 'http://www.laprensa.com.ar/478078-La-lenta-recuperacion-economica-no-despeja-las-dudas-politicas.note.aspx',
 'http://www.laprensa.com.ar/478138-La-deslealtad-a-la-Constitucion.note.aspx',
 'http://www.laprensa.com.ar/478075-Los-impuestos-el-lastre-que-frena-la-iniciativa-exportadora.note.aspx',
 'http://www.laprensa.com.ar/478200-Dictan-conciliacion-obligatoria-para-impedir-despidos-de-trabajadores-de-Zanella-en-San-Luis.note.aspx',
 'http://www.laprensa.com.ar/478199-Difunden-las-identidades-de-las-15-victimas-fatales-del-accidente-de-omnibus-en-Tucuman.note.aspx',
 'http://www.laprensa.com.ar/478086-Viaje-en-el-tiempo-

- Segundo, definan una función que recorra el listado de URLs, ingrese en cada nota y almacene la información requerida en un diccionario.

In [5]:
def extraer_informacion():
    
    data = [] 
    
    for url in urls:
        resp = requests.get(url)
        
        try:
            fecha = re.search('<div class="post_date">(.+?)</div>', resp.text)
            titulo = re.search('<h1 class="page-title">(.+?\s*.*?)</h1>', resp.text)
            seccion = re.search('class="post_format">(.+?)</a>', resp.text)
        
            data.append({'fecha':fecha.group(1), 'titulo':titulo.group(1), 'seccion':seccion.group(1), 'url':url})
            
        except:
            pass
        
    return data

In [6]:
lista_dicts = extraer_informacion()
lista_dicts

[{'fecha': '02.07.2019',
  'titulo': 'Macri sobre el acuerdo con la UE: "Muchas empresas se van a animar a invertir en el país"',
  'seccion': 'Política',
  'url': 'http://www.laprensa.com.ar/478201-Macri-sobre-el-acuerdo-con-la-UE-Muchas-empresas-se-van-a-animar-a-invertir-en-el-pais.note.aspx'},
 {'fecha': '02.07.2019',
  'titulo': 'Cristina Kirchner viajó a Cuba para visitar a su hija Florencia',
  'seccion': 'Política',
  'url': 'http://www.laprensa.com.ar/478195-Cristina-Kirchner-viajo-a-Cuba-para-visitar-a-su-hija-Florencia.note.aspx'},
 {'fecha': '02.07.2019',
  'titulo': 'Vidal: el acuerdo con la UE "generará desarrollo, más trabajo y más dignidad"',
  'seccion': 'Política',
  'url': 'http://www.laprensa.com.ar/478202-Vidal-el-acuerdo-con-la-UE-generara-desarrollo-mas-trabajo-y-mas-dignidad.note.aspx'},
 {'fecha': '30.06.2019',
  'titulo': 'La lenta recuperación económica no despeja las dudas políticas',
  'seccion': 'Opinión',
  'url': 'http://www.laprensa.com.ar/478078-La-len

- Tercero, vuelquen los resultados en un DataFrame.

In [7]:
df = pd.DataFrame(lista_dicts)
df.head()

Unnamed: 0,fecha,seccion,titulo,url
0,02.07.2019,Política,"Macri sobre el acuerdo con la UE: ""Muchas empr...",http://www.laprensa.com.ar/478201-Macri-sobre-...
1,02.07.2019,Política,Cristina Kirchner viajó a Cuba para visitar a ...,http://www.laprensa.com.ar/478195-Cristina-Kir...
2,02.07.2019,Política,"Vidal: el acuerdo con la UE ""generará desarrol...",http://www.laprensa.com.ar/478202-Vidal-el-acu...
3,30.06.2019,Opinión,La lenta recuperación económica no despeja las...,http://www.laprensa.com.ar/478078-La-lenta-rec...
4,01.07.2019,Opinión,La deslealtad a la Constitución,http://www.laprensa.com.ar/478138-La-deslealta...


## Trabajando con Beautiful Soup

In [8]:
soup = BeautifulSoup(resp.text, 'html.parser')

- Primero, extraigan un listado de URLs a cada noticia de la página del diario.

In [9]:
urls = [url.a['href'] for url in soup.find_all('div', {'class':'title'})]
urls

['http://www.laprensa.com.ar/478201-Macri-sobre-el-acuerdo-con-la-UE-Muchas-empresas-se-van-a-animar-a-invertir-en-el-pais.note.aspx',
 'http://www.laprensa.com.ar/478195-Cristina-Kirchner-viajo-a-Cuba-para-visitar-a-su-hija-Florencia.note.aspx',
 'http://www.laprensa.com.ar/478202-Vidal-el-acuerdo-con-la-UE-generara-desarrollo-mas-trabajo-y-mas-dignidad.note.aspx',
 'http://www.laprensa.com.ar/478078-La-lenta-recuperacion-economica-no-despeja-las-dudas-politicas.note.aspx',
 'http://www.laprensa.com.ar/478138-La-deslealtad-a-la-Constitucion.note.aspx',
 'http://www.laprensa.com.ar/478075-Los-impuestos-el-lastre-que-frena-la-iniciativa-exportadora.note.aspx',
 'http://www.laprensa.com.ar/478200-Dictan-conciliacion-obligatoria-para-impedir-despidos-de-trabajadores-de-Zanella-en-San-Luis.note.aspx',
 'http://www.laprensa.com.ar/478199-Difunden-las-identidades-de-las-15-victimas-fatales-del-accidente-de-omnibus-en-Tucuman.note.aspx',
 'http://www.laprensa.com.ar/478086-Viaje-en-el-tiempo-

- Segundo, definan una función que recorra el listado de URLs, ingrese en cada nota y almacene la información requerida en un diccionario.

In [10]:
def extraer_informacion():
    
    data = []
    
    for url in urls:
        
        soup = BeautifulSoup(requests.get(url).text, 'html.parser')
        
        fecha = soup.find('div', {'class':'post_date'}).text
        titulo = soup.find('h1', {'class':'page-title'}).text
        seccion = soup.find('a', {'class':'post_format'}).text
        
        data.append({'fecha':fecha, 'titulo':titulo, 'seccion':seccion, 'url':url})
    
    return data

In [11]:
lista_dicts = extraer_informacion()
lista_dicts

[{'fecha': '02.07.2019',
  'titulo': 'Macri sobre el acuerdo con la UE: "Muchas empresas se van a animar a invertir en el país"',
  'seccion': 'Política',
  'url': 'http://www.laprensa.com.ar/478201-Macri-sobre-el-acuerdo-con-la-UE-Muchas-empresas-se-van-a-animar-a-invertir-en-el-pais.note.aspx'},
 {'fecha': '02.07.2019',
  'titulo': 'Cristina Kirchner viajó a Cuba para visitar a su hija Florencia',
  'seccion': 'Política',
  'url': 'http://www.laprensa.com.ar/478195-Cristina-Kirchner-viajo-a-Cuba-para-visitar-a-su-hija-Florencia.note.aspx'},
 {'fecha': '02.07.2019',
  'titulo': 'Vidal: el acuerdo con la UE "generará desarrollo, más trabajo y más dignidad"',
  'seccion': 'Política',
  'url': 'http://www.laprensa.com.ar/478202-Vidal-el-acuerdo-con-la-UE-generara-desarrollo-mas-trabajo-y-mas-dignidad.note.aspx'},
 {'fecha': '30.06.2019',
  'titulo': 'La lenta recuperación económica no despeja las dudas políticas',
  'seccion': 'Opinión',
  'url': 'http://www.laprensa.com.ar/478078-La-len

- Tercero, vuelquen los resultados en un DataFrame.

In [12]:
df = pd.DataFrame(lista_dicts)
df.head()

Unnamed: 0,fecha,seccion,titulo,url
0,02.07.2019,Política,"Macri sobre el acuerdo con la UE: ""Muchas empr...",http://www.laprensa.com.ar/478201-Macri-sobre-...
1,02.07.2019,Política,Cristina Kirchner viajó a Cuba para visitar a ...,http://www.laprensa.com.ar/478195-Cristina-Kir...
2,02.07.2019,Política,"Vidal: el acuerdo con la UE ""generará desarrol...",http://www.laprensa.com.ar/478202-Vidal-el-acu...
3,30.06.2019,Opinión,La lenta recuperación económica no despeja las...,http://www.laprensa.com.ar/478078-La-lenta-rec...
4,01.07.2019,Opinión,La deslealtad a la Constitución,http://www.laprensa.com.ar/478138-La-deslealta...
