# Extracción de titulares relevantes

Esta práctica consiste en hacer scrapping de la web de un periódico online y terminar enviando un correo con todos los artículos que concuerden con unos determinados criterios de búsqueda.

El enunciado proporciona todo el código que sea necesario y que no se haya visto en clase.

El propósito de un código como este sería automatizar este script para que se ejecute todos los días y nos llegen al correo sólo aquellas noticias que nos interesan.

### Lee el código de fuente de un periódico ONLINE

In [1]:
from urllib.request import urlopen
from bs4 import BeautifulSoup
html = urlopen("https://elpais.com/")
source=html.read()
source_str=source.decode("utf-8")
soup=BeautifulSoup(source_str)

### Extraer la lista de titulares y sus URLs

Tras revisar su código, vemos que sus artículos siempre se encuentran en una sección de tipo:
        
        <article>...</article>

El código siguiente nos permite sacar la lista de artículos

In [2]:
lista_de_titulares=[]
lista_de_links=[]
articles=soup.find_all("article")
for i in articles:
    titular=i.header.text
    url=i.header.a.get("href")
    lista_de_titulares.append(titular)
    lista_de_links.append(url)

Revisamos algunos de los titulares:

In [3]:
lista_de_titulares[:2]

['Podemos convoca la mesa de crisis de la coalición por una “injerencia” de Calviño en la reforma laboral',
 'El\xa0PSOE acepta perfiles duros del PP para renovar el Constitucional\xa0']

Revisamos algunos de los links:

In [4]:
lista_de_links[:6]

['/espana/2021-10-22/podemos-solicita-una-reunion-urgente-de-la-mesa-de-seguimiento-del-acuerdo-del-gobierno-de-coalicion.html',
 '/espana/2021-10-21/el-gobierno-y-el-pp-cierran-el-pacto-para-la-renovacion-de-las-altas-instituciones-salvo-el-poder-judicial.html',
 '/internacional/2021-10-22/la-practica-de-la-reconstruccion-del-himen-pervive-en-afganistan.html',
 '/espana/madrid/2021-10-22/anatomia-de-lagasca-99-ricos-latinoamericanos-sociedades-opacas-y-el-alquiler-mas-caro-de-madrid.html',
 'https://elpais.com/opinion/editoriales/',
 '/opinion/2021-10-22/el-federalismo-y-la-magia.html']

### Ej1. Corregir las URLs

Si nos fijamos, algunas URLs tienen la dirección completa (direccionamiento absoluto) y a otras le falta el "https://www.elpais.com" (direccionamiento relativo). 

Escribe una función que reciba la lista de URLs **lista_de_links** y devuelva otra lista corregida. 

Ojo, sól hay que corregir aquellas direcciones que no empiecen por http. Las que ya contengan una dirección absoluta, no hay que modificarlas.

**SOLUCION**

In [None]:
def corrige_url(lista):

    return lista_corregida

### Ej2. Escribe un código para limitar el número de palabras del titular

Escribe una función que reciba una frase en una variable **frase** y devuelva la frase truncada a un determinado número de palabras que también se le pasa como argumento **num**. Si la frase contiene menos palabras, no se ve afectada. Si la frase contiene más palabras, se trunca y se le añaden tres puntos suspensivos. Por ejemplo:

    trunca("Una negociación larga y llena de obstáculos",10)
    'Una negociación larga y llena de obstáculos'
    
    trunca("Una negociación larga y llena de obstáculos",5)
    'Una negociación larga y llena ...'

**SOLUCION**

In [113]:
def trunca(frase, num):

    return frase_truncada

### Ej3. Escribe un código para imprimir los titulares en este formato

Si revisamos la lista de titulares extraida al principio de la práctica, notamos que en los titulares aparecen unos símbolos extraños. Implementa una función **imprime_titulares** que corrija los símbolos extraños y muestra por pantalla todos los titulares recolectados y truncados en caso de que superen una longitud máxima de palabras. Por ejemplo:

        imprime_titulares(lista_de_titulares,10)
        
        Hemos capturado 4 titulares: 
          - El PSOE acepta perfiles duros del PP para renovar el ...
          - Una negociación larga y llena de obstáculos
          - Reconstruirse el himen o jugarse la vida: la práctica pervive ...
          - Anatomía de Lagasca 99: ricos latinoamericanos, el alquiler más caro ...

Para ello tendrás que utilizar la función **trunca** implementada en el apartado anterior. Fíjate que esta función no tiene sentencia **return**

**SOLUCION**

In [None]:
def imprime_titulares(lista, num):
    

### Ej4. Filtrado de titulares

Escribe el código de una funcion que reciba la lista de titulares, una lista de palabras clave y una variable string **logica** que sólo puede tomar dos valores "AND" y "OR". Implementa un código que filtre los titulares atendiendo al contenido de la variable **logica**:

* Si **logica** es "OR", entonces sólo pasarán los titulares que incluyan alguna de las keywords
* Si **logica** es "AND", entonces sólo pasarán los titulares que incluyan todas las keywords
* Si no se le pasa valor a la variable lógica, por defecto, tomará el valor "OR"


        filtrado(lista_de_titulares,["España", "Covid"], logica="OR")
        
        ['Los contagios de covid en España se estancan en el nivel de riesgo bajo',
         'España alcanza un acuerdo con EE UU para mantener la ‘tasa Google’ hasta 2023',
         'El idioma que traje conmigo: así suena África oriental en España']
         
        filtrado(lista_de_titulares,["España", "Covid"], logica="AND")
        
        ['Los contagios de covid en España se estancan en el nivel de riesgo bajo']
        

**SOLUCION**

In [None]:
def filtrado(lista, keywords, logica="OR"):

    return lista_filtrada

### Ej5. Redacción de un correo

Escribe una función que utilizando la lista filtrada de titulares **lista_filtrada** readacte un correo informando al usuario que para las keywords seleccionadas se han econtrado los siguientes titulares. No olvida incluir la URL del artículo. 
Generar una variable de tipo STRING **correo** que tenga una pinta similar a la sig

    body=correo(lista_de_titulares, lista_de_links_corregida, lista_filtrada, ["España", "Covid"])
    print(body)
    
    Hola,
    esta es la lista de artículos que coincide con tus keywords: España,Covid
      - Los contagios de covid en España se estancan en el nivel de riesgo bajo
        https://www.elpais.com/sociedad/2021-10-22/los-contagios-de-covid-en-espana-se-estancan-en-el-nivel-de-riesgo-bajo.html
      - España alcanza un acuerdo con EE UU para mantener la ‘tasa Google’ hasta 2023
        https://www.elpais.com/economia/2021-10-21/espana-alcanza-un-acuerdo-con-ee-uu-para-mantener-la-tasa-google-hasta-2023.html
      - El idioma que traje conmigo: así suena África oriental en España
        https://www.elpais.com/planeta-futuro/2021-10-21/el-idioma-que-traje-conmigo-asi-suena-africa-oriental-en-espana.html
    Bye 

**SOLUCION**

In [None]:
def genera_correo(lista_titulares, links_corregidos, lista_filtrada, keywords):

    return correo

### Envía un correo

Por último, utiliza la función proporcionada en la celda siguiente para enviar el correo construido con la función **genera_correo** y verifica que lo recibes correctamente.

In [17]:
import smtplib
from email.message import EmailMessage

def send(email_from,email_to,password, body):
    msg = EmailMessage()
    msg['Subject'] = 'Automated mail with news stories'
    msg['From'] = email_from
    msg['To'] = email_to
    msg.set_content(body)
    server = smtplib.SMTP('smtp.office365.com', 587)
    server.ehlo()
    server.starttls()
    server.ehlo()
    server.login(email_from, password)
    server.send_message(msg)
    server.rset()
    server.quit()