# Taller de scraping en Python

Bienvenido/a al taller de scraping en Python. En este taller vamos a aprender a extraer información de la web. Para ello usaremos:

1. Python 3 como lenguaje de programación,
2. [requests](http://docs.python-requests.org/en/master/) para hacer peticiones HTTP,
3. [BeautifulSoup 4](https://www.crummy.com/software/BeautifulSoup/) para extraer los datos,
4. [Menéame](https://www.meneame.net) como fuente de información.

In [None]:
# para ejecutar una celda pulsa Shift + Intro
import requests
import bs4
from IPython.core.debugger import set_trace

## Requests

La librería [requests](http://docs.python-requests.org/en/master/) nos permite hacer peticiones HTTP. La vamos a utilizar para descargar el contenido de una web. Por ejemplo:

In [None]:
# Una vez ejecutada esta celda (con Shift+Intro) podrás llamar a esta función desde cualquier otra celda
def do_get_request(url: str) -> requests.Response:
    """
    Función para hacer una petición GET
    
    :param url: url a la que haremos la petición
    :type url: str
    :returns: respuesta a la petición
    :rtype: requests.Response
    """
    
    response = requests.get(url)
    # elevamos una excepción si la petición no ha tenido éxito (por ejemplo un 404 Not found)
    response.raise_for_status()
    return response

In [None]:
# provocamos un error haciendo una petición GET a una url inexistente. Salta la excepción
url = "https://www.meneamedkfjdslkfjdsl.net"
try:
    request = do_get_request(url)
except:
    print('Error en la petición')

In [None]:
# hacemos una petición GET a Menéame. En el atributo text se guarda el HTML en texto plano
url = "https://www.meneame.net"
try:
    request = do_get_request(url)
    # imprimimos los primeros 500 caracteres del html recibido
    print(request.text[:500])
except:
    print('Error en la petición')

## Menéame

Visita la web de [Menéame](https://www.meneame.net) y observa su estructura. La web consiste, básicamente, en una lista de noticias. Si miras el código fuente cada noticia está contenida en una etiqueta HTML div con clase news-summary:

```html
<div class="news-summary">...</div> 
```

## Beautiful Soup

La librería [BeautifulSoup 4](https://www.crummy.com/software/BeautifulSoup/) nos ayuda a extraer datos de documentos XML y, por tanto, HTML. Por ejemplo, podemos seleccionar la lista de noticias para trabajar con ellas más tarde.


In [None]:
# creamos un objeto "soup" pasándole el html de la página principal de Menéame que nos devuelve requests
soup = bs4.BeautifulSoup(request.text)

# seleccionamos todas las etiquetas "div" que tengan la clase "news-summary"
news = soup.findAll('div', attrs={'class': 'news-summary'})

In [None]:
# la función len nos devuelve la longitud de una lista (en este caso la lista news)
print("{total_news} noticias encontradas\n".format(total_news=len(news)))

In [None]:
# imprimimos el html de la primera noticia
print("HTML de la primera noticia:\n\n {html}".format(html=news[0]))

## Código para realizar los ejercicios

A continuación encontrarás código que te facilitará la realización de los ejercicios

In [None]:
class News(object):
    """ 
    Clase para procesar y guardar una noticia de menéame 
      
    Attributes: 
        element (bs4.element.Tag): guarda un elemento de BeautifulSoup con una noticia de menéame
    """
    def __init__(self, element: bs4.element.Tag):
        self.title = self.read_title(element)
        self.type = self.read_type(element)
        self.votes = self.read_votes(element)
        self.comments_url = self.read_comments_url(element)
        self.user = self.read_user(element)
        self.comments = []

    @staticmethod
    def read_title(element: bs4.element.Tag) -> str:
        """
        Método que recibe un objeto de BeautifulSoup con una noticia de menéame y devuelve el título
        
        :param element: noticia
        :type element: bs4.element.Tag
        :returns: título de la noticia
        :rtype: str
        """
        
        return element.find('h2').find('a').text.strip()
    
    @staticmethod
    def read_type(element: bs4.element.Tag) -> str:
        """
        Método que recibe un objeto de BeautifulSoup con una noticia de menéame y devuelve "Noticia",
        "Foto" o "Vídeo"
        
        :param element: noticia
        :type element: bs4.element.Tag
        :returns: tipo de la noticia
        :rtype: str
        """
        
        return ''

    @staticmethod
    def read_votes(element: bs4.element.Tag) -> int:
        """
        Método que recibe un objeto de BeautifulSoup con una noticia de menéame y devuelve
        el número de votos
        
        :param element: noticia
        :type element: bs4.element.Tag
        :returns: número de votos de la noticia
        :rtype: int
        """

        return 0

    @staticmethod
    def read_user(element: bs4.element.Tag) -> str:
        """
        Método que recibe un objeto de BeautifulSoup con una noticia de menéame y devuelve el usuario
        que la envió
        
        :param element: noticia
        :type element: bs4.element.Tag
        :returns: nombre del usuario de la noticia
        :rtype: str
        """

        return ''

    @staticmethod
    def read_comments_url(element: bs4.element.Tag) -> str:
        """
        Método que recibe un objeto de BeautifulSoup con una noticia de menéame y devuelve 
        la url de la página de los comentarios
        
        :param element: noticia
        :type element: bs4.element.Tag
        :returns: url a los comentarios
        :rtype: str
        """
        
        return ''
    
    @staticmethod
    def get_comments(soup: bs4.BeautifulSoup) -> bs4.element.ResultSet:
        """
        Método que selecciona todos los comentarios de un meneo
        
        :param soup: objeto BeautifulSoup de una página de comentarios de un meneo
        :type soup: bs4.BeautifulSoup
        :returns: lista con los comentarios
        :rtype: bs4.element.ResultSet
        """
        return None
    
    @staticmethod
    def read_comment_karma(comment: bs4.element.Tag) -> int:
        """
        Método que recibe un objeto de BeautifulSoup con un comentario de una noticia y devuelve 
        su karma (puntuación)
        
        :param comment: noticia
        :type comment: bs4.element.Tag
        :returns: karma del comentario
        :rtype: int
        """
        
        return ''

    @staticmethod
    def read_comment_text(comment: bs4.element.Tag) -> str:
        """
        Método que recibe un objeto de BeautifulSoup con un comentario de una noticia y devuelve 
        el texto del mismo
        
        :param comment: noticia
        :type comment: bs4.element.Tag
        :returns: texto del comentario
        :rtype: str
        """
        
        return ''

    def __getitem__(self, key):
        """
        Método que nos permite usar sort con una lista de objetos News
        """
        return getattr(self, key)
    
    def __str__(self):
        """
        Método que nos permite hacer cosas como print(objeto_news)
        """
        return "{title} [{link}]\n{user} ({votes})"\
            .format(title=self.title, link=self.link, user=self.user, votes=self.votes)


In [None]:
def get_soup_object(url: str) -> bs4.BeautifulSoup:
    """
    Función que hace una petición GET a la url que recibimos por parámetro. Devolvemos un objeto
    BeautifulSoup con el html que nos devuelve requests
    
    :param url: url a la que haremos la petición
    :type url: str
    :returns: objeto BeautifulSoup
    :rtype: bs4.BeautifulSoup
    """
    request = do_get_request(url)
    return bs4.BeautifulSoup(request.text)

def get_news(soup: bs4.BeautifulSoup) -> bs4.element.ResultSet:
    """
    Función que recibe por parámetro un objecto BeautifulSoup con el html de una página de noticias de 
    menéame y selecciona todas las noticias de dicha página
    
    :param soup: objeto BeautifulSoup con el HTML de una página de Menéame
    :type soup: bs4.BeautifulSoup
    :returns: ResultSet de BeautifulSoup con las noticias de la página
    :rtype: bs4.element.ResultSet
    """
    return soup.findAll('div', attrs={'class': 'news-summary'})

from typing import List

def load_data(news: bs4.element.ResultSet) -> List[News]:
    """
    Función que recibe un ojeto ResultSet de BeautifulSoup con noticias de menéame y devuelve una lista
    de objetos News con las noticias procesadas
    
    :param news: ResultSet de BeautifulSoup con las noticias de una página de Menéame
    :type news: bs4.element.ResultSet
    :returns: lista de objetos News
    :rtype: list[News]
    """

    return [News(element) for element in news]

## Ejercicio 1

Imprime los títulos de las noticias de la página principal de Menéame

In [None]:
def print_titles():
    """
    Función que imprime los títulos de las noticias
    """
     
    # definimos la url a la que tenemos que conectarnos
    url = "https://www.meneame.net"
    # generamos un objeto de BeautifulSoup con el html que se descarga requests de url
    soup = get_soup_object(url)
    # seleccionamos las noticias del objeto de BeautifulSoup (que tiene todo el html)
    list_news = get_news(soup)
    # generamos una lista de noticias (objetos News) con la que podremos trabajar más fácilmente
    data = load_data(list_news)
    # recorremos la lista de News e imprimimos por pantalla el título
    for news in data:
        print("{title}".format(title=news.title))

print_titles()

## Ejercicio 2

Los envíos a Menéame pueden tener un icono al lado del título indicando si se trata de una foto o un vídeo. Imprime el tipo (Noticia, Fotografía o Vídeo) y el título de los meneos de la página principal.

Tareas:

1. Modifica el método News.read_type() para que lea el tipo de meneo
2. Imprime el tipo y el título de forma similar a como se hace en el Ejercicio 1

In [None]:
def print_titles_and_type():
    """
    Función que imprime el tipo y los títulos de los meneos
    """

print_titles_and_type()

## Ejercicio 3

Vamos a mostrar la lista de titulares de la página principal de Menéame ordenados por el número de meneos (votos).

Tareas:

1. Modifica el método News.read_votes() para que devuelva el número de meneos de una noticia
2. Ordena la lista que devuelve la función load_data por el campo con el número de votos. Puedes utilizar el método sort:
```python
lista = [news1, news2, news3, news4]
# ordenamos por votos (esto lo podemos hacer porque hemos implementado News.__getitem__()
lista.sort(key=lambda x: x.votes)
```
3. Imprime el número de votos y el título de la noticia por pantalla

In [None]:
def print_titles_sorted_by_votes():
    """
    Función que imprime los votos y títulos de las noticias ordenado por el número de votos
    """

print_titles_sorted_by_votes()

## Ejercicio 4

Mostrar las tres noticias con más votos en las 5 primeras páginas de menéame

Tareas:

1. Escribe un bucle en la función print_three_news_with_more_votes() para recuperar las primeras cinco páginas. La primera es https://www.meneame.net/, pero también puede ser https://www.meneame.net/?page=1, la segunda https://www.meneame.net/?page=2, etc. Te ayudará la función range(), por ejemplo:
```python
# el bucle imprime 1 2 3 4 5
for i in range(1, 6):
       print(i)
```    

2. Usa el método extend para juntar todas las noticias que devuelve load_data en una sola lista. Ejemplo:
```python
lista = []  # creamos una lista vacía
lista.extend([1, 2, 3])  # ahora lista vale [1, 2, 3]
lista.extend([6, 5, 4])  # ahora lista vale [1, 2, 3, 6, 5, 4]
```
3. Ordena la lista de noticias por el número de votos de mayor a menor, tendrás que pasar el parámetro reverse=True en sort
4. Imprime el número de votos y el título de las tres primeras noticias

In [None]:
def print_three_news_with_more_votes():
    """
    Función que imprime las tres noticias con más votos en las primeras cinco páginas de menéame
    """

print_three_news_with_more_votes()

## Ejercicio 5

Mostrar el usuario que ha publicado más noticias en las 5 primeras páginas de menéame

Tareas:

1. Modifica el método News.read_user() para que devuelva el usuario que envió la noticia
2. Escribe un bucle similar al del ejercicio anterior para recuperar las cinco primeras páginas
3. Recorre la lista y contabiliza el número de noticias que tiene cada autor. Puedes crear un diccionario cuya clave es el nombre del usuario y el valor el número de noticias que tiene, por ejemplo:
```python
result = {'usuario1': 1, 'usuario2': 3, ..., 'usuarioN': 2}
```

Pistas:

1. Te puede ser útil el método get(clave, valor_si_clave_no_existe) de los diccionarios, por ejemplo
```python
mi_diccionario = {'azul': 1, 'amarillo': 3}
azul = mi_diccionario.get('azul', 0) # azul vale 1 porque toma el valor de mi_diccionar['azul']
rojo = mi_diccionario.get('rojo', 0) # como la clave 'rojo' no existe en mi_diccionario rojo valdrá 0
```
2. Si has creado un diccionario como el de la tarea 3, puedes obtener el nombre del usuario que tiene más noticias con:
```python
user = max(result, key=result.get)
```

In [None]:
def print_user_with_more_news():
    """
    Función que imprime el usuario con más noticias en las cinco primeras páginas de menéame
    """

print_user_with_more_news()

## Ejercicio 6

Busca la noticia con menos votos de la portada de menéame, recupera su primera página de comentarios e imprime por pantalla el título del meneo y el comentario más votado (con más karma)


Tareas:

1. Modifica el método News.read_comments_url() para que devuelva la url con el detalle de la noticia (donde se encuentran los comentarios)
2. Busca la noticia de la portada de meneame.net con menos votos
3. Accede a la url de los comentarios de la noticia con menos votos
4. Completa los métodos News.get_comments(), News.read_comment_karma() y News.read_comment_text()
5. Ordena los comentarios por el karma con sort
6. Imprime el título de la noticia con más votos y en la siguiente línea el comentario con más puntuación y su karma

In [None]:
def print_comment_with_more_votes():
    # función que imprime el comentario más votado de la noticia con menos votos en la portada de Menéame

print_comment_with_more_votes()