# PEC 3 - Web Scraping Streaming

En esta PEC vamos a **continuar trabajando el web scraping**. Vamos a prestar especial atención al web scraping en streaming que es el objetivo del reto. Además, continuaremos explorando otras librerías que nos permiten hacer web scraping, como request-html y SerPapi.

Por tanto, la PEC se va a dividir en **3 PARTES**: Web Scraping en Streaming, Web Scraping con Requests-html y, Web Scraping con SerPapi.

Mencionar que, en algunos ejercicios se va a motivar el uso de los selectores CSS y los XPath. 
**Los selectores CSS y XPath** son expresiones que permiten seleccionar elementos de un documento HTML basados en sus clases o en la ubicación dentro del contenido. 
Una referencia interesante de los mismos la podéis encontrar en las siguientes dos páginas web: https://www.w3schools.com/xml/xpath_syntax.asp, https://www.w3schools.com/cssref/css_selectors.asp 

_Ejemplo:_



*   _p.intro.rellevant_: seleccionaría los elementos _párrafo_ con valores de classe iguales a 'intro' y 'rellevant'.  
*   _div > p_ : selecciona todos los elementos _\<p>_ donde el padre sea un elemento \<div>.




## Parte 2. Web Scraping con Requests-html

La librería **request- Html**  es como una combinación de la librería requests y BeautifulSoup. 

El punto más fuerte es que tiene soporte completo para JavaScript, lo que significa que puede ejecutar JavaScript y nos permite, por tanto, hacer scraping de contenido generado dinámicamente.  Por ejemplo, una aplicación muy común es acceder el contenido que está disponible en las páginas siguientes a la primera, y que cuando navegamos accedemos a él presionando el botón de la página correspondiente.  

Además, para ejecutar JavaScript, podemos usar también el método render de la librería. 

Otra particularización de esta librería es que es necesario iniciar sesión antes de empezar con el scraping del contenido HTML y cerrar sesión cuando se termine. Es decir:
 


```
request_html importar HTMLSession
session = HTMLSession
r = session.get (url_base)
r.html.render
….
session.close()

```






Además, esta librería permite seleccionar los elementos de los documentos html mediant selectores CSS y/o selectores XPath. 


La documentación de esta librería, la cual es recomendable que reviséis para trabajar esta parte, la podéis encontrar en el siguiente enlace:  

https://requests.readthedocs.io/projects/requests-html/en/latest/

Antes de empezar a trabajar con esta librería, es necesario instalarla puesto que Google Collab no la tiene instalada por defecto como ocurria con las librerias que hemos utilizado anteriormente. 

In [None]:
# Instalar libreria 
!pip install requests-html

Collecting requests-html
  Downloading requests_html-0.10.0-py3-none-any.whl (13 kB)
Collecting parse
  Downloading parse-1.19.0.tar.gz (30 kB)
Collecting w3lib
  Downloading w3lib-2.1.1-py3-none-any.whl (21 kB)
Collecting pyquery
  Downloading pyquery-1.4.3-py3-none-any.whl (22 kB)
Collecting fake-useragent
  Downloading fake_useragent-1.1.1-py3-none-any.whl (50 kB)
Collecting bs4
  Using cached bs4-0.0.1-py3-none-any.whl
Collecting pyppeteer>=0.0.14
  Downloading pyppeteer-1.0.2-py3-none-any.whl (83 kB)
Collecting websockets<11.0,>=10.0
  Downloading websockets-10.4-cp39-cp39-win_amd64.whl (101 kB)
Collecting pyee<9.0.0,>=8.1.0
  Downloading pyee-8.2.2-py2.py3-none-any.whl (12 kB)
Collecting tqdm<5.0.0,>=4.42.1
  Downloading tqdm-4.64.1-py2.py3-none-any.whl (78 kB)
Collecting importlib-metadata>=1.4
  Downloading importlib_metadata-5.1.0-py3-none-any.whl (21 kB)
Collecting appdirs<2.0.0,>=1.4.3
  Downloading appdirs-1.4.4-py2.py3-none-any.whl (9.6 kB)
Collecting zipp>=0.5
  Downloadi

Una vez instalada, vamos a proceder con el primer ejemplo ilustrativo que nos servirá como guia para realizar el ejercicio práctico planteado a continuación.

En este ejemplo, vamos a hacer scraping al contenido de la conocida página de noticias _Reddit_ (https://reddit.com). De ella, vamos a extraer los titulares y cuántas votaciones tiene cada noticia. Además, vamos a hacer la selección de este contenido mediante _selectores CSS_ para empezar a familiarizarnos con ellos.  

Si presetamos atención a la página, podemos ver que hay contenido que se carga de forma dinámica y/o mediante botones. Particularmente, el contenido se va cargando cuando hacemos "scrolldown", mientras que tambien podemos cargar el contenido asociado a una cuenta, mediante el boton "Sign up". Por tanto, utilizar la librería **requests_html** podría ser recomendable si se quisiera capturar el contenido html que se carga con alguna de estas opciones.

En primer lugar, vamos a cargar la librería e iniciar sesión:

In [None]:
# Cargar librería
from requests_html import HTMLSession

# Iniciar sesión
session = HTMLSession()

Ahora, hacemos la solicitud y comprobamos cuantos html tenemos en la respuesta.

In [None]:
r = session.get('https://reddit.com')
for html in r.html:
    print(html)

<HTML url='https://www.reddit.com/'>
<HTML url='https://www.reddit.com/topics/a-1/'>
<HTML url='https://www.reddit.com/t/alberto_moreno/'>
<HTML url='https://www.reddit.com/topics/a-1/'>
<HTML url='https://www.reddit.com/t/alberto_moreno/'>
<HTML url='https://www.reddit.com/topics/a-1/'>
<HTML url='https://www.reddit.com/t/alberto_moreno/'>
<HTML url='https://www.reddit.com/topics/a-1/'>
<HTML url='https://www.reddit.com/t/alberto_moreno/'>
<HTML url='https://www.reddit.com/topics/a-1/'>
<HTML url='https://www.reddit.com/t/alberto_moreno/'>
<HTML url='https://www.reddit.com/topics/a-1/'>
<HTML url='https://www.reddit.com/t/alberto_moreno/'>
<HTML url='https://www.reddit.com/topics/a-1/'>
<HTML url='https://www.reddit.com/t/alberto_moreno/'>
<HTML url='https://www.reddit.com/topics/a-1/'>
<HTML url='https://www.reddit.com/t/alberto_moreno/'>
<HTML url='https://www.reddit.com/topics/a-1/'>
<HTML url='https://www.reddit.com/t/alberto_moreno/'>
<HTML url='https://www.reddit.com/topics/a-1/

KeyboardInterrupt: 

Podemos observar que el html que devuelve es solo 1. Esto es porque el contenido se va actualizando y añadiendo dinámicamente mediante "scrolldown" y no mediante el click de un boton de Pagina siguiente, Pagina 2, o similares. En caso de haber un segundo html, este hace referencia al boton de introducir una cuenta reddit. 



Ahora, después de inspeccionar la página, advertimos que el contenido relativo a los enlaces de las diferentes entradas o noticias de la página, está en la etiqueta 'a' y cuya classe es '_3ryJoIoycVkA88fy40qNJc'. Por tanto, usando selectores CSS, la instrucción que devolverá el contenidos será: *r.html.find('a._3ryJoIoycVkA88fy40qNJc')*

In [None]:
subreddit_1 = r.html.find('a._3ryJoIoycVkA88fy40qNJc')
print(str(len(subreddit_1)) + ' titulares aparecen en la primera página de reddit, el resto de titulares se corresponden con el contenido después de hacer scrolldowns')

7 titulares aparecen en la primera página de reddit, el resto de titulares se corresponden con el contenido después de hacer scrolldowns


In [None]:
# Obtener las url completas de cada entrada
subreddit_url=[element.absolute_links for element in subreddit_1]
subreddit_url

[{'https://www.reddit.com/r/spain/'},
 {'https://www.reddit.com/r/Genshin_Impact_Leaks/'},
 {'https://www.reddit.com/r/AskReddit/'},
 {'https://www.reddit.com/r/LMDShow/'},
 {'https://www.reddit.com/r/interestingasfuck/'},
 {'https://www.reddit.com/r/Genshin_Impact_Leaks/'},
 {'https://www.reddit.com/r/mildlyinfuriating/'}]

Ahora vamos a obtener los títulos de las noticias. Este contenido se halla en la etiqueta 'h3' con classe '_eYtD2XCVieq6emjKBH3m'.

In [None]:
# Titulos
subreddit_2 = r.html.find('h3._eYtD2XCVieq6emjKBH3m')
subreddit_titulos=[element.text for element in subreddit_2]
subreddit_titulos

['🤔',
 'Um gajo pode sonhar não pode?',
 'Los Santos Drug Wars inyectará un nuevo caos psicoactivo en GTA Online el 13 de diciembre. Únete a una banda de inadaptados en el primer capítulo de una extensa nueva actualización de GTA Online, con una trama dividida en dos partes.',
 'Alhaitham gameplay (R.I.P)',
 'What did you not know about sex until you lost your virginity?',
 'escucha escucha ☝️🤓',
 "U.S. bombs dropped on Laos. 270 million bombs were dropped on Laos in a span of 9 years, making it the most heavily bombed country in the history of the world. That's 57 bombs every minute on average.",
 'Yaoyao Gameplay',
 'The fees on this Air BnB for one night.']

In [None]:
# Votaciones
subreddit_3 = r.html.find('div._1rZYMD_4xY3gRcSS3p8ODO._25IkBM0rRUqWX5ZojEMAFQ')
subreddit_votaciones=[element.text for element in subreddit_3]
subreddit_votaciones

['348', '•', '4.7k', '10.5k', '394', '18.1k', '2.0k', '14.3k']

Por último, cerraremos la sesión:

In [None]:
session.close()

Ahora vamos a construir el dataframe que contiene el resultado de los títulos y las voraciones. Atendiendo a los datos, el primer titular sin puntuación lo vamos a excluir porque hace referencia a un anuncio.

In [None]:
import pandas as pd

df_reddit=pd.DataFrame()
df_reddit['título']=subreddit_titulos[1:]
df_reddit['votaciones']=subreddit_votaciones[1:]
df_reddit['url']=subreddit_url

ValueError: Length of values (7) does not match length of index (8)

In [None]:
pd.set_option('display.max_colwidth', -1)
df_reddit

  """Entry point for launching an IPython kernel.


Unnamed: 0,título,votaciones,url
0,Masks that fit your face and your personality. Shop Now,1.1k,{https://www.reddit.com/r/leagueoflegends/}
1,this is a masterpiece,28.6k,{https://www.reddit.com/r/Damnthatsinteresting/}
2,"Truck drivers, what's a creepy story you've got from the middle of nowhere?",45.9k,{https://www.reddit.com/r/AskReddit/}
3,THE HOUSTON ASTROS HAVE BEEN ELIMINATED FROM 2020 WORLD SERIES CONTENTION,42.9k,{https://www.reddit.com/r/baseball/}
4,Dad of the year,20.5k,{https://www.reddit.com/r/nextfuckinglevel/}
5,Happy 18th birthday. Buffy can officially legally drink in Australia,37.9k,{https://www.reddit.com/r/aww/}


En este ejemplo, hemos podido scrapear el contenido inicial que aparece en la página de Reddit. No obstante, el contenido que encontramos al hacer _scrolldown_ no lo hemos podido capturar.  

Para poder capturar el resto de entradas, podemos hacer uso de la funcion *render()* de la librería *Request-html*. No obstante, para el uso de esta función es necesario iniciar una sesión en modo asincrona. Los Jupyter notebooks presentan ciertos problemas para trabajar de esta forma y requieren la instalación de _Chromium_; es por eso que en esta PEC no lo vamos a ver. A pesar de ello, a modo explicativo, se adjunta el código que se requeriría:




```
import asyncio
from requests_html import AsyncHTMLSession

asession = AsyncHTMLSession()

async def get_results():
    r = await asession.get('https://reddit.com')
    r.html.arender(scrolldown=10, sleep=1)
    return r

respuesta = asession.run(get_results)

asession.close()

```



Otro ejemplo es la obtención de información de una página que recoge los memes más relevantes en la actualidad (www.knowyourmeme.com). En esta página, a diferencia del ejemplo anterior, el contenido está organizado por páginas y se puede acceder a ellas a través de los típicos botones de páagina 1, 2, 3,... Vamos a ver, por tanto, la respuesta que nos devolvería requests-html en este caso:

In [None]:
# Cargar librería
from requests_html import HTMLSession

# Iniciar sesión
session = HTMLSession()

In [None]:
r2= session.get('https://knowyourmeme.com/')

total_pags_scrap=10
page=0
for html in r2.html:
    page+=1
    print(page, ': ' ,html)
    if page==total_pags_scrap:
        break

1 :  <HTML url='https://knowyourmeme.com/'>
2 :  <HTML url='https://knowyourmeme.com/page/2'>
3 :  <HTML url='https://knowyourmeme.com/page/3'>
4 :  <HTML url='https://knowyourmeme.com/page/4'>
5 :  <HTML url='https://knowyourmeme.com/page/5'>
6 :  <HTML url='https://knowyourmeme.com/page/6'>
7 :  <HTML url='https://knowyourmeme.com/page/7'>
8 :  <HTML url='https://knowyourmeme.com/page/8'>
9 :  <HTML url='https://knowyourmeme.com/page/9'>
10 :  <HTML url='https://knowyourmeme.com/page/10'>


In [None]:
session.close()

En este caso, la respuesta contine los html asociados a las diferentes páginas en las que está organizado el contenido. Como podéis observar, en el bucle se ha introducido un _break_. Esto es porque knowyourmeme.com ofrece la posibilidad de revisar los memes contenidos en  hasta más de 9500 páginas. Esperar a scrapear este total de páginas nos llevaría mucho más tiempo y no es el objetivo de esta PEC.

Considerando los ejemplos que se han facilitado, realizar el ejercicio práctico 3 para explorar la librería Requests-html y familiarizarse con los selectores. 

### **Ejercicio práctico 2 (vuelos real time)**

La API OpenSky (https://opensky-network.org/apidoc/rest.html) permite recuperar información del estado de los vuelos o aeronaves actualizados en tiempo real. Además, los usuarios con autorización pueden tener acceso a datos históricos de la última hora, indicando el intervalo de tiempo cómo un parámetro más en la consulta. Para esta actividad vamos a utilizar la versión básica de esta API y por tanto, no vamos a tener opción de seleccionar el intervalo de tiempo de interés. No obstante, para la finalidad de la actividad, no va a hacer falta. 

En este ejercicio se solicita al estudiante que, después de la revisión de la documentación de la API, obtenga el estado del aire (aviones y aeronaves) durante una secuencia de 10 consultas. Para ello, se recomienda que se implente un bucle donde en cada iteración se solicite información a la API y se esperen 10 segundos entre una iteración y la siguiente. La solicitud a la API se pide que se realice mediante la librería requests, con la que se trabajó en la PEC anterior. 

Mencionar que esta API permite añadir en la solicitud una acotación del espacio a considerar. La acotación del espacio aéreo se corresponderá con los siguientes valores de latitud i longitud:

> lat_max= 72.822950; 
lon_min= -17.000158;
lat_min= 35.550423;
lon_max= 44.022436

Para cada consulta, se solicita obtener el número total de aeronaves agrupadas por país de origen de la aeronave. Para ello, será necesario revisar la documentación de la API y explorar la forma de la respuesta para determinar cuál es el campo de interés de los datos scrapeados para la realización del ejercicio. 
Además del número de aeronaves por país de origen, en cada iteración también hay que almacenar el valor temporal de la consulta (es decir, el campo 'time', que viene dado en segundos ).

Con el resultado de las 10 iteraciones, se solicita que:
- Se cree un dataframe (df_vuelos) que recoja el número total de aeronaves por cada país de origen (filas) para cada instante de tiempo (columnas). 
- Se añada una columna 'mean_flights' y una 'percen_flights' que representen respectivamente el valor medio de vuelos de cada país durante el intervalo de tiempo considerado con las 10 iteraciones y el porcentaje del país respecto al total.
- Representar con un diagrama de barras el número de vuelos medios de los 15 países con mayor media de vuelos en el intervalo de tiempo considerado. El eje X, se corresponderá con el país y el eje Y con el valor de vuelos medios. Mostrar los valores ordenados de forma ascendiente. Mostrar también el porcentaje agregado de estos 15 países respecto al total.
- Repetir el putno anterior para los 15 países con menor media.

NOTAS PARA LA REALIZACIÓN DE LAS SOLICITUDES Y LA CREACIÓN DEL DATAFRAME: 
- Para considerar el tiempo de espera, como ya hemos hecho en casos anteriores, se recomienda el uso de la librería time y su función time.sleep(n_segundos).
- Debido a que estamos usando la versión gratuita de la API, el tiempo no se actualiza de forma constante y puede que haya solicitudes cuyo valor de 'time' es el mismo. En este caso, no almacenar el valor o eliminar después los valores cuyo 'time' esté duplicado. Esto es para que cuando calculemos la media, no tenga efecto en la misma el valor duplicado.
- _Sugerencia:_ En cada iteración se puede crear un dataframe auxiliar con los resultados de la solicitud y cuyas columnas sean 'Country' y 'N' para el 'time' evaluado en dicha iteración. Después, con este dataframe auxiliar, ir hacido join o merge al dataframe glogal que contendrá los resultados de todas las iteraciones. Si se sigue esta sugerencia, utilizar la versión 'outer' de la función merge de fomra que se consideren todos los países que han aparecido en todas las iteraciones aunque en una determinada iteración no hubiese aeronaves de alguno de ellos.

In [None]:
#Cargar librerias
import requests
#TODO


In [None]:
# Definir limites Europa
#TODO


In [None]:
# Creación de df_vuelos mediante la realización de 10 solicitudes
#TODO


In [None]:
# mostrar df_vuelos
#TODO


In [None]:
# Crear nuevas variables: 'mean_flights' y 'percen_flights'
#TODO


In [None]:
# Grafico de barras (15 países con más vuelos) + calcular porcentaje de esos 15 primeros paises
#TODO


In [None]:
# Grafico de barras (15 países con menos vuelos)
#TODO
