# PEC 3 - Web Scraping Streaming

En esta PEC vamos a **continuar trabajando el web scraping**. Vamos a prestar especial atención al web scraping en streaming que es el objetivo del reto. Además, continuaremos explorando otras librerías que nos permiten hacer web scraping, como request-html y SerPapi.

Por tanto, la PEC se va a dividir en **3 PARTES**: Web Scraping en Streaming, Web Scraping con Requests-html y, Web Scraping con SerPapi.

Mencionar que, en algunos ejercicios se va a motivar el uso de los selectores CSS y los XPath. 
**Los selectores CSS y XPath** son expresiones que permiten seleccionar elementos de un documento HTML basados en sus clases o en la ubicación dentro del contenido. 
Una referencia interesante de los mismos la podéis encontrar en las siguientes dos páginas web: https://www.w3schools.com/xml/xpath_syntax.asp, https://www.w3schools.com/cssref/css_selectors.asp 

_Ejemplo:_



*   _p.intro.rellevant_: seleccionaría los elementos _párrafo_ con valores de classe iguales a 'intro' y 'rellevant'.  
*   _div > p_ : selecciona todos los elementos _\<p>_ donde el padre sea un elemento \<div>.




## Parte 1. Web Scraping (Streaming)

El Web scraping en streaming consiste básicamente en extraer datos de la web cuando estos datos cambian en tiempo real. Un claro ejemplo sería la extracción de datos procedentes de redes sociales.

Para trabajar esta parte vamos a extraer datos de la red social Twitter. Para ello, vamos a utilizar la API  de Twitter. Esta API necesita registrarse y acceder con una clave (Api KEY).

El primer paso, por tanto, es acceder al centro de desarrolladores de aplicaciones de Twitter (https://apps.twitter.com). Aquí deberéis entrar con vuestra cuenta twitter. En caso de no tener cuenta, previamente se recomienda que os creeis una para la realización de la PAC y que después de entregar la PAC, si no la queréis conservar, la eliminéis.

**Los pasos que debéis seguir para registraros, se han detallado en el anexo del documento del enunciado de la PAC.**

Una vez registrados y haber solicitado las credenciales, cuando recibamos la aprobación y tengamos acceso a nuestras claves, podemos empezar a obtener información disponible de Twitter.

Para hacer web scraping en Twitter, vamos a utilizar la librería tweepy. Esta cuenta con diferentes funciones que nos permiten obtener información de las cuentas y sobre los tweets más recientes. Durante la realización de la PAC, vamos a utilizar básicamente dos funciones: API.user_timeline() y API.get_user(). En la página web de la librería (https://tweepy.readthedocs.io/en/latest/api.html#tweepy-api-twitter-api-wrapper) encontraréis información relativa a las prestaciones de la misma. Os recomendamos que la reviséis para conocer más detalles.

Antes de empezar con el ejercicio práctico, vamos a trabajar un ejemplo que nos permitirá familiarizarnos con la librería y con las funciones que se precisarán utilizar para resolver el ejercicio. En el siguiente ejemplo, por tanto, vamos a obtener las características relativas a una cuenta de twitter, concretamente la de la UOC (@UOCuniversitat), y la fecha de su tweet más reciente.

En primer lugar, tenemos que definir las librerías y las claves de acceso (*consumer_key, consumer_secret, access_token, access_token_secret*) a la API de Twitter. 

In [None]:
# Definición librerías
!pip install tweepy
import tweepy
from tweepy import API

In [None]:
# Definir claves de acceso
consumer_key = '################################'
consumer_secret = '################################'
access_token = '################################'
access_token_secret = '################################'

A continuación, estableceremos la conexión a la API:

In [None]:
# Importamos
from tweepy import OAuthHandler

In [None]:
# Definir la autentificación y establecer la conexión
auth = OAuthHandler(consumer_key, consumer_secret)
auth.set_access_token(access_token, access_token_secret)
            
auth_api = API(auth)

Ahora, vamos a conocer los detalles de la cuenta @UOCuniversitat. Los campos que nos interesan son el nombre ('name'), la ubicación ('location'), el número de seguidores ('followers_count'), el número de amigos o seguidos ('friends_count') y cuándo se creó la cuenta ('created_at'). 




In [None]:
detalles_cuenta_UOC = auth_api.get_user(screen_name='UOCuniversitat')
detalles_cuenta_UOC

In [None]:
detalles_cuenta_UOC 

User(_api=<tweepy.api.API object at 0x7f97ad5923c8>, _json={'id': 14919552, 'id_str': '14919552', 'name': 'UOCuniversitat', 'screen_name': 'UOCuniversitat', 'location': 'Barcelona', 'profile_location': None, 'description': "Twitter oficial en català de la Universitat Oberta de Catalunya. En español: @UOCuniversidad. Servei d'atenció: @UOCrespon.", 'url': 'https://t.co/Kz3lA2EQdz', 'entities': {'url': {'urls': [{'url': 'https://t.co/Kz3lA2EQdz', 'expanded_url': 'http://25.uoc.edu', 'display_url': '25.uoc.edu', 'indices': [0, 23]}]}, 'description': {'urls': []}}, 'protected': False, 'followers_count': 36917, 'friends_count': 2794, 'listed_count': 1091, 'created_at': 'Tue May 27 11:19:19 +0000 2008', 'favourites_count': 2802, 'utc_offset': None, 'time_zone': None, 'geo_enabled': True, 'verified': False, 'statuses_count': 26753, 'lang': None, 'status': {'created_at': 'Wed Oct 21 20:23:50 +0000 2020', 'id': 1319011535847641091, 'id_str': '1319011535847641091', 'text': 'RT @JosepMVilalta: Ex

Después de observar qué forma tiene la respuesta recibida, para obtener y organizar la información de interés tendremos que ejecutar las siguientes lineas de código:

In [None]:
dict_uoc={'UOCuniversitat': {'nombre': detalles_cuenta_UOC.name,
                             'ubicacion': detalles_cuenta_UOC.location,
                             'seguidores':detalles_cuenta_UOC.followers_count,
                             'seguidos':detalles_cuenta_UOC.friends_count,
                             'fecha_creacion':str(detalles_cuenta_UOC.created_at)}
}
dict_uoc

{'UOCuniversitat': {'fecha_creacion': '2008-05-27 11:19:19',
  'nombre': 'UOCuniversitat',
  'seguidores': 36917,
  'seguidos': 2794,
  'ubicacion': 'Barcelona'}}

Ahora vamos a obtener la fecha del último tweet de la cuenta @UOCuniversitat:

In [None]:
tweets_uoc=auth_api.user_timeline(screen_name='UOCuniversitat')

In [None]:
fechas=[]

for tweet in tweets_uoc:
  fechas.append(tweet.created_at)

print('El Tweet más reciente tiene fecha de: ', max(fechas))

2020-10-21 20:23:50
2020-10-21 17:15:17
2020-10-21 16:30:52
2020-10-21 16:04:36
2020-10-21 15:43:08
2020-10-21 15:40:49
2020-10-21 15:36:23
2020-10-21 15:25:12
2020-10-21 15:24:40
2020-10-21 15:24:03
2020-10-21 15:22:57
2020-10-21 15:15:10
2020-10-21 15:10:12
2020-10-21 15:03:21
2020-10-21 14:45:41
2020-10-21 14:20:24
2020-10-21 14:20:14
2020-10-21 14:17:21
2020-10-21 14:15:28
2020-10-21 14:09:31
El Tweet más reciente tiene fecha de:  2020-10-21 20:23:50


In [None]:
len(tweets_uoc)

20

**Observaciones:**

- Por defecto, la función *user_timeline()* devuelve 20 instancias.
- El nombre de usuario debe indicarse sin el símbolo '@'
- La forma de la respuesta que devuelve la función *user_timeline()* és la siguiente:


In [None]:
tweets_uoc[0]

Status(_api=<tweepy.api.API object at 0x7f97ad5923c8>, _json={'created_at': 'Wed Oct 21 20:23:50 +0000 2020', 'id': 1319011535847641091, 'id_str': '1319011535847641091', 'text': 'RT @JosepMVilalta: Excel·lent xerrada de Sanjay Sarma, no us la perdeu! Enhorabona @UOCuniversitat https://t.co/jlvz4NfACa', 'truncated': False, 'entities': {'hashtags': [], 'symbols': [], 'user_mentions': [{'screen_name': 'JosepMVilalta', 'name': 'Josep M. Pep Vilalta', 'id': 1076441989, 'id_str': '1076441989', 'indices': [3, 17]}, {'screen_name': 'UOCuniversitat', 'name': 'UOCuniversitat', 'id': 14919552, 'id_str': '14919552', 'indices': [83, 98]}], 'urls': [{'url': 'https://t.co/jlvz4NfACa', 'expanded_url': 'https://twitter.com/uocuniversitat/status/1318930882598752259', 'display_url': 'twitter.com/uocuniversitat…', 'indices': [99, 122]}]}, 'source': '<a href="https://www.hootsuite.com" rel="nofollow">Hootsuite Inc.</a>', 'in_reply_to_status_id': None, 'in_reply_to_status_id_str': None, 'in_reply_to_user_id

> Si nos fijamos, se puede conocer si el tweet contiene algún hashtag obteniendo el contenido de _.entities ['hashtag']_

### **Ejercicio práctico 1 (Twitter)** 

En este ejercicio se pide que se obtenga información de las cuentas de Twiteer de los 20 perfiles que en 2021 fueron considerados los más influyentes en Twitter segun Brandwatch, información disponible en la siguiente página web https://www.thetealmango.com/featured/top-50-most-influential-people-on-twitter/. (En esta página se muestran 50, pero nos quedaremos con los top20).

Para su consecución, este ejercicio se divide en tres partes: La primera relativa a la obtención de las cuentas que vamos a inverstigar; la segunda relativa a la obtención de información de estas cuentas en Twitter y la tercera relativa a la obtención de Hashtags (tendencias) entre estos usuarios.

**PARTE 1:** Web Scraping de https://www.thetealmango.com/featured/top-50-most-influential-people-on-twitter/ para obtener los usuarios.

- El objetivo es scrapear el nombre de los usuarios más influyentes en Twitter durante el 2021. Para ello, se recomienda que se utilize la librería _BeautifulSoap_ y se siga el proceso de web scraping de forma análoga a como se realizó en la PEC anterior. Una vez obtenidos los usuarios (estos se corresponden con los valores de la columna 'Handle' de la tabla), crear una lista que contenga los usuarios top20 (los 20 primeros usuarios de la lista), la cual será utilizada en la siguiente parte. A los nombre de usuarios hay que eliminar el simbolo '@' para poder ser utilizados en la parte 2.

**PARTE 2:** Web Scraping en Twitter para obtener la información de las cuentas de los 20 usuarios obtenidos en la parte anterior y la información de sus 20 últimos tweets. En este caso, se utilizará la librería vista en el ejemplo anterior (_tweepy_)

- La información que se solicita conocer de cada una de las 20 cuentas es la siguiente: nombre ('name'), usuario ('screen_name'), ubicación ('location'), fecha de creación de la cuenta ('created_at'), número de seguidores ('followers_count'), número de amigos o seguidos ('friends_count').

- Una vez obtenidos los datos, estos deberan ser organizados en un dataframe, de forma que cada columna sea un campo de los anteriores y cada fila haga referencia a cada uno de los usuarios. 

- Cuando esté creado el dataframe, ordenarlo por número de seguidores, de forma qeu podamos ver en la primera fila la cuenta con mayor número de seguidores.

**PARTE 3:** En esa última parte obtendremos los 20 últimos tweets de los usuarios de la parte anterior para analizar si han mencionado los mismos Hashtags.

- De los usuarios, cargar los 20 últimos tweets y obtener una lista que contenga todos los **hastags** que han aparecido en alguno de estos tweets de cada cuenta de usuario considerada. 

- Una vez obtenida esta información, podemos organizarla en forma de diccionario dónde una columna sea el nombre de usuario y la otra la lista separada por comas de los hashtags obtenidos en cada usuario; o en forma de diccionario, donde el valor de la clave sea el nobre de usuario y el valor una lista con los diferentes hashtags encontrados por usuario. 

- Finalmente vamos a analizar por cada Hashtag, qué cuenta lo hamencionado. Con esa información, vamos a mostrar qué Hashtag(s) ha(n) sido mencionado(s) por más de un usuario (en caso de que los haya).

> **NOTA:** En la parte 2, tanto para obtener la información relativa de las cuentas como la de los tweets, se recomienda hacer un bucle en el que en cada iteración se obtenga la información de cada usuario. Además, al final de cada iteración, antes de pasar a la siguiente, se aconseja esperar 4 segundos. Para ello, se puede utilizar la funcion time.sleep(4) de la librería times.

In [None]:
# Cargar librerías
import requests
from bs4 import BeautifulSoup
import pandas as pd

**PARTE 1**

In [None]:
# Obtener contenido del documento html relativo al nombre de usuario de las cuentas Twitter  (lista_usuarios)
url_base='https://www.thetealmango.com/featured/top-50-most-influential-people-on-twitter/'

# Hacer la solicitud
#TODO

# Extraer el HTML
#TODO

# Convertir HTML a BeautifulSoup object. 
#TODO

# Exportiar el HTML a un archivo
#TODO


In [None]:
# Obtener valores tabla
#TODO


In [None]:
# Mostrar valores 
#TODO


In [None]:
# Obtener 20 primeros
#TODO


In [None]:
# Imprimir lista de usuarios
#TODO

**PARTE 2**

In [None]:
# Cargar librerías
import tweepy
from tweepy import OAuthHandler
from tweepy import API

In [None]:
# Definir claves de acceso
consumer_key = #TODO
consumer_secret = #TODO
access_token = #TODO
access_token_secret = #TODO

In [None]:
#Definir la autentificación y establecer la conexión
#TODO


In [None]:
# Obtener detalles/ información de cada una las 20 cuentas de usuario (lista_usuarios)
#TODO


In [None]:
# Mostramos la información
#TODO


In [None]:
# Organizar dataframe relativo a los detalles de las cuentas (df_detalles_cuentas)
#TODO


In [None]:
# Visualizar dataframe
#TODO


In [None]:
# Ordenar el dataframe y visualizar 
#TODO


**PARTE 3**

In [None]:
# Obtener información 20 últimos Tweets de cada una las 20 cuentas de usuario (lista_usuarios)
#TODO


In [None]:
# Mostrar dataframe/diccionario relativo a los tweets de las cuentas
#TODO


In [None]:
# Hacemos la inversa: diccionario dónde cada Key sea un Hashtag y por valores las cuentas que lo han mencionado
#TODO


In [None]:
# Mostramos los Hashtags mencionados por más de una cuenta (en caso de que los haya)
#TODO


**Q: ¿Hay algún hashtag que se repite en más de una cuenta? Si es el caso, ¿en cúantas cuentas se repite?** 
  

_Respuesta:_