# PEC 3 - Web Scraping Streaming

En esta PEC vamos a **continuar trabajando el web scraping**. Vamos a prestar especial atenci√≥n al web scraping en streaming que es el objetivo del reto. Adem√°s, continuaremos explorando otras librer√≠as que nos permiten hacer web scraping, como request-html y SerPapi.

Por tanto, la PEC se va a dividir en **3 PARTES**: Web Scraping en Streaming, Web Scraping con Requests-html y, Web Scraping con SerPapi.

Mencionar que, en algunos ejercicios se va a motivar el uso de los selectores CSS y los XPath. 
**Los selectores CSS y XPath** son expresiones que permiten seleccionar elementos de un documento HTML basados en sus clases o en la ubicaci√≥n dentro del contenido. 
Una referencia interesante de los mismos la pod√©is encontrar en las siguientes dos p√°ginas web: https://www.w3schools.com/xml/xpath_syntax.asp, https://www.w3schools.com/cssref/css_selectors.asp 

_Ejemplo:_



*   _p.intro.rellevant_: seleccionar√≠a los elementos _p√°rrafo_ con valores de classe iguales a 'intro' y 'rellevant'.  
*   _div > p_ : selecciona todos los elementos _\<p>_ donde el padre sea un elemento \<div>.




## Parte 1. Web Scraping (Streaming)

El Web scraping en streaming consiste b√°sicamente en extraer datos de la web cuando estos datos cambian en tiempo real. Un claro ejemplo ser√≠a la extracci√≥n de datos procedentes de redes sociales.

Para trabajar esta parte vamos a extraer datos de la red social Twitter. Para ello, vamos a utilizar la API  de Twitter. Esta API necesita registrarse y acceder con una clave (Api KEY).

El primer paso, por tanto, es acceder al centro de desarrolladores de aplicaciones de Twitter (https://apps.twitter.com). Aqu√≠ deber√©is entrar con vuestra cuenta twitter. En caso de no tener cuenta, previamente se recomienda que os creeis una para la realizaci√≥n de la PAC y que despu√©s de entregar la PAC, si no la quer√©is conservar, la elimin√©is.

**Los pasos que deb√©is seguir para registraros, se han detallado en el anexo del documento del enunciado de la PAC.**

Una vez registrados y haber solicitado las credenciales, cuando recibamos la aprobaci√≥n y tengamos acceso a nuestras claves, podemos empezar a obtener informaci√≥n disponible de Twitter.

Para hacer web scraping en Twitter, vamos a utilizar la librer√≠a tweepy. Esta cuenta con diferentes funciones que nos permiten obtener informaci√≥n de las cuentas y sobre los tweets m√°s recientes. Durante la realizaci√≥n de la PAC, vamos a utilizar b√°sicamente dos funciones: API.user_timeline() y API.get_user(). En la p√°gina web de la librer√≠a (https://tweepy.readthedocs.io/en/latest/api.html#tweepy-api-twitter-api-wrapper) encontrar√©is informaci√≥n relativa a las prestaciones de la misma. Os recomendamos que la revis√©is para conocer m√°s detalles.

Antes de empezar con el ejercicio pr√°ctico, vamos a trabajar un ejemplo que nos permitir√° familiarizarnos con la librer√≠a y con las funciones que se precisar√°n utilizar para resolver el ejercicio. En el siguiente ejemplo, por tanto, vamos a obtener las caracter√≠sticas relativas a una cuenta de twitter, concretamente la de la UOC (@UOCuniversitat), y la fecha de su tweet m√°s reciente.

En primer lugar, tenemos que definir las librer√≠as y las claves de acceso (*consumer_key, consumer_secret, access_token, access_token_secret*) a la API de Twitter. 

In [None]:
# Definici√≥n librer√≠as
!pip install tweepy
import tweepy
from tweepy import API

In [None]:
# Definir claves de acceso
consumer_key = '################################'
consumer_secret = '################################'
access_token = '################################'
access_token_secret = '################################'

A continuaci√≥n, estableceremos la conexi√≥n a la API:

In [None]:
# Importamos
from tweepy import OAuthHandler

In [None]:
# Definir la autentificaci√≥n y establecer la conexi√≥n
auth = OAuthHandler(consumer_key, consumer_secret)
auth.set_access_token(access_token, access_token_secret)
            
auth_api = API(auth)

Ahora, vamos a conocer los detalles de la cuenta @UOCuniversitat. Los campos que nos interesan son el nombre ('name'), la ubicaci√≥n ('location'), el n√∫mero de seguidores ('followers_count'), el n√∫mero de amigos o seguidos ('friends_count') y cu√°ndo se cre√≥ la cuenta ('created_at'). 




In [None]:
detalles_cuenta_UOC = auth_api.get_user(screen_name='UOCuniversitat')
detalles_cuenta_UOC

In [None]:
detalles_cuenta_UOC 

User(_api=<tweepy.api.API object at 0x7f97ad5923c8>, _json={'id': 14919552, 'id_str': '14919552', 'name': 'UOCuniversitat', 'screen_name': 'UOCuniversitat', 'location': 'Barcelona', 'profile_location': None, 'description': "Twitter oficial en catal√† de la Universitat Oberta de Catalunya. En espa√±ol: @UOCuniversidad. Servei d'atenci√≥: @UOCrespon.", 'url': 'https://t.co/Kz3lA2EQdz', 'entities': {'url': {'urls': [{'url': 'https://t.co/Kz3lA2EQdz', 'expanded_url': 'http://25.uoc.edu', 'display_url': '25.uoc.edu', 'indices': [0, 23]}]}, 'description': {'urls': []}}, 'protected': False, 'followers_count': 36917, 'friends_count': 2794, 'listed_count': 1091, 'created_at': 'Tue May 27 11:19:19 +0000 2008', 'favourites_count': 2802, 'utc_offset': None, 'time_zone': None, 'geo_enabled': True, 'verified': False, 'statuses_count': 26753, 'lang': None, 'status': {'created_at': 'Wed Oct 21 20:23:50 +0000 2020', 'id': 1319011535847641091, 'id_str': '1319011535847641091', 'text': 'RT @JosepMVilalta:

Despu√©s de observar qu√© forma tiene la respuesta recibida, para obtener y organizar la informaci√≥n de inter√©s tendremos que ejecutar las siguientes lineas de c√≥digo:

In [None]:
dict_uoc={'UOCuniversitat': {'nombre': detalles_cuenta_UOC.name,
                             'ubicacion': detalles_cuenta_UOC.location,
                             'seguidores':detalles_cuenta_UOC.followers_count,
                             'seguidos':detalles_cuenta_UOC.friends_count,
                             'fecha_creacion':str(detalles_cuenta_UOC.created_at)}
}
dict_uoc

{'UOCuniversitat': {'fecha_creacion': '2008-05-27 11:19:19',
  'nombre': 'UOCuniversitat',
  'seguidores': 36917,
  'seguidos': 2794,
  'ubicacion': 'Barcelona'}}

Ahora vamos a obtener la fecha del √∫ltimo tweet de la cuenta @UOCuniversitat:

In [None]:
tweets_uoc=auth_api.user_timeline(screen_name='UOCuniversitat')

In [None]:
fechas=[]

for tweet in tweets_uoc:
  fechas.append(tweet.created_at)

print('El Tweet m√°s reciente tiene fecha de: ', max(fechas))

2020-10-21 20:23:50
2020-10-21 17:15:17
2020-10-21 16:30:52
2020-10-21 16:04:36
2020-10-21 15:43:08
2020-10-21 15:40:49
2020-10-21 15:36:23
2020-10-21 15:25:12
2020-10-21 15:24:40
2020-10-21 15:24:03
2020-10-21 15:22:57
2020-10-21 15:15:10
2020-10-21 15:10:12
2020-10-21 15:03:21
2020-10-21 14:45:41
2020-10-21 14:20:24
2020-10-21 14:20:14
2020-10-21 14:17:21
2020-10-21 14:15:28
2020-10-21 14:09:31
El Tweet m√°s reciente tiene fecha de:  2020-10-21 20:23:50


In [None]:
len(tweets_uoc)

20

**Observaciones:**

- Por defecto, la funci√≥n *user_timeline()* devuelve 20 instancias.
- El nombre de usuario debe indicarse sin el s√≠mbolo '@'
- La forma de la respuesta que devuelve la funci√≥n *user_timeline()* √©s la siguiente:


In [None]:
tweets_uoc[0]

Status(_api=<tweepy.api.API object at 0x7f97ad5923c8>, _json={'created_at': 'Wed Oct 21 20:23:50 +0000 2020', 'id': 1319011535847641091, 'id_str': '1319011535847641091', 'text': 'RT @JosepMVilalta: Excel¬∑lent xerrada de Sanjay Sarma, no us la perdeu! Enhorabona @UOCuniversitat https://t.co/jlvz4NfACa', 'truncated': False, 'entities': {'hashtags': [], 'symbols': [], 'user_mentions': [{'screen_name': 'JosepMVilalta', 'name': 'Josep M. Pep Vilalta', 'id': 1076441989, 'id_str': '1076441989', 'indices': [3, 17]}, {'screen_name': 'UOCuniversitat', 'name': 'UOCuniversitat', 'id': 14919552, 'id_str': '14919552', 'indices': [83, 98]}], 'urls': [{'url': 'https://t.co/jlvz4NfACa', 'expanded_url': 'https://twitter.com/uocuniversitat/status/1318930882598752259', 'display_url': 'twitter.com/uocuniversitat‚Ä¶', 'indices': [99, 122]}]}, 'source': '<a href="https://www.hootsuite.com" rel="nofollow">Hootsuite Inc.</a>', 'in_reply_to_status_id': None, 'in_reply_to_status_id_str': None, 'in_reply_to_user

> Si nos fijamos, se puede conocer si el tweet contiene alg√∫n hashtag obteniendo el contenido de _.entities ['hashtag']_

### **Ejercicio pr√°ctico 1 (Twitter)** 

En este ejercicio se pide que se obtenga informaci√≥n de las cuentas de Twiteer de los 20 perfiles que en 2021 fueron considerados los m√°s influyentes en Twitter segun Brandwatch, informaci√≥n disponible en la siguiente p√°gina web https://www.thetealmango.com/featured/top-50-most-influential-people-on-twitter/. (En esta p√°gina se muestran 50, pero nos quedaremos con los top20).

Para su consecuci√≥n, este ejercicio se divide en tres partes: La primera relativa a la obtenci√≥n de las cuentas que vamos a inverstigar; la segunda relativa a la obtenci√≥n de informaci√≥n de estas cuentas en Twitter y la tercera relativa a la obtenci√≥n de Hashtags (tendencias) entre estos usuarios.

**PARTE 1:** Web Scraping de https://www.thetealmango.com/featured/top-50-most-influential-people-on-twitter/ para obtener los usuarios.

- El objetivo es scrapear el nombre de los usuarios m√°s influyentes en Twitter durante el 2021. Para ello, se recomienda que se utilize la librer√≠a _BeautifulSoap_ y se siga el proceso de web scraping de forma an√°loga a como se realiz√≥ en la PEC anterior. Una vez obtenidos los usuarios (estos se corresponden con los valores de la columna 'Handle' de la tabla), crear una lista que contenga los usuarios top20 (los 20 primeros usuarios de la lista), la cual ser√° utilizada en la siguiente parte. A los nombre de usuarios hay que eliminar el simbolo '@' para poder ser utilizados en la parte 2.

**PARTE 2:** Web Scraping en Twitter para obtener la informaci√≥n de las cuentas de los 20 usuarios obtenidos en la parte anterior y la informaci√≥n de sus 20 √∫ltimos tweets. En este caso, se utilizar√° la librer√≠a vista en el ejemplo anterior (_tweepy_)

- La informaci√≥n que se solicita conocer de cada una de las 20 cuentas es la siguiente: nombre ('name'), usuario ('screen_name'), ubicaci√≥n ('location'), fecha de creaci√≥n de la cuenta ('created_at'), n√∫mero de seguidores ('followers_count'), n√∫mero de amigos o seguidos ('friends_count').

- Una vez obtenidos los datos, estos deberan ser organizados en un dataframe, de forma que cada columna sea un campo de los anteriores y cada fila haga referencia a cada uno de los usuarios. 

- Cuando est√© creado el dataframe, ordenarlo por n√∫mero de seguidores, de forma qeu podamos ver en la primera fila la cuenta con mayor n√∫mero de seguidores.

**PARTE 3:** En esa √∫ltima parte obtendremos los 20 √∫ltimos tweets de los usuarios de la parte anterior para analizar si han mencionado los mismos Hashtags.

- De los usuarios, cargar los 20 √∫ltimos tweets y obtener una lista que contenga todos los **hastags** que han aparecido en alguno de estos tweets de cada cuenta de usuario considerada. 

- Una vez obtenida esta informaci√≥n, podemos organizarla en forma de diccionario d√≥nde una columna sea el nombre de usuario y la otra la lista separada por comas de los hashtags obtenidos en cada usuario; o en forma de diccionario, donde el valor de la clave sea el nobre de usuario y el valor una lista con los diferentes hashtags encontrados por usuario. 

- Finalmente vamos a analizar por cada Hashtag, qu√© cuenta lo hamencionado. Con esa informaci√≥n, vamos a mostrar qu√© Hashtag(s) ha(n) sido mencionado(s) por m√°s de un usuario (en caso de que los haya).

> **NOTA:** En la parte 2, tanto para obtener la informaci√≥n relativa de las cuentas como la de los tweets, se recomienda hacer un bucle en el que en cada iteraci√≥n se obtenga la informaci√≥n de cada usuario. Adem√°s, al final de cada iteraci√≥n, antes de pasar a la siguiente, se aconseja esperar 4 segundos. Para ello, se puede utilizar la funcion time.sleep(4) de la librer√≠a times.

In [None]:
# Cargar librer√≠as
import requests
from bs4 import BeautifulSoup
import pandas as pd

**PARTE 1**

In [None]:
# Obtener contenido del documento html relativo al nombre de usuario de las cuentas Twitter  (lista_usuarios)
url_base='https://www.thetealmango.com/featured/top-50-most-influential-people-on-twitter/'

# Hacer la solicitud
#TODO

# Extraer el HTML
#TODO

# Convertir HTML a BeautifulSoup object. 
#TODO

# Exportiar el HTML a un archivo
#TODO


In [None]:
# Obtener valores tabla
#TODO


In [None]:
# Mostrar valores 
#TODO


In [None]:
# Obtener 20 primeros
#TODO


In [None]:
# Imprimir lista de usuarios
#TODO

**PARTE 2**

In [None]:
# Cargar librer√≠as
import tweepy
from tweepy import OAuthHandler
from tweepy import API

In [None]:
# Definir claves de acceso
consumer_key = #TODO
consumer_secret = #TODO
access_token = #TODO
access_token_secret = #TODO

In [None]:
#Definir la autentificaci√≥n y establecer la conexi√≥n
#TODO


In [None]:
# Obtener detalles/ informaci√≥n de cada una las 20 cuentas de usuario (lista_usuarios)
#TODO


In [None]:
# Mostramos la informaci√≥n
#TODO


In [None]:
# Organizar dataframe relativo a los detalles de las cuentas (df_detalles_cuentas)
#TODO


In [None]:
# Visualizar dataframe
#TODO


In [None]:
# Ordenar el dataframe y visualizar 
#TODO


**PARTE 3**

In [None]:
# Obtener informaci√≥n 20 √∫ltimos Tweets de cada una las 20 cuentas de usuario (lista_usuarios)
#TODO


In [None]:
# Mostrar dataframe/diccionario relativo a los tweets de las cuentas
#TODO


In [None]:
# Hacemos la inversa: diccionario d√≥nde cada Key sea un Hashtag y por valores las cuentas que lo han mencionado
#TODO


In [None]:
# Mostramos los Hashtags mencionados por m√°s de una cuenta (en caso de que los haya)
#TODO


**Q: ¬øHay alg√∫n hashtag que se repite en m√°s de una cuenta? Si es el caso, ¬øen c√∫antas cuentas se repite?** 
  

_Respuesta:_