# PEC 3 - Web Scraping Streaming

En esta PEC vamos a **continuar trabajando el web scraping**. Vamos a prestar principal atención al web scraping en streaming que és el objetivo del reto. Además, continuaremos explorando otras librerías que nos permiten hacer web scraping, como request-html y SerpApi.

Por tanto, la PEC se va a dividir en **3 PARTES**: Web Scraping en Streaming, Web Scraping con Requests-html y, Web Scraping con SerpApi.


Mencionar que, en algunos ejercicios se va a motivar el uso de los selectores CSS y los XPath. 
**Los selectores CSS y XPath** son expresiones que permiten seleccionar elementos de un documento HTML basados en sus clases o en la ubicación dentro del contenido. 
Una referencia interesante de los mismos la podéis encontrar en las siguientes dos páginas web: https://www.w3schools.com/xml/xpath_syntax.asp, https://www.w3schools.com/cssref/css_selectors.asp 




_Ejemplo:_



*   _p.intro.rellevant_: seleccionaría los elementos _párrafo_ con valores de classe iguales a 'intro' y 'rellevant'.  
*   _div > p_ : selecciona todos los elementos _\<p>_ donde el padre sea un elemento \<div>.




## Parte 1. Web Scraping (Streaming)

El Web scraping en streaming consiste básicamente en extraer datos de la web cuando estos datos cambian en tiempo real. Un claro ejemplo sería la extracción de datos procedentes de redes sociales.

Para trabajar esta parte vamos a extraer datos de la red social Twitter. Para ello, vamos a utilizar la API  de Twitter. Esta API necesita registrarse y acceder con una clave (Api KEY).

El primer paso, por tanto, es acceder al centro de desarrolladores de aplicaciones de Twitter (https://apps.twitter.com). Aquí deberéis entrar con vuestra cuenta twitter. En caso de no tener cuenta, previamente se recomienda que os creeis una para la realización de la PAC y que después de entregar la PAC, si no la queréis conservar, la eliminéis.

**Los pasos que debéis seguir para registraros, se han detallado en el anexo del documento del enunciado de la PAC.**

Una vez registrados y haber solicitado las credenciales, cuando recibamos la aprobación y tengamos acceso a nuestras claves, podemos empezar a obtener información disponible de Twitter. 

Para hacer web scraping en Twitter, vamos a utilizar la librería **tweepy**. Esta cuenta con diferentes funciones que nos permiten obtener información de las cuentas y sobre los tweets más recientes. Durante la realización de la PAC, vamos a utilizar básicamente dos funciones: API.user_timeline() y API.get_user(). 
En la página web de la librería
(https://tweepy.readthedocs.io/en/latest/api.html#tweepy-api-twitter-api-wrapper) encontraréis información relativa a las prestaciones de la misma. Os recomendamos que la reviséis para conocer más detalles.

Antes de empezar con el ejercicio práctico, vamos a trabajar un ejemplo que nos permitirá familiarizarnos con la librería y con las funciones que se precisarán utilizar para resolver el ejercicio. En el siguiente ejemplo, por tanto, vamos a obtener las características relativas a una cuenta de twitter, concretamente la de la UOC (@UOCuniversitat), y la fecha de su tweet más reciente. 

En primer lugar, tenemos que definir las librerías y las claves de acceso (consumer_key, consumer_secret, access_token, access_token_secret) a la API de Twitter.

In [58]:
# Definición librerías
!pip install tweepy
import tweepy
from tweepy import API

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


In [59]:
# Definimos las claves de acceso
consumer_key = 'mrGMWjWNsHw6av37kVNiFwOYJ'
consumer_secret = 'wzZViYcrY4wvcQiL61O5x7gA9BgHmj3RMEP09S4nCf8lqpv7dJ'
access_token = '339916718-tNyzsXBfrkMBz393jBs5zPnulM4zEwe5g80bNalD'
access_token_secret = '6IiTjKfotAf67V6dCt19XWWWr1dagYTUJw1GHXuexQHGx'

In [60]:
# Importamos 
from tweepy import OAuthHandler

In [61]:
# Definimos la autentificación y establecemos la conexión
auth = OAuthHandler(consumer_key, consumer_secret)

auth.set_access_token(access_token, access_token_secret)
            
auth_api = API(auth)

Ahora, vamos a conocer los detalles de la cuenta @UOCuniversitat. Los campos que nos interesan son el nombre ('name'), la ubicación ('location'), el número de seguidores ('followers_count'), el número de seguidos ('friends_count') y cuándo se creó la cuenta ('created_at'). 




In [62]:
detalles_cuenta_UOC = auth_api.get_user(screen_name='UOCuniversitat')
detalles_cuenta_UOC

User(_api=<tweepy.api.API object at 0x7f515264c3a0>, _json={'id': 14919552, 'id_str': '14919552', 'name': 'UOCuniversitat', 'screen_name': 'UOCuniversitat', 'location': 'Barcelona', 'profile_location': None, 'description': "Twitter oficial en català de la Universitat Oberta de Catalunya | En español: @UOCuniversidad. In English: @UOCuniversity. Servei d'atenció: @UOCrespon", 'url': 'https://t.co/WXpA343hxs', 'entities': {'url': {'urls': [{'url': 'https://t.co/WXpA343hxs', 'expanded_url': 'https://www.uoc.edu/portal/ca/index.html', 'display_url': 'uoc.edu/portal/ca/inde…', 'indices': [0, 23]}]}, 'description': {'urls': []}}, 'protected': False, 'followers_count': 40163, 'friends_count': 2784, 'listed_count': 1091, 'created_at': 'Tue May 27 11:19:19 +0000 2008', 'favourites_count': 4322, 'utc_offset': None, 'time_zone': None, 'geo_enabled': True, 'verified': False, 'statuses_count': 31983, 'lang': None, 'status': {'created_at': 'Tue Apr 25 11:15:14 +0000 2023', 'id': 1650820759072145408,

Después de observar qué forma tiene la respuesta recibida, para obtener y organizar la información de interés tendremos que ejecutar las siguientes lineas de código:

In [63]:
dict_uoc={'UOCuniversitat': {'nombre': detalles_cuenta_UOC.name,
                             'ubicacion': detalles_cuenta_UOC.location,
                             'seguidores':detalles_cuenta_UOC.followers_count,
                             'seguidos':detalles_cuenta_UOC.friends_count,
                             'fecha_creacion':str(detalles_cuenta_UOC.created_at)}
}
dict_uoc

{'UOCuniversitat': {'nombre': 'UOCuniversitat',
  'ubicacion': 'Barcelona',
  'seguidores': 40163,
  'seguidos': 2784,
  'fecha_creacion': '2008-05-27 11:19:19+00:00'}}

Ahora vamos a obtener la fecha del último tweet de la cuenta @UOCuniversitat:

In [64]:
tweets_uoc=auth_api.user_timeline(screen_name='UOCuniversitat')

In [65]:
fechas=[]

for tweet in tweets_uoc:
    fechas.append(tweet.created_at)

print('El Tweet más reciente tiene fecha de: ', max(fechas))

El Tweet más reciente tiene fecha de:  2023-04-25 11:15:14+00:00


In [66]:
len(tweets_uoc)

20

**Observaciones:**

- Por defecto, la función *user_timeline()* devuelve 20 instancias.
- El nombre de usuario debe indicarse sin el símbolo '@'
- La forma de la respuesta que devuelve la función *user_timeline()* és la siguiente:


In [67]:
tweets_uoc[0]

Status(_api=<tweepy.api.API object at 0x7f515264c3a0>, _json={'created_at': 'Tue Apr 25 11:15:14 +0000 2023', 'id': 1650820759072145408, 'id_str': '1650820759072145408', 'text': '👩\u200d🏫 L\'espai té una gran influència en l\'aprenentatge, per això se\'l coneix com el "tercer mestre".\n\n💻 Quin paper te… https://t.co/6XTmfjWnFU', 'truncated': True, 'entities': {'hashtags': [], 'symbols': [], 'user_mentions': [], 'urls': [{'url': 'https://t.co/6XTmfjWnFU', 'expanded_url': 'https://twitter.com/i/web/status/1650820759072145408', 'display_url': 'twitter.com/i/web/status/1…', 'indices': [117, 140]}]}, 'source': '<a href="https://www.hootsuite.com" rel="nofollow">Hootsuite Inc.</a>', 'in_reply_to_status_id': None, 'in_reply_to_status_id_str': None, 'in_reply_to_user_id': None, 'in_reply_to_user_id_str': None, 'in_reply_to_screen_name': None, 'user': {'id': 14919552, 'id_str': '14919552', 'name': 'UOCuniversitat', 'screen_name': 'UOCuniversitat', 'location': 'Barcelona', 'description': "Twitt

> Si nos fijamos, se puede conocer si el tweet contiene algún hashtag obteniendo el contenido de _.entities ['hashtag']_

### **Ejercicio práctico 1 (Twitter)** 

En este ejercicio se pide que se obtenga información de las cuentas de Twitter de los 50 artistas musicales que en 2019 fueron considerados los más influyentes en Twitter segun Brandwatch, información disponible en la siguiente página web https://www.brandwatch.com/es/blog/50-musicos-influyentes-twitter/.

Para su consecución, este ejercicio se va a dividir en tres partes: La primera relativa a la obtención de las cuentas que vamos a inverstigar; la segunda relativa a la obtención de información de estas cuentas en Twitter; y la tercera relativa al análisis de twits.


**PARTE 1:** Web Scraping de https://www.brandwatch.com/es/blog/50-musicos-influyentes-twitter/ para obtener los usuarios.

- Scrapear el nombre de los artistas más influyentes en Twitter durante el 2019. Para ello, se recomienda que se utilize la librería _BeautifulSoap_ y se siga el proceso de web scraping de forma análoga a como se realizó en la PEC anterior. Se pide un DataFrame de 4 columnas análogo a la tabla en la web: la clasificación, el usuario (¡sin la @ inicial!), los seguidores (¡en formato int!) y los géneros. Mostrar el DataFrame ordenado por seguidores.

**PARTE 2:** Web Scraping en Twitter para obtener la información de las cuentas de los 50 usuarios obtenidos en la parte anterior. En este caso, se utilizará la librería vista en el ejemplo anterior (_tweepy_)

- La información que se solicita conocer de cada una de las 50 cuentas es la siguiente: nombre ('name'), usuario ('screen_name'), ubicación ('location'), fecha de creación de la cuenta ('created_at'), número de seguidores ('followers_count'), número de amigos o seguidos ('friends_count').

- Una vez obtenidos los datos, estos deberan ser organizados en un dataframe, de forma que cada columna sea un campo de los anteriores y cada fila haga referencia a cada uno de los usuarios. Mostrar el dataframe.

- Cuando esté creado el dataframe, ordenarlo por número de seguidores, de forma qeu podamos ver en la primera fila la cuenta con mayor número de seguidores. Mostrar el resultado.

- Añadir al dataframe el número de seguidores screapeado en la Parte 1 y añadir otra columna (seguidores_ganados) que sea la diferencia entre el número de usuarios actual de Twiter y el reportado en la tabla de Brandwatch.

**PARTE 3:** En esa última parte obtendremos los 20 últimos tweets de los usuarios de la parte anterior para analizar si han mencionado los mismos Hashtags.

- Del Dataframe anterior, sacaremos los usuarios que han perdido seguidores y nos quedaremos solo con quién ha ganado seguidores en el periodo 2019-2023. ¿Cuántos usuarios hemos perdido?

- De los usuarios que han ganado seguidores, cargar los 20 últimos tweets y obtener una lista que contenga todos los **hastags** que han aparecido en alguno de estos tweets de cada cuenta de usuario considerada. Para realizar esta parte habrá que añadir el @ inicial a los usuarios.

- Una vez obtenida esta información, podemos organizarla en forma de DataFrame dónde una columna sea el nombre de usuario y la otra una lista de los hashtags citados por cada usuario; o en forma de diccionario, donde el valor de la clave sea el nobre de usuario y el valor una lista con los diferentes hashtags citados por el usuario. 

- Finalmente vamos a analizar por cada Hashtag, qué cuenta lo ha mencionado. Con esa información, vamos a mostrar qué Hashtag(s) ha(n) sido mencionado(s) por más de un usuario (en caso de que los haya - esto va a depender del momento de realización de la PEC y de qué hashtags usen los usuarios estudiados).

> **NOTA:** En la parte 2, tanto para obtener la información relativa de las cuentas como la de los tweets, se recomienda hacer un bucle en el que en cada iteración se obtenga la información de cada usuario. Además, al final de cada iteración, antes de pasar a la siguiente, se aconseja esperar 4 segundos. Para ello, se puede utilizar la funcion time.sleep(4) de la librería times.

**PARTE 1**

In [86]:
# Cargar librerías
# ToDo

import requests

from bs4 import BeautifulSoup

In [87]:
# Creados por el estudiante, no funcionantes:

#my_consumer key: 'sIzI70nbCX99bjIKrrs9xhpRw' 
#my_consumer secret: 'PeS8DFL3F5O4xDbF3BDVe6DorJuwMH6AuxBldoEZhXJHGjynir'

In [88]:
# Creados por el estudiante, no funcionantes:

#my_access_token = '1647223725895327744-NbqfljQiYkDZCukROhPbvuGP092FqJ'
# my_access_token_secret = 'uu9JrP46kUELGSnmtBtDiBGKcK05VkDxOcGVWWLKmvM0Y'

In [89]:


url_base = 'https://www.brandwatch.com/es/blog/50-musicos-influyentes-twitter/'

respuesta = requests.get(url_base)

respuesta.status_code

200

In [90]:
html = respuesta.content

soup = BeautifulSoup(html,"html.parser")

# Exportiar el HTML a un archivo
with open('brandwatch.html', 'wb') as file:
    file.write(soup.prettify('utf-8'))

In [91]:
#obtener columnas

td = soup.find_all('td')


clas = [str(i).replace('<td>',"").replace('</td>','') for i in td[::5]]
user = [str(i).replace('<td>',"").replace('</td>','') for i in td[1::5]]
score = [str(i).replace('<td>',"").replace('</td>','') for i in td[2::5]]
folow = [str(i).replace('<td>',"").replace('</td>','') for i in td[3::5]]
gener = [str(i).replace('<td>',"").replace('</td>','') for i in td[4::5]]

In [92]:
# Mostrar DataFrame
# ToDo
import pandas as pd

df_50 = pd.DataFrame()
df_50["Clasificacion"] = [int(i) for i in clas]
df_50["Usuario"] = [i.replace('@','') for i in user]
#df_50["Puntuacion_influencia"] = score
df_50["Seguidores"] = [int(i.replace(' ','')) for i in folow]
df_50["Generos"] = gener

df_50 = df_50.sort_values(by='Seguidores',ascending=False)
df_50.reset_index(drop=True, inplace=True)
df_50

Unnamed: 0,Clasificacion,Usuario,Seguidores,Generos
0,3,katyperry,107993714,"Pop, rock"
1,4,justinbieber,105115369,"Pop, R&amp;B"
2,5,rihanna,89880874,"R&amp;B, hip hop, dance, reggae"
3,1,taylorswift13,83272023,"Pop, country"
4,6,ladygaga,78130488,"Pop, dance, electronic, jazz"
5,12,jtimberlake,64873878,Pop
6,33,ArianaGrande,61199922,"Pop, R&amp;B"
7,7,selenagomez,57187099,"Pop, dance, electronic"
8,24,britneyspears,56509842,"Pop, dance"
9,8,shakira,51004563,"Pop, dance, latin"


**PARTE 2**

In [93]:
# Cargar librerías
# ToDo
!pip install tweepy
import tweepy
from tweepy import API

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


In [94]:
consumer_key = 'mrGMWjWNsHw6av37kVNiFwOYJ'
consumer_secret = 'wzZViYcrY4wvcQiL61O5x7gA9BgHmj3RMEP09S4nCf8lqpv7dJ'
access_token = '339916718-tNyzsXBfrkMBz393jBs5zPnulM4zEwe5g80bNalD'
access_token_secret = '6IiTjKfotAf67V6dCt19XWWWr1dagYTUJw1GHXuexQHGx'

In [95]:
# ToDo
from tweepy import OAuthHandler

auth = OAuthHandler(consumer_key,consumer_secret)
auth.set_access_token(access_token,access_token_secret)

auth_api = API(auth)


In [96]:
#La información que se solicita conocer de cada una de las 50 cuentas
lst1 = [i for i in df_50['Usuario']]


lst_name = []
lst_user = []
lst_ubic = []
lst_fecha = []
lst_seguid = []
lst_amigos = []

for i in lst1:
  try:
    lst_name.append(auth_api.get_user(screen_name = i).name)
    lst_user.append(auth_api.get_user(screen_name = i).screen_name)
    lst_ubic.append(auth_api.get_user(screen_name = i).location)
    lst_fecha.append(auth_api.get_user(screen_name = i).created_at)
    lst_seguid.append(auth_api.get_user(screen_name = i).followers_count)
    lst_amigos.append(auth_api.get_user(screen_name = i).friends_count)
  except:
    continue




In [97]:
# Mostrar DataFrame
# ToDo

df_tweet_50  = pd.DataFrame()

df_tweet_50['name'] = lst_name
df_tweet_50['Usuario'] = lst_user
df_tweet_50['location'] = lst_ubic
df_tweet_50['created_at'] = lst_fecha
df_tweet_50['followers_count'] = [int(i) for i in lst_seguid]
df_tweet_50['friends_count'] = lst_amigos


In [98]:
# Ordenar y Mostrar DataFrame
# ToDo
df_tweet_50 = df_tweet_50.sort_values(by='followers_count',ascending=False).reset_index(drop=True)
df_tweet_50.head()

Unnamed: 0,name,Usuario,location,created_at,followers_count,friends_count
0,Justin Bieber,justinbieber,The 6,2009-03-28 16:41:22+00:00,112988983,279247
1,Rihanna,rihanna,,2009-10-02 21:37:33+00:00,108312668,979
2,KATY PERRY,katyperry,,2009-02-20 23:45:56+00:00,108145809,242
3,Taylor Swift,taylorswift13,,2008-12-06 10:10:54+00:00,92578245,0
4,Lady Gaga,ladygaga,,2008-03-26 22:37:48+00:00,84633312,115575


In [99]:
# Calcular diferencia de seguidores y Mostrar DataFrame
# ToDo

df_tweet_50 = df_tweet_50.merge(df_50, how='outer',on = 'Usuario')

df_tweet_50 = df_tweet_50[["name",	"Usuario",	"location",	"created_at",	"friends_count","followers_count" , "Seguidores"	]]
df_tweet_50.rename(columns = {'Seguidores':'followers_count_old'}, inplace = True)
df_tweet_50['followers_count_difference'] = df_tweet_50['followers_count'] - df_tweet_50['followers_count_old']

df_tweet_50.head()

Unnamed: 0,name,Usuario,location,created_at,friends_count,followers_count,followers_count_old,followers_count_difference
0,Justin Bieber,justinbieber,The 6,2009-03-28 16:41:22+00:00,279247.0,112988983.0,105115369.0,7873614.0
1,Rihanna,rihanna,,2009-10-02 21:37:33+00:00,979.0,108312668.0,89880874.0,18431794.0
2,KATY PERRY,katyperry,,2009-02-20 23:45:56+00:00,242.0,108145809.0,107993714.0,152095.0
3,Taylor Swift,taylorswift13,,2008-12-06 10:10:54+00:00,0.0,92578245.0,83272023.0,9306222.0
4,Lady Gaga,ladygaga,,2008-03-26 22:37:48+00:00,115575.0,84633312.0,78130488.0,6502824.0


**PARTE 3**

In [100]:
# Usuarios perdidos
# ToDo


print("Hemos perdido {} usuarios" .format(len(df_tweet_50[df_tweet_50["followers_count_difference"] < 0])))

df_tweet_50_plus = df_tweet_50[df_tweet_50["followers_count_difference"] > 0]

Hemos perdido 12 usuarios


In [101]:
# Mostrar dataframe/diccionario relativo a los tweets de las cuentas

lst_users = [i for i in df_tweet_50_plus.Usuario]

dic = {}

for user in lst_users:
  dic[user] = []
  tweets = auth_api.user_timeline(screen_name = user)

  for tweet in tweets:
    for hashtag in tweet.entities["hashtags"]:
      dic[user].append(hashtag["text"])

dic


{'justinbieber': ['GarenaFreeFire',
  'FF5thAnniversary',
  'FFxJB',
  '2022WeverseCon',
  '2022WeverseCon',
  '세븐틴',
  'SEVENTEEN',
  'SVT',
  'New_Era',
  'Dropping2022',
  'Weverse',
  '위버스'],
 'rihanna': ['MELTAWF',
  'HELLATHICC',
  'oscarnominee',
  'savageXfentySPORT',
  'SBLVII',
  'AppleMusicHalftime'],
 'katyperry': ['MINUTEBEFORETHESHOW',
  'idol',
  'IDOL',
  'idol',
  'idol',
  'idol',
  'MINUTEBEFORETHESHOW',
  'idol',
  'idol',
  'shoesdaytuesday',
  'WitnessTheTour',
  'idol',
  'idol',
  'idol',
  'idol',
  'idol',
  'idol'],
 'taylorswift13': [],
 'ladygaga': ['BeKind21',
  'BeKind365',
  'ArtAdvice',
  'HoldMyHand',
  'Oscars',
  'Oscars',
  'Revealed',
  'LadyGaga'],
 'selenagomez': ['DearS2',
  'VFHollywood',
  'MyMindAndMe',
  'BreakingThroughGala',
  'MyMindAndMe',
  'MyMindAndMe'],
 'shakira': ['BBMujeresLatinas',
  'FallonFlashback',
  'FallonTonight',
  'InternationalWomensDay',
  'DiaInternacionalDeLaMujer'],
 'MileyCyrus': [],
 'JLo': ['Delola',
  'HouseofDe

In [102]:
# Mostramos los Hashtags con mayor nñumero de apariciones

#count = {}
#for hashtags in dic.values():
 # for hashtag in hashtags:
  #  if hashtag in count:
   #     count[hashtag] += 1
   # else:
    #    count[hashtag] = 1
    
#df_count = pd.DataFrame(count, index = [0]).T
#df_count.sort_values(by = [0], ascending=False)

In [103]:
# Mostramos los Hashtags mencionados por más de una cuenta (en caso de que los haya)

dup = [i for i in dic.values()]


for i in range(len(dup)-1):
 duplicates = [item for item in dup[i] if item in dup[i+1]]
duplicates


print("Numero de las apariciones de los mismos hashtags por diferentes usuarios: {}".format(len(duplicates)))

Numero de las apariciones de los mismos hashtags por diferentes usuarios: 0


## Parte 2. Web Scraping con Requests-html

La librería **request- Html**  es como una combinación de la librería requests y BeautifulSoup. 

El punto más fuerte es que tiene soporte completo para JavaScript, lo que significa que puede ejecutar JavaScript y nos permite, por tanto, hacer scraping de contenido generado dinámicamente.  Por ejemplo, una aplicación muy común es acceder el contenido que está disponible en las páginas siguientes a la primera, y que cuando navegamos accedemos a él presionando el botón de la página correspondiente.  

Además, para ejecutar JavaScript, podemos usar también el método render de la librería. 

Otra particularización de esta librería es que es necesario iniciar sesión antes de empezar con el scraping del contenido HTML y cerrar sesión cuando se termine. Es decir:
 


```
request_html importar HTMLSession
session = HTMLSession
r = session.get (url_base)
r.html.render
….
session.close()

```






Además, esta librería permite seleccionar los elementos de los documentos html mediant selectores CSS y/o selectores XPath. 


La documentación de esta librería, la cual es recomendable que reviséis para trabajar esta parte, la podéis encontrar en el siguiente enlace:  

https://requests.readthedocs.io/projects/requests-html/en/latest/

Antes de empezar a trabajar con esta librería, es necesario instalarla puesto que Google Collab no la tiene instalada por defecto como ocurria con las librerias que hemos utilizado anteriormente. 

In [None]:
# Instalar libreria 
!pip install requests-html

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting requests-html
  Downloading requests_html-0.10.0-py3-none-any.whl (13 kB)
Collecting fake-useragent
  Downloading fake_useragent-1.1.3-py3-none-any.whl (50 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m50.5/50.5 kB[0m [31m2.3 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting pyppeteer>=0.0.14
  Downloading pyppeteer-1.0.2-py3-none-any.whl (83 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m83.4/83.4 kB[0m [31m4.8 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting w3lib
  Downloading w3lib-2.1.1-py3-none-any.whl (21 kB)
Collecting parse
  Downloading parse-1.19.0.tar.gz (30 kB)
  Preparing metadata (setup.py) ... [?25l[?25hdone
Collecting pyquery
  Downloading pyquery-2.0.0-py3-none-any.whl (22 kB)
Collecting bs4
  Downloading bs4-0.0.1.tar.gz (1.1 kB)
  Preparing metadata (setup.py) ... [?25l[?25hdone
Collecting pyee<9.0.0,>=8.1.0
  Do

Una vez instalada, vamos a proceder con el primer ejemplo ilustrativo que nos servirá como guia para realizar el ejercicio práctico planteado a continuación.

En este ejemplo, vamos a hacer scraping al contenido de la conocida página de noticias _Reddit_ (https://reddit.com). De ella, vamos a extraer los titulares y cuántas votaciones tiene cada noticia. Además, vamos a hacer la selección de este contenido mediante _selectores CSS_ para empezar a familiarizarnos con ellos.  

Si presetamos atención a la página, podemos ver que hay contenido que se carga de forma dinámica y/o mediante botones. Particularmente, el contenido se va cargando cuando hacemos "scrolldown", mientras que tambien podemos cargar el contenido asociado a una cuenta, mediante el boton "Sign up". Por tanto, utilizar la librería **requests_html** podría ser recomendable si se quisiera capturar el contenido html que se carga con alguna de estas opciones.

En primer lugar, vamos a cargar la librería e iniciar sesión:

In [None]:
# Cargar librería
from requests_html import HTMLSession

# Iniciar sesión
session = HTMLSession()

Ahora, hacemos la solicitud y comprobamos cuantos html tenemos en la respuesta.

In [None]:
r = session.get('http://reddit.com')
print((r.html))

<HTML url='https://www.reddit.com/?rdt=45577'>


Podemos observar que los html que devuelve es solo 1. Esto es porque el contenido que se va actualizando y añadiendo dinámicamente mediante "scrolldown" y no mediante el click de un boton de Pagina siguiente, Pagina 2, o similares. 

Ahora, después de inspeccionar la página, advertimos que el contenido relativo a los enlaces de las diferentes entradas o noticias de la página, está en la etiqueta 'a' y cuya classe es '_3ryJoIoycVkA88fy40qNJc'. Por tanto, usando selectores CSS, la instrucción que devolverá el contenidos será: *r.html.find('a._3ryJoIoycVkA88fy40qNJc')*

In [None]:
subreddit = r.html.find('a._3ryJoIoycVkA88fy40qNJc')
print(str(len(subreddit)) + ' titulares aparecen en la primera página de reddit, el resto de titulares se corresponden con el contenido después de hacer scrolldowns')

7 titulares aparecen en la primera página de reddit, el resto de titulares se corresponden con el contenido después de hacer scrolldowns


In [None]:
# Obtener las url completas de cada entrada
subreddit_url=[element.absolute_links for element in subreddit]
subreddit_url

[{'https://www.reddit.com/r/politics/'},
 {'https://www.reddit.com/r/facepalm/'},
 {'https://www.reddit.com/r/mildlyinfuriating/'},
 {'https://www.reddit.com/r/Tinder/'},
 {'https://www.reddit.com/r/nottheonion/'},
 {'https://www.reddit.com/r/HumansBeingBros/'},
 {'https://www.reddit.com/r/funny/'}]

Ahora vamos a obtener los títulos de las noticias. Este contenido se halla en la etiqueta 'h3' con classe '_eYtD2XCVieq6emjKBH3m'.

In [None]:
# Titulos
subreddit_2 = r.html.find('h3._eYtD2XCVieq6emjKBH3m')
subreddit_titulos=[element.text for element in subreddit_2]
subreddit_titulos

['Outrage as Florida Republicans pass ‘fascist’ bill to remove trans kids from parents',
 "Morningstar Investor's clear-cut research, ratings, data, and tools give you a deeper understanding of your portfolio, so your strategy holds up for whatever’s important to you. Learn more and start your free trial today.",
 'Karen goes bananas',
 'Should you be expected to clean this up for a customer?',
 'Had our first date tonight…..both drove 45 minutes to meet in the middle…..got my car locked in a parking garage….she drove me all the way home',
 "Belgian authorities destroyed 2,352 cans of American beer advertised as 'The Champagne of Beers' because it is not, in fact, Champagne",
 'Zookeeper helps raise a baby gorilla',
 "I ain't no marathon man. Apparently neither is she."]

In [None]:
# Votaciones
subreddit_3 = r.html.find('div._1rZYMD_4xY3gRcSS3p8ODO._25IkBM0rRUqWX5ZojEMAFQ')
subreddit_votaciones=[element.text for element in subreddit_3]
subreddit_votaciones

['54.4k', 'Vote', '41.1k', '27.1k', '13.8k', '44.9k', '16.4k', '102k']

Por último, cerraremos la sesión:

In [None]:
session.close()

Ahora vamos a construir el dataframe que contiene el resultado de los títulos y las voraciones. Atendiendo a los datos, el primer titular sin puntuación lo vamos a excluir porque hace referencia a un anuncio.

In [None]:
import pandas as pd

df_reddit=pd.DataFrame()
df_reddit['título']=subreddit_titulos[1:]
df_reddit['votaciones']=subreddit_votaciones[1:]
df_reddit['url']=subreddit_url

In [None]:
pd.set_option('display.max_colwidth', -1)
df_reddit

  pd.set_option('display.max_colwidth', -1)


Unnamed: 0,título,votaciones,url
0,"Morningstar Investor's clear-cut research, ratings, data, and tools give you a deeper understanding of your portfolio, so your strategy holds up for whatever’s important to you. Learn more and start your free trial today.",Vote,{https://www.reddit.com/r/politics/}
1,Karen goes bananas,41.1k,{https://www.reddit.com/r/facepalm/}
2,Should you be expected to clean this up for a customer?,27.1k,{https://www.reddit.com/r/mildlyinfuriating/}
3,Had our first date tonight…..both drove 45 minutes to meet in the middle…..got my car locked in a parking garage….she drove me all the way home,13.8k,{https://www.reddit.com/r/Tinder/}
4,"Belgian authorities destroyed 2,352 cans of American beer advertised as 'The Champagne of Beers' because it is not, in fact, Champagne",44.9k,{https://www.reddit.com/r/nottheonion/}
5,Zookeeper helps raise a baby gorilla,16.4k,{https://www.reddit.com/r/HumansBeingBros/}
6,I ain't no marathon man. Apparently neither is she.,102k,{https://www.reddit.com/r/funny/}


En este ejemplo, hemos podido scrapear el contenido inicial que aparece en la página de Reddit. No obstante, el contenido que encontramos al hacer _scrolldown_ no lo hemos podido capturar.  

Para poder capturar el resto de entradas, podemos hacer uso de la funcion *render()* de la librería *Request-html*. No obstante, para el uso de esta función es necesario iniciar una sesión en modo asincrona. Los Jupyter notebooks presentan ciertos problemas para trabajar de esta forma y requieren la instalación de _Chromium_; es por eso que en esta PEC no lo vamos a ver. A pesar de ello, a modo explicativo, se adjunta el código que se requeriría:




```
import asyncio
from requests_html import AsyncHTMLSession

asession = AsyncHTMLSession()

async def get_results():
    r = await asession.get('https://reddit.com')
    r.html.arender(scrolldown=10, sleep=1)
    return r

respuesta = asession.run(get_results)

asession.close()

```



Otro ejemplo es la obtención de información de una página que recoge los memes más relevantes en la actualidad (www.knowyourmeme.com). En esta página, a diferencia del ejemplo anterior, el contenido está organizado por páginas y se puede acceder a ellas a través de los típicos botones de páagina 1, 2, 3,... Vamos a ver, por tanto, la respuesta que nos devolvería requests-html en este caso:

In [None]:
# Cargar librería
from requests_html import HTMLSession

# Iniciar sesión
session = HTMLSession()

In [None]:
r2= session.get('https://knowyourmeme.com/')

total_pags_scrap=10
page=0
for html in r2.html:
    page+=1
    print(page, ': ' ,html)
    if page==total_pags_scrap:
        break

1 :  <HTML url='https://knowyourmeme.com/'>
2 :  <HTML url='https://knowyourmeme.com/page/2'>
3 :  <HTML url='https://knowyourmeme.com/page/3'>
4 :  <HTML url='https://knowyourmeme.com/page/4'>
5 :  <HTML url='https://knowyourmeme.com/page/5'>
6 :  <HTML url='https://knowyourmeme.com/page/6'>
7 :  <HTML url='https://knowyourmeme.com/page/7'>
8 :  <HTML url='https://knowyourmeme.com/page/8'>
9 :  <HTML url='https://knowyourmeme.com/page/9'>
10 :  <HTML url='https://knowyourmeme.com/page/10'>


In [None]:
session.close()

En este caso, la respuesta contine los html asociados a las diferentes páginas en las que está organizado el contenido. Como podéis observar, en el bucle se ha introducido un _break_. Esto es porque knowyourmeme.com ofrece la posibilidad de revisar los memes contenidos en  hasta más de 9500 páginas. Esperar a scrapear este total de páginas nos llevaría mucho más tiempo y no es el objetivo de esta PEC.

Considerando los ejemplos que se han facilitado, realizar el ejercicio práctico 3 para explorar la librería Requests-html y familiarizarse con los selectores. 

### **Ejercicio práctico 2 (Nature)**

NATURE (https://www.nature.com/) es una de las más prestigiosas revistas científicas a nivel mundial. En su página web podemos encontrar distinta información como artículos de opinión, noticias, vídeos, libros y también artículos de investigación científica. Si dentro de la pestaña _Explore content_ nos vamos a _Research articles_ podemos encontrar todos los artículos científicos que se van publicando, con opción de filtrar por tema y año, y que pueden ser consultadas a través del link que tiene el mismo título. Mencionar que solamente se puede leer el _abstract_ de los artículos ya que el acceso de los artículos enteros es un servicio de pago.

En este ejercicio vamos a hacer scraping de los artículos científicos publicados más recientemente, sin importar la temática. Esto se corresponderá en hacer scraping de la siguiente dirección web: 'https://www.nature.com/nature/research-articles'

**Parte 1.** Se solicita:

- Obtener mediante scraping y haciendo uso de selectores la siguiente información de cada publicación o referencia que aparece en el resultado de la búsqueda (es decir, en la página web 'https://www.nature.com/nature/research-articles'):

  - Título de la publicación
  - Autores de la publicación
  - URL completa de la entrada en NATURE para cada publicación
  - Fecha de publicación

- Organizar la información scrapeada en forma de dataframe (df_nature_1), de tal forma que cada punto objeto de scraping se corresponda con una columna. Es decir, las columnas serán: 'titulo', 'autores', 'url', 'fecha'.

Haciendo scraping de la dirección web facilitada, hemos obtenido información de los resultados que se facilitan en la primera página de resultados. No obstante, si exploramos Nature podemos ver que hay muchas más páginas con resultados de la búsqueda realizada. 

**Parte 2.** Se solicita: 
- Obtener un dataframe (df_pnature_2) como el obtenido del punto anterior, pero que contenga la información de las siguientes 4 páginas de resultados (páginas 2 a 10). Para ello, se debe explorar y observar cómo cambia la url objeto de scraping cuando vamos pasando de páginas. Tras haber observado la morfología de la url, plantear un bucle (similar al proceso realizado en el ejercicio 3) que consiga realizar el el proceso de scraping planteado en el primer punto de este ejercicio para las 4 siguientes páginas de resultados. 

In [1]:
# Instalar libreria

!pip install requests-html

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting requests-html
  Downloading requests_html-0.10.0-py3-none-any.whl (13 kB)
Collecting pyppeteer>=0.0.14
  Downloading pyppeteer-1.0.2-py3-none-any.whl (83 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m83.4/83.4 kB[0m [31m1.3 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting w3lib
  Downloading w3lib-2.1.1-py3-none-any.whl (21 kB)
Collecting fake-useragent
  Downloading fake_useragent-1.1.3-py3-none-any.whl (50 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m50.5/50.5 kB[0m [31m1.6 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting pyquery
  Downloading pyquery-2.0.0-py3-none-any.whl (22 kB)
Collecting parse
  Downloading parse-1.19.0.tar.gz (30 kB)
  Preparing metadata (setup.py) ... [?25l[?25hdone
Collecting bs4
  Downloading bs4-0.0.1.tar.gz (1.1 kB)
  Preparing metadata (setup.py) ... [?25l[?25hdone
Collecting pyee<9.0.0,>=8.1.0
  Do

In [2]:
# Cargar librería e iniciar sesión
# ToDo


from requests_html import HTMLSession

session = HTMLSession()

**Parte 1**

In [3]:
# Abrimos sesión y mostramos los datos
# ToDo
r3 = session.get('https://www.nature.com/nature/research-articles')

In [4]:
# Obtener titulo
# ToDo
subnature = r3.html.find('h3.c-card__title')
nature_title = [title.text for title in subnature]
nature_title

['Bipolar impact and phasing of Heinrich-type climate variability',
 'Strain-promoted reactions of 1,2,3-cyclohexatriene and its derivatives',
 'Insufficient evidence for non-neutrality of synonymous mutations',
 'Ultrafiltration separation of Am(VI)-polyoxometalate from lanthanides',
 'Depolymerization of plastics by means of electrified spatiotemporal heating',
 'The Smc5/6 complex is a DNA loop-extruding motor',
 'Quantum critical dynamics in a 5,000-qubit programmable spin glass',
 'A 3D printable alloy designed for extreme environments',
 'Lesion recognition by XPC, TFIIH and XPA in DNA excision repair',
 'CTCF is a DNA-tension-dependent barrier to cohesin-mediated loop extrusion',
 'COVID-19 amplified racial disparities in the US criminal legal system',
 'PI3Kβ controls immune evasion in PTEN-deficient breast tumours',
 'A somato-cognitive action network alternates with effector regions in motor cortex',
 'Export of defensive glucosinolates is key for their accumulation in seeds'

In [5]:
# Obtener Autores
# ToDo
subnature_1 = r3.html.find('ul.c-author-list--compact')
nature_autor = [autor.text.replace("\n",", ") for autor in subnature_1]
nature_autor

['Kaden C. Martin, Christo Buizert, Todd A. Sowers',
 'Andrew V. Kelleghan, Ana S. Bulger, Neil K. Garg',
 'Leonid Kruglyak, Andreas Beyer, Craig D. Kaplan',
 'Hailong Zhang, Ao Li, Shuao Wang',
 'Qi Dong, Aditya Dilip Lele, Liangbing Hu',
 'Biswajit Pradhan, Takaharu Kanno, Eugene Kim',
 'Andrew D. King, Jack Raymond, Mohammad H. Amin',
 'Timothy M. Smith, Christopher A. Kantzos, John W. Lawson',
 'Jinseok Kim, Chia-Lung Li, Wei Yang',
 'Iain F. Davidson, Roman Barth, Jan-Michael Peters',
 'Brennan Klein, C. Brandon Ogbunugafor, Elizabeth Hinton',
 'Johann S. Bergholz, Qiwei Wang, Jean J. Zhao',
 'Evan M. Gordon, Roselyne J. Chauvin, Nico U. F. Dosenbach',
 'Deyang Xu, Niels Christian Holm Sanden, Barbara Ann Halkier',
 'C. Y. Hu, A. Achari, R. R. Nair',
 'Morgan Gaïa, Lingjie Meng, Tom O. Delmont',
 'Qi Sun, Wendy Lee, Mayumi Ito',
 'Rei Chemke, Janni Yuval',
 'Christopher Abbosh, Alexander M. Frankell, Charles Swanton',
 'Mikkel Bennedsen, Eric Hillebrand, Siem Jan Koopman']

In [6]:
# Obtener Enlaces
# ToDo
subnature_2 = r3.html.find('a.c-card__link.u-link-inherit')
nature_link = [autor.absolute_links for autor in subnature_2]
nature_link

[{'https://www.nature.com/articles/s41586-023-05875-2'},
 {'https://www.nature.com/articles/s41586-023-06075-8'},
 {'https://www.nature.com/articles/s41586-023-05865-4'},
 {'https://www.nature.com/articles/s41586-023-05840-z'},
 {'https://www.nature.com/articles/s41586-023-05845-8'},
 {'https://www.nature.com/articles/s41586-023-05963-3'},
 {'https://www.nature.com/articles/s41586-023-05867-2'},
 {'https://www.nature.com/articles/s41586-023-05893-0'},
 {'https://www.nature.com/articles/s41586-023-05959-z'},
 {'https://www.nature.com/articles/s41586-023-05961-5'},
 {'https://www.nature.com/articles/s41586-023-05980-2'},
 {'https://www.nature.com/articles/s41586-023-05940-w'},
 {'https://www.nature.com/articles/s41586-023-05964-2'},
 {'https://www.nature.com/articles/s41586-023-05969-x'},
 {'https://www.nature.com/articles/s41586-023-05849-4'},
 {'https://www.nature.com/articles/s41586-023-05962-4'},
 {'https://www.nature.com/articles/s41586-023-05960-6'},
 {'https://www.nature.com/artic

In [7]:
# Obtener Fecha
# ToDo
subnature_3 = r3.html.find('time.c-meta__item.c-meta__item--block-at-lg')
nature_date = [autor.text for autor in subnature_3]
nature_date

['24 Apr 2023',
 '19 Apr 2023',
 '19 Apr 2023',
 '19 Apr 2023',
 '19 Apr 2023',
 '19 Apr 2023',
 '19 Apr 2023',
 '19 Apr 2023',
 '19 Apr 2023',
 '19 Apr 2023',
 '19 Apr 2023',
 '19 Apr 2023',
 '19 Apr 2023',
 '19 Apr 2023',
 '19 Apr 2023',
 '19 Apr 2023',
 '19 Apr 2023',
 '17 Apr 2023',
 '13 Apr 2023',
 '12 Apr 2023']

In [8]:
# Crear dataframe con resultados y mostrar DataFrame
# ToDo  'titulo', 'autores', 'url', 'fecha'
import pandas as pd

df_nature_1 = pd.DataFrame()
df_nature_1["titulo"] = nature_title
df_nature_1["autores"] = nature_autor
df_nature_1["url"] = nature_link
df_nature_1["fecha"] = nature_date

df_nature_1

Unnamed: 0,titulo,autores,url,fecha
0,Bipolar impact and phasing of Heinrich-type cl...,"Kaden C. Martin, Christo Buizert, Todd A. Sowers",{https://www.nature.com/articles/s41586-023-05...,24 Apr 2023
1,"Strain-promoted reactions of 1,2,3-cyclohexatr...","Andrew V. Kelleghan, Ana S. Bulger, Neil K. Garg",{https://www.nature.com/articles/s41586-023-06...,19 Apr 2023
2,Insufficient evidence for non-neutrality of sy...,"Leonid Kruglyak, Andreas Beyer, Craig D. Kaplan",{https://www.nature.com/articles/s41586-023-05...,19 Apr 2023
3,Ultrafiltration separation of Am(VI)-polyoxome...,"Hailong Zhang, Ao Li, Shuao Wang",{https://www.nature.com/articles/s41586-023-05...,19 Apr 2023
4,Depolymerization of plastics by means of elect...,"Qi Dong, Aditya Dilip Lele, Liangbing Hu",{https://www.nature.com/articles/s41586-023-05...,19 Apr 2023
5,The Smc5/6 complex is a DNA loop-extruding motor,"Biswajit Pradhan, Takaharu Kanno, Eugene Kim",{https://www.nature.com/articles/s41586-023-05...,19 Apr 2023
6,"Quantum critical dynamics in a 5,000-qubit pro...","Andrew D. King, Jack Raymond, Mohammad H. Amin",{https://www.nature.com/articles/s41586-023-05...,19 Apr 2023
7,A 3D printable alloy designed for extreme envi...,"Timothy M. Smith, Christopher A. Kantzos, John...",{https://www.nature.com/articles/s41586-023-05...,19 Apr 2023
8,"Lesion recognition by XPC, TFIIH and XPA in DN...","Jinseok Kim, Chia-Lung Li, Wei Yang",{https://www.nature.com/articles/s41586-023-05...,19 Apr 2023
9,CTCF is a DNA-tension-dependent barrier to coh...,"Iain F. Davidson, Roman Barth, Jan-Michael Peters",{https://www.nature.com/articles/s41586-023-05...,19 Apr 2023


**Parte 2**

In [9]:
# Scraping 10 paginas de NATURE
# ToDo


nature_title =[]
nature_autor =[]
nature_link =[]
nature_date =[]

for i in range(1,11):

  r = session.get('https://www.nature.com/nature/research-articles?searchType=journalSearch&sort=PubDate&page='+str(i))
  subnature = r.html.find('h3.c-card__title')
  nature_title.append([title.text for title in subnature])
  subnature_1 = r.html.find('ul.c-author-list--compact')
  nature_autor.append([autor.text.replace("\n",", ") for autor in subnature_1])
  subnature_2 = r.html.find('a.c-card__link.u-link-inherit')
  nature_link.append([autor.absolute_links for autor in subnature_2])
  subnature_3 = r.html.find('time.c-meta__item.c-meta__item--block-at-lg')
  nature_date.append([autor.text for autor in subnature_3]) 


nature_title = [j for i in nature_title for j in i]
nature_autor = [j for i in nature_autor for j in i]
nature_link = [j for i in nature_link for j in i]
nature_date = [j for i in nature_date for j in i]


In [10]:
# Crear dataframe con resultados y mostrar DataFrame
# ToDo


pd.set_option('display.max_colwidth', -1)
df_nature_2 = pd.DataFrame()
df_nature_2["titulo"] = nature_title
df_nature_2["autores"] = nature_autor
df_nature_2["url"] = nature_link
df_nature_2["fecha"] = nature_date


df_nature_2

  pd.set_option('display.max_colwidth', -1)


Unnamed: 0,titulo,autores,url,fecha
0,Bipolar impact and phasing of Heinrich-type climate variability,"Kaden C. Martin, Christo Buizert, Todd A. Sowers",{https://www.nature.com/articles/s41586-023-05875-2},24 Apr 2023
1,"Strain-promoted reactions of 1,2,3-cyclohexatriene and its derivatives","Andrew V. Kelleghan, Ana S. Bulger, Neil K. Garg",{https://www.nature.com/articles/s41586-023-06075-8},19 Apr 2023
2,Insufficient evidence for non-neutrality of synonymous mutations,"Leonid Kruglyak, Andreas Beyer, Craig D. Kaplan",{https://www.nature.com/articles/s41586-023-05865-4},19 Apr 2023
3,Ultrafiltration separation of Am(VI)-polyoxometalate from lanthanides,"Hailong Zhang, Ao Li, Shuao Wang",{https://www.nature.com/articles/s41586-023-05840-z},19 Apr 2023
4,Depolymerization of plastics by means of electrified spatiotemporal heating,"Qi Dong, Aditya Dilip Lele, Liangbing Hu",{https://www.nature.com/articles/s41586-023-05845-8},19 Apr 2023
...,...,...,...,...
195,Four ways blue foods can help achieve food system ambitions across nations,"Beatrice I. Crona, Emmy Wassénius, Colette C. C. Wabnitz",{https://www.nature.com/articles/s41586-023-05737-x},22 Feb 2023
196,The evolution of the marine carbonate factory,"Jiuyuan Wang, Lidya G. Tarhan, Noah J. Planavsky",{https://www.nature.com/articles/s41586-022-05654-5},22 Feb 2023
197,Structure of the human DICER–pre-miRNA complex in a dicing state,"Young-Yoon Lee, Hansol Lee, Soung-Hun Roh",{https://www.nature.com/articles/s41586-023-05723-3},22 Feb 2023
198,Optimal nitrogen rate strategy for sustainable rice production in China,"Siyuan Cai, Xu Zhao, Xiaoyuan Yan",{https://www.nature.com/articles/s41586-022-05678-x},22 Feb 2023


## Parte 3. Web Scraping con SerpApi

En esta parte vamos a realizar web scraping utilizando SerpApi. Esta API permite escrapear el contenido que es el resultado de diferentes motores de búsqueda como Google, Yahoo, Youtube,.. Concretamente, en este ejercicio, nos centraremos en los resultados de búsqueda de Youtube.
SerpApi permite el uso gratuito siempre que no excedas las 100 consultas mensuales, asimismo, siempre está la opción desarrollador que incluye la modalidad de pago. Nosotros, utilizaremos las funcionalidades gratuitas de esta API. 
Para poder utilizar SerpApi, y por tanto continuar con la realización de la PAC, se deben seguir estos pasos:
1.	Crear una cuenta en SerpApi para conseguir la clave secreta (API_SECRET__KEY) para poder realizar las diferentes solicitudes web. Para ello debes acceder a esta web: https://serpapi.com. Después de registrarte (es muy sencillo), deberás ir al correo con el que te has registrado para confirmar el correo y ya estarás preparado para utilizar la API.
2.	Instalar el módulo google-search-results para poder acceder a SerpAPI.
3.	Configurar los parámetros de búsqueda, como el ejemplo siguiente:
4.	Pasar los parámetros de búsqueda a la función GoogleSearchResults(searchParams) para obtener los resultados.
5.	Completar el código para realizar la request y obtener los datos deseados. 
6.	Seleccionar el contenido de los resultados que es de interés.

En el siguiente código se puede observar el ejemplo de las instrucciones indicadas:



```
# Instalar modulo google-search-results
!pip install google-search-results

# Cargar librería
from serpapi import GoogleSearch

# Definir parámetros de búsqueda
searchParams = {
      "api_key": API_GOOGLE,
      "engine": "youtube",
      "search_query": "Cambio climatico"
    }

# Realizar solicitud
search = GoogleSearch(searchParams)

# Obtener resultados
results = search.get_dict()
```

No obstante, para la realización correcta de la PEC, se recomienda que se explore la documentación de SerpAPI (https://serpapi.com/search-api) para poder realizar correctamente las consultas y seleccionar correctamente los resultados solicitados


In [None]:
!pip install google-search-results



In [None]:
API_GOOGLE = "XXXXXXXXXXXXXXX"

In [None]:
# Cargar librería
from serpapi import GoogleSearch

# Definir parámetros de búsqueda
searchParams = {
      "api_key": API_GOOGLE,
      "engine": "youtube",
      "search_query": "Cambio climatico"
    }

# Realizar solicitud
search = GoogleSearch(searchParams)

# Obtener resultados
results = search.get_dict()

https://serpapi.com/search


In [None]:
# Mostramos resultados
results

{'search_metadata': {'id': '6422b1b5629a01c768f799a6',
  'status': 'Success',
  'json_endpoint': 'https://serpapi.com/searches/c5a239928965af41/6422b1b5629a01c768f799a6.json',
  'created_at': '2023-03-28 09:21:57 UTC',
  'processed_at': '2023-03-28 09:21:57 UTC',
  'youtube_url': 'https://www.youtube.com/results?search_query=Cambio+climatico',
  'raw_html_file': 'https://serpapi.com/searches/c5a239928965af41/6422b1b5629a01c768f799a6.html',
  'total_time_taken': 1.92},
 'search_parameters': {'engine': 'youtube',
  'search_query': 'Cambio climatico'},
 'search_information': {'total_results': 511861,
  'video_results_state': 'Results for exact spelling'},
 'ads_results': [{'position_on_page': 1,
   'title': 'Become a Gates Notes Insider to stay updated on efforts to tackle global issues.',
   'link': 'https://www.youtube.com/watch?v=2bXn2F58OsM',
   'website': 'https://www.gatesnotes.com/Climate-and-energy?WT.tsrc=BGPDM-PSGDN&WT.mc_id=2022101100000_TGNICA_BGPDM-PSGDN_USA_PERF-MAX-MIXED-IM

### Ejercicio práctico 3 (Google)

En este ejercicio se solicita al estudiante que, haciendo uso de SerpAPi, implemente el código conveniente para resolver a las siguientes cuestiones:

**1. Restaurantes en Barcelona** (Google Maps): Queremos pasar un fin de semana en Barcelona y probar distintos tipos de cocina. Para ello:

- Pasar cada uno de los siguientes 5 tipos de restaurante (se aceptan otros elegidos por el estudiante) por el parámetro "q" del buscador de google maps (engine = google_maps, ver https://serpapi.com/maps-local-results) y realizar una consulta en Maps para conseguir el nombre, la valoración, el número de valoraciones y el precio. En caso que alguna variable no se reporte dejarlo como N/A. Este paso debería hacerse dentro de un **loop**. 
    En este apartado se van a necesitar las coordenadas de Barcelona para hacer la request (41.231964,2.93236)


    tipo = restaurante vegano, restaurante asiatico, restaurante italiano, restaurante tapas, restaurante cocina catalana


- Con los resultados crear un DataFrame donde las columnas sean el tipo de restaurante, el nombre, la valoración, el número de valoraciones y el precio. ¿Cuántos restaurantes tenemos en el DataFrame?

- Filtrar el DataFrame con solo los restaurantes con más de 100 valoraciones. ¿Cuántos restaurantes tenemos ahora? Mostrar el resultado final ordenado por valoracion descendientemente.

In [40]:
# Cargar librerías
# ToDo
!pip install google-search-results

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting google-search-results
  Downloading google_search_results-2.4.2.tar.gz (18 kB)
  Preparing metadata (setup.py) ... [?25l[?25hdone
Building wheels for collected packages: google-search-results
  Building wheel for google-search-results (setup.py) ... [?25l[?25hdone
  Created wheel for google-search-results: filename=google_search_results-2.4.2-py3-none-any.whl size=32019 sha256=f06f0ab23004f956a295733d881e30658141374f962cbb96188b39455c6a8854
  Stored in directory: /root/.cache/pip/wheels/68/8e/73/744b7d9d7ac618849d93081a20e1c0deccd2aef90901c9f5a9
Successfully built google-search-results
Installing collected packages: google-search-results
Successfully installed google-search-results-2.4.2


In [41]:
API_GOOGLE = "1870e6a8be26dd5cb22d4084aed071b15fa2f9c9187c108948c4d1987a805e14"

In [42]:
tipo = ["restaurante vegano", "restaurante asiatico", "restaurante italiano", "restaurante tapas", "restaurante cocina catalana"]

In [43]:
# Hacer la request y obtener datos
# ToDo
from serpapi import GoogleSearch

lst = []

for i in tipo:
  params = {
    "engine": "google_maps",
    "q": i,
    "ll": "@41.231964,2.93236,15.1z",
    "type": "search",
    "api_key": API_GOOGLE
  }

  search = GoogleSearch(params)


  lst.append(search.get_dict())



In [44]:
# Construir el DataFrame y contar las filas
import pandas as pd
df = pd.DataFrame(lst)

df_vigan = pd.DataFrame(df["local_results"][0])
df_vigan = df_vigan[['type','title','rating', 'reviews','price']]

df_asia = pd.DataFrame(df["local_results"][1])
df_asia = df_asia[['type','title','rating', 'reviews','price']]

df_ita = pd.DataFrame(df["local_results"][2])
df_ita = df_ita [['type','title','rating', 'reviews','price']]

df_tapas = pd.DataFrame(df["local_results"][3])
df_tapas = df_tapas[['type','title','rating', 'reviews','price']]

df_cat = pd.DataFrame(df["local_results"][4])
df_cat = df_cat[['type','title','rating', 'reviews','price']]

df_rest_barc = pd.concat([df_vigan , df_asia, df_ita, df_tapas, df_cat ]).reset_index(drop=True)

print("tenemos {} restaurantes" .format(len(df_rest_barc)))

df_rest_barc



tenemos 100 restaurantes


Unnamed: 0,type,title,rating,reviews,price
0,Vegan restaurant,Alive Restaurant - Vegan,4.4,1201.0,
1,Vegan restaurant,Veggie Garden,4.4,2964.0,$
2,Vegan restaurant,Vegan Cat Bar,4.6,1710.0,$$
3,Vegan restaurant,Falafel Vegano,4.7,98.0,
4,Vegan restaurant,The Green Spot,4.5,2671.0,$$$
...,...,...,...,...,...
95,Catalonian restaurant,Inici's Restaurant,4.6,172.0,$$
96,Catalonian restaurant,Pla B,4.4,916.0,$$$
97,Catalonian restaurant,L'Antic Bocoi del Gòtic,4.6,928.0,$$
98,Catalonian restaurant,La Clara Restaurant,4.3,1222.0,$$


In [45]:
# Filtrar y mostrar el numero de restaurantes

df_rest_barc_mas_100 = df_rest_barc[df_rest_barc['reviews'] > 100]

print("Son {} restaurantes con 100 y más valoraciones" .format(len(df_rest_barc_mas_100)))

Son 90 restaurantes con 100 y más valoraciones


In [46]:
# Ordenarlo

df_rest_barc_mas_100 = df_rest_barc_mas_100.sort_values(by="reviews", ascending=False).reset_index(drop=True)
df_rest_barc_mas_100.head()


Unnamed: 0,type,title,rating,reviews,price
0,Vegetarian restaurant,Flax&Kale,4.3,9401.0,$$
1,Italian restaurant,Macchina Pasta Bar,4.4,4499.0,$
2,Catalonian restaurant,Restaurant Can Culleretes,4.3,4360.0,$$
3,Italian restaurant,Sports Bar Italian Food,4.5,3733.0,$$
4,Italian restaurant,Macchina Pasta Bar - Asturies,4.3,3126.0,$


**2. Artistas Españoles** (Youtube): Queremos ponernos al día con los artistas españoles del momento, por esto se pide:

- Hacer web scrapping (el método preferido para el estudiante) para obtener los artistas españoles más escuchados en Spotify a marzo de 2023: https://www.vinilonegro.com/2023/03/artistas-espanoles-con-mas-om-en-spotify-8-de-marzo-de-2023/. El resultado debe ser un DataFrame con el nombre del artista y su posición. Mostrar el DataFrame.

- Reducir el DataFrame a los 15 primeros en la clasificación y mostrar el DataFrame resumido. Pasar cada nombre por el parámetro "search_query" y realizar una consulta en YouTube (engine = Youtube) para conseguir título del canal, el link y el número de subscriptores. Este paso debería hacerse dentro de un **loop**.

- Con los resultados, crear un dataframe global (top_15), donde las columnas se correspondan con el título del canal, el link y el número de subscriptores. Ordenarlo descendientemente por subscriptores y mostrarlo.

In [47]:
# Cargar librerías

import requests
from bs4 import BeautifulSoup

In [48]:
# Hacer la solicitud y obtener datos

# Definir la url de la web que se desee scrapear
url_base = "https://www.vinilonegro.com/2023/03/artistas-espanoles-con-mas-om-en-spotify-8-de-marzo-de-2023/"

# Hacer la solicitud
respuesta = requests.get(url_base)
respuesta.status_code

200

In [49]:
html = respuesta.content

soup = BeautifulSoup(html, 'lxml')

# Exportiar el HTML a un archivo
with open('spotify_lxml.html', 'wb') as file:
    file.write(soup.prettify('utf-8'))

In [50]:
table = soup.find_all("table")


tds = [i.find("tbody").find_all("td") for i in table]


In [51]:
rows = tds[0][2::5][1:]

pos = [i for i in range(1,51)]


artists = [str(i).replace('<td><span style="color: #0000ff;"><strong>',"").replace('</strong></span></td>',"").replace('<td>',"").replace('</td>',"") for i in rows]


In [52]:
# Crear el DataFrame
# ToDo
import pandas as pd

df_art = pd.DataFrame()

df_art["posición"] = pos
df_art["artista"] = artists
df_art.head()

Unnamed: 0,posición,artista
0,1,Rosalía
1,2,Quevedo
2,3,Enrique Iglesias
3,4,Rels B
4,5,Alejandro Sanz


In [53]:
# Filtrar el DataFrame
# ToDo
df_art = df_art[0:15]
df_art

#lista de artista 
lst_art = [i for i in df_art["artista"]]
lst_art

['Rosalía',
 'Quevedo',
 'Enrique Iglesias',
 'Rels B',
 'Alejandro Sanz',
 'Pablo Alborán\xa0',
 'Aitana',
 'C. Tangana',
 'La Oreja de Van Gogh',
 'Hombres G',
 'Belinda',
 'David Bisbal',
 'Miguel Bosé',
 'Morad',
 'Juan Magán']

In [54]:
# Consultamos autor por autor en YouTube
# ToDo
from serpapi import GoogleSearch

lst1 = []

for i in lst_art:
  params = {
    "engine": "Youtube",
    "search_query": i,
    "type": "search",
    "api_key": API_GOOGLE
  }

  search = GoogleSearch(params)


  lst1.append(search.get_dict())

In [55]:
#Generamos dataframes para cada resultado
df_15 = pd.DataFrame(lst1)
df_15

#lst_15 = []

#df_total = pd.DataFrame()
#for i in range(len(df_15)-1):
 # a = pd.concat([pd.DataFrame(df_15["channel_results"][i]),pd.DataFrame(df_15["channel_results"][i+1])])
#df_15.iloc[0]["channel_results"]
#a

df_ros = pd.DataFrame(df_15["channel_results"][0])
df_2 = pd.DataFrame(df_15["channel_results"][1])
df_3 = pd.DataFrame(df_15["channel_results"][2])
df_4 = pd.DataFrame(df_15["channel_results"][3])
df_5 = pd.DataFrame(df_15["channel_results"][4])
df_6 = pd.DataFrame(df_15["channel_results"][5])
df_7 = pd.DataFrame(df_15["channel_results"][6])
df_8 = pd.DataFrame(df_15["channel_results"][7])
df_9 = pd.DataFrame(df_15["channel_results"][8])
df_10 = pd.DataFrame(df_15["channel_results"][9])
df_11 = pd.DataFrame(df_15["channel_results"][10])
df_12 = pd.DataFrame(df_15["channel_results"][11])
df_13 = pd.DataFrame(df_15["channel_results"][12])
df_14 = pd.DataFrame(df_15["channel_results"][13])
df_15 = pd.DataFrame(df_15["channel_results"][14])

top_15 = pd.concat([df_ros,df_2,df_3,df_4,df_5,df_6,df_7,df_8,df_9,df_10,df_11,df_12,df_13,df_14,df_15])


In [56]:
# Crear el DataFrame único
# ToDo
top_15 = top_15[["title","link","subscribers"]].reset_index(drop=True)

In [57]:
# Ordenarlo descendientemente

top_15 = top_15.sort_values(by="subscribers",ascending=False).reset_index(drop=True)
top_15.head()

Unnamed: 0,title,link,subscribers
0,Enrique Iglesias,https://www.youtube.com/@EnriqueIglesias,23600000.0
1,ROSALÍA,https://www.youtube.com/@rosalia,10400000.0
2,David Bisbal,https://www.youtube.com/@DavisBisbal,3190000.0
3,Alejandro Sanz,https://www.youtube.com/@AlejandroSanzTV,3050000.0
4,La Oreja de Van Gogh,https://www.youtube.com/@lodvgvideo,2620000.0
