# Web Scrapping



## ¿Qué es?

* Término que viene del inglés "scrapping" que significa arañar o raspar. 
* Las web de búsqueda como Google, Yahoo! o Bing usan rastreadores web.
* Estos rastreadores se denominan “crawlers”, “arañas” o “bots”.
* Buscan y exploran todas las páginas webs para encontrar el contenido y asociarlo a búsquedas de usuarios.
* El primer rastreador web se creó  en 1993, cuando se presentó el primer motor de búsqueda: Jumpstation.
* Durante el web scrapping se extraen y almacenan datos de páginas web para analizarlos o utilizarlos. 
* Por medio de este proceso se almacenan diversos tipos de información: por ejemplo, datos de contacto, tales como direcciones de correo electrónico o números de teléfono, o también términos de búsqueda o URL. 
* Estos se almacenanueden procesar con `pandas` o procesarlos para guardarlos en bases de datos locales o tablas.

## Tipos de Web Scrapping

Dentro del scrapping hay diferentes modos de funcionamiento, aunque en general se diferencia entre el scrapping **automático** y el **manual**. 

El scrapping **manual** define el copiado y pegado manual de información y datos, solo se lleva a cabo si se desea encontrar y almacenar alguna información concreta. 

En el caso del scrapping **automático**, se recurre a un algoritmo que analiza diferentes páginas web para extraer información. Este es el enfoque que trabajaremos en el día de hoy. 


## ¿Qué se necesita para hacerlo?

Para realizarlo, se utilizan `scripts` concretos según el tipo de página web y el contenido. No obstante, dentro del scrapping automático, se diferencian varios modos de proceder:

* Analizador sintáctico: los analizadores sintácticos (también conocidos como  parsers) se utilizan para convertir un texto en una nueva estructura. Las páginas webs están compuesta por código [HTML](https://developer.mozilla.org/es/docs/Learn/Getting_started_with_the_web/HTML_basics). Por ejemplo, en los análisis de HTML, el software lee un documento HTML y procesa o trata la información.
* Bots: un bot es un software dedicado a realizar determinadas tareas y automatizarlas. Los bots se utilizan para examinar páginas web automáticamente y recopilar datos.


Ojo, las páginas web cambian continuamente. Es posible que un programa o script que te funcione hoy, mañana ya no lo haga.

## ¿Qué objetivo tiene?

* Se utiliza para recopilar datos o información con gran rapidez. 
* En el ámbito profesional, el scrapping se utiliza a menudo para obtener ventajas respecto a la competencia. De esta forma, por medio de esta técnica, una empresa puede examinar todos los productos de un competidor y compararlos con los propios. Ejemplo: [Idealo](https://www.idealo.es/) 
* Resulta valioso para leer datos desde una web, organizarlos en forma de tabla (usando `pandas`) y después analizarlos y procesarlos.




## ¿Cómo podemos hacer WebScrapping en Python?

* Utilizar las librerías `requests` (para manejar las peticiones que realizamos para buscar contenido) y [`Beautiful Soup`](https://beautiful-soup-4.readthedocs.io/en/latest/) de manera conjunta. En la sesión de hoy trataremos esta parte.

* Utilizar un `framework` llamado Scrapy. Un `framework` es un conjunto de herramientas mucho más avanzado y que requiere de conocimiendos de programación para desarrollar en este caso robots de búsquedas. Este `framework`, además de hacer `scrapping`  permite descubrir los enlaces de una web y navegar a través de ellos (hacer `crawling`).

## ¿Cómo trabajamos con Beautiful Soup?

* Es una librería Python que permite extraer información de contenido en formato HTML o XML. 
* Es necesario especificar un `parser`, que es un trozo de `software` responsable de transformar un documento HTML o XML en un árbol de objetos para procesar. Esto permite interactuar con los elementos de una página web. [Ejemplo](https://www.screamingfrog.co.uk/wp-content/uploads/2019/01/crawl-tree-graph.jpg)

A la hora de extraer información de una web, uno de los `parsers` más utilizado es el `parser` HTML de `lxml`. 

Para instalar `Beautiful Soup` y `lxml`, ejecuta los siguientes comandos:



In [None]:
$> pip install beautifulsoup4

SyntaxError: ignored

In [None]:
$> pip install lxml

In [None]:
#Si se usa Colab: 
# !pip install beautifulsoup4
# !pip install lxml


Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


## Ejemplo de Wikipedia

Vamos a localizar en Wikipedia un artículo de los deportistas mejor pagados del mundo.

El enlace de la web es el siguiente:
https://en.wikipedia.org/wiki/Forbes%27_list_of_the_world%27s_highest-paid_athletes

En este caso, vemos que existen diferentes tablas que recogen los salarios de los deportistas a lo largo de los años.

En primer lugar, nuestro objetivo será recoger la tabla del 2022.

In [None]:
# Importamos la librería request para manejar las peticiones de acceso a la web
# y descarga de contenido.
import requests
# Especificamos la web
enlace = "https://en.wikipedia.org/wiki/Forbes%27_list_of_the_world%27s_highest-paid_athletes"

# Convertimos la web en texto
texto_web = requests.get(enlace).text
print(texto_web)

<!DOCTYPE html>
<html class="client-nojs" lang="en" dir="ltr">
<head>
<meta charset="UTF-8"/>
<title>Forbes' list of the world's highest-paid athletes - Wikipedia</title>
<script>document.documentElement.className="client-js";RLCONF={"wgBreakFrames":false,"wgSeparatorTransformTable":["",""],"wgDigitTransformTable":["",""],"wgDefaultDateFormat":"dmy","wgMonthNames":["","January","February","March","April","May","June","July","August","September","October","November","December"],"wgRequestId":"78bd7db1-7fbe-4940-98bb-bb5d7032c4b9","wgCSPNonce":false,"wgCanonicalNamespace":"","wgCanonicalSpecialPageName":false,"wgNamespaceNumber":0,"wgPageName":"Forbes'_list_of_the_world's_highest-paid_athletes","wgTitle":"Forbes' list of the world's highest-paid athletes","wgCurRevisionId":1089529659,"wgRevisionId":1089529659,"wgArticleId":36214429,"wgIsArticle":true,"wgIsRedirect":false,"wgAction":"view","wgUserName":null,"wgUserGroups":["*"],"wgCategories":["Use dmy dates from October 2021","Articles w

In [None]:
# Para darle un formato, BeautifulSoup tiene a su disposición un módulo para 
# "formatear" o dar forma al contenido usando el parser que presentamos anteriormente.

from bs4 import BeautifulSoup
sopa = BeautifulSoup(texto_web, 'lxml')
print(sopa)

<!DOCTYPE html>
<html class="client-nojs" dir="ltr" lang="en">
<head>
<meta charset="utf-8"/>
<title>Forbes' list of the world's highest-paid athletes - Wikipedia</title>
<script>document.documentElement.className="client-js";RLCONF={"wgBreakFrames":false,"wgSeparatorTransformTable":["",""],"wgDigitTransformTable":["",""],"wgDefaultDateFormat":"dmy","wgMonthNames":["","January","February","March","April","May","June","July","August","September","October","November","December"],"wgRequestId":"78bd7db1-7fbe-4940-98bb-bb5d7032c4b9","wgCSPNonce":false,"wgCanonicalNamespace":"","wgCanonicalSpecialPageName":false,"wgNamespaceNumber":0,"wgPageName":"Forbes'_list_of_the_world's_highest-paid_athletes","wgTitle":"Forbes' list of the world's highest-paid athletes","wgCurRevisionId":1089529659,"wgRevisionId":1089529659,"wgArticleId":36214429,"wgIsArticle":true,"wgIsRedirect":false,"wgAction":"view","wgUserName":null,"wgUserGroups":["*"],"wgCategories":["Use dmy dates from October 2021","Articles w

In [None]:
# Inclusive podemos usar una función para darle una indentación prudente:
print(sopa.prettify())

<!DOCTYPE html>
<html class="client-nojs" dir="ltr" lang="en">
 <head>
  <meta charset="utf-8"/>
  <title>
   Forbes' list of the world's highest-paid athletes - Wikipedia
  </title>
  <script>
   document.documentElement.className="client-js";RLCONF={"wgBreakFrames":false,"wgSeparatorTransformTable":["",""],"wgDigitTransformTable":["",""],"wgDefaultDateFormat":"dmy","wgMonthNames":["","January","February","March","April","May","June","July","August","September","October","November","December"],"wgRequestId":"78bd7db1-7fbe-4940-98bb-bb5d7032c4b9","wgCSPNonce":false,"wgCanonicalNamespace":"","wgCanonicalSpecialPageName":false,"wgNamespaceNumber":0,"wgPageName":"Forbes'_list_of_the_world's_highest-paid_athletes","wgTitle":"Forbes' list of the world's highest-paid athletes","wgCurRevisionId":1089529659,"wgRevisionId":1089529659,"wgArticleId":36214429,"wgIsArticle":true,"wgIsRedirect":false,"wgAction":"view","wgUserName":null,"wgUserGroups":["*"],"wgCategories":["Use dmy dates from October

In [None]:
# Ahora vamos a ir trabajando con los distintos elementos de acceso a los datos.
# Título de la web:
print(sopa.title)

<title>Forbes' list of the world's highest-paid athletes - Wikipedia</title>


In [None]:
# Si queremos quitar las etiquetas de HTML usamos la siguiente función:
print(sopa.title.string)

Forbes' list of the world's highest-paid athletes - Wikipedia


In [None]:
# Podemos ver los enlaces de la web a través del comando "sopa.a"
sopa.a

#Esto nos devuelve un único enlace, pero en la web podemos encontrar muchos...

<a id="top"></a>

In [None]:
# Para listar todos los enclaces usamos "sopa.find_all()"
sopa.find_all('a')

[<a id="top"></a>,
 <a href="/wiki/Wikipedia:Protection_policy#pending" title="All edits by unregistered and new users are subject to review prior to becoming visible to unregistered users"><img alt="Page protected with pending changes" data-file-height="512" data-file-width="512" decoding="async" height="20" src="//upload.wikimedia.org/wikipedia/en/thumb/b/b7/Pending-protection-shackle.svg/20px-Pending-protection-shackle.svg.png" srcset="//upload.wikimedia.org/wikipedia/en/thumb/b/b7/Pending-protection-shackle.svg/30px-Pending-protection-shackle.svg.png 1.5x, //upload.wikimedia.org/wikipedia/en/thumb/b/b7/Pending-protection-shackle.svg/40px-Pending-protection-shackle.svg.png 2x" width="20"/></a>,
 <a href="/wiki/Wikipedia:Pending_changes" title="Wikipedia:Pending changes">latest accepted revision</a>,
 <a class="external text" href="https://en.wikipedia.org/w/index.php?title=Special:Log&amp;type=review&amp;page=Forbes%27_list_of_the_world%27s_highest-paid_athletes">reviewed</a>,
 <a c

In [None]:
# La información que queremos se encuentra en las tablas, vamos a recuperarlas
tablas = sopa.find_all('table')
print(tablas)

[<table border="1" class="wikitable sortable">
<tbody><tr>
<th scope="col">Rank
</th>
<th scope="col">Name
</th>
<th scope="col">Sport
</th>
<th scope="col">Country
</th>
<th scope="col">Total
</th>
<th scope="col">Salary/winnings
</th>
<th>Endorsements
</th></tr>
<tr>
<td>1</td>
<td><a href="/wiki/Lionel_Messi" title="Lionel Messi">Lionel Messi</a></td>
<td><a href="/wiki/Association_football" title="Association football">Association football</a></td>
<td><span class="flagicon"><a href="/wiki/Argentina" title="Argentina"><img alt="Argentina" class="thumbborder" data-file-height="500" data-file-width="800" decoding="async" height="14" src="//upload.wikimedia.org/wikipedia/commons/thumb/1/1a/Flag_of_Argentina.svg/23px-Flag_of_Argentina.svg.png" srcset="//upload.wikimedia.org/wikipedia/commons/thumb/1/1a/Flag_of_Argentina.svg/35px-Flag_of_Argentina.svg.png 1.5x, //upload.wikimedia.org/wikipedia/commons/thumb/1/1a/Flag_of_Argentina.svg/46px-Flag_of_Argentina.svg.png 2x" width="23"/></a></

In [None]:
# Al existir varias tablas, tenemos que localizarlas.
# Para ello tenemos 2 opciones, ver todo el código o localizar manualmente 
# inspeccionando la página web.

# No todas las webs tienen la misma estructura siempre, por lo que para localizar 
# la información concreta, buscaremos inspeccionando en la web con F12.

# La clase de CSS de las tablas es "wikitable sortable"

tablas_listados_todos_anios = sopa.find_all('table', class_= 'wikitable sortable')
print(tablas_listados_todos_anios)

[<table border="1" class="wikitable sortable">
<tbody><tr>
<th scope="col">Rank
</th>
<th scope="col">Name
</th>
<th scope="col">Sport
</th>
<th scope="col">Country
</th>
<th scope="col">Total
</th>
<th scope="col">Salary/winnings
</th>
<th>Endorsements
</th></tr>
<tr>
<td>1</td>
<td><a href="/wiki/Lionel_Messi" title="Lionel Messi">Lionel Messi</a></td>
<td><a href="/wiki/Association_football" title="Association football">Association football</a></td>
<td><span class="flagicon"><a href="/wiki/Argentina" title="Argentina"><img alt="Argentina" class="thumbborder" data-file-height="500" data-file-width="800" decoding="async" height="14" src="//upload.wikimedia.org/wikipedia/commons/thumb/1/1a/Flag_of_Argentina.svg/23px-Flag_of_Argentina.svg.png" srcset="//upload.wikimedia.org/wikipedia/commons/thumb/1/1a/Flag_of_Argentina.svg/35px-Flag_of_Argentina.svg.png 1.5x, //upload.wikimedia.org/wikipedia/commons/thumb/1/1a/Flag_of_Argentina.svg/46px-Flag_of_Argentina.svg.png 2x" width="23"/></a></

In [None]:
# Vemos que tenemos todas las tablas, el tipo de variable es ResultSet
type(tablas_listados_todos_anios)

bs4.element.ResultSet

In [None]:
# Vamos a seleccionar la primera tabla, la de 2022
tabla_2022 = tablas_listados_todos_anios[0]
print(tabla_2022)

<table border="1" class="wikitable sortable">
<tbody><tr>
<th scope="col">Rank
</th>
<th scope="col">Name
</th>
<th scope="col">Sport
</th>
<th scope="col">Country
</th>
<th scope="col">Total
</th>
<th scope="col">Salary/winnings
</th>
<th>Endorsements
</th></tr>
<tr>
<td>1</td>
<td><a href="/wiki/Lionel_Messi" title="Lionel Messi">Lionel Messi</a></td>
<td><a href="/wiki/Association_football" title="Association football">Association football</a></td>
<td><span class="flagicon"><a href="/wiki/Argentina" title="Argentina"><img alt="Argentina" class="thumbborder" data-file-height="500" data-file-width="800" decoding="async" height="14" src="//upload.wikimedia.org/wikipedia/commons/thumb/1/1a/Flag_of_Argentina.svg/23px-Flag_of_Argentina.svg.png" srcset="//upload.wikimedia.org/wikipedia/commons/thumb/1/1a/Flag_of_Argentina.svg/35px-Flag_of_Argentina.svg.png 1.5x, //upload.wikimedia.org/wikipedia/commons/thumb/1/1a/Flag_of_Argentina.svg/46px-Flag_of_Argentina.svg.png 2x" width="23"/></a></s

In [None]:
# Para localizar a los deportistas, 
# vamos a transformar la tabla a una estructura dataframe de pantas

import pandas as pd
dataframe_informacion_2022 = pd.read_html(str(tabla_2022))[0]
print(dataframe_informacion_2022)

   Rank                   Name                 Sport        Country  \
0     1           Lionel Messi  Association football      Argentina   
1     2           LeBron James            Basketball  United States   
2     3      Cristiano Ronaldo  Association football       Portugal   
3     4                 Neymar  Association football         Brazil   
4     5          Stephen Curry            Basketball  United States   
5     6           Kevin Durant            Basketball  United States   
6     7          Roger Federer                Tennis    Switzerland   
7     8         Canelo Álvarez                Boxing         Mexico   
8     9              Tom Brady     American football  United States   
9    10  Giannis Antetokounmpo            Basketball         Greece   

            Total Salary/winnings Endorsements  
0    $130 million     $75 million  $55 million  
1  $121.2 million   $41.2 million  $80 million  
2    $115 million     $60 million  $55 million  
3     $95 million     

In [None]:
# Podemos guardar esta información en un archivo Excel:

In [None]:
 pip install XlsxWriter


Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting XlsxWriter
  Downloading XlsxWriter-3.0.3-py3-none-any.whl (149 kB)
[K     |████████████████████████████████| 149 kB 4.9 MB/s 
[?25hInstalling collected packages: XlsxWriter
Successfully installed XlsxWriter-3.0.3


In [None]:
# Guardamos la información en el archivo:
archivo_informacion_22 = pd.ExcelWriter('deportistas_mejor_pagados_2022.xlsx', engine='xlsxwriter')
dataframe_informacion_2022.to_excel(archivo_informacion_22, sheet_name='List')
archivo_informacion_22.save()

In [None]:
# Ejercicio: Replique para los años 2021 y 2020