[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/DCDPUAEM/DCDP/blob/main/02%20An%C3%A1lisis%20Estad%C3%ADstico/notebooks/4_WebScrapping.ipynb)

<a id="contenido"></a>
<h1><center>Contenido | Módulo 2</center><h1>
    
---
* [Introducción al Web Scrapping con Python](#a)   
* [Breve ejemplo](#b) 
* [CoronaScrapp](#c) 
* [Referencias](#d)

<a id="a"></a>
<h1><center>2.11. Introducción - Web Scrapping</center></h1>

[Regreso a contenido](#contenido)

---
![alt text](https://www.grid.cl/blog/wp-content/uploads/2019/03/001-efficient-web-scraping.png)

Sabemos que **INTERNET** está compuesta por muchos millones de documentos enlazados entre sí, conocidos también como páginas web. 

El texto fuente de las páginas web está escrito en lenguaje Hypertext Markup Language (HTML). Los códigos fuente en HTML son una mezcla de informaciones legibles para los humanos y códigos legibles para las máquinas, llamados tags o etiquetas. El navegador, como puede ser Chrome, Firefox, Safari o Edge, procesa el texto fuente, interpreta las etiquetas y presenta al usuario la información que contienen.

Para extraer del texto fuente únicamente la información que le interesa al usuario, se utiliza un <font color=red>software especial</font>. Se trata de los programas llamados web scrapers, crawlers, spiders o, simplemente, bots, que examinan el texto fuente de las páginas en busca de patrones concretos y extraen la información que contienen. Los datos conseguidos mediante web scraping posteriormente se resumen, combinan, evalúan o almacenan para ser usados más adelante.

En esta notebook veremos un poco del por qué Python resulta especialmente útil para la creación de web scrapers y una introducción a este tema junto con unos ejemplos ([también se puede hacer en R](https://www.r-bloggers.com/2019/07/beautifulsoup-vs-rvest/)...)

### Web scraping en términos generales

El esquema básico del web scraping es sencillo de explicar.... 

En primer lugar, el desarrollador del scraper analiza el texto fuente en HTML de la página web en cuestión. Por lo general, encontrará patrones claros que permitirán extraer la información deseada. El scraper será entonces programado para identificar dichos patrones y realizará el resto del trabajo automáticamente:

   * Abrir la página web a través del URL
   * Extraer automáticamente los datos estructurados a partir de los patrones
   * Resumir, almacenar, evaluar o combinar los datos extraídos, entre otras acciones

### Casos de aplicación del web scraping

El web scraping puede tener aplicaciones muy diversas. Además de la indexación de buscadores, el web scraping también puede usarse con los siguientes fines, entre muchos otros:

  * Crear bases de datos de contactos
  * Controlar y comparar ofertas online
  * Reunir datos de diversas fuentes online
  * Observar la evolución de la presencia y la reputación online
  * Reunir datos financieros, meteorológicos o de otro tipo
  * Observar cambios en el contenido de páginas web
  * Reunir datos con fines de investigación
  * Realizar exploraciones de datos o data mining

### Herramientas de scraping para Python

Python incluye diversas herramientas consolidadas para realizar proyectos de scraping:

   * [Scrapy](https://scrapy.org/)
   * [Selenium](https://selenium-python.readthedocs.io/)
   * [BeautifulSoup](https://pypi.org/project/beautifulsoup4/)

A continuación, nos enfocaremos solamente BeautifulSoup.

### Estructura de la página HTML

El lenguaje de marcado de hipertexto (HTML) es el lenguaje de marcado estándar para documentos diseñados para mostrarse en un navegador web. HTML describe la estructura de una página web y se puede utilizar con hojas de estilo en cascada (CSS) y un lenguaje de secuencias de comandos como JavaScript para crear sitios web interactivos. HTML consta de una serie de elementos que "le dicen" al navegador cómo mostrar el contenido. Por último, los elementos se representan mediante etiquetas.

Aquí hay algunas etiquetas:

    La declaración <!DOCTYPE html> define este documento como HTML5.
    El elemento <html> es el elemento raíz de una página HTML.
    La etiqueta <div> define una división o una sección en un documento HTML. Suele ser un contenedor de otros elementos.
    El elemento <head> contiene metainformación sobre el documento.
    El elemento <title> especifica un título para el documento.
    El elemento <body> contiene el contenido de la página visible.
    El elemento <h1> define un encabezado grande.
    El elemento <p> define un párrafo.
    El elemento <a> define un hipervínculo.

Las etiquetas HTML normalmente vienen en pares como $<p>$ y $</p>$. La primera etiqueta de un par es la etiqueta de apertura, la segunda etiqueta es la etiqueta de cierre. La etiqueta final se escribe como la etiqueta inicial, pero con una barra diagonal insertada antes del nombre de la etiqueta.

HTML tiene una estructura en forma de árbol 🌳 🌲 gracias al Modelo de objetos de documento (DOM), una interfaz multiplataforma e independiente del idioma. Así es como se ve un árbol HTML muy simple. 
![img](https://mechomotive.com/wp-content/uploads/2021/07/HTML-document-tree-representation.png)

In [1]:
from IPython.core.display import display, HTML

  from IPython.core.display import display, HTML


In [2]:
display(HTML("""
<!DOCTYPE html>
<html lang="en" dir="ltr">
<head>
  <title>Intro to HTML</title>
</head>

<body>
  <h1>Heading h1</h1>
  <h2>Heading h2</h2>
  <h3>Heading h3</h3>
  <h4>Heading h4</h4>

  <p>
    That's a text paragraph. You can also <b>bold</b>, <mark>mark</mark>, <ins>underline</ins>, <del>strikethrough</del> and <i>emphasize</i> words.
    You can also add links - here's one to <a href="https://en.wikipedia.org/wiki/Main_Page">Wikipedia</a>.
  </p>

  <p>
    This <br> is a paragraph <br> with <br> line breaks
  </p>

  <p style="color:red">
    Add colour to your paragraphs.
  </p>

  <p>Unordered list:</p>
  <ul>
    <li>Python</li>
    <li>R</li>
    <li>Julia</li>
  </ul>

  <p>Ordered list:</p>
  <ol>
    <li>Data collection</li>
    <li>Exploratory data analysis</li>
    <li>Data analysis</li>
    <li>Policy recommendations</li>
  </ol>
  <hr>

  <!-- This is a comment -->

</body>
</html>
"""))

### Herramientas para desarrolladores de Chrome

[Chrome DevTools](https://developer.chrome.com/docs/devtools/) es un conjunto de herramientas para desarrolladores web integradas directamente en el navegador Google Chrome. DevTools puede ayudar a ver y editar páginas web. Usaremos la herramienta de Chrome para inspeccionar una página HTML y encontrar qué elementos corresponden a los datos que podríamos querer raspar.
ejercicio corto

Para obtener algo de experiencia con la estructura de la página HTML y Chrome DevTools, buscaremos y ubicaremos elementos en IMDB.

Sugerencia: Pulse Comando+Opción+C (Mac) o Control+Mayús+C (Windows, Linux) para acceder al panel de elementos.

## Web Scraping con `requests` y `BeautifulSoup`

Usaremos `requests` y `BeautifulSoup` para acceder y raspar el contenido de [la página de inicio de IMDB](https://www.imdb.com).

### ¿Qué es `BeautifulSoup`?

Es una biblioteca de Python para extraer datos de archivos HTML y XML. Proporciona métodos para navegar por la estructura de árbol del documento que discutimos antes y raspar su contenido.



In [3]:
# Imports
from bs4 import BeautifulSoup
import requests
from requests import get
import json
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import matplotlib as mpl
import matplotlib.cm as cm
import seaborn as sns
import datetime as dt
import string
from matplotlib import pyplot as plt
sns.set(style="ticks")

%matplotlib inline

In [4]:
# IMDB's homepage
imdb_url = 'https://www.imdb.com'

# Usamos requests para obtener los datos de la URL dada
imdb_response = requests.get(imdb_url)

# Transformamos todo el codigo HTML usando beautiful soup
imdb_soup = BeautifulSoup(imdb_response.text, 'html.parser')

# Titulo de la pagina transformada
imdb_soup.title

<title>403 Forbidden</title>

In [5]:
# Podemos obtenerlo de igual forma sin los tags de HTML
imdb_soup.title.string

'403 Forbidden'

In [6]:
url='http://www.imdb.com/chart/top'
page=get(url).content
soup=BeautifulSoup(page,'html.parser')
class_=soup.find_all(name='div',attrs={'class':'wlb_ribbon'})
movie_ids=[c['data-tconst'] for c in class_]

In [7]:
movie_ids

[]

In [8]:
movie_info=[[] for i in range(len(movie_ids))]

for i in range(250):
    url='http://www.omdbapi.com/?i='
    #print(url+movie_ids[i]+"&apikey=de12b217")
    r=requests.get(url+movie_ids[i]+"&apikey=de12b217").json()
    for a in r.keys():
        movie_info[i].append(r[a])
        
df_omdb=pd.DataFrame(movie_info,columns=r.keys())

IndexError: list index out of range

In [None]:
df_omdb

In [None]:
url='http://www.imdb.com/title/'
t='/plotsummary?ref_=tt_stry_pl'
plot=[[] for i in range(len(movie_ids))]
for i in range(250):
    #print(url+df_omdb.imdbID[i]+t)
    page=get(url+df_omdb.imdbID[i]+t).content
    soup=BeautifulSoup(page,'html.parser')
    class_=soup.find_all(name='li',attrs={'class':'ipl-zebra-list__item'})
    for j in class_:
        plot[i].append(j.get_text(strip = True))

In [None]:
df_omdb['Plot']=plot
df_omdb.head()

In [None]:
df_omdb.dtypes

### Limpieza de datos

El primer paso para limpiar los datos es convertir Year en una variable categórica. 

Se elegirá el año del 2000 como corte adecuado. Las películas lanzadas antes del 2000 se convirtieron en 0 y después de 2000 en 1. Después de hacer esto, realizamos un one-hot encoding.

In [None]:
df_omdb.Year=pd.to_numeric(df_omdb.Year)
for i in range(250):
    if df_omdb.Year[i]<2000:
        df_omdb.Year[i]=0
    else:
        df_omdb.Year[i]=1
dummy_year=pd.get_dummies(df_omdb.Year)

for i in range(250):
    df_omdb.Runtime[i]=df_omdb.Runtime[i].split()[0]

In [None]:
df_omdb

In [None]:
df_omdb.dtypes

In [None]:
df_omdb['Runtime'] = pd.to_numeric(df_omdb['Runtime'])

In [None]:
fig,ax=plt.subplots(1,1,figsize=(10,5))
ax.hist(df_omdb['Runtime'],edgecolor='white',align='right')
ax.axvline(x=np.mean(df_omdb['Runtime']),c='r')
ax.axvline(x=np.mean(df_omdb['Runtime'])-np.std(df_omdb['Runtime']),c='b',ls='--')
ax.axvline(x=np.mean(df_omdb['Runtime'])+np.std(df_omdb['Runtime']),c='b',ls='--')
plt.show()

In [None]:
df_omdb['Runtime']=pd.to_numeric(df_omdb['Runtime'],errors='coerce')
for i in range(250):
    if df_omdb.Runtime[i]<=125:
        df_omdb.Runtime[i]=0
    else: 
        df_omdb.Runtime[i]=1

In [None]:
def clean(column_name):
    """This function takes a column from the dataframe and splits two elements
       if they are separated by a comma.
       For ex. in Actors column there might be values such as Christian Bale, Morgan Freeman.
       This will separate these two actors and store them individually in a list."""
    name=set()
    for name_string in df_omdb[column_name]:
        name.update(name_string.split(', '))
    name=sorted(name)
    return name

def top(column_name):
    """This function takes its input as name of the column and returns a sorted list of the 
       elements which occur very frequently in that column in descending order."""
    
    name=clean(column_name)
    dummy_name=pd.DataFrame()
    for n in name:
        dummy_name[n]=[int(n in nm.split(', ')) for nm in df_omdb[column_name]] 
    
    namelist=[n for n in name]
    nlt=dummy_name[namelist].sum()
    nlt=nlt.sort_values(axis=0,ascending=False)
    return nlt.index
    
def plot_column(column_name,n_elem_display=0):
    """ This function is used to plot a bar graph of a column of the dataframe.
        It takes its argument as name of column and number of elements to display and
        return a bar graph of the user defined number of top elements which occur
        frequently in that column."""
    
    name=clean(column_name)
    dummy_name=pd.DataFrame()
    for n in name:
        dummy_name[n]=[int(n in nm.split(', ')) for nm in df_omdb[column_name]] 
    
    namelist=[n for n in name]
    nlt=dummy_name[namelist].sum()
    nlt=nlt.sort_values(axis=0,ascending=False)
    if n_elem_display !=0:
        return nlt[:n_elem_display].plot(kind = "bar",figsize=(10,10))
    else:
        return nlt[:].plot(kind = "bar",figsize=(10,5))

In [None]:
plot_column('Genre')

Elegiremos todos los géneros como nuestros predictores en nuestro conjunto de datos.

In [None]:
#Get the unique genres contained in the dataframe
genres=clean('Genre')
#Add one column for every genre in the dataframe
for genre in genres:
    df_omdb["genre:"+genre] = [int(genre in g.split(', ')) for g in df_omdb.Genre]

In [None]:
df_omdb.head()

Ahora analicemos la cantidad de actores que se pueden usar como predictores en nuestro conjunto de datos.

In [None]:
plot_column('Actors',30)

Por lo tanto, podemos tomar a los 30 actores principales, cada uno con más de 3 películas, en la lista de 250 películas principales de imdb.

In [None]:
#Adding actors to our dataset
actors=top('Actors')
actors
for actor in actors[:30]:
    df_omdb["Actor:"+actor] = [int(actor in a.split(', ')) for a in df_omdb.Actors]

------ 

Ahora los Directores

In [None]:
plot_column('Director',20)

In [None]:
directors=top('Director')
    
for director in directors[:20]:
    df_omdb["Director:"+director] = [int(director in d.split(', ')) for d in df_omdb.Director]

Analizar si tomar escritores o no como predictores.

In [None]:
writers1=set()
writers2=set()
for writer_string in df_omdb.Writer:
    writers1.update(writer_string.split(', '))
for j in writers1:
    writers2.update(j.rsplit(' (')[:1])
writers2 = sorted(writers2)

dummy_writers=pd.DataFrame()

# Add one column for every writer in the dataframe
for writer in writers2:
    dummy_writers[writer] = [int(writer in w.split(', ')) for w in df_omdb.Writer]   
dummy_writers

In [None]:
writerlist=[w for w in writers2]
wlt=dummy_writers[writerlist].sum()
wlt=wlt.sort_values(axis=0,ascending=False)
wlt.iloc[0:10].plot(kind = "bar",figsize=(10,10))

Dado que no hay muchos escritores que tengan un número significativo de películas, decidimos no tomar a los escritores como uno de nuestros predictores.

Ahora, exploraremos el predictor de lenguaje

In [None]:
plot_column('Language',11)

In [None]:
plot_column('Country',10)

In [None]:
#Adding all of the top 10 countries to our datset
countries=top('Country')

for country in countries[:10]:
    df_omdb["Country:"+country] = [int(country in c.split(', ')) for c in df_omdb.Country]

In [None]:
df_omdb.head()

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt
%matplotlib inline


sns.set(rc={'figure.figsize':(20,10)})
sns.countplot(df_omdb['Metascore'])

In [None]:
from wordcloud import WordCloud, STOPWORDS

In [None]:
def wc(data,bgcolor,title):
    plt.figure(figsize = (100,100))
    wc = WordCloud(background_color = bgcolor, max_words = 1000,  max_font_size = 50)
    wc.generate(' '.join(data))
    plt.imshow(wc)
    plt.axis('off')

In [None]:
wc(df_omdb,'black','Most Used Words')

---
### Web scraping con Scrapy

Scrapy, una de las herramientas para hacer web scraping con Python que presentamos, utiliza un analizador sintáctico o parser HTML para extraer datos del texto fuente (en HTML) de la web siguiendo este esquema:

$$URL → Solicitud HTTP → HTML → Scrapy$$

El concepto clave del desarrollo de scrapers con Scrapy son los llamados web spiders, programas de scraping sencillos y basados en Scrapy. Cada spider (araña) está programado para scrapear una web concreta y va descolgándose de página a página. La programación usada está orientada a objetos: cada spider es una clase de Python propia.

Además del paquete de Python en sí, la instalación de Scrapy incluye una herramienta de línea de comandos, la Scrapy Shell, que permite controlar los spiders. Además, los spiders ya creados pueden almacenarse en la Scrapy Cloud. Desde allí, se ejecutan con tiempos establecidos. De esta forma pueden scrapearse también sitios web complejos sin necesidad de utilizar para ello el propio ordenador ni la propia conexión a Internet. Otra manera de hacerlo es crear un servidor de web scraping propio usando el software de código abierto Scrapyd.

Scrapy es una plataforma consolidada para aplicar técnicas de web scraping con Python. Su arquitectura está orientada a las necesidades de proyectos profesionales. Scrapy cuenta, por ejemplo, con un pipeline integrado para procesar los datos extraídos. La apertura de las páginas en Scrapy se produce de forma asíncrona, es decir, con la posibilidad de descargar varias páginas simultáneamente. Por ello, Scrapy es una buena opción para proyectos de scraping que hayan de procesar de grandes volúmenes de páginas.

---
### Web scraping con Selenium

El software libre Selenium es un framework para realizar test automatizados de software a aplicaciones web. En principio, fue desarrollado para poner a prueba páginas y apps web, pero el WebDriver de Selenium también puede usarse con Python para realizar scraping. Si bien Selenium en sí no está escrito en Python, con este lenguaje de programación es posible acceder a las funciones del software.

A diferencia de Scrapy y de BeautifulSoup, Selenium no trabaja con el texto fuente en HTML de la web en cuestión, sino que carga la página en un navegador sin interfaz de usuario. El navegador interpreta entonces el código fuente de la página y crea, a partir de él, un Document Object Model (modelo de objetos de documento o DOM). Esta interfaz estandarizada permite poner a prueba las interacciones de los usuarios. De esta forma se consigue, por ejemplo, simular clics y rellenar formularios automáticamente. Los cambios en la web que resultan de dichas acciones se reflejan en el DOM. La estructura del proceso de web scraping con Selenium es la siguiente:

$$URL → Solicitud HTTP → HTML → Selenium → DOM$$

Puesto que el DOM se genera de manera dinámica, Selenium permite scrapear también páginas cuyo contenido ha sido generado mediante JavaScript. El acceso a contenidos dinámicos es la ventaja más importante de Selenium. En términos prácticos, Selenium también puede usarse en combinación con Scrapy o con BeautifulSoup: Selenium proporcionaría el texto fuente, mientras que la segunda herramienta se encargaría del análisis sintáctico y la evaluación de los datos. En este caso, el esquema que se seguiría tendría esta forma:

$$URL → Solicitud HTTP → HTML → Selenium → DOM → HTML → Scrapy / BeautifulSoup$$

---
### Web scraping con BeautifulSoup

De las tres herramientas que presentamos para realizar web scraping con Python, BeautifulSoup es la más antigua. Al igual que en el caso de Scrapy, se trata de un parser o analizador sintáctico HTML. El web scraping con BeautifulSoup tiene la siguiente estructura:

$$URL → Solicitud HTTP → HTML → BeautifulSoup$$

Sin embargo, a diferencia de Scrapy, en BeautifulSoup el desarrollo del scraper no requiere una programación orientada a objetos, sino que el scraper se redacta como una sencilla secuencia de comandos o script. Con ello, BeautifulSoup ofrece el método más fácil para pescar información de la sopa de tags a la que hace honor su nombre.

---
---
### En resumen

¿Qué herramienta deberías elegir para tu proyecto? 

En resumen: escoge **BeautifulSoup** si necesitas un desarrollo rápido o si quieres familiarizarte primero con los conceptos de Python y de web scraping. **Scrap**y, por su parte, te permite realizar complejas aplicaciones de web scraping en Python si dispones de los conocimientos necesarios. **Selenium** será tu mejor opción si tu prioridad es extraer contenidos dinámicos con Python.

<a id="b"></a>
### 2.11.1 Breves ejemplos de web scraping
[Regreso a contenido](#contenido)

---

 * Extraer citas y autores con Python y BeautifulSoup

La página [web Quotes to Scrape](http://quotes.toscrape.com/) ofrece toda una colección de citas de personajes famosos pensadas especialmente para ser objeto de test de scraping, para que no tengas que preocuparte por incumplir las condiciones de uso.

In [None]:
# Importar módulos
import requests
import csv
from bs4 import BeautifulSoup
# Dirección de la página web
url = "http://quotes.toscrape.com/"
# Ejecutar GET-Request
response = requests.get(url)
# Analizar sintácticamente el archivo HTML de BeautifulSoup del texto fuente
html = BeautifulSoup(response.text, 'html.parser')
# Extraer todas las citas y autores del archivo HTML
quotes_html = html.find_all('span', class_="text")
authors_html = html.find_all('small', class_="author")
# Crear una lista de las citas
quotes = list()
for quote in quotes_html:
    quotes.append(quote.text)
# Crear una lista de los autores
authors = list()
for author in authors_html:
    authors.append(author.text) 
# Para hacer el test: combinar y mostrar las entradas de ambas listas
for t in zip(quotes, authors):
    print(t)
# Guardar las citas y los autores en un archivo CSV en el directorio actual
# Abrir el archivo con Excel / LibreOffice, etc.
with open('./zitate.csv', 'w') as csv_file:
    csv_writer = csv.writer(csv_file, dialect='excel')
    csv_writer.writerows(zip(quotes, authors))

---

<a id="c"></a>
### 2.11.2 Scrapping Coronavirus
[Regreso a contenido](#contenido)

---


In [None]:
import requests 
from bs4 import BeautifulSoup 
from tabulate import tabulate 
import os 
import numpy as np 
import pandas as pd
import datetime

In [None]:
today=datetime.date.today().strftime("%m-%d-%Y")
data_date=datetime.date.today()-datetime.timedelta(days=1)
print("Today is {}".format(today))
data_date=data_date.strftime("%m-%d-%Y")

In [None]:
url= 'https://www.worldometers.info/coronavirus/'

In [None]:
# get web data
req = requests.get(url)
response = req.content
# parse web data
soup = BeautifulSoup(response, "html.parser")
soup

In [None]:
# find the table
#table is in the last of the page

thead= soup.find_all('thead')[-1]
print(thead)

In [None]:
# get all rows in thead
head = thead.find_all('tr')
head

In [None]:
# get the table data content
tbody = soup.find_all('tbody')[0]
tbody

In [None]:
body = tbody.find_all('tr')
body

In [None]:
# get the table contents

# container for  column title
head_rows = []


# loop through the head and append each row to head
for tr in head:
    td = tr.find_all(['th', 'td'])
    row = [i.text for i in td]
    head_rows.append(row)
print(head_rows[0])

In [None]:
# container for contents
body_rows = []

# loop through the body and append each row to body
for tr in body:
    td = tr.find_all(['th', 'td'])
    row = [i.text for i in td]
    body_rows.append(row)
print(body_rows)

In [None]:
df_bs = pd.DataFrame(body_rows[:len(body_rows)],columns=head_rows[0]) 
df_bs

In [None]:
# continentdata
cols=['Continent','TotalCases', 'NewCases', 'TotalDeaths', 'NewDeaths', 'TotalRecovered',
       'NewRecovered', 'ActiveCases', 'Serious,Critical', ]

continent_data = df_bs.iloc[:8, :-3].reset_index(drop=True)


# drop unwanted columns
continent_data = continent_data.drop('#', axis=1)
#rearrange Columns Sequence
continent_data = continent_data[cols]
continent_data['Continent'].loc[6]="Not Assigned"
continent_data['Continent'].loc[7]="World"


continent_data

---
---
---
<a id="d"></a>
<h1><center>Referencias y links de interés</center></h1>

[Regreso a contenido](#contenido)

---

* [Rvest para R](https://www.r-bloggers.com/2019/07/beautifulsoup-vs-rvest/)
* [Scrapy](https://scrapy.org/)
* [Selenium](https://selenium-python.readthedocs.io/)
* [BeautifulSoup](https://pypi.org/project/beautifulsoup4/)

-------

* [Tutorial Scrapy](https://docs.scrapy.org/en/latest/intro/tutorial.html)
* [Ejemplos de Scrapy](https://www.analyticsvidhya.com/blog/2017/07/web-scraping-in-python-using-scrapy/)

-------
* [Tutorial Selenium](https://selenium-python.readthedocs.io/getting-started.html)
* [Ejemplos de Selenium](https://www.guru99.com/selenium-python.html)

-------

* [Tutorial de BeautifulSoap](https://www.dataquest.io/blog/web-scraping-tutorial-python/)
* [Ejemplos de BeautifulSoap](https://realpython.com/beautiful-soup-web-scraper-python/)