# Webscrapping con Beautiful Soup

El **web scraping** es el proceso de extracción de datos de sitios web de manera automatizada. Aprenderás los conceptos fundamentales y las herramientas necesarias para recolectar datos valiosos de la web, lo que te permitirá alimentar tus análisis y proyectos de Data Science con información fresca y relevante.

## ¿Qué es?

En términos sencillos, web scraping es como recolectar datos de una página web. Imagina que la web es una mina de información y que eres un minero recogiendo las gemas que necesitas para tu proyecto. En lugar de copiar y pegar manualmente, utilizamos código para automatizar el proceso.

### ¿Por qué es importante el Web Scraping?


* **Acceso a datos no estructurados**: La mayoría de los datos en línea no están disponibles en formatos estructurados y listos para ser analizados. El web scraping te permite convertir datos no estructurados en un formato que puedas utilizar.

* **Actualización de datos**: Muchas fuentes web se actualizan constantemente. El web scraping te permite mantener tus conjuntos de datos actualizados sin tener que hacerlo manualmente.

* **Amplia gama de aplicaciones**: Desde la recopilación de datos de redes sociales hasta la obtención de precios de productos, el web scraping se utiliza en una amplia gama de aplicaciones de Data Science.

## Proceso de Web Scraping

El web scraping generalmente sigue estos pasos:

* **Hacer una solicitud HTTP**: obtenemos el contenido HTML de una página web.

* **Análisis del HTML**: analizamos la estructura del HTML y encontrar los elementos que contienen los datos que necesitamos.

* **Extracción de datos**: Una vez que hemos identificado los elementos, extraemos los datos relevantes.

* **Almacenamiento de datos**: Podemos guardar los datos en un formato estructurado, como un archivo CSV o una base de datos.

* **Limpieza y procesamiento**: A menudo, los datos extraídos necesitan ser limpiados y preprocesados antes de su análisis.

Es importante recordar que el web scraping puede tener implicaciones legales y éticas. Algunos sitios web prohíben la extracción de sus datos, y otros pueden limitar la velocidad a la que puedes hacer solicitudes para evitar la sobrecarga de sus servidores. Siempre debes respetar los términos de servicio de los sitios web y ser consciente de las leyes de privacidad y propiedad intelectual.

## Intro HTML

HTML (HyperText Markup Language) es el lenguaje de marcado utilizado para crear páginas web. Comprender los conceptos básicos de HTML es esencial para realizar web scraping, ya que te permite navegar y extraer datos de manera efectiva de sitios web.

HTML utiliza etiquetas para estructurar el contenido de una página web. Aquí tienes una breve introducción a los conceptos básicos de HTML:

1. **Etiquetas:** Las etiquetas son elementos fundamentales en HTML. Comienzan con `<` y terminan con `>`. Por ejemplo, `<p>` se utiliza para definir un párrafo, `<h1>` para encabezados de nivel 1, y `<a>` para enlaces.

2. **Elementos:** Un elemento HTML se compone de una etiqueta de apertura, contenido y una etiqueta de cierre. Por ejemplo, `<p>Este es un párrafo.</p>`. El contenido es lo que se muestra en la página.

3. **Atributos:** Las etiquetas pueden contener atributos que proporcionan información adicional sobre el elemento. Por ejemplo, en `<a href="https://www.ejemplo.com">Enlace</a>`, "href" es un atributo que define la URL a la que el enlace apunta.

4. **Anidamiento:** Los elementos HTML pueden anidarse dentro de otros elementos. Por ejemplo, un párrafo `<p>` puede contener un enlace `<a>`. Es importante entender la jerarquía de anidamiento para navegar eficazmente por la estructura de una página web.

5. **Estructura:** Una página web típica tiene una estructura jerárquica con elementos como `<html>`, `<head>` (que contiene metadatos), `<body>` (que contiene el contenido visible), y muchos otros elementos como encabezados, listas, imágenes, etc.

6. **Clases e IDs:** Los elementos HTML pueden tener clases y IDs, que son atributos utilizados para aplicar estilos y facilitar la identificación de elementos específicos en una página. Estos son útiles al realizar web scraping para seleccionar elementos específicos.

Para realizar web scraping, necesitas comprender cómo se organiza y etiqueta la información en una página web para poder identificar y extraer los datos que necesitas. El conocimiento de HTML es una base fundamental para esta tarea, ya que te permite navegar y seleccionar elementos específicos en el código fuente de una página web.


### BeautifulSoup

Beautiful Soup es una popular biblioteca de Python utilizada para analizar y extraer información de documentos HTML y XML de una manera sencilla y eficaz. Esta biblioteca proporciona herramientas para navegar y buscar elementos dentro de la estructura de un documento web, lo que la convierte en una herramienta esencial para tareas de web scraping y procesamiento de datos web. Beautiful Soup facilita la extracción de datos de una página web al proporcionar una interfaz amigable que permite acceder a etiquetas, atributos y contenido de manera intuitiva, lo que la convierte en una elección común entre los científicos de datos y desarrolladores que trabajan con datos web.

In [3]:
# !pip install beautifulsoup4

In [9]:
from bs4 import BeautifulSoup as bs
import requests
import pandas as pd
# from splinter import Browser
import numpy as np

pd.set_option('max_colwidth', 800)

In [13]:

from fake_useragent import UserAgent
url = "https://es.wikipedia.org/wiki/Fernando_Alonso"
ua = UserAgent()
headers = {'User-Agent': ua.random}
response = requests.get(url, headers=headers)

In [14]:
print(response)

<Response [200]>


Ahora, estamos listos para solicitar nuestra primera página web. No es nada complicado: guardamos la URL que queremos raspar en la variable URL, luego solicitamos la URL (requests.get (url)) y guardamos la respuesta en la variable de respuesta:

In [None]:
#url = "https://es.wikipedia.org/wiki/Fernando_Alonso"
#response = requests.get(url)

In [15]:
print(response)

<Response [200]>


Pero necesitamos el contenido HTML de la página web solicitada, así que como siguiente paso guardamos el contenido de la respuesta a html:

In [16]:
html = response.content

In [17]:
print(html)

b'<!DOCTYPE html>\n<html class="client-nojs vector-feature-language-in-header-enabled vector-feature-language-in-main-page-header-disabled vector-feature-page-tools-pinned-disabled vector-feature-toc-pinned-clientpref-1 vector-feature-main-menu-pinned-disabled vector-feature-limited-width-clientpref-1 vector-feature-limited-width-content-enabled vector-feature-custom-font-size-clientpref-1 vector-feature-appearance-pinned-clientpref-1 vector-feature-night-mode-enabled skin-theme-clientpref-day vector-sticky-header-enabled vector-toc-available" lang="es" dir="ltr">\n<head>\n<meta charset="UTF-8">\n<title>Fernando Alonso - Wikipedia, la enciclopedia libre</title>\n<script>(function(){var className="client-js vector-feature-language-in-header-enabled vector-feature-language-in-main-page-header-disabled vector-feature-page-tools-pinned-disabled vector-feature-toc-pinned-clientpref-1 vector-feature-main-menu-pinned-disabled vector-feature-limited-width-clientpref-1 vector-feature-limited-wi

In [18]:
soup = bs(html, 'html.parser')

In [19]:
print(soup)

<!DOCTYPE html>

<html class="client-nojs vector-feature-language-in-header-enabled vector-feature-language-in-main-page-header-disabled vector-feature-page-tools-pinned-disabled vector-feature-toc-pinned-clientpref-1 vector-feature-main-menu-pinned-disabled vector-feature-limited-width-clientpref-1 vector-feature-limited-width-content-enabled vector-feature-custom-font-size-clientpref-1 vector-feature-appearance-pinned-clientpref-1 vector-feature-night-mode-enabled skin-theme-clientpref-day vector-sticky-header-enabled vector-toc-available" dir="ltr" lang="es">
<head>
<meta charset="utf-8"/>
<title>Fernando Alonso - Wikipedia, la enciclopedia libre</title>
<script>(function(){var className="client-js vector-feature-language-in-header-enabled vector-feature-language-in-main-page-header-disabled vector-feature-page-tools-pinned-disabled vector-feature-toc-pinned-clientpref-1 vector-feature-main-menu-pinned-disabled vector-feature-limited-width-clientpref-1 vector-feature-limited-width-c

Ahora que hemos aprendido algo de HTML básico, finalmente podemos comenzar a extraer datos de soup. Simplemente escriba un nombre de etiqueta después de soup y un punto (como soup.title), y observe cómo se desarrolla la magia:

In [20]:
soup.title

<title>Fernando Alonso - Wikipedia, la enciclopedia libre</title>

In [21]:
soup.h1

<h1 class="firstHeading mw-first-heading" id="firstHeading"><span class="mw-page-title-main">Fernando Alonso</span></h1>

In [22]:
soup.h1.get_text()

'Fernando Alonso'

¿Qué sucede si solo necesita el atributo de un elemento?

In [23]:
soup.a

<a class="mw-jump-link" href="#bodyContent">Ir al contenido</a>

In [24]:
soup.a['href']

'#bodyContent'

In [25]:
print("Sin utilizar método .find()")
print(soup.a)
print("")
print("Utilizando método .find()")
print(soup.find("a"))

Sin utilizar método .find()
<a class="mw-jump-link" href="#bodyContent">Ir al contenido</a>

Utilizando método .find()
<a class="mw-jump-link" href="#bodyContent">Ir al contenido</a>


In [31]:
soup.find("tbody").find("img")["src"]

'//upload.wikimedia.org/wikipedia/commons/thumb/2/2b/Alonso_2016.jpg/250px-Alonso_2016.jpg'

In [33]:
soup.find_all('div')

[<div class="vector-header-container">
 <header class="vector-header mw-header no-font-mode-scale">
 <div class="vector-header-start">
 <nav aria-label="Sitio" class="vector-main-menu-landmark">
 <div class="vector-dropdown vector-main-menu-dropdown vector-button-flush-left vector-button-flush-right" id="vector-main-menu-dropdown" title="Menú principal">
 <input aria-haspopup="true" aria-label="Menú principal" class="vector-dropdown-checkbox" data-event-name="ui.dropdown-vector-main-menu-dropdown" id="vector-main-menu-dropdown-checkbox" role="button" type="checkbox"/>
 <label aria-hidden="true" class="vector-dropdown-label cdx-button cdx-button--fake-button cdx-button--fake-button--enabled cdx-button--weight-quiet cdx-button--icon-only" for="vector-main-menu-dropdown-checkbox" id="vector-main-menu-dropdown-label"><span class="vector-icon mw-ui-icon-menu mw-ui-icon-wikimedia-menu"></span>
 <span class="vector-dropdown-label-text">Menú principal</span>
 </label>
 <div class="vector-dropd

In [34]:
all_a = soup.find_all('a')
for a in all_a[:5]:
    print(a)

<a class="mw-jump-link" href="#bodyContent">Ir al contenido</a>
<a accesskey="z" href="/wiki/Wikipedia:Portada" title="Visitar la página principal [z]"><span>Portada</span></a>
<a href="/wiki/Portal:Comunidad" title="Acerca del proyecto, lo que puedes hacer, dónde encontrar información"><span>Portal de la comunidad</span></a>
<a href="/wiki/Portal:Actualidad" title="Encuentra información de contexto sobre acontecimientos actuales"><span>Actualidad</span></a>
<a accesskey="r" href="/wiki/Especial:CambiosRecientes" title="Lista de cambios recientes en la wiki [r]"><span>Cambios recientes</span></a>


In [35]:
all_a = soup.find_all('a')
for a in all_a[:5]:
    print(a.get_text())

Ir al contenido
Portada
Portal de la comunidad
Actualidad
Cambios recientes


In [24]:
all_a = soup.find_all('a')
for a in all_a[:5]:
    print(a['href'])

https://www.filmaffinity.com/es/main.html
https://www.filmaffinity.com/es/advsearch.php
https://www.filmaffinity.com/es/login.php
https://www.filmaffinity.com/es/register.php
https://www.filmaffinity.com/es/topgen.php


<table align="left">
 <tr><td width="80"><img src="./img/ejercicio.png" style="width:auto;height:auto"></td>
     <td style="text-align:left">
         <h3>Obtener textos menú cabecera</h3>
Top FA| Rankings FA| Año 2023| Calendario Series| Últ. críticas| Tráilers| Premios
      
<ol>
    <li>Obtén los textos con find_all y un bucle</li>
    <li>Obtén los links con find_all y un bucle</li>
    <li>Almacena la información en un dataframe</li>
</ol>
         
 </td></tr>
</table>

In [None]:
/html/body/header/div[2]/div/ul/li[1]/a

In [35]:
soup.find_all("a")[4:12]

[<a href="https://www.filmaffinity.com/es/topgen.php">Top FA</a>,
 <a href="https://www.filmaffinity.com/es/rankings.php">Rankings FA</a>,
 <a href="https://www.filmaffinity.com/es/category.php?id=2024films">Cine 2024</a>,
 <a href="https://www.filmaffinity.com/es/best_2023.php">Resumen 2023</a>,
 <a href="https://www.filmaffinity.com/es/calendar-tv.php">Calendario Series</a>,
 <a href="https://www.filmaffinity.com/es/category.php?id=latest_reviews">Últ. críticas</a>,
 <a href="https://www.filmaffinity.com/es/category.php?id=TRAILERS">Tráilers</a>,
 <a href="https://www.filmaffinity.com/es/all_awards.php">Premios</a>]

In [37]:
for x in soup.find_all("a")[4:12]:
    print(x.get_text())
    print(x['href'])

Top FA
https://www.filmaffinity.com/es/topgen.php
Rankings FA
https://www.filmaffinity.com/es/rankings.php
Cine 2024
https://www.filmaffinity.com/es/category.php?id=2024films
Resumen 2023
https://www.filmaffinity.com/es/best_2023.php
Calendario Series
https://www.filmaffinity.com/es/calendar-tv.php
Últ. críticas
https://www.filmaffinity.com/es/category.php?id=latest_reviews
Tráilers
https://www.filmaffinity.com/es/category.php?id=TRAILERS
Premios
https://www.filmaffinity.com/es/all_awards.php


In [42]:
for x in soup.find_all("ul")[0].find_all('a'):
    print(x.get_text())
    print(x['href'])

Top FA
https://www.filmaffinity.com/es/topgen.php
Rankings FA
https://www.filmaffinity.com/es/rankings.php
Cine 2024
https://www.filmaffinity.com/es/category.php?id=2024films
Resumen 2023
https://www.filmaffinity.com/es/best_2023.php
Calendario Series
https://www.filmaffinity.com/es/calendar-tv.php
Últ. críticas
https://www.filmaffinity.com/es/category.php?id=latest_reviews
Tráilers
https://www.filmaffinity.com/es/category.php?id=TRAILERS
Premios
https://www.filmaffinity.com/es/all_awards.php


In [49]:
menu_dict = {"Texto": [],
             "Enlace": []}

for x in soup.find_all("a")[4:12]:
    menu_dict['Texto'].append(x.get_text())
    menu_dict['Enlace'].append(x['href'])

df = pd.DataFrame(menu_dict)
df.to_csv("enlaces_menus.csv")
df

Unnamed: 0,Texto,Enlace
0,Top FA,https://www.filmaffinity.com/es/topgen.php
1,Rankings FA,https://www.filmaffinity.com/es/rankings.php
2,Cine 2024,https://www.filmaffinity.com/es/category.php?id=2024films
3,Resumen 2023,https://www.filmaffinity.com/es/best_2023.php
4,Calendario Series,https://www.filmaffinity.com/es/calendar-tv.php
5,Últ. críticas,https://www.filmaffinity.com/es/category.php?id=latest_reviews
6,Tráilers,https://www.filmaffinity.com/es/category.php?id=TRAILERS
7,Premios,https://www.filmaffinity.com/es/all_awards.php


<table align="left">
 <tr><td width="80"><img src="./img/ejercicio.png" style="width:auto;height:auto"></td>
     <td style="text-align:left">
         <h3>Obtener películas y nota</h3>
      
<ol>
    <li>Obtén los títulos de las top 10 películas</li>
    <li>Obtén el rating de las top 10 películas</li>
    <li>Almacena la información en un dataframe</li>
</ol>
         
 </td></tr>
</table>

In [None]:
/html/body/div[3]/div/div/main/div[2]/ul/li[1]/ul/li[2]/div/div[2]/div[1]/a

In [58]:
soup.find('div', class_="mc-title").get_text()

'El padrino'

In [61]:
len(soup.find_all('div', class_="mc-title"))

30

In [63]:
for x in soup.find_all('div', class_="mc-title")[:10]:
    print(x.get_text())

El padrino
Planeta Tierra II
El padrino. Parte II
The Wire (Bajo escucha)
Breaking Bad
Cosmos
Planeta azul II
12 hombres sin piedad
Cosmos: A Space-Time Odyssey
La lista de Schindler


In [64]:
for x in soup.find_all('div', class_="avg-rating")[:10]:
    print(x.get_text())

9,0
8,9
8,9
8,8
8,8
8,8
8,8
8,7
8,6
8,6


In [66]:
top10_dict = {"Titulo": [x.get_text() for x in soup.find_all('div', class_="mc-title")[:10]],
             "Nota": [x.get_text() for x in soup.find_all('div', class_="avg-rating")[:10]]}
df = pd.DataFrame(top10_dict)
df.to_csv("top10.csv")
df

Unnamed: 0,Titulo,Nota
0,El padrino,90
1,Planeta Tierra II,89
2,El padrino. Parte II,89
3,The Wire (Bajo escucha),88
4,Breaking Bad,88
5,Cosmos,88
6,Planeta azul II,88
7,12 hombres sin piedad,87
8,Cosmos: A Space-Time Odyssey,86
9,La lista de Schindler,86


In [67]:
df.dtypes

Titulo    object
Nota      object
dtype: object