# Webscrapping con Beautiful Soup

El **web scraping** es el proceso de extracción de datos de sitios web de manera automatizada. Aprenderás los conceptos fundamentales y las herramientas necesarias para recolectar datos valiosos de la web, lo que te permitirá alimentar tus análisis y proyectos de Data Science con información fresca y relevante.

## ¿Qué es?

En términos sencillos, web scraping es como recolectar datos de una página web. Imagina que la web es una mina de información y que eres un minero recogiendo las gemas que necesitas para tu proyecto. En lugar de copiar y pegar manualmente, utilizamos código para automatizar el proceso.

### ¿Por qué es importante el Web Scraping?


* **Acceso a datos no estructurados**: La mayoría de los datos en línea no están disponibles en formatos estructurados y listos para ser analizados. El web scraping te permite convertir datos no estructurados en un formato que puedas utilizar.

* **Actualización de datos**: Muchas fuentes web se actualizan constantemente. El web scraping te permite mantener tus conjuntos de datos actualizados sin tener que hacerlo manualmente.

* **Amplia gama de aplicaciones**: Desde la recopilación de datos de redes sociales hasta la obtención de precios de productos, el web scraping se utiliza en una amplia gama de aplicaciones de Data Science.

## Proceso de Web Scraping

El web scraping generalmente sigue estos pasos:

* **Hacer una solicitud HTTP**: obtenemos el contenido HTML de una página web.

* **Análisis del HTML**: analizamos la estructura del HTML y encontrar los elementos que contienen los datos que necesitamos.

* **Extracción de datos**: Una vez que hemos identificado los elementos, extraemos los datos relevantes.

* **Almacenamiento de datos**: Podemos guardar los datos en un formato estructurado, como un archivo CSV o una base de datos.

* **Limpieza y procesamiento**: A menudo, los datos extraídos necesitan ser limpiados y preprocesados antes de su análisis.

Es importante recordar que el web scraping puede tener implicaciones legales y éticas. Algunos sitios web prohíben la extracción de sus datos, y otros pueden limitar la velocidad a la que puedes hacer solicitudes para evitar la sobrecarga de sus servidores. Siempre debes respetar los términos de servicio de los sitios web y ser consciente de las leyes de privacidad y propiedad intelectual.

## Intro HTML

HTML (HyperText Markup Language) es el lenguaje de marcado utilizado para crear páginas web. Comprender los conceptos básicos de HTML es esencial para realizar web scraping, ya que te permite navegar y extraer datos de manera efectiva de sitios web.

HTML utiliza etiquetas para estructurar el contenido de una página web. Aquí tienes una breve introducción a los conceptos básicos de HTML:

1. **Etiquetas:** Las etiquetas son elementos fundamentales en HTML. Comienzan con `<` y terminan con `>`. Por ejemplo, `<p>` se utiliza para definir un párrafo, `<h1>` para encabezados de nivel 1, y `<a>` para enlaces.

2. **Elementos:** Un elemento HTML se compone de una etiqueta de apertura, contenido y una etiqueta de cierre. Por ejemplo, `<p>Este es un párrafo.</p>`. El contenido es lo que se muestra en la página.

3. **Atributos:** Las etiquetas pueden contener atributos que proporcionan información adicional sobre el elemento. Por ejemplo, en `<a href="https://www.ejemplo.com">Enlace</a>`, "href" es un atributo que define la URL a la que el enlace apunta.

4. **Anidamiento:** Los elementos HTML pueden anidarse dentro de otros elementos. Por ejemplo, un párrafo `<p>` puede contener un enlace `<a>`. Es importante entender la jerarquía de anidamiento para navegar eficazmente por la estructura de una página web.

5. **Estructura:** Una página web típica tiene una estructura jerárquica con elementos como `<html>`, `<head>` (que contiene metadatos), `<body>` (que contiene el contenido visible), y muchos otros elementos como encabezados, listas, imágenes, etc.

6. **Clases e IDs:** Los elementos HTML pueden tener clases y IDs, que son atributos utilizados para aplicar estilos y facilitar la identificación de elementos específicos en una página. Estos son útiles al realizar web scraping para seleccionar elementos específicos.

Para realizar web scraping, necesitas comprender cómo se organiza y etiqueta la información en una página web para poder identificar y extraer los datos que necesitas. El conocimiento de HTML es una base fundamental para esta tarea, ya que te permite navegar y seleccionar elementos específicos en el código fuente de una página web.


### BeautifulSoup

Beautiful Soup es una popular biblioteca de Python utilizada para analizar y extraer información de documentos HTML y XML de una manera sencilla y eficaz. Esta biblioteca proporciona herramientas para navegar y buscar elementos dentro de la estructura de un documento web, lo que la convierte en una herramienta esencial para tareas de web scraping y procesamiento de datos web. Beautiful Soup facilita la extracción de datos de una página web al proporcionar una interfaz amigable que permite acceder a etiquetas, atributos y contenido de manera intuitiva, lo que la convierte en una elección común entre los científicos de datos y desarrolladores que trabajan con datos web.

In [None]:
!pip install beautifulsoup4

In [None]:
from bs4 import BeautifulSoup as bs
import requests
import pandas as pd
# from splinter import Browser
import numpy as np

pd.set_option('max_colwidth', 800)

Ahora, estamos listos para solicitar nuestra primera página web. No es nada complicado: guardamos la URL que queremos raspar en la variable URL, luego solicitamos la URL (requests.get (url)) y guardamos la respuesta en la variable de respuesta:

In [None]:
url = "https://www.filmaffinity.com/es/topgen.php"
response = requests.get(url)

In [None]:
print(response)

Pero necesitamos el contenido HTML de la página web solicitada, así que como siguiente paso guardamos el contenido de la respuesta a html:

In [None]:
html = response.content

In [None]:
print(html)

In [None]:
soup = bs(html, 'html.parser')

In [None]:
print(soup)

Ahora que hemos aprendido algo de HTML básico, finalmente podemos comenzar a extraer datos de soup. Simplemente escriba un nombre de etiqueta después de soup y un punto (como soup.title), y observe cómo se desarrolla la magia:

In [None]:
soup.title

In [None]:
soup.h1

In [None]:
soup.h1.get_text()

¿Qué sucede si solo necesita el atributo de un elemento?

In [None]:
soup.a

In [None]:
soup.a['href']

In [None]:
print("Sin utilizar método .find()")
print(soup.a)
print("")

print("Utilizando método .find()")
print(soup.find("a"))

In [None]:
soup.find("a").find('img')['src']

In [None]:
soup.find_all('a')

In [None]:
all_a = soup.find_all('a')

for a in all_a[:5]:
    print(a)

In [None]:
all_a = soup.find_all('a')
for a in all_a[:5]:
    print(a.get_text())

In [None]:
all_a = soup.find_all('a')
for a in all_a[:5]:
    print(a['href'])

<table align="left">
 <tr><td width="80"><img src="./img/ejercicio.png" style="width:auto;height:auto"></td>
     <td style="text-align:left">
         <h3>Obtener textos menú cabecera</h3>
Top FA| Rankings FA| Año 2023| Calendario Series| Últ. críticas| Tráilers| Premios
      
<ol>
    <li>Obtén los textos con find_all y un bucle</li>
    <li>Obtén los links con find_all y un bucle</li>
    <li>Almacena la información en un dataframe</li>
</ol>
         
 </td></tr>
</table>

In [None]:
soup.find_all("a")[4:12]

In [None]:
for x in soup.find_all("a")[4:12]:
    print(x.get_text())
    print(x['href'])

In [None]:
for x in soup.find_all("ul")[0].find_all('a'):
    print(x.get_text())
    print(x['href'])

In [None]:
menu_dict = {"Texto": [],
             "Enlace": []}

for x in soup.find_all("a")[4:12]:
    menu_dict['Texto'].append(x.get_text())
    menu_dict['Enlace'].append(x['href'])

df = pd.DataFrame(menu_dict)
df.to_csv("enlaces_menus.csv")
df

<table align="left">
 <tr><td width="80"><img src="./img/ejercicio.png" style="width:auto;height:auto"></td>
     <td style="text-align:left">
         <h3>Obtener películas y nota</h3>
      
<ol>
    <li>Obtén los títulos de las top 10 películas</li>
    <li>Obtén el rating de las top 10 películas</li>
    <li>Almacena la información en un dataframe</li>
</ol>
         
 </td></tr>
</table>

In [None]:
#/html/body/div[3]/div/div/main/div[2]/ul/li[1]/ul/li[2]/div/div[2]/div[1]/a

In [None]:
soup.find('div', class_="mc-title").get_text()

In [None]:
len(soup.find_all('div', class_="mc-title"))

In [None]:
for x in soup.find_all('div', class_="mc-title")[:10]:
    print(x.get_text())

In [None]:
for x in soup.find_all('div', class_="avg-rating")[:10]:
    print(x.get_text())

In [None]:
top10_dict = {"Titulo": [x.get_text() for x in soup.find_all('div', class_="mc-title")[:10]],
             "Nota": [x.get_text() for x in soup.find_all('div', class_="avg-rating")[:10]]}
df = pd.DataFrame(top10_dict)
df.to_csv("top10.csv")
df

In [None]:
df.dtypes