# Webscrapping con Beautiful Soup y  Scrapy

El **web scraping** es el proceso de extracción de datos de sitios web de manera automatizada. Aprenderás los conceptos fundamentales y las herramientas necesarias para recolectar datos valiosos de la web, lo que te permitirá alimentar tus análisis y proyectos de Data Science con información fresca y relevante.

## ¿Qué es?

En términos sencillos, web scraping es como recolectar datos de una página web. Imagina que la web es una mina de información y que eres un minero recogiendo las gemas que necesitas para tu proyecto. En lugar de copiar y pegar manualmente, utilizamos código para automatizar el proceso.

### ¿Por qué es importante el Web Scraping?


* **Acceso a datos no estructurados**: La mayoría de los datos en línea no están disponibles en formatos estructurados y listos para ser analizados. El web scraping te permite convertir datos no estructurados en un formato que puedas utilizar.

* **Actualización de datos**: Muchas fuentes web se actualizan constantemente. El web scraping te permite mantener tus conjuntos de datos actualizados sin tener que hacerlo manualmente.

* **Amplia gama de aplicaciones**: Desde la recopilación de datos de redes sociales hasta la obtención de precios de productos, el web scraping se utiliza en una amplia gama de aplicaciones de Data Science.

## Proceso de Web Scraping

El web scraping generalmente sigue estos pasos:

* **Hacer una solicitud HTTP**: obtenemos el contenido HTML de una página web.

* **Análisis del HTML**: analizamos la estructura del HTML y encontrar los elementos que contienen los datos que necesitamos.

* **Extracción de datos**: Una vez que hemos identificado los elementos, extraemos los datos relevantes.

* **Almacenamiento de datos**: Podemos guardar los datos en un formato estructurado, como un archivo CSV o una base de datos.

* **Limpieza y procesamiento**: A menudo, los datos extraídos necesitan ser limpiados y preprocesados antes de su análisis.

Es importante recordar que el web scraping puede tener implicaciones legales y éticas. Algunos sitios web prohíben la extracción de sus datos, y otros pueden limitar la velocidad a la que puedes hacer solicitudes para evitar la sobrecarga de sus servidores. Siempre debes respetar los términos de servicio de los sitios web y ser consciente de las leyes de privacidad y propiedad intelectual.

## Intro HTML

HTML (HyperText Markup Language) es el lenguaje de marcado utilizado para crear páginas web. Comprender los conceptos básicos de HTML es esencial para realizar web scraping, ya que te permite navegar y extraer datos de manera efectiva de sitios web.

HTML utiliza etiquetas para estructurar el contenido de una página web. Aquí tienes una breve introducción a los conceptos básicos de HTML:

1. **Etiquetas:** Las etiquetas son elementos fundamentales en HTML. Comienzan con `<` y terminan con `>`. Por ejemplo, `<p>` se utiliza para definir un párrafo, `<h1>` para encabezados de nivel 1, y `<a>` para enlaces.

2. **Elementos:** Un elemento HTML se compone de una etiqueta de apertura, contenido y una etiqueta de cierre. Por ejemplo, `<p>Este es un párrafo.</p>`. El contenido es lo que se muestra en la página.

3. **Atributos:** Las etiquetas pueden contener atributos que proporcionan información adicional sobre el elemento. Por ejemplo, en `<a href="https://www.ejemplo.com">Enlace</a>`, "href" es un atributo que define la URL a la que el enlace apunta.

4. **Anidamiento:** Los elementos HTML pueden anidarse dentro de otros elementos. Por ejemplo, un párrafo `<p>` puede contener un enlace `<a>`. Es importante entender la jerarquía de anidamiento para navegar eficazmente por la estructura de una página web.

5. **Estructura:** Una página web típica tiene una estructura jerárquica con elementos como `<html>`, `<head>` (que contiene metadatos), `<body>` (que contiene el contenido visible), y muchos otros elementos como encabezados, listas, imágenes, etc.

6. **Clases e IDs:** Los elementos HTML pueden tener clases y IDs, que son atributos utilizados para aplicar estilos y facilitar la identificación de elementos específicos en una página. Estos son útiles al realizar web scraping para seleccionar elementos específicos.

Para realizar web scraping, necesitas comprender cómo se organiza y etiqueta la información en una página web para poder identificar y extraer los datos que necesitas. El conocimiento de HTML es una base fundamental para esta tarea, ya que te permite navegar y seleccionar elementos específicos en el código fuente de una página web.


### BeautifulSoup

Beautiful Soup es una popular biblioteca de Python utilizada para analizar y extraer información de documentos HTML y XML de una manera sencilla y eficaz. Esta biblioteca proporciona herramientas para navegar y buscar elementos dentro de la estructura de un documento web, lo que la convierte en una herramienta esencial para tareas de web scraping y procesamiento de datos web. Beautiful Soup facilita la extracción de datos de una página web al proporcionar una interfaz amigable que permite acceder a etiquetas, atributos y contenido de manera intuitiva, lo que la convierte en una elección común entre los científicos de datos y desarrolladores que trabajan con datos web.

In [2]:
!pip install beautifulsoup4 



In [1]:
from bs4 import BeautifulSoup as bs
import requests
import pandas as pd
# from splinter import Browser
import numpy as np

pd.set_option('max_colwidth', 800) #este código ajusta la configuración para que las columnas de un DataFrame puedan mostrar hasta 800 caracteres de ancho sin truncar el contenido.

Ahora, estamos listos para solicitar nuestra primera página web. No es nada complicado: guardamos la URL que queremos raspar en la variable URL, luego solicitamos la URL (requests.get (url)) y guardamos la respuesta en la variable de respuesta:

In [5]:
url = "https://www.filmaffinity.com/es/topgen.php" 
response = requests.get(url) # realiza una solicitud GET a la URL especificada utilizando la biblioteca "requests" en Python. La variable "response" almacenará la respuesta devuelta por el servidor después de realizar la solicitud.

In [6]:
print(response) 

<Response [200]>


Pero necesitamos el contenido HTML de la página web solicitada, así que como siguiente paso guardamos el contenido de la respuesta a html:

In [7]:
'''asigna el contenido de la respuesta de la solicitud a la variable "html". La propiedad ".content" de la respuesta de la solicitud contiene el contenido de la respuesta en formato binario, que puede ser el HTML de una página web, un archivo de imagen, un archivo PDF, u otro tipo de recurso, dependiendo de la naturaleza de la solicitud '''

html = response.content 

In [8]:
print(html) 

b'<!DOCTYPE html>\n<html lang="es">\n    <head>\n<title>Top Filmaffinity: las mejores pel\xc3\xadculas y series de la historia por pa\xc3\xadses - a\xc3\xb1os - g\xc3\xa9nero - FilmAffinity</title>\n<meta charset="UTF-8">\n<meta name="description" content="Explora la historia del cine: Descubre una selecci\xc3\xb3n \xc3\xbanica de Pel\xc3\xadculas y series populares, desde 1874 hasta 2024">\n<meta property="og:site_name" content="FilmAffinity">\n<meta name="twitter:site" value="@Filmaffinity" >\n<meta property="og:url" content="https://www.filmaffinity.com/es/topgen.php" />\n<meta property="og:title" content="FilmAffinity" />\n<meta property="og:description" content="Explora la historia del cine: Descubre una selecci\xc3\xb3n \xc3\xbanica de Pel\xc3\xadculas y series populares, desde 1874 hasta 2024" />\n<link rel="canonical" href="https://www.filmaffinity.com/es/topgen.php">\n<link rel="alternate" media="only screen and (max-width: 640px)" href="https://m.filmaffinity.com/es/topgen.ph

In [9]:
''' crea un objeto BeautifulSoup llamado "soup" que contiene el HTML analizado utilizando el analizador 'html.parser'. Este código es típico en técnicas de web scraping, donde
 BeautifulSoup se utiliza para analizar el HTML de una página web y facilitar la extracción de datos específicos de ella'''

soup = bs(html, 'html.parser') 

In [10]:
print(soup) 

<!DOCTYPE html>

<html lang="es">
<head>
<title>Top Filmaffinity: las mejores películas y series de la historia por países - años - género - FilmAffinity</title>
<meta charset="utf-8"/>
<meta content="Explora la historia del cine: Descubre una selección única de Películas y series populares, desde 1874 hasta 2024" name="description"/>
<meta content="FilmAffinity" property="og:site_name"/>
<meta name="twitter:site" value="@Filmaffinity"/>
<meta content="https://www.filmaffinity.com/es/topgen.php" property="og:url">
<meta content="FilmAffinity" property="og:title">
<meta content="Explora la historia del cine: Descubre una selección única de Películas y series populares, desde 1874 hasta 2024" property="og:description">
<link href="https://www.filmaffinity.com/es/topgen.php" rel="canonical"/>
<link href="https://m.filmaffinity.com/es/topgen.php" media="only screen and (max-width: 640px)" rel="alternate"/>
<link href="/favicon.png" rel="icon" type="image/png"/>
<link href="/style/bootstrap

Ahora que hemos aprendido algo de HTML básico, finalmente podemos comenzar a extraer datos de soup. Simplemente escriba un nombre de etiqueta después de soup y un punto (como soup.title), y observe cómo se desarrolla la magia:

In [11]:
'''accede al elemento "title" del documento HTML analizado utilizando BeautifulSoup. En una página web HTML, la etiqueta "title" generalmente contiene el título visible en la pestaña del navegador.'''

soup.title 

<title>Top Filmaffinity: las mejores películas y series de la historia por países - años - género - FilmAffinity</title>

In [12]:
'''acceder al elemento "h1" del documento HTML analizado. Al llamar a "soup.h1", se obtiene el contenido del elemento "h1" del documento HTML, lo que permite acceder al texto o a otros elementos anidados dentro de la etiqueta "h1"'''

soup.h1 

<h1 id="main-title">Top FilmAffinity</h1>

In [13]:
'''extraer el texto contenido dentro del elemento "h1" del documento HTML analizado. Al llamar a ".get_text()" en el elemento "h1", se obtiene el texto sin formato contenido dentro de la etiqueta "h1" sin incluir ninguna etiqueta HTML adicional que pueda estar presente'''

soup.h1.get_text() 

'Top FilmAffinity'

¿Qué sucede si solo necesita el atributo de un elemento?

In [14]:
'''este código permite acceder al primer enlace (etiqueta "a") en el documento HTML analizado utilizando BeautifulSoup'''

soup.a 

<a href="https://www.filmaffinity.com/es/main.html">
<img alt="logo" src="/images/logo4.png"/>
<div class="logo-siteloc">España</div>
</a>

In [15]:
'''acceder al valor del atributo "href" del primer elemento "a" (es decir, el primer enlace) del documento HTML analizado. Al lllamar este código, se extrae el valor del atributo "href" de la etiqueta "a" (enlace) del HTML analizado utilizando BeautifulSoup. Esto es útil para acceder a la URL de destino de un enlace específico en una página web o para realizar operaciones basadas en el valor del atributo "href" dentro del código HTML'''

soup.a['href'] 

'https://www.filmaffinity.com/es/main.html'

In [16]:
'''el comando soup.find("a") encontrar y devolver el primer elemento "a" (es decir, el primer enlace) dentro del documento HTML analizado. Al llamar a "soup.find("a")", se obtiene
 el primer elemento "a" del documento HTML, lo que permite acceder a los atributos y el texto anidado dentro de la etiqueta "a" [1].

En resumen, este código busca y devuelve el primer enlace (etiqueta "a") dentro del documento HTML analizado utilizando BeautifulSoup'''

print("Sin utilizar método .find()")
print(soup.a)
print("")
print("Utilizando método .find()")
print(soup.find("a")) 

Sin utilizar método .find()
<a href="https://www.filmaffinity.com/es/main.html">
<img alt="logo" src="/images/logo4.png"/>
<div class="logo-siteloc">España</div>
</a>

Utilizando método .find()
<a href="https://www.filmaffinity.com/es/main.html">
<img alt="logo" src="/images/logo4.png"/>
<div class="logo-siteloc">España</div>
</a>


In [17]:
'''este código busca el primer enlace (etiqueta "a") dentro del documento HTML analizado, y luego extrae la URL de la imagen (atributo "src") del primer elemento "img" dentro de ese enlace utilizando BeautifulSoup. Este tipo de operación es útil para obtener la URL de la imagen vinculada a través del enlace encontrado en una página web'''

soup.find("a").find('img')['src'] 

'/images/logo4.png'

In [18]:
'''busca y devuelve una lista de todos los enlaces (etiquetas "a") dentro del documento HTML analizado utilizando BeautifulSoup. Este enfoque es útil para realizar operaciones
 que involucren todos los enlaces presentes en una página web, como extraer información específica o realizar modificaciones en masa.'''

soup.find_all('a') 

[<a href="https://www.filmaffinity.com/es/main.html">
 <img alt="logo" src="/images/logo4.png"/>
 <div class="logo-siteloc">España</div>
 </a>,
 <a href="https://www.filmaffinity.com/es/advsearch.php">Búsqueda avanzada <i class="fas fa-angle-double-right"></i></a>,
 <a class="sign-in" href="https://www.filmaffinity.com/es/login.php"><strong>Iniciar sesión</strong></a>,
 <a class="register" href="https://www.filmaffinity.com/es/register.php">Registrarse</a>,
 <a href="https://www.filmaffinity.com/es/topgen.php">Top FA</a>,
 <a href="https://www.filmaffinity.com/es/rankings.php">Rankings FA</a>,
 <a href="https://www.filmaffinity.com/es/category.php?id=2024films">Cine 2024</a>,
 <a href="https://www.filmaffinity.com/es/best_2023.php">Resumen 2023</a>,
 <a href="https://www.filmaffinity.com/es/calendar-tv.php">Calendario Series</a>,
 <a href="https://www.filmaffinity.com/es/category.php?id=latest_reviews">Últ. críticas</a>,
 <a href="https://www.filmaffinity.com/es/category.php?id=TRAILER

In [19]:
all_a = soup.find_all('a')
for a in all_a[:5]:
    print(a) 

<a href="https://www.filmaffinity.com/es/main.html">
<img alt="logo" src="/images/logo4.png"/>
<div class="logo-siteloc">España</div>
</a>
<a href="https://www.filmaffinity.com/es/advsearch.php">Búsqueda avanzada <i class="fas fa-angle-double-right"></i></a>
<a class="sign-in" href="https://www.filmaffinity.com/es/login.php"><strong>Iniciar sesión</strong></a>
<a class="register" href="https://www.filmaffinity.com/es/register.php">Registrarse</a>
<a href="https://www.filmaffinity.com/es/topgen.php">Top FA</a>


In [20]:
'''realiza las siguientes operaciones:

1- Busca todos los elementos "a" en el documento HTML analizado y los almacena en la lista all_a.

    - Utiliza soup.find_all('a') para encontrar y almacenar todos los elementos "a" (enlaces) del documento HTML en la lista all_a.

2- Itera a través de los primeros 5 elementos de la lista all_a e imprime el texto de cada enlace.

    - Utiliza un bucle for para iterar a través de los primeros 5 elementos de la lista all_a.
    - Para cada elemento "a" en la iteración, utiliza a.get_text() para obtener el texto anidado dentro de la etiqueta "a".
    - Imprime el texto de cada enlace utilizando print(a.get_text()).

En resumen, este código busca y almacena todos los enlaces (etiquetas "a") del documento HTML, y luego imprime el texto anidado dentro de los primeros 5 enlaces encontrados.
 Esto puede ser útil para visualizar los primeros 5 enlaces y su contenido de texto en una página web.''' 
all_a = soup.find_all('a')
for a in all_a[:5]:
    print(a.get_text()) 



España

Búsqueda avanzada 
Iniciar sesión
Registrarse
Top FA


In [21]:
all_a = soup.find_all('a')
for a in all_a[:5]:
    print(a['href']) 

https://www.filmaffinity.com/es/main.html
https://www.filmaffinity.com/es/advsearch.php
https://www.filmaffinity.com/es/login.php
https://www.filmaffinity.com/es/register.php
https://www.filmaffinity.com/es/topgen.php


# Obtener textos menú cabecera
Top FA| Rankings FA| Año 2023| Calendario Series| Últ. críticas| Tráilers| Premios
      
* Obtén los textos con find_all y un bucle
* Obtén los links con find_all y un bucle
* Almacena la información en un dataframe

In [34]:
# /html/body/header/div[2]/div/ul/li[3]/a

In [22]:
'''realiza las siguientes operaciones:

1- Busca todos los elementos "a" en el documento HTML analizado y los almacena en la lista all_a.

    - Utiliza soup.find_all('a') para encontrar y almacenar todos los elementos "a" (enlaces) del documento HTML en la lista all_a.

2- Itera a través de los primeros 5 elementos de la lista all_a e imprime el texto de cada enlace.

    - Utiliza un bucle for para iterar a través de los primeros 5 elementos de la lista all_a.
    - Para cada elemento "a" en la iteración, utiliza a.get_text() para obtener el texto anidado dentro de la etiqueta "a".
    - Imprime el texto de cada enlace utilizando print(a.get_text()).

En resumen, este código busca y almacena todos los enlaces (etiquetas "a") del documento HTML, y luego imprime el texto anidado dentro de los primeros 5 enlaces encontrados.
Esto puede ser útil para visualizar los primeros 5 enlaces y su contenido de texto en una página web.'''

soup.find("ul", id="awardsmenu").find_all('a') 

[<a href="https://www.filmaffinity.com/es/topgen.php">Top FA</a>,
 <a href="https://www.filmaffinity.com/es/rankings.php">Rankings FA</a>,
 <a href="https://www.filmaffinity.com/es/category.php?id=2024films">Cine 2024</a>,
 <a href="https://www.filmaffinity.com/es/best_2023.php">Resumen 2023</a>,
 <a href="https://www.filmaffinity.com/es/calendar-tv.php">Calendario Series</a>,
 <a href="https://www.filmaffinity.com/es/category.php?id=latest_reviews">Últ. críticas</a>,
 <a href="https://www.filmaffinity.com/es/category.php?id=TRAILERS">Tráilers</a>,
 <a href="https://www.filmaffinity.com/es/all_awards.php">Premios</a>,
 <a href="https://www.filmaffinity.com/es/award-edition.php?edition-id=cannes_2024">Cannes 2024 <span class="tooltip-new">New</span></a>]

In [23]:
'''realiza las siguientes operaciones:

1- Busca el elemento "ul" con el id "awardsmenu" dentro del documento HTML analizado y luego itera a través de todos los elementos "a" dentro de ese elemento.

    - Utiliza soup.find("ul", id="awardsmenu").find_all('a') para buscar y obtener todos los elementos "a" que se encuentran dentro del elemento "ul" con el id "awardsmenu".

    - Itera a través de cada uno de estos enlaces.

2- Imprime el texto y el atributo "href" de cada enlace.

    - Para cada enlace encontrado, utiliza enlace.get_text() para obtener el texto anidado dentro de la etiqueta "a" y lo imprime utilizando print(enlace.get_text()).

    - Utiliza enlace['href'] para obtener el valor del atributo "href" (es decir, la URL a la que apunta el enlace) y lo imprime utilizando print(enlace['href']).

En resumen, este código busca el elemento "ul" con el id "awardsmenu" y luego imprime el texto anidado y la URL de cada enlace "a" que se encuentra dentro de ese elemento. Esto
 es útil para obtener y mostrar el texto y las URL de los enlaces contenidos en un menú de premios o enlaces relacionados en una página web.'''

for enlace in soup.find("ul", id="awardsmenu").find_all('a'):
    print(enlace.get_text())
    print(enlace['href']) 

Top FA
https://www.filmaffinity.com/es/topgen.php
Rankings FA
https://www.filmaffinity.com/es/rankings.php
Cine 2024
https://www.filmaffinity.com/es/category.php?id=2024films
Resumen 2023
https://www.filmaffinity.com/es/best_2023.php
Calendario Series
https://www.filmaffinity.com/es/calendar-tv.php
Últ. críticas
https://www.filmaffinity.com/es/category.php?id=latest_reviews
Tráilers
https://www.filmaffinity.com/es/category.php?id=TRAILERS
Premios
https://www.filmaffinity.com/es/all_awards.php
Cannes 2024 New
https://www.filmaffinity.com/es/award-edition.php?edition-id=cannes_2024


In [24]:
'''realiza las siguientes operaciones:

1- Inicializa un diccionario vacío menu_dict con dos listas vacías, "Nombre" y "Enlace".

    - Se crea un diccionario menu_dict con dos claves, "Nombre" y "Enlace", cada una asociada a una lista vacía.

2- Itera a través de todos los elementos "a" dentro del elemento "ul" con el id "awardsmenu" y agrega el texto y la URL de cada enlace al diccionario.

    - Utiliza un bucle for para iterar a través de cada enlace dentro del elemento "ul" con el id "awardsmenu".

    - Para cada enlace, agrega el texto anidado dentro de la etiqueta "a" a la lista asociada a la clave "Nombre" en el diccionario menu_dict.

    - Agrega la URL (atributo "href") de cada enlace a la lista asociada a la clave "Enlace" en el diccionario menu_dict.

3- Crea un DataFrame a partir del diccionario y lo guarda en un archivo CSV llamado "enlaces_menus.csv".

    - Utiliza el diccionario menu_dict para crear un DataFrame utilizando la biblioteca pandas.
    - Guarda el DataFrame en un archivo CSV llamado "enlaces_menus.csv" utilizando df.to_csv("enlaces_menus.csv").

4- Muestra el DataFrame.

    - Finalmente, muestra el DataFrame, lo que mostrará el contenido del diccionario menu_dict en formato tabular.

En resumen, este código extrae el texto y las URL de todos los enlaces dentro del elemento "ul" con el id "awardsmenu", los almacena en un DataFrame y luego guarda el DataFrame en 
un archivo CSV llamado "enlaces_menus.csv". Esto es útil para recopilar y guardar enlaces de menús o listas en una página web en un formato estructurado y fácilmente accesible.'''

menu_dict = {"Nombre": [],
             "Enlace": []}

for enlace in soup.find("ul", id="awardsmenu").find_all('a'):
    menu_dict['Nombre'].append(enlace.get_text())
    menu_dict['Enlace'].append(enlace['href'])

df = pd.DataFrame(menu_dict)
df.to_csv("enlaces_menus.csv")
df 

Unnamed: 0,Nombre,Enlace
0,Top FA,https://www.filmaffinity.com/es/topgen.php
1,Rankings FA,https://www.filmaffinity.com/es/rankings.php
2,Cine 2024,https://www.filmaffinity.com/es/category.php?id=2024films
3,Resumen 2023,https://www.filmaffinity.com/es/best_2023.php
4,Calendario Series,https://www.filmaffinity.com/es/calendar-tv.php
5,Últ. críticas,https://www.filmaffinity.com/es/category.php?id=latest_reviews
6,Tráilers,https://www.filmaffinity.com/es/category.php?id=TRAILERS
7,Premios,https://www.filmaffinity.com/es/all_awards.php
8,Cannes 2024 New,https://www.filmaffinity.com/es/award-edition.php?edition-id=cannes_2024


# Obtener películas y nota
      
* Obtén los títulos de las top 10 películas
* Obtén el rating de las top 10 películas
* Almacena la información en un dataframe

In [22]:
# /html/body/div[2]/div/div/main/div[2]/ul/li[1]/ul/li[2]/div/div[2]/div[1]/a

In [25]:
'''realiza las siguientes operaciones:

1- Busca el primer elemento "div" con la clase "mc-title" dentro del documento HTML analizado.

    - Utiliza soup.find('div', class_="mc-title") para buscar y obtener el primer elemento "div" que tiene la clase "mc-title".

2- Encuentra y devuelve el texto anidado dentro del primer enlace encontrado dentro del elemento "div" obtenido en el paso anterior.

    - Utiliza .find("a") para encontrar el primer enlace "a" dentro del elemento "div".

    - Luego, utiliza .get_text() para obtener el texto anidado dentro de ese enlace y devolverlo.

En resumen, este código busca un elemento "div" con la clase "mc-title" y luego extrae y devuelve el texto del primer enlace que se encuentra dentro de ese elemento. Esto es 
útil para obtener el texto de un enlace específico contenido dentro de un elemento con una clase dada en una página web.'''

soup.find('div', class_="mc-title").find("a").get_text() 

'El padrino'

In [27]:
'''realiza la búsqueda y devuelve una lista de todos los elementos "div" que tienen la clase "mc-title" dentro del documento HTML analizado.

En resumen, el código "soup.find_all('div', class_="mc-title")" busca y devuelve todos los elementos "div" que tienen la clase "mc-title" en el documento HTML utilizando BeautifulSoup.'''

soup.find_all('div', class_="mc-title") 

[<div class="mc-title"><a href="https://www.filmaffinity.com/es/film809297.html" title="El padrino">El padrino</a></div>,
 <div class="mc-title"><a href="https://www.filmaffinity.com/es/film107937.html" title="Planeta Tierra II">Planeta Tierra II</a></div>,
 <div class="mc-title"><a href="https://www.filmaffinity.com/es/film730528.html" title="El padrino. Parte II">El padrino. Parte II</a></div>,
 <div class="mc-title"><a href="https://www.filmaffinity.com/es/film399474.html" title="The Wire (Bajo escucha)">The Wire (Bajo escucha)</a></div>,
 <div class="mc-title"><a href="https://www.filmaffinity.com/es/film489970.html" title="Breaking Bad">Breaking Bad</a></div>,
 <div class="mc-title"><a href="https://www.filmaffinity.com/es/film601451.html" title="Cosmos">Cosmos</a></div>,
 <div class="mc-title"><a href="https://www.filmaffinity.com/es/film518489.html" title="Planeta azul II">Planeta azul II</a></div>,
 <div class="mc-title"><a href="https://www.filmaffinity.com/es/film695552.html"

In [25]:
# /html/body/div[2]/div/div/main/div[2]/ul/li[1]/ul/li[3]/div[1]

In [28]:
'''El código "soup.find_all('div', class_= "avg-rating")" busca y devuelve una lista de todos los elementos "div" que tienen la clase "avg-rating" dentro del documento HTML analizado.'''

soup.find_all('div', class_= "avg-rating") 

[<div class="avg-rating">9,0</div>,
 <div class="avg-rating">8,9</div>,
 <div class="avg-rating">8,9</div>,
 <div class="avg-rating">8,8</div>,
 <div class="avg-rating">8,8</div>,
 <div class="avg-rating">8,8</div>,
 <div class="avg-rating">8,8</div>,
 <div class="avg-rating">8,7</div>,
 <div class="avg-rating">8,6</div>,
 <div class="avg-rating">8,6</div>,
 <div class="avg-rating">8,6</div>,
 <div class="avg-rating">8,6</div>,
 <div class="avg-rating">8,6</div>,
 <div class="avg-rating">8,6</div>,
 <div class="avg-rating">8,6</div>,
 <div class="avg-rating">8,6</div>,
 <div class="avg-rating">8,6</div>,
 <div class="avg-rating">8,6</div>,
 <div class="avg-rating">8,6</div>,
 <div class="avg-rating">8,6</div>,
 <div class="avg-rating">8,5</div>,
 <div class="avg-rating">8,5</div>,
 <div class="avg-rating">8,5</div>,
 <div class="avg-rating">8,5</div>,
 <div class="avg-rating">8,5</div>,
 <div class="avg-rating">8,5</div>,
 <div class="avg-rating">8,5</div>,
 <div class="avg-rating">8,5

In [29]:
'''realiza la siguiente operación:

1- Busca y devuelve una lista de todos los elementos "div" que tienen la clase "mc-title" dentro del documento HTML analizado utilizando BeautifulSoup.

El resultado de este código es una lista de todos los elementos "div" que cumplen con la condición de tener la clase "mc-title" en el documento HTML.'''

lista_divs_titulo = soup.find_all("div", class_= "mc-title")
lista_divs_titulo 

[<div class="mc-title"><a href="https://www.filmaffinity.com/es/film809297.html" title="El padrino">El padrino</a></div>,
 <div class="mc-title"><a href="https://www.filmaffinity.com/es/film107937.html" title="Planeta Tierra II">Planeta Tierra II</a></div>,
 <div class="mc-title"><a href="https://www.filmaffinity.com/es/film730528.html" title="El padrino. Parte II">El padrino. Parte II</a></div>,
 <div class="mc-title"><a href="https://www.filmaffinity.com/es/film399474.html" title="The Wire (Bajo escucha)">The Wire (Bajo escucha)</a></div>,
 <div class="mc-title"><a href="https://www.filmaffinity.com/es/film489970.html" title="Breaking Bad">Breaking Bad</a></div>,
 <div class="mc-title"><a href="https://www.filmaffinity.com/es/film601451.html" title="Cosmos">Cosmos</a></div>,
 <div class="mc-title"><a href="https://www.filmaffinity.com/es/film518489.html" title="Planeta azul II">Planeta azul II</a></div>,
 <div class="mc-title"><a href="https://www.filmaffinity.com/es/film695552.html"

In [30]:
'''realiza la siguiente operación:

Busca y devuelve una lista de todos los elementos "div" que tienen la clase "avg-rating" dentro del documento HTML analizado utilizando BeautifulSoup.

El resultado de este código es una lista de todos los elementos "div" que cumplen con la condición de tener la clase "avg-rating" en el documento HTML.

'''

lista_divs_ratings = soup.find_all('div', class_= "avg-rating")
lista_divs_ratings 

[<div class="avg-rating">9,0</div>,
 <div class="avg-rating">8,9</div>,
 <div class="avg-rating">8,9</div>,
 <div class="avg-rating">8,8</div>,
 <div class="avg-rating">8,8</div>,
 <div class="avg-rating">8,8</div>,
 <div class="avg-rating">8,8</div>,
 <div class="avg-rating">8,7</div>,
 <div class="avg-rating">8,6</div>,
 <div class="avg-rating">8,6</div>,
 <div class="avg-rating">8,6</div>,
 <div class="avg-rating">8,6</div>,
 <div class="avg-rating">8,6</div>,
 <div class="avg-rating">8,6</div>,
 <div class="avg-rating">8,6</div>,
 <div class="avg-rating">8,6</div>,
 <div class="avg-rating">8,6</div>,
 <div class="avg-rating">8,6</div>,
 <div class="avg-rating">8,6</div>,
 <div class="avg-rating">8,6</div>,
 <div class="avg-rating">8,5</div>,
 <div class="avg-rating">8,5</div>,
 <div class="avg-rating">8,5</div>,
 <div class="avg-rating">8,5</div>,
 <div class="avg-rating">8,5</div>,
 <div class="avg-rating">8,5</div>,
 <div class="avg-rating">8,5</div>,
 <div class="avg-rating">8,5

In [31]:
''' crea un DataFrame de Pandas utilizando listas de comprensión para extraer información de los elementos HTML obtenidos a través de Beautiful Soup. Aquí está el significado del
 código:

1- Extrae el texto de los elementos "a" dentro de los primeros 10 elementos de lista_divs_titulo y los primeros 10 elementos de lista_divs_ratings para formar las columnas "Titulo"
y "Rating" respectivamente en el DataFrame.

    - El código utiliza listas de comprensión para iterar a través de los elementos de lista_divs_titulo y lista_divs_ratings, extrayendo el texto de los elementos "a" y los
      elementos en sí, respectivamente.

    - Luego, estos valores se utilizan para crear un DataFrame de Pandas con las columnas "Titulo" y "Rating".

En resumen, el código extrae información de los elementos HTML y la organiza en un DataFrame de Pandas con las columnas "Titulo" y "Rating". Este enfoque es eficiente y legible
gracias al uso de listas de comprensión para la extracción de datos.'''

pd.DataFrame({"Titulo": [x.find('a').get_text() for x in lista_divs_titulo[:10]],
              "Rating": [x.get_text() for x in lista_divs_ratings[:10]]}) 

Unnamed: 0,Titulo,Rating
0,El padrino,90
1,Planeta Tierra II,89
2,El padrino. Parte II,89
3,The Wire (Bajo escucha),88
4,Breaking Bad,88
5,Cosmos,88
6,Planeta azul II,88
7,Doce hombres sin piedad,87
8,Cosmos: A Space-Time Odyssey,86
9,La lista de Schindler,86


# Scrapy

[Scrapy](https://scrapy.org/) es una librería destinada a construir arañas (crawlers o web spiders) para navegar la red saltando entre páginas y enlaces para captar toda la información posible.

In [1]:
!pip install scrapy 



Probaremos con una página de frases conocidas (https://quotes.toscrape.com) de las que sacar la información para evitar problemas. Deberemos crear un proyecto:

In [36]:
#scrapy startproject quotes 

Y ahora insertar nuestra araña en el directorio _spiders_ de este

In [1]:
'''La línea de código "%%file quotes/quotes/spiders/quotes_spyder.py" es una directiva específica de los cuadernos Jupyter que se utiliza para escribir el contenido de la celda en 
un archivo. En este caso, indica que el contenido de la celda actual se debe escribir en un archivo llamado "quotes_spyder.py" dentro del directorio "quotes/quotes/spiders/".'''

%%file C:/Users/rodri/OneDrive/Escritorio/DATA_SCIENCE/CODIGO_CLASES/TheBridge_DSPT-1/2-Data_Analysis/5-Fuentes_de_datos/Webscrapping/Teoría/spyder.py

from pathlib import Path

import scrapy

class QuotesSpider(scrapy.Spider):
    name = "quotes"
    start_urls = [
        "https://quotes.toscrape.com/page/1/",
        "https://quotes.toscrape.com/page/2/",
    ]

    def parse(self, response):
        page = response.url.split("/")[-2]
        filename = f"quotes-{page}.html"
        Path(filename).write_bytes(response.body)
        self.log(f"Saved file {filename}") 

Overwriting C:/Users/rodri/OneDrive/Escritorio/DATA_SCIENCE/CODIGO_CLASES/TheBridge_DSPT-1/2-Data_Analysis/5-Fuentes_de_datos/Webscrapping/Teoría/spyder.py


In [2]:
import os 

'''La función os.chdir() cambia el directorio de trabajo actual del programa a "quotes". Esto significa que cualquier operación de archivo o directorio que se realice después de
 esta línea se realizará en el directorio "quotes".''' 

os.chdir("quotes") 

In [44]:
!scrapy crawl quotes 

Scrapy 2.11.2 - no active project

Unknown command: crawl

Use "scrapy" to see available commands


Veremos que este código genera la extracción del código fuente de la página web.