# Tasca M10 T01. Exercicis de Web Scraping

El web scraping és una tècnica utilitzada per extreure dades i contingut de pàgines web de manera automatitzada. Consisteix en fer servir programes o scripts per navegar pels llocs web, analitzar la seva estructura i extreure informació rellevant, com text, imatges, taules o altres elements, d'acord amb criteris específics. Aquesta tècnica s'utilitza àmpliament per recopilar dades a gran escala, realitzar anàlisis, investigacions, seguiment de preus, monitoratge de competidors i altres tasques on és necessària l'obtenció d'informació de múltiples fonts en línia. És important mencionar que, tot i que el web scraping pot ser una eina poderosa i valuosa, cal utilitzar-la de manera ètica i respectant els termes d'ús i polítiques de privacitat dels llocs web.

## Exercici 1

Realitza web scraping de dues de les tres pàgines web proposades utilitzant BeautifulSoup primer i Selenium després. 

- http://quotes.toscrape.com

- https://www.bolsamadrid.es

- www.wikipedia.es (fes alguna cerca primer i escrapeja algun contingut)

In [1]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
from IPython.display import display
import scipy.stats as stats

import requests

### Quotes to scrape

##### Amb BeautifulSoup
Beautiful Soup és una llibreria de Python que es fa servir per extreure dades de documents HTML i XML. És una eina poderosa i molt útil per fer web scraping, ja que ens permet analitzar el codi font d'una pàgina web i extreure informació específica d'una manera fàcil i intuïtiva.
Amb Beautiful Soup, podem navegar pel codi HTML o XML d'una pàgina web com si fos un arbre, i accedir a les diferents etiquetes i atributs per obtenir el contingut que ens interessa. Això ens permet trobar i extreure text, imatges, enllaços i altres dades d'una pàgina web, facilitant així la tasca de recopilar informació o d'analitzar el contingut d'un lloc.

In [2]:
from bs4 import BeautifulSoup
URL = 'http://quotes.toscrape.com/'
response = requests.get(URL)

Revisem l'estatus de la connexió

In [3]:
response.status_code

200

    Això vol dir que funciona correctament

Tenim tota l'informació en la respota r però hem de buscar on és l'informació que volem, això es pot fer mitjançant inspeccionar la pàgina web o parser

In [4]:
# Prova amb el parser 'lxml'
try:
    soup = BeautifulSoup(response.content, 'lxml')  # Crear un objecte BeautifulSoup a partir del contingut de la resposta 'q' utilitzant el parser 'lxml'
    print(soup.prettify())  # Imprimeix el contingut HTML formatat per facilitar la lectura
except FeatureNotFound:
    # Si 'lxml' no està disponible, prova amb 'html.parser'
    try:
        soup = BeautifulSoup(response.content, 'html.parser')  # Crear un objecte BeautifulSoup a partir del contingut de la resposta 'q' utilitzant el parser 'html.parser'
        print(soup.prettify())  # Imprimeix el contingut HTML formatat per facilitar la lectura
    except FeatureNotFound:
        print("No s'ha trobat cap llibreria de parsing adequada. Si us plau, instal·la 'lxml' o 'html.parser'.")  # Imprimeix un missatge d'error si cap parser adequat està disponible

<!DOCTYPE html>
<html lang="en">
 <head>
  <meta charset="utf-8"/>
  <title>
   Quotes to Scrape
  </title>
  <link href="/static/bootstrap.min.css" rel="stylesheet"/>
  <link href="/static/main.css" rel="stylesheet"/>
 </head>
 <body>
  <div class="container">
   <div class="row header-box">
    <div class="col-md-8">
     <h1>
      <a href="/" style="text-decoration: none">
       Quotes to Scrape
      </a>
     </h1>
    </div>
    <div class="col-md-4">
     <p>
      <a href="/login">
       Login
      </a>
     </p>
    </div>
   </div>
   <div class="row">
    <div class="col-md-8">
     <div class="quote" itemscope="" itemtype="http://schema.org/CreativeWork">
      <span class="text" itemprop="text">
       “The world as we have created it is a process of our thinking. It cannot be changed without changing our thinking.”
      </span>
      <span>
       by
       <small class="author" itemprop="author">
        Albert Einstein
       </small>
       <a href="/author/Albert

Obtinguem la frase i el seu respectiu autor

In [5]:
data = []
soup = BeautifulSoup(response.content, 'lxml')
quotes = soup.find_all('div', class_='quote')

# Obtener los datos de cada cita y agregarlos a la lista
for quote in quotes:
    text = quote.find('span', class_='text').text.strip()
    author = quote.find('small', class_='author').text.strip()
    data.append({'author': author, 'text': text})

# Crear un DataFrame con los datos
quotesandautohor = pd.DataFrame(data)

In [6]:
quotesandautohor

Unnamed: 0,author,text
0,Albert Einstein,“The world as we have created it is a process ...
1,J.K. Rowling,"“It is our choices, Harry, that show what we t..."
2,Albert Einstein,“There are only two ways to live your life. On...
3,Jane Austen,"“The person, be it gentleman or lady, who has ..."
4,Marilyn Monroe,"“Imperfection is beauty, madness is genius and..."
5,Albert Einstein,“Try not to become a man of success. Rather be...
6,André Gide,“It is better to be hated for what you are tha...
7,Thomas A. Edison,"“I have not failed. I've just found 10,000 way..."
8,Eleanor Roosevelt,“A woman is like a tea bag; you never know how...
9,Steve Martin,"“A day without sunshine is like, you know, nig..."


##### Amb Selenium
Selenium és una llibreria i un conjunt d'eines de codi obert que s'utilitza principalment per a l'automatització de tests en aplicacions web. Una de les seves característiques més destacades és la seva capacitat d'interactuar amb navegadors web i simular les accions d'un usuari en una pàgina web. Això inclou clicar botons, omplir formularis, fer scroll, navegar entre pàgines, etc.
A més d'utilitzar-se per a proves automatitzades, Selenium també és molt emprat en el web scraping, especialment en casos on el web scraping tradicional amb llibreries com Beautiful Soup no és suficient. Quan les pàgines web utilitzen dinàmicament JavaScript per a carregar contingut, interactuar amb bases de dades o realitzar accions específiques, Selenium permet simular aquest comportament interactiu per a obtenir les dades que es desitgin.

    Primer hem de configurar Selenium

In [7]:
from selenium import webdriver
# Ruta de l'arxiu executable de Microsoft WebDriver
edge_driver_path = r"C:\Users\Patricia\Downloads\edgedriver_win64\msedgedriver.exe"
# Ruta de l'arxiu executable de Microsoft WebDriver
edge_driver_path = r"C:\Users\Patricia\Downloads\edgedriver_win64\msedgedriver.exe"
# Crear una instància del controlador de Edge
driver = webdriver.Edge(executable_path=edge_driver_path)

In [8]:
# Utilitzar el controlador per interactuar amb el navegador Edge
driver.get("http://quotes.toscrape.com")

In [9]:
print(driver.page_source) # Imprimim tot el contitgut

<html lang="en"><head>
	<meta charset="UTF-8">
	<title>Quotes to Scrape</title>
    <link rel="stylesheet" href="/static/bootstrap.min.css">
    <link rel="stylesheet" href="/static/main.css">
</head>
<body>
    <div class="container">
        <div class="row header-box">
            <div class="col-md-8">
                <h1>
                    <a href="/" style="text-decoration: none">Quotes to Scrape</a>
                </h1>
            </div>
            <div class="col-md-4">
                <p>
                
                    <a href="/login">Login</a>
                
                </p>
            </div>
        </div>
    

<div class="row">
    <div class="col-md-8">

    <div class="quote" itemscope="" itemtype="http://schema.org/CreativeWork">
        <span class="text" itemprop="text">“The world as we have created it is a process of our thinking. It cannot be changed without changing our thinking.”</span>
        <span>by <small class="author" itemprop="author">Al

In [10]:
from selenium.webdriver.common.by import By

frase = []

for web in driver.find_elements(By.CLASS_NAME, 'quote'):
    # Obtindre l'autor de la cita
    dataauthor = web.find_element(By.CSS_SELECTOR, 'small.author').text
    # Obtindre la frase
    datafrase = web.find_element(By.CSS_SELECTOR, 'span.text').text.strip('“”')
    frase.append((dataauthor, datafrase))

# Crear el dataframe amb les columnes "Author" i "Frases"
df_Quotes_Sl = pd.DataFrame(frase, columns=['Author', 'Frases'])

In [11]:
df_Quotes_Sl

Unnamed: 0,Author,Frases
0,Albert Einstein,The world as we have created it is a process o...
1,J.K. Rowling,"It is our choices, Harry, that show what we tr..."
2,Albert Einstein,There are only two ways to live your life. One...
3,Jane Austen,"The person, be it gentleman or lady, who has n..."
4,Marilyn Monroe,"Imperfection is beauty, madness is genius and ..."
5,Albert Einstein,Try not to become a man of success. Rather bec...
6,André Gide,It is better to be hated for what you are than...
7,Thomas A. Edison,"I have not failed. I've just found 10,000 ways..."
8,Eleanor Roosevelt,A woman is like a tea bag; you never know how ...
9,Steve Martin,"A day without sunshine is like, you know, night."


In [12]:
driver.quit()

### Wikipedia, propers esdeveniments

##### Amb BeautifulSoup

In [13]:
# Fer una sol·licitud GET a l'URL desitjada
url = "https://es.wikipedia.org/wiki/Portal:Actualidad"
response = requests.get(url)

Revisen l'estatus de la conexió

In [14]:
response.status_code

200

Tenim tota l'informació en la respota r però hem de buscar on és l'informació que volem, això es pot fer mitjançant inspeccionar la pàgina web o parser

In [15]:
# Prova amb el parser 'lxml'
try:
    soup = BeautifulSoup(response.content, 'lxml')  # Crear un objecte BeautifulSoup a partir del contingut de la resposta 'q' utilitzant el parser 'lxml'
    print(soup.prettify())  # Imprimeix el contingut HTML formatat per facilitar la lectura
except FeatureNotFound:
    # Si 'lxml' no està disponible, prova amb 'html.parser'
    try:
        soup = BeautifulSoup(response.content, 'html.parser')  # Crear un objecte BeautifulSoup a partir del contingut de la resposta 'q' utilitzant el parser 'html.parser'
        print(soup.prettify())  # Imprimeix el contingut HTML formatat per facilitar la lectura
    except FeatureNotFound:
        print("No s'ha trobat cap llibreria de parsing adequada. Si us plau, instal·la 'lxml' o 'html.parser'.")  # Imprimeix un missatge d'error si cap parser adequat està disponible

<!DOCTYPE html>
<html class="client-nojs vector-feature-language-in-header-enabled vector-feature-language-in-main-page-header-disabled vector-feature-sticky-header-disabled vector-feature-page-tools-pinned-disabled vector-feature-toc-pinned-enabled vector-feature-main-menu-pinned-disabled vector-feature-limited-width-enabled vector-feature-limited-width-content-enabled vector-feature-zebra-design-disabled" dir="ltr" lang="es">
 <head>
  <meta charset="utf-8"/>
  <title>
   Portal:Actualidad - Wikipedia, la enciclopedia libre
  </title>
  <script>
   document.documentElement.className="client-js vector-feature-language-in-header-enabled vector-feature-language-in-main-page-header-disabled vector-feature-sticky-header-disabled vector-feature-page-tools-pinned-disabled vector-feature-toc-pinned-enabled vector-feature-main-menu-pinned-disabled vector-feature-limited-width-enabled vector-feature-limited-width-content-enabled vector-feature-zebra-design-disabled";(function(){var cookie=docu

In [16]:
# Analitzar l'HTML amb BeautifulSoup
soup = BeautifulSoup(response.text, "html.parser")

# Trobar l'element de taula amb la classe "wikitable"
table = soup.find("table", class_="wikitable")
tbody = table.find("tbody")
rows = tbody.find_all("tr")

data = []
# Iterar sobre les files de la taula i extreure les dades desitjades
for row in rows:
    columns = row.find_all("td")
    if len(columns) == 2:
        date = columns[0].text.strip()
        link = columns[1].find("a")
        title = link.get("title")
        url = "https://es.wikipedia.org" + link.get("href")

        data.append([date, title, url])

# Crear un DataFrame amb les dades extretes
esdev = pd.DataFrame(data, columns=["Fecha", "Título", "URL"])

In [17]:
esdev

Unnamed: 0,Fecha,Título,URL
0,9 de julio,Elecciones presidenciales de Uzbekistán de 2023,https://es.wikipedia.org/wiki/Elecciones_presi...
1,14 de julio,Miss Supranacional 2023,https://es.wikipedia.org/wiki/Miss_Supranacion...
2,15 de julio,Mister Supranacional 2023,https://es.wikipedia.org/wiki/Mister_Supranaci...
3,23 de julio,Elecciones generales de Camboya de 2023,https://es.wikipedia.org/wiki/Elecciones_gener...
4,23 de julio,Elecciones generales de España de 2023,https://es.wikipedia.org/wiki/Elecciones_gener...
5,1 de agosto,Jornada Mundial de la Juventud 2023,https://es.wikipedia.org/wiki/Jornada_Mundial_...
6,1 de agosto,Luna 25,https://es.wikipedia.org/wiki/Luna_25
7,20 de agosto,Elecciones legislativas de Ecuador de 2023,https://es.wikipedia.org/wiki/Elecciones_legis...
8,20 de agosto,Elecciones presidenciales de Ecuador de 2023,https://es.wikipedia.org/wiki/Elecciones_presi...


Aquest DataFrame té tres columnes: "Fecha" (Data), "Título" i "URL". Cada fila representa un esdeveniment amb la seva data, títol i enllaç a la pàgina de Wikipedia corresponent.

### Amb Selenium

In [18]:
# Ruta de l'arxiu executable de Microsoft WebDriver
edge_driver_path = r"C:\Users\Patricia\Downloads\edgedriver_win64\msedgedriver.exe"
# Ruta de l'arxiu executable de Microsoft WebDriver
edge_driver_path = r"C:\Users\Patricia\Downloads\edgedriver_win64\msedgedriver.exe"
# Crear una instància del controlador de Edge
driver = webdriver.Edge(executable_path=edge_driver_path)

In [19]:
# Utilitzar el controlador per interactuar amb el navegador Edge
driver.get("https://es.wikipedia.org/wiki/Portal:Actualidad")

In [20]:
print(driver.page_source) # Imprimim tot el contitgut

<html class="client-js vector-feature-language-in-header-enabled vector-feature-language-in-main-page-header-disabled vector-feature-sticky-header-disabled vector-feature-page-tools-pinned-disabled vector-feature-toc-pinned-enabled vector-feature-main-menu-pinned-disabled vector-feature-limited-width-enabled vector-feature-limited-width-content-enabled vector-feature-zebra-design-disabled vector-animations-ready" lang="es" dir="ltr"><head>
<meta charset="UTF-8">
<title>Portal:Actualidad - Wikipedia, la enciclopedia libre</title>
<script>document.documentElement.className="client-js vector-feature-language-in-header-enabled vector-feature-language-in-main-page-header-disabled vector-feature-sticky-header-disabled vector-feature-page-tools-pinned-disabled vector-feature-toc-pinned-enabled vector-feature-main-menu-pinned-disabled vector-feature-limited-width-enabled vector-feature-limited-width-content-enabled vector-feature-zebra-design-disabled";(function(){var cookie=document.cookie.ma

In [21]:
# Encontrar el elemento de la tabla con la clase "wikitable"
table = driver.find_element_by_class_name("wikitable")
rows = table.find_elements_by_tag_name("tr")

data = []
# Iterar sobre las filas de la tabla y extraer los datos deseados
for row in rows:
    columns = row.find_elements_by_tag_name("td")
    if len(columns) == 2:
        date = columns[0].text.strip()
        link = columns[1].find_element_by_tag_name("a")
        title = link.get_attribute("title")
        url = "https://es.wikipedia.org" + link.get_attribute("href")

        data.append([date, title, url])

# Crear un DataFrame con los datos extraídos
esdev2 = pd.DataFrame(data, columns=["Fecha", "Título", "URL"])

# Cerrar el navegador
driver.quit()

In [22]:
esdev2

Unnamed: 0,Fecha,Título,URL
0,9 de julio,Elecciones presidenciales de Uzbekistán de 2023,https://es.wikipedia.orghttps://es.wikipedia.o...
1,14 de julio,Miss Supranacional 2023,https://es.wikipedia.orghttps://es.wikipedia.o...
2,15 de julio,Mister Supranacional 2023,https://es.wikipedia.orghttps://es.wikipedia.o...
3,23 de julio,Elecciones generales de Camboya de 2023,https://es.wikipedia.orghttps://es.wikipedia.o...
4,23 de julio,Elecciones generales de España de 2023,https://es.wikipedia.orghttps://es.wikipedia.o...
5,1 de agosto,Jornada Mundial de la Juventud 2023,https://es.wikipedia.orghttps://es.wikipedia.o...
6,1 de agosto,Luna 25,https://es.wikipedia.orghttps://es.wikipedia.o...
7,20 de agosto,Elecciones legislativas de Ecuador de 2023,https://es.wikipedia.orghttps://es.wikipedia.o...
8,20 de agosto,Elecciones presidenciales de Ecuador de 2023,https://es.wikipedia.orghttps://es.wikipedia.o...


## Exercici 2
Documenta en un Word el teu conjunt de dades generat amb la informació que tenen els diferents arxius de Kaggle.

 Per saber més

A manera d'exemple del que es demana pots consultar aquest enllaç:

->https://www.kaggle.com/datasets/vivovinco/20212022-football-team-stats.

In [23]:
from docx import Document
from docx.shared import Pt
from datetime import datetime

def generar_documentacio_dades(data, titol, comentari=None):
    # Crear un document de Word
    doc = Document()

    # Afegir el títol
    paragraf_titol = doc.add_paragraph()
    run_titol = paragraf_titol.add_run(titol)
    run_titol.bold = True
    run_titol.font.size = Pt(14)

    # Obtenir el nombre de columnes de les dades
    num_columnes = len(data.columns)

    # Afegir una taula amb les columnes corresponents
    taula = doc.add_table(rows=1, cols=num_columnes)
    taula.style = 'Table Grid'

    # Afegir les files d'encapçalament a la taula
    fila_encapçalament = taula.rows[0]
    for i, columna in enumerate(data.columns):
        celda_encapçalament = fila_encapçalament.cells[i]
        celda_encapçalament.text = columna
        celda_encapçalament.paragraphs[0].runs[0].bold = True

    # Afegir les files de dades a la taula
    for _, fila in data.iterrows():
        nova_fila = taula.add_row().cells
        for i, valor in enumerate(fila):
            nova_fila[i].text = str(valor)

    # Afegir el comentari addicional sota la taula amb la data i l'hora actuals
    if comentari:
        comentari_final = f"{comentari}, generat el dia {datetime.now().strftime('%d/%m/%Y')} a les {datetime.now().strftime('%H:%M')}"
        doc.add_paragraph(comentari_final)

    # Guardar el document en un fitxer de Word amb el nom del títol
    nom_document = titol + ".docx"
    doc.save(nom_document)

In [24]:
generar_documentacio_dades(df_Quotes_Sl, "Documentació, Frases i Autors", "Frases i autors obtinguts de http://quotes.toscrape.com/")

https://github.com/patriciaapenat/Data-Science-It-Academy/blob/main/Sprint%2010/Documentaci%C3%B3%2C%20Frases%20i%20Autors.docx

In [25]:
generar_documentacio_dades(esdev2, "Documentació, Esdeveniments propers", 'esdeveniments propers segons la pàgina Actualidad de Wikipedia https://es.wikipedia.org/wiki/Portal:Actualidad, tenim data, títol i enllaç a la pàgina amb informació adicional')

https://github.com/patriciaapenat/Data-Science-It-Academy/blob/main/Sprint%2010/Documentaci%C3%B3%2C%20Esdeveniments%20propers.docx

## Exercici 3
Tria una pàgina web que tu vulguis i realitza web scraping mitjançant la llibreria Selenium primer i Scrapy després. 

### Amb Selenium

In [26]:
# Ruta de l'arxiu executable del controlador de Microsoft WebDriver per al navegador Edge
edge_driver_path = r"C:\Users\Patricia\Downloads\edgedriver_win64\msedgedriver.exe"  # Substitueix aquesta ruta per la teva pròpia ruta cap a l'executable

# Crear una instància del controlador de Edge
driver = webdriver.Edge(executable_path=edge_driver_path)

# Utilitzar el controlador per interactuar amb el navegador Edge
driver.get("https://www.amazon.es/gp/bestsellers/books/902680031/ref=zg_bs_nav_books_2_902674031")

# Trobar tots els elements amb l'identificador específic utilitzant un localitzador XPath
registres = driver.find_elements(By.XPATH, "/html/body/div[1]/div[3]/div/div/div[1]/div/div/div[2]/div[1]")




In [27]:
print(driver.page_source) # Imprimim tot el contitgut

<html lang="es-es" class=" a-js a-audio a-video a-canvas a-svg a-drag-drop a-geolocation a-history a-webworker a-autofocus a-input-placeholder a-textarea-placeholder a-local-storage a-gradients a-transform3d a-touch-scrolling a-text-shadow a-text-stroke a-box-shadow a-border-radius a-border-image a-opacity a-transform a-transition null" data-19ax5a9jf="dingo" data-aui-build-date="3.23.1-2023-07-15"><!-- sp:feature:head-start --><head><script async="" src="https://images-eu.ssl-images-amazon.com/images/I/31bJewCvY-L.js" crossorigin="anonymous"></script><script>var aPageStart = (new Date()).getTime();</script><meta charset="utf-8">
<!-- sp:end-feature:head-start -->
<!-- sp:feature:csm:head-open-part1 -->

<script type="text/javascript">var ue_t0=ue_t0||+new Date();</script>
<!-- sp:end-feature:csm:head-open-part1 -->
<!-- sp:feature:cs-optimization -->
<meta http-equiv="x-dns-prefetch-control" content="on">
<link rel="dns-prefetch" href="https://images-eu.ssl-images-amazon.com">
<link r

In [28]:
# Procesar cada registre
for registre in registres:
    # Obtenir el contingut del registre
    contingut = registre.text

    # Imprimir el contingut del registre
    print(contingut)

#1
¿Y a ti qué te pica? (Biblioteca Megan Maxwell)
Megan Maxwell
2
Tapa blanda
17,00 €
#2
El cuco de cristal
Javier Castillo
4.950
Versión Kindle
9,49 €
Últimas novedades
en Ficción contemporánea

#3
El viento conoce mi nombre
Isabel Allende
1.725
Versión Kindle
10,44 €
#4
Un cuento perfecto (Best Seller)
Elísabet Benavent
9.806
Libro de bolsillo
9,45 €
#5
El cuco de cristal (SUMA)
Javier Castillo
4.950
Tapa blanda
19,85 €
#6
Aprender a leer en la Escuela de Monstruos 1 - La mascota más grandota: En letra MAYÚSCULA para aprender a leer (Libros para niños a partir de 5 años) (Montena)
Sally Rippin
1.105
Tapa blanda
6,60 €
#7
El viento conoce mi nombre (Éxitos)
Isabel Allende
1.725
Tapa dura
21,75 €
#8
SU FALSA BODA: Una novela romántica de multimillonarios (De enemigos a Amantes nº 1)
Anna May
388
Versión Kindle
2,99 €
#9
Imposible no enamorarme de ti : Los Sullivan, Libro 3
Bella Andre
102
Versión Kindle
4,99 €
#10
De vuelta a casa
Kate Morton
1.777
Versión Kindle
10,44 €
#11
Nosotros 

    Una vegada localitzat l'informació que ens interesa  fem l'extracció

In [29]:
posicions = []
titols = []
autors = []
quantitat_resenyes = []
formats = []
preus = []

línies_filtrades = []

# Iterar a través dels registres
for registre in registres:
    text = registre.text

    # Eliminar text no desitjat, accidentalment ens hem emportat el títol "Últimas novedades en Ficción contemporánea"
    text = text.replace('en Ficción contemporánea', "")
    text = text.replace('Últimas novedades', "")
    línies = [linia for linia in text.split('\n') if linia.strip() != ""]
    línies_filtrades.extend(línies)

# Dividir en grups de sis
grups = [línies_filtrades[i:i + 6] for i in range(0, len(línies_filtrades), 6)]

# Processar cada grup de línies
for grup in grups:
    posicio = grup[0]
    titol = grup[1]
    autor = grup[2]

    # Netegem i convertim la quantitat de ressenyes a int
    quantitat_resenyes_grup = int(grup[3].replace('.', ''))
    format = grup[4]
    # Netegem i convertim el preu a float
    preu = float(grup[5].replace('€', '').replace(',', '.'))

    posicions.append(posicio)
    titols.append(titol)
    autors.append(autor)
    quantitat_resenyes.append(quantitat_resenyes_grup)
    formats.append(format)
    preus.append(preu)

# Creem el DataFrame
nvlscontmep = pd.DataFrame({
    "Posició": posicions,
    "Títol": titols,
    "Autor": autors,
    "Quantitat de ressenyes": quantitat_resenyes,
    "Format": formats,
    "Preu": preus
})

# Mostrem el DataFrame
print(nvlscontmep)

   Posició                                              Títol  \
0       #1    ¿Y a ti qué te pica? (Biblioteca Megan Maxwell)   
1       #2                                 El cuco de cristal   
2       #3                         El viento conoce mi nombre   
3       #4                   Un cuento perfecto (Best Seller)   
4       #5                          El cuco de cristal (SUMA)   
5       #6  Aprender a leer en la Escuela de Monstruos 1 -...   
6       #7                El viento conoce mi nombre (Éxitos)   
7       #8  SU FALSA BODA: Una novela romántica de multimi...   
8       #9  Imposible no enamorarme de ti : Los Sullivan, ...   
9      #10                                   De vuelta a casa   
10     #11  Nosotros en la luna: El libro más vendido del ...   
11     #12              ¿Puedo mirar tu pañal? (Ratón fisgón)   
12     #13                La novia gitana (La novia gitana 1)   
13     #14        PREMIO EDEBÉ 2015: Mentira: 71 (Periscopio)   
14     #15    ESTUCHE DEJ

    i ara tenim un dataframe que té la posició del llibre, títol, autor/a, quantitat de ressenyes, format i preu

In [30]:
generar_documentacio_dades(nvlscontmep, "Novel·les de ficció contempòrania més venudes", "Novel·les de ficció contempòrania més venudes, d'esquerra a dreta posició del llibre, títol, autor/a, quantitat de ressenyes, format i preu (en euros)")

https://github.com/patriciaapenat/Data-Science-It-Academy/blob/main/Sprint%2010/Novel%C2%B7les%20de%20ficci%C3%B3%20contemp%C3%B2rania%20m%C3%A9s%20venudes.docx

### Amb Scrapy

Scrapy és un framework de web scraping de codi obert escrit en Python. Està dissenyat específicament per a facilitar la extracció estructurada de dades de pàgines web. A través de les seves funcionalitats i eines integrades, Scrapy permet als desenvolupadors d'aplicacions recopilar informació de manera eficient, automatitzada i sistemàtica com si fos un pipeline

    No hem pogut accedir a tota l'informació perquè sembla ser que Amazon bloqueja tantes peticions simultànies, amb els xpath puc obtenir els registres però hauria d'anar d'un en un

In [31]:
import scrapy

class BookSpider(scrapy.Spider):
    name = 'book'
    start_urls = ['https://www.amazon.es/gp/bestsellers/books/902680031/ref=zg_bs_nav_books_2_902674031']

    def start_requests(self):
        headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'
        }
        for url in self.start_urls:
            # Enviar sol·licitud HTTP a la URL inicial amb les capçaleres definides
            yield scrapy.Request(url, headers=headers, callback=self.parse)

    def parse(self, response):
        # Utilitzar XPath per obtenir la llista de llibres
        for book in response.xpath('/html/body/div[1]/div[3]/div/div/div[1]/div/div/div[2]/div[1]'):
            # Obtenir les dades de cada llibre utilitzant XPath
            position = book.xpath('/html/body/div[1]/div[3]/div/div/div[1]/div/div/div[2]/div[1]/div[1]/div[1]/div/div[1]/div[1]').get()
            title = book.xpath('/html/body/div[1]/div[3]/div/div/div[1]/div/div/div[2]/div[1]/div[1]/div[1]/div/div[2]/div/a[2]/span/div').get()
            author = book.xpath('/html/body/div[1]/div[3]/div/div/div[1]/div/div/div[2]/div[1]/div[1]/div[1]/div/div[2]/div/div[1]/span/div').get()
            rating = book.xpath('/html/body/div[1]/div[3]/div/div/div/div/div/div[1]/div[1]/div[2]/a/div[2]/span').get()
            format_= book.xpath('/html/body/div[1]/div[3]/div/div/div[1]/div/div/div[2]/div[1]/div[1]/div[1]/div/div[2]/div/div[3]/span')
            price = book.xpath('/html/body/div[1]/div[3]/div/div/div[1]/div/div/div[2]/div[1]/div[1]/div[1]/div/div[2]/div/div[4]/div/div/a/div/span/span').get()

            # Imprimir les dades obtingudes
            print(f"Posició: {position}")       
            print(f"Títol: {title}")
            print(f"Autor: {author}")       
            print(f"Puntuació: {rating}") 
            print(f"Format: {format_}")
            print(f"Preu: {price}")

# Executar l'aranya amb scrapydo
import scrapydo

scrapydo.setup()
scrapydo.run_spider(BookSpider)

Posició: <div class="a-section zg-bdg-body zg-bdg-clr-body aok-float-left"><span class="zg-bdg-text">#1</span></div>
Títol: <div class="_cDEzb_p13n-sc-css-line-clamp-1_1Fn1y">¿Y a ti qué te pica? (Biblioteca Megan Maxwell)</div>
Autor: <div class="_cDEzb_p13n-sc-css-line-clamp-1_1Fn1y">Megan Maxwell</div>
Puntuació: None
Format: [<Selector query='/html/body/div[1]/div[3]/div/div/div[1]/div/div/div[2]/div[1]/div[1]/div[1]/div/div[2]/div/div[3]/span' data='<span class="a-size-small a-color-sec...'>]
Preu: <span class="_cDEzb_p13n-sc-price_3mJ9Z">17,00 €</span>


[]

    en aquest cas el que seria adient es aconseguir l'info mitjançant el css però es veu que a Amazon no li agraden aquestes coses

In [32]:
import scrapy
import pandas as pd

class BookSpider(scrapy.Spider):
    name = 'book'
    start_urls = ['https://www.amazon.es/gp/bestsellers/books/902680031/ref=zg_bs_nav_books_2_902674031']

    def start_requests(self):
        headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'
        }
        for url in self.start_urls:
            yield scrapy.Request(url, headers=headers, callback=self.parse)

    def parse(self, response):
        llibres = []

        for book in response.css('div.a-section.a-spacing-medium'):
            posicio = book.css('span.zg-badge-text::text').get()
            titol = book.css('div.p13n-sc-truncated::text').get()
            autor = book.css('span.a-size-small.a-color-base::text').get()
            puntuacio = book.css('span.a-icon-alt::text').get()
            preu = book.css('span.p13n-sc-price::text').get()

            info_llibre = {
                'Posició': posicio,
                'Títol': titol,
                'Autor': autor,
                'Puntuació': puntuacio,
                'Preu': preu,
            }

            llibres.append(info_llibre)

        df = pd.DataFrame(llibres)
        print(df)

# Executar l'aranya amb scrapydo
import scrapydo

scrapydo.setup()
scrapydo.run_spider(BookSpider)

Empty DataFrame
Columns: []
Index: []


[]