## Creare un dataframe da un dict

In [3]:
import pandas as pd

data = {
    "Name": ['Alice', 'Bob', 'Charlie'],
    "Age": [25,30,35],
    "City": ["New York", "Los Angelse", "Chicago"]
}

df = pd.DataFrame(data)
df

Unnamed: 0,Name,Age,City
0,Alice,25,New York
1,Bob,30,Los Angelse
2,Charlie,35,Chicago


In [18]:
oldest = df["Age"]

In [19]:
oldest

0    25
1    30
2    35
Name: Age, dtype: int64

In [20]:
oldest.idxmax()

2

In [21]:
oldest.idxmin()

0

In [24]:
oldest_idx = df["Age"].idxmax()

In [25]:
oldest_record = df.loc[oldest_idx]
oldest_record

Name    Charlie
Age          35
City    Chicago
Name: 2, dtype: object

In [27]:
## Creare un dataframe da un lista
data2 = [
    ["Alice", 25, "New York"],
    ["Bob", 30, "Los Angeles"],
    ["Charlie", 35, "Chicago"],
]

df2 = pd.DataFrame(data2, columns=['Name', 'Age', 'City'])
df2

Unnamed: 0,Name,Age,City
0,Alice,25,New York
1,Bob,30,Los Angeles
2,Charlie,35,Chicago


# API

## Importare da file json con richiesta GET

Io in next/javascprit usavo:
```
fetch('https://api.example.com/data', {
    method: 'GET',
    headers: {
      'Content-Type': 'application/json', 
      'Authorization': 'Bearer <token>',  
      'Accept': 'application/json',   
      'Custom-Header': 'value'             
    }
  })
  .then(response => response.json())
  .then(data => console.log(data))
  .catch(error => console.error('Error:', error));
```

Invece in Python usiamo la libreria `requests` che fa praticamente lo stesso:

In [6]:
import requests

url = "https://opendata.ecdc.europa.eu/covid19/casedistribution/json/"

response = requests.get(url)

data = response.json()

df3 = pd.DataFrame(data['records'])

In [7]:
df3.head()

Unnamed: 0,dateRep,day,month,year,cases,deaths,countriesAndTerritories,geoId,countryterritoryCode,popData2019,continentExp,Cumulative_number_for_14_days_of_COVID-19_cases_per_100000
0,14/12/2020,14,12,2020,746,6,Afghanistan,AF,AFG,38041757.0,Asia,9.01377925
1,13/12/2020,13,12,2020,298,9,Afghanistan,AF,AFG,38041757.0,Asia,7.05277624
2,12/12/2020,12,12,2020,113,11,Afghanistan,AF,AFG,38041757.0,Asia,6.86876792
3,11/12/2020,11,12,2020,63,10,Afghanistan,AF,AFG,38041757.0,Asia,7.13426564
4,10/12/2020,10,12,2020,202,16,Afghanistan,AF,AFG,38041757.0,Asia,6.96865815


## Web scraping
Il **web scraping** è una tecnica utilizzata per estrarre dati da siti web. Si tratta di un processo automatizzato che raccoglie informazioni da una pagina web e le converte in un formato utile (come un file CSV, un database, o un altro formato strutturato).

### BeautifulSoup
è una libreria Python molto utilizzata per parsing HTML e XML, che permette di estrarre dati da pagine web in modo semplice e strutturato. È particolarmente utile nel contesto del web scraping, dove si desidera ottenere informazioni da siti web. La libreria è chiamata così per la sua capacità di rendere il codice HTML “spigoloso” più facile da leggere e manipolare.

## Esercizio Scraping book

In [16]:
import requests
from bs4 import BeautifulSoup

base_url = "https://books.toscrape.com/"

response = requests.get(base_url)

soup = BeautifulSoup(response.text)

links = soup.find_all("a")

link = links[0]

# print(links)

print([repr(obj) for obj in links])

['<a href="index.html">Books to Scrape</a>', '<a href="index.html">Home</a>', '<a href="catalogue/category/books_1/index.html">\n                            \n                                Books\n                            \n                        </a>', '<a href="catalogue/category/books/travel_2/index.html">\n                            \n                                Travel\n                            \n                        </a>', '<a href="catalogue/category/books/mystery_3/index.html">\n                            \n                                Mystery\n                            \n                        </a>', '<a href="catalogue/category/books/historical-fiction_4/index.html">\n                            \n                                Historical Fiction\n                            \n                        </a>', '<a href="catalogue/category/books/sequential-art_5/index.html">\n                            \n                                Sequential Art\n    

In [17]:
import requests
from bs4 import BeautifulSoup

# URL della pagina principale
url = 'https://books.toscrape.com/'

# Effettua una richiesta GET per ottenere il contenuto HTML della pagina
response = requests.get(url)

# Usa BeautifulSoup per fare il parsing del contenuto HTML
soup = BeautifulSoup(response.text, 'html.parser')

# Trova tutti i libri nella lista
books = soup.find('ol', class_='row').find_all('li')

# Estrai informazioni sui libri
for book in books:
    title = book.find('h3').find('a')['title']
    price = book.find('p', class_='price_color').text
    link = book.find('h3').find('a')['href']
    
    print(f'Title: {title}, Price: {price}, Link: {link}')

Title: A Light in the Attic, Price: Â£51.77, Link: catalogue/a-light-in-the-attic_1000/index.html
Title: Tipping the Velvet, Price: Â£53.74, Link: catalogue/tipping-the-velvet_999/index.html
Title: Soumission, Price: Â£50.10, Link: catalogue/soumission_998/index.html
Title: Sharp Objects, Price: Â£47.82, Link: catalogue/sharp-objects_997/index.html
Title: Sapiens: A Brief History of Humankind, Price: Â£54.23, Link: catalogue/sapiens-a-brief-history-of-humankind_996/index.html
Title: The Requiem Red, Price: Â£22.65, Link: catalogue/the-requiem-red_995/index.html
Title: The Dirty Little Secrets of Getting Your Dream Job, Price: Â£33.34, Link: catalogue/the-dirty-little-secrets-of-getting-your-dream-job_994/index.html
Title: The Coming Woman: A Novel Based on the Life of the Infamous Feminist, Victoria Woodhull, Price: Â£17.93, Link: catalogue/the-coming-woman-a-novel-based-on-the-life-of-the-infamous-feminist-victoria-woodhull_993/index.html
Title: The Boys in the Boat: Nine Americans an

# Scraping e creazione del dizionario per i primi 20 libri
Mia soluzione usando le classi per prendere la sezione in cui vengono mostrati i libri, e sfruttando la paginazione tipica degli e-commerce.

In [23]:
import requests
import pandas as pd
from bs4 import BeautifulSoup
import re  # Importa il modulo per le espressioni regolari per estrarre i numeri da una stringa

# Lista per raccogliere i dati dei libri
book_data = []

# Funzione per ottenere i dettagli da una singola pagina del libro
def get_book_details(book_url):
    """
    Viene inviata una richiesta HTTP per ottenere la pagina del libro.
    Si effettua il parsing del contenuto HTML per trovare la tabella che contiene i dettagli del libro.
    Viene creata una lista di informazioni del libro (come disponibilità, prezzo, numero di recensioni)
    ed è presente una gestione speciale per l'Availability, per estrarre solo il numero di copie disponibili.
    ed elimino il simbolo della currency dalle tre colonne di prezzo (iva, no iva, tax)
    """
    # Invia una richiesta HTTP per ottenere il contenuto della pagina
    response = requests.get(book_url)
    response.encoding = 'utf-8'  # Forza la corretta decodifica del contenuto (UTF-8)
    # Parso la risposta HTML con BeautifulSoup
    soup = BeautifulSoup(response.text, 'html.parser')
    
    # Cerca la tabella con la classe 'table table-striped', che contiene i dettagli del libro
    table = soup.find('table', class_='table table-striped')
    
    # Se la tabella è stata trovata, estrai le informazioni
    if table:
        print(f"Table found in {book_url}")
        # Trova tutte le righe della tabella
        rows = table.find_all('tr')
        
        # Dizionario per memorizzare le informazioni del libro
        book_info = {}
        
        # Per ogni riga della tabella, estrai il nome della proprietà (th) e il valore (td)
        for row in rows:
            header = row.find('th')
            value = row.find('td')
            
            # Se sia la proprietà che il valore esistono, aggiungi l'informazione al dizionario
            if header and value:
                property_name = header.text.strip()  # Nome della proprietà (senza spazi)
                property_value = value.text.strip()  # Valore della proprietà (senza spazi)

               # Lista delle proprietà che richiedono l'estrazione del numero (senza decimali)
                properties_to_extract = ["Availability"]

                # Lista delle proprietà che devono mantenere i decimali (come prezzo e tasse)
                properties_with_decimals = ["Price (excl. tax)", "Price (incl. tax)", "Tax"]

                # Se la proprietà è una delle proprietà che richiedono solo il numero intero
                if property_name in properties_to_extract:
                    match = re.search(r'\d+', property_value)  # Trova il numero nell'informazione
                    property_value = match.group() if match else '0'  # Se trovato, usa il numero; altrimenti usa '0'

                # Se la proprietà è una delle proprietà con decimali (prezzo o tassa), mantieni i decimali
                elif property_name in properties_with_decimals:
                    match = re.search(r'[\d.,]+', property_value)  # Trova il numero con decimali (gestisce virgola o punto)
                    property_value = match.group() if match else '0.0'  # Se trovato, usa il numero; altrimenti usa '0.0
                               
                # Aggiungi la coppia proprietà-valore al dizionario
                book_info[property_name] = property_value
        
        # Restituisci i dettagli del libro sotto forma di dizionario
        return book_info
    else:
        print(f"No table found in {book_url}")  # Se non trova la tabella, segnala un errore
        return None

# Funzione per ottenere i libri dalla pagina principale
def get_books(url):
    """
    Viene inviata una richiesta per ottenere il contenuto della pagina principale con tutti i libri.
    Si trova ogni libro nell'elenco e si estrae il titolo, il prezzo e il link alla pagina del libro.
    Per ogni libro, viene chiamata la funzione get_book_details() per ottenere i dettagli completi.
    """
    # Invia una richiesta HTTP per ottenere il contenuto della pagina
    response = requests.get(url)
    response.encoding = 'utf-8'  # Forza la corretta decodifica del contenuto
    # Parso la risposta HTML con BeautifulSoup
    soup = BeautifulSoup(response.text, 'html.parser')
    
    # Trova l'elenco dei libri sulla pagina (tutti i libri sono in un <ol class='row'>)
    books = soup.find('ol', class_='row').find_all('li')

    # Per ogni libro trovato nell'elenco
    for book in books:
        # Estrai il titolo del libro
        title = book.find('h3').find('a')['title']
        # Estrai il prezzo del libro
        price = book.find('p', class_='price_color').text.strip()
        
        price_cleaned = price.replace('£', '').strip()  # Rimuove '£' e gli spazi extra


        
        # Estrai il link alla pagina del libro
        link = book.find('h3').find('a')['href']
        
        # Costruisci il link completo del libro (aggiungendo il prefisso necessario)
        book_url = 'https://books.toscrape.com/catalogue/' + link.strip('../')
        
        # Chiama la funzione get_book_details per ottenere i dettagli del libro
        book_details = get_book_details(book_url)
        
        # Se i dettagli del libro sono stati trovati
        if book_details:
            # Aggiungi il titolo, il prezzo e il link ai dettagli
            book_details['Title'] = title
            book_details['Price'] = price_cleaned
            book_details['Link'] = book_url

            # Aggiungi i dettagli del libro alla lista book_data
            book_data.append(book_details)

# URL della prima pagina di libri (paginata)
base_url = 'https://books.toscrape.com/catalogue/page-'

# Inizia con la prima pagina
page_num = 1
book_counter = 0

# Ciclo per raccogliere i dati dei primi 10 libri
while book_counter < 10:
    # Costruisci l'URL della pagina corrente
    url = f'{base_url}{page_num}.html'
    # Invia una richiesta HTTP per ottenere il contenuto della pagina
    response = requests.get(url)
    
    # Se la risposta non è valida (errore 404 o simili), esci dal ciclo
    if response.status_code != 200:
        break

    print(f'Getting books from: {url}')
    
    # Chiama la funzione get_books per estrarre i dati dalla pagina
    get_books(url)
    
    # Aumenta il contatore dei libri, considerando che ogni pagina contiene 20 libri
    book_counter += 20  

    # Ferma dopo aver ottenuto i primi 10 libri
    if book_counter >= 10:
        break

    # Passa alla pagina successiva
    page_num += 1

# Creazione del DataFrame a partire dai dati raccolti
df_mio = pd.DataFrame(book_data)

# Modifica il tipo della colonna 'Link' a stringa, se necessario
df_mio['Link'] = df_mio['Link'].astype(str)

# Salva il DataFrame in un file CSV
df_mio.to_csv('books_data.csv', index=False, encoding='utf-8')


Getting books from: https://books.toscrape.com/catalogue/page-1.html
Table found in https://books.toscrape.com/catalogue/a-light-in-the-attic_1000/index.html
Table found in https://books.toscrape.com/catalogue/tipping-the-velvet_999/index.html
Table found in https://books.toscrape.com/catalogue/soumission_998/index.html
Table found in https://books.toscrape.com/catalogue/sharp-objects_997/index.html
Table found in https://books.toscrape.com/catalogue/sapiens-a-brief-history-of-humankind_996/index.html
Table found in https://books.toscrape.com/catalogue/the-requiem-red_995/index.html
Table found in https://books.toscrape.com/catalogue/the-dirty-little-secrets-of-getting-your-dream-job_994/index.html
Table found in https://books.toscrape.com/catalogue/the-coming-woman-a-novel-based-on-the-life-of-the-infamous-feminist-victoria-woodhull_993/index.html
Table found in https://books.toscrape.com/catalogue/the-boys-in-the-boat-nine-americans-and-their-epic-quest-for-gold-at-the-1936-berlin-ol

In [18]:
df_mio.columns

Index(['UPC', 'Product Type', 'Price (excl. tax)', 'Price (incl. tax)', 'Tax',
       'Availability', 'Number of reviews', 'Title', 'Price', 'Link'],
      dtype='object')

In [24]:
pd.set_option('display.max_colwidth', None)
df_mio

Unnamed: 0,UPC,Product Type,Price (excl. tax),Price (incl. tax),Tax,Availability,Number of reviews,Title,Price,Link
0,a897fe39b1053632,Books,51.77,51.77,0.0,22,0,A Light in the Attic,51.77,https://books.toscrape.com/catalogue/a-light-in-the-attic_1000/index.html
1,90fa61229261140a,Books,53.74,53.74,0.0,20,0,Tipping the Velvet,53.74,https://books.toscrape.com/catalogue/tipping-the-velvet_999/index.html
2,6957f44c3847a760,Books,50.1,50.1,0.0,20,0,Soumission,50.1,https://books.toscrape.com/catalogue/soumission_998/index.html
3,e00eb4fd7b871a48,Books,47.82,47.82,0.0,20,0,Sharp Objects,47.82,https://books.toscrape.com/catalogue/sharp-objects_997/index.html
4,4165285e1663650f,Books,54.23,54.23,0.0,20,0,Sapiens: A Brief History of Humankind,54.23,https://books.toscrape.com/catalogue/sapiens-a-brief-history-of-humankind_996/index.html
5,f77dbf2323deb740,Books,22.65,22.65,0.0,19,0,The Requiem Red,22.65,https://books.toscrape.com/catalogue/the-requiem-red_995/index.html
6,2597b5a345f45e1b,Books,33.34,33.34,0.0,19,0,The Dirty Little Secrets of Getting Your Dream Job,33.34,https://books.toscrape.com/catalogue/the-dirty-little-secrets-of-getting-your-dream-job_994/index.html
7,e72a5dfc7e9267b2,Books,17.93,17.93,0.0,19,0,"The Coming Woman: A Novel Based on the Life of the Infamous Feminist, Victoria Woodhull",17.93,https://books.toscrape.com/catalogue/the-coming-woman-a-novel-based-on-the-life-of-the-infamous-feminist-victoria-woodhull_993/index.html
8,e10e1e165dc8be4a,Books,22.6,22.6,0.0,19,0,The Boys in the Boat: Nine Americans and Their Epic Quest for Gold at the 1936 Berlin Olympics,22.6,https://books.toscrape.com/catalogue/the-boys-in-the-boat-nine-americans-and-their-epic-quest-for-gold-at-the-1936-berlin-olympics_992/index.html
9,1dfe412b8ac00530,Books,52.15,52.15,0.0,19,0,The Black Maria,52.15,https://books.toscrape.com/catalogue/the-black-maria_991/index.html


# Scraping Soluzione Rigel! 🚀
è mooooolto più dinamica, non ha limiti di pagine e scansiona tuttooooo, escludendo anche i link già visitati.

In [2]:
import sys
import time
import json
from pathlib import Path

import pandas as pd
import requests
from bs4 import BeautifulSoup

# Creo un set: https://docs.python.org/3/tutorial/datastructures.html#sets
# Questo mi permette di aggiungere in tempo O1 (nei casi pratici)
# e verificare la presenza di una chiave sempre in tempo 01.
# Posso fare lo stesso usando i dict, mentre le liste sono
# molto meno efficienti (On per la verifica)
ignored = {
    "index.html",
    "https://books.toscrape.com/index.html",
}

# L'URL da cui partire
base_url = "https://books.toscrape.com/"

financial_keys = (
    'Price (excl. tax)',
    'Price (incl. tax)',
    'Tax'
)
numerical_keys = (
    "Number of reviews",
)

data = []


def get_parent_url(url):
    """Get the parent of the given URL
    e.g. https://www.example.com/abc/cde.html -> https://www.example.com/abc/
    """
    *parent_parts, _ = url.split("/")
    return "/".join(parent_parts)


def rows_to_dict(rows):
    """Convert a sequence of rows of an HTML table to a dict"""
    rows_data = {el.th.text: el.td.text for el in rows}
    for key, val in rows_data.items():
        if key in financial_keys:
            # Correggi il dato e lo trasformo in decimale
            # 'Â£51.77' -> 51.77
            # Per farlo escludo i primi due caratteri
            rows_data[key] = float(val[2:])
        if key in numerical_keys:
            # Converti il dato in un numero intero
            rows_data[key] = int(val)
    return rows_data

def crawl(url):
    """Crawl the page at the given URL
    Any tables will be added as dicts to the
    module-level name "data".
    Perform the crawl using the breadth-first
    algorithm (BFS).
    """

    # Prendo la URL base
    parent_url = get_parent_url(url)

    # Invio una chiamata GET usando l'URL
    response = requests.get(url)

    status_code = response.status_code
    if status_code != 200:
        raise Exception(f"Il server ha risposto con uno status code inaspettato: {status_code}")

    # Faccio il parsing del HTML della pagina
    soup = BeautifulSoup(response.text, features="html.parser")

    # Cerco tutti gli element tr (table row) nella pagina (se ci sono)
    rows = soup.find_all("tr")

    # Se li trovo, li converto in un dict e li aggiungo ai dati
    row_data = rows_to_dict(rows)
    if row_data:
        data.append(row_data)
        # Aspetto un secondo prima di proseguire
        # in modo da non caricare troppo il server
        time.sleep(1)

    # Ora cerco tutti i link all'interno della prima sezione della pagina
    links = soup.find_all("section")[0].find_all("a")
    print(f"Crawled: {url} and found {len(links)} new links and {len(rows)} table rows.", file=sys.stderr)
    for link in links:
        # Prendo il link (nell'attributo HREF)
        link_rel = link.attrs["href"]

        # Ignora i link che tornano indietro
        if ".." in link_rel:
            continue

        # Se non è un link assoluto (che comincia con "http")...
        if not link_rel.startswith("http"):
            # ... lo rendo assoluto usando la URL base
            url = "/".join([parent_url, link_rel])
        else:
            url = link_rel

        # I link esterni vanno ignorati
        if not url.startswith(base_url):
            continue

        # Se ho già incontrato il link, lo ignoro
        if url in ignored:
            continue

        # Aggiungo la URL alla lista da ignorare
        ignored.add(url)

        # Chiamata ricorsiva
        crawl(url)


# Faccio partire il crawl
try:
    crawl(base_url)
except KeyboardInterrupt:
    pass

# Creo e stampo il dataframe
df = pd.DataFrame(data)
print(df)

# Salvo i dati JSON in un file per poterli utilizzare dopo
with open("books.json", "w") as fd:
    fd.write(json.dumps(data))

Crawled: https://books.toscrape.com/ and found 41 new links and 0 table rows.
Crawled: https://books.toscrape.com/catalogue/a-light-in-the-attic_1000/index.html and found 0 new links and 7 table rows.
Crawled: https://books.toscrape.com/catalogue/tipping-the-velvet_999/index.html and found 0 new links and 7 table rows.
Crawled: https://books.toscrape.com/catalogue/soumission_998/index.html and found 0 new links and 7 table rows.
Crawled: https://books.toscrape.com/catalogue/sharp-objects_997/index.html and found 0 new links and 7 table rows.
Crawled: https://books.toscrape.com/catalogue/sapiens-a-brief-history-of-humankind_996/index.html and found 0 new links and 7 table rows.
Crawled: https://books.toscrape.com/catalogue/the-requiem-red_995/index.html and found 0 new links and 7 table rows.
Crawled: https://books.toscrape.com/catalogue/the-dirty-little-secrets-of-getting-your-dream-job_994/index.html and found 0 new links and 7 table rows.
Crawled: https://books.toscrape.com/catalogue

                  UPC Product Type  Price (excl. tax)  Price (incl. tax)  Tax  \
0    a897fe39b1053632        Books              51.77              51.77  0.0   
1    90fa61229261140a        Books              53.74              53.74  0.0   
2    6957f44c3847a760        Books              50.10              50.10  0.0   
3    e00eb4fd7b871a48        Books              47.82              47.82  0.0   
4    4165285e1663650f        Books              54.23              54.23  0.0   
..                ...          ...                ...                ...  ...   
995  cd2a2a70dd5d176d        Books              55.53              55.53  0.0   
996  bfd5e1701c862ac3        Books              57.06              57.06  0.0   
997  19fec36a1dfb4c16        Books              16.97              16.97  0.0   
998  f684a82adc49f011        Books              53.98              53.98  0.0   
999  228ba5e7577e1d49        Books              26.08              26.08  0.0   

                Availabilit

Crawled: https://books.toscrape.com/catalogue/1000-places-to-see-before-you-die_1/index.html and found 0 new links and 7 table rows.


In [3]:
df.head()

Unnamed: 0,UPC,Product Type,Price (excl. tax),Price (incl. tax),Tax,Availability,Number of reviews
0,a897fe39b1053632,Books,51.77,51.77,0.0,In stock (22 available),0
1,90fa61229261140a,Books,53.74,53.74,0.0,In stock (20 available),0
2,6957f44c3847a760,Books,50.1,50.1,0.0,In stock (20 available),0
3,e00eb4fd7b871a48,Books,47.82,47.82,0.0,In stock (20 available),0
4,4165285e1663650f,Books,54.23,54.23,0.0,In stock (20 available),0


In [6]:
df_mio.head()

Unnamed: 0,UPC,Product Type,Price (excl. tax),Price (incl. tax),Tax,Availability,Number of reviews,Title,Price,Link
0,a897fe39b1053632,Books,£51.77,£51.77,£0.00,22,0,A Light in the Attic,£51.77,https://books.toscrape.com/catalogue/a-light-in-the-attic_1000/index.html
1,90fa61229261140a,Books,£53.74,£53.74,£0.00,20,0,Tipping the Velvet,£53.74,https://books.toscrape.com/catalogue/tipping-the-velvet_999/index.html
2,6957f44c3847a760,Books,£50.10,£50.10,£0.00,20,0,Soumission,£50.10,https://books.toscrape.com/catalogue/soumission_998/index.html
3,e00eb4fd7b871a48,Books,£47.82,£47.82,£0.00,20,0,Sharp Objects,£47.82,https://books.toscrape.com/catalogue/sharp-objects_997/index.html
4,4165285e1663650f,Books,£54.23,£54.23,£0.00,20,0,Sapiens: A Brief History of Humankind,£54.23,https://books.toscrape.com/catalogue/sapiens-a-brief-history-of-humankind_996/index.html


# Differenze tra i due codici di scraping

## 1. Struttura e navigazione tra le pagine

### Codice mio (Primo esempio)
- **Approccio**: Usa un ciclo `while` per navigare tra le pagine numerate (come `page-1.html`, `page-2.html`).
- **Crawl per pagina**: Ogni pagina viene visitata una volta, e i dati dei libri vengono estratti dalla pagina attuale.
- **Controllo delle pagine**: Avanza alla pagina successiva finché esistono pagine disponibili, basandosi su un incremento numerico nel link (`page-1`, `page-2`, ecc.) e controllando se la pagina successiva esiste.

### Codice Rigel (Secondo esempio)
- **Approccio**: Usa un **crawling ricorsivo** (algoritmo BFS — Breadth First Search), dove visita i link trovati in ogni pagina in modo **dinamico**.
- **Crawl per link**: Esplora ogni link trovato nella pagina (se il link è valido e non è già stato visitato), e poi prosegue visitando il link successivo in modalità ricorsiva.
- **Controllo delle pagine**: Non segue un numero fisso di pagine, ma continua a esplorare i link trovati fino a quando non si esauriscono i collegamenti validi.

---

## 2. Gestione dei dati

### Codice mio (Primo esempio)
- **Raccolta dei dati**: I dati vengono raccolti in un **DataFrame di Pandas**, con una lista di dizionari che contiene le informazioni estratte da ogni libro.
- **Dettagli del libro**: Vengono estratti il titolo, il prezzo e i dettagli extra da una tabella HTML specifica e aggiunti a un elenco `book_data`.
- **Struttura dei dati**: Ogni libro è rappresentato da un dizionario che contiene informazioni come il titolo, il prezzo e altri dettagli (come la disponibilità).

### Codice Rigel (Secondo esempio)
- **Raccolta dei dati**: I dati vengono salvati in una lista chiamata `data`. Ogni volta che vengono trovati dati pertinenti in una tabella (convertiti in dizionari dalla funzione `rows_to_dict`), vengono aggiunti alla lista `data`.
- **Dettagli**: I dati vengono estratti dalle tabelle HTML che appaiono nelle pagine visitate, non solo dai libri, ma da tutti i dati tabulari presenti.
- **Salvataggio dei dati**: I dati vengono infine salvati in formato JSON nel file `books.json`, oltre a essere mostrati in un DataFrame di Pandas.

---

## 3. Ottimizzazione e gestione dei link

### Codice mio (Primo esempio)
- **URL assoluti**: Costruisce manualmente gli URL completi per ogni libro visitato, ma non gestisce esplicitamente i link relativi a meno che non siano trasformati in assoluti.
- **Navigazione fra pagine**: Il crawler segue un percorso fisso attraverso le pagine numerate senza esplorare altri collegamenti interni.

### Codice Rigel (Secondo esempio)
- **Gestione dei link**: Utilizza un set `ignored` per tenere traccia dei link già visitati, evitando di visitare più volte lo stesso URL. Questo è fatto in tempo costante grazie all'uso del set.
- **Link relativi**: Quando trova link relativi, li trasforma in link assoluti utilizzando la URL base, il che gli permette di seguire anche i link che non sono completamente formati.
- **Navigazione dinamica**: Esplora ogni link trovato nella pagina in modo dinamico, senza un limite prefissato sul numero di pagine.

---

## 4. Esperienza utente e gestione del traffico

### Codice mio (Primo esempio)
- **Paginazione manuale**: Si naviga solo tra pagine numerate con un limite prefissato (ad esempio, fermandosi a 10 libri), utile per scenari in cui si desidera limitare il numero di pagine esplorate.

### Codice Rigel (Secondo esempio)
- **Pausa tra richieste**: Aggiunge un ritardo tra le richieste (con `time.sleep(1)`) per evitare di sovraccaricare il server, un approccio utile per non causare blocchi o rallentamenti nei siti web.
- **Crawl completo e ricorsivo**: Non ha un limite predeterminato sul numero di pagine o link esplorati, ma continua a seguire e raccogliere i link fino a che non ci sono più URL validi da visitare.

---

## 5. Sintesi delle differenze

### Codice mio (Primo esempio)
- **Approccio semplice e lineare** per navigare tra le pagine numerate di un sito.
- **Limitato** a un numero fisso di libri o pagine.
- **Raccolta dei dati** in un DataFrame di Pandas.

### Codice Rigel (Secondo esempio)
- **Crawling ricorsivo dinamico** che esplora ogni link trovato, senza limiti di pagine.
- **Gestione avanzata dei link** con tracciamento degli URL già visitati.
- **Raccolta dei dati** in formato JSON, con possibilità di estrarre anche altri tipi di tabelle oltre ai libri.
- **Approccio più flessibile** e adatto a siti con architetture di navigazione più complesse.

---

## Quale scegliere?

- Se il sito ha una **paginazione semplice** (con pagine numerate), **Codice mio** è più adatto.
- Se vuoi esplorare un sito con una **struttura di link complessa** o desideri raccogliere informazioni da tutte le pagine collegate in un sito, **Codice Rigel** con il crawling ricorsivo è la scelta migliore.

