### Cosa è il Web Scraping?
Il web scraping è il processo di estrazione di dati da siti web. Permette di raccogliere informazioni utili che non sono facilmente accessibili in altri formati (come file CSV o API). È uno strumento potente per chi vuole fare storytelling con i dati.


### Avviso
Prima di iniziare, è importante sapere che:
- Utilizzare le informazioni raccolte responsabilmente è fondamentale per rispettare la privacy e la proprietà intellettuale.


In [None]:
!pip install trafilatura




# Scraping di un singolo articolo

`trafilatura` è una libreria Python progettata per estrarre il contenuto testuale principale da pagine web, rimuovendo elementi superflui come menu, pubblicità e commenti. È particolarmente utile per analizzare articoli di notizie o blog.


In [None]:
import trafilatura

# URL dell'articolo
url = "https://www.ansa.it/sito/notizie/sport/tennis/2024/11/25/sinner-universale-come-tomba-e-rossi-simbolo-dellitalianita_f5daf140-cc65-413e-9af4-25b015bba7f2.html"

# Scarica ed estrae il contenuto
downloaded = trafilatura.fetch_url(url)

if downloaded:
    # Estrai il contenuto principale
    article_text = trafilatura.extract(downloaded)

    # Visualizza il risultato
    print("Testo estratto:")
    print(article_text)
else:
    print("Impossibile scaricare il contenuto dall'URL.")


Testo estratto:
C'è un momento in cui la fama di un campione valica i confini nazionali e lo consacra come star mondiale. E' quello che negli ultimi mesi sta capitando a Jannik Sinner, osannato dai tifosi non più soltanto in Italia ma dagli appassionati di tennis ovunque vada a giocare nel mondo. E se L'Equipe inventa un soprannome per lui (Sinnerminator) significa che quel passaggio è avvenuto. Per essere un campione universale però non basta essere il numero 1 di uno sport, è necessario qualcosa in più.
Come Valentino Rossi ed Alberto Tomba, il ragazzo di Sesto Pusteria è diventato simbolo dell'italianità. Una nuova italianità. Tomba e Rossi erano accomunati tra loro, seppur a distanza di anni l'uno dall'altro, da una particolare capacità comunicativa accompagnata da gesti irrituali durante e lontano dalle competizioni: un po' "guascone" il bolognese che per primo ha spettacolarizzato lo sci, provocatore il fenomeno di Tavullia che ha trasformato la pista di MotoGp in un "circo" per 

# Scraping di un intero sito (semplice) con `ultimate_sitemap_parser`

### Cos'è una Sitemap?
Una sitemap è un file XML che elenca tutte le pagine di un sito web. È utilizzata dai motori di ricerca per indicizzare il sito in modo efficiente. Possiamo sfruttare la sitemap per ottenere rapidamente tutte le URL del sito senza dover navigare manualmente attraverso ogni pagina.

### Cos'è `ultimate_sitemap_parser`?
`ultimate_sitemap_parser` è una libreria Python che permette di:
- Scaricare e analizzare la sitemap di un sito web.
- Estrarre tutte le URL elencate nella sitemap.
- Gestire sitemaps semplici e complesse.

In [None]:
!pip install ultimate_sitemap_parser

Collecting ultimate_sitemap_parser
  Downloading ultimate_sitemap_parser-0.5-py2.py3-none-any.whl.metadata (4.3 kB)
Downloading ultimate_sitemap_parser-0.5-py2.py3-none-any.whl (23 kB)
Installing collected packages: ultimate_sitemap_parser
Successfully installed ultimate_sitemap_parser-0.5


In [None]:
from usp.tree import sitemap_tree_for_homepage
tree = sitemap_tree_for_homepage("https://lefolliedinaruto.wordpress.com/category/manga-naruto/it-IT.sitemap.xml")




2024-11-27 16:22:05,661 INFO usp.fetch_parse [463/MainThread]: Fetching level 0 sitemap from https://lefolliedinaruto.wordpress.com/robots.txt...
2024-11-27 16:22:05,665 INFO usp.helpers [463/MainThread]: Fetching URL https://lefolliedinaruto.wordpress.com/robots.txt...
2024-11-27 16:22:05,738 INFO usp.fetch_parse [463/MainThread]: Parsing sitemap from URL https://lefolliedinaruto.wordpress.com/robots.txt...
2024-11-27 16:22:05,747 INFO usp.fetch_parse [463/MainThread]: Fetching level 0 sitemap from https://lefolliedinaruto.wordpress.com/sitemap.xml...
2024-11-27 16:22:05,753 INFO usp.helpers [463/MainThread]: Fetching URL https://lefolliedinaruto.wordpress.com/sitemap.xml...
2024-11-27 16:22:05,812 INFO usp.fetch_parse [463/MainThread]: Parsing sitemap from URL https://lefolliedinaruto.wordpress.com/sitemap.xml...
2024-11-27 16:22:05,870 INFO usp.fetch_parse [463/MainThread]: Fetching level 0 sitemap from https://lefolliedinaruto.wordpress.com/news-sitemap.xml...
2024-11-27 16:22:05,8

In [None]:
import pandas as pd

# Estrai tutte le URL in una lista
url_list = [page.url for page in tree.all_pages()]

# Crea il DataFrame con una sola colonna 'url'
df = pd.DataFrame({'url': url_list})
print(df.shape)
df.head()

(46, 1)


Unnamed: 0,url
0,https://lefolliedinaruto.wordpress.com/2022/05...
1,https://lefolliedinaruto.wordpress.com/2021/01...
2,https://lefolliedinaruto.wordpress.com/2019/05...
3,https://lefolliedinaruto.wordpress.com/2018/04...
4,https://lefolliedinaruto.wordpress.com/2018/03...


In [None]:
import trafilatura
from tqdm import tqdm

# Funzione per estrarre il testo con Trafilatura
def extract_text(url):
    downloaded = trafilatura.fetch_url(url)
    if downloaded:
        return trafilatura.extract(downloaded)
    else:
        return None  # Nessun testo disponibile


# Configura tqdm per visualizzare il progresso
tqdm.pandas(desc="Processing URLs")

# Applica la funzione di estrazione testo a ogni URL con barra di avanzamento
df['text'] = df['url'].progress_apply(extract_text)

# Visualizza il risultato
display(df.head())

Processing URLs: 100%|██████████| 46/46 [00:12<00:00,  3.77it/s]


Unnamed: 0,url,text
0,https://lefolliedinaruto.wordpress.com/2022/05...,Introduzione:\nEsistono due emulatori validi: ...
1,https://lefolliedinaruto.wordpress.com/2021/01...,L’articolo sarà suddiviso nei seguenti punti:\...
2,https://lefolliedinaruto.wordpress.com/2019/05...,"Più che il manga, possiamo dire che è Kishimot..."
3,https://lefolliedinaruto.wordpress.com/2018/04...,(le parole sottolineate contengono link clicca...
4,https://lefolliedinaruto.wordpress.com/2018/03...,Avevo detto che non avrei più scritto articoli...


In [None]:
df['text'].iloc[0]

'Introduzione:\nEsistono due emulatori validi: Duckstation e Beetle PSX HW (Retroarch). Questa guida è per Beetle, a mio parere il migliore, anche se l’emulatore perfetto non esiste…tutt’oggi potreste avere qualche problema con l’emulazione in HD, perciò usate entrambi questi ottimi emulatori…se un gioco non funziona bene su uno, usate l’altro.\nEsempio: Resident Evil 2 su Duckstation riproduce sfondi prerenderizzati con minor qualità di Beetle, mentre per Metal Gear, Duckstation riproduce gli effetti framebuffer meglio di Beetle (difetti cerchiati in rosso).\nLa guida:\nScaricate Retroarch qui, scrollate in basso e cliccate sotto Windows: “Download 64 bit”.\nNon dovete installare niente, scaricherà un archivio che potete estrarre dove volete.\nProcuratevi il bios qui, consiglio sia il giapponese, americano ed europeo. Quindi scaricate: scph5500.bin, scph5501.bin, scph5502.bin.\nRinominateli come li ho scritti, senza maiuscole, e posizionateli nella cartella di Retroarch\\system\\BIOS 