# Tecniche di Web Scraping in Python

Il **Web Scraping** Ã¨ una tecnica utilizzata per estrarre dati dalle pagine web in modo automatizzato.
Python offre diverse librerie per eseguire scraping, tra cui:
- `requests` per effettuare richieste HTTP
- `BeautifulSoup` per analizzare ed estrarre dati da HTML e XML
- `selenium` per l'automazione del browser
- `Scrapy` per scraping avanzato

In questo notebook, esploreremo queste tecniche con esempi pratici.

## 1. Installazione delle librerie necessarie
Prima di iniziare, installiamo le librerie necessarie:
```
pip install requests beautifulsoup4 selenium scrapy
```


In [None]:
## 1. Installazione delle librerie necessarie
pip install --upgrade pip
pip install requests beautifulsoup4 selenium scrapy

Defaulting to user installation because normal site-packages is not writeable
Collecting pip
  Using cached pip-25.0-py3-none-any.whl.metadata (3.7 kB)
Using cached pip-25.0-py3-none-any.whl (1.8 MB)
Installing collected packages: pip
  Attempting uninstall: pip
    Found existing installation: pip 24.3.1
    Uninstalling pip-24.3.1:
      Successfully uninstalled pip-24.3.1
Successfully installed pip-25.0
Note: you may need to restart the kernel to use updated packages.
Defaulting to user installation because normal site-packages is not writeable
Note: you may need to restart the kernel to use updated packages.


In [14]:
URL = "http://www.repubblica.it"

In [15]:
import requests

response = requests.get(URL)

if response.status_code == 200:
    print("Pagina scaricata con successo!")
    print(response.text[:500])  # Mostra i primi 500 caratteri del codice sorgente
else:
    print("Errore nel download della pagina.")

Pagina scaricata con successo!
<!DOCTYPE html>
<html class="no-js" lang="it">
 <head>
  <meta charset="utf-8"/>
  <title>
   la Repubblica - News in tempo reale - Le notizie e i video di politica, cronaca, economia, sport
  </title>
  <meta content="la Repubblica Ã¨ il quotidiano online aggiornato 24 ore su 24 su politica, cronaca, economia, sport, esteri, spettacoli, musica, cultura, scienza, tecnologia." name="description"/>
  <link href="https://www.repubblica.it" rel="canonical"/>
  <script>
   facet="False";
  </script>
 


## 3. Parsing HTML con `BeautifulSoup`
Dopo aver scaricato il codice HTML, possiamo estrarre informazioni specifiche con `BeautifulSoup`.

In [16]:
from bs4 import BeautifulSoup

# Analizza il contenuto HTML della pagina
soup = BeautifulSoup(response.text, 'html.parser')

# Trova il titolo della pagina
title = soup.title.text
print("Titolo della pagina:", title)

# Trova tutti i link nella pagina
links = soup.find_all('a')
for link in links:
    print(link.get('href'))

Titolo della pagina: 
   la Repubblica - News in tempo reale - Le notizie e i video di politica, cronaca, economia, sport
  
https://shop.repubblica.it/repubblica/abbonati/all/snodo/ATP_SNODO/all
https://www.repubblica.it/premium/
https://www.repubblica.it/
https://shop.repubblica.it/repubblica/abbonati/all/snodo/ATP_SNODO/all
https://shop.repubblica.it/repubblica/abbonati/all/snodo/ATP_SNODO/all
https://www.repubblica.it/premium/?ref=RAPHD-R
https://www.repubblica.it/premium/
https://shop.repubblica.it/repubblica/abbonati/all/snodo/ATP_MENU_P/all/
https://www.repubblica.it/politica/
https://www.repubblica.it/economia/
https://www.repubblica.it/esteri/
https://www.repubblica.it/italia/
https://www.repubblica.it/cronaca/
https://www.repubblica.it/commenti/
https://www.repubblica.it/scuola/
https://www.repubblica.it/cultura/
https://www.repubblica.it/sport/
https://www.repubblica.it/spettacoli/
https://www.repubblica.it/serietv/
https://www.repubblica.it/video/
https://www.repubblica.it/

## 4. Automazione del browser con `Selenium`
`Selenium` permette di interagire con pagine web dinamiche come se fosse un utente reale.

In [17]:
from selenium import webdriver
from selenium.webdriver.common.by import By

# Inizializza il driver del browser (assicurati di avere il webdriver corretto installato)
driver = webdriver.Chrome()

# Apri una pagina web
driver.get(URL)

# Trova un elemento nella pagina
element = driver.find_element(By.TAG_NAME, "h1")
print("Titolo della pagina:", element.text)

# Chiudi il browser
driver.quit()

Titolo della pagina: 


## 5. Scraping avanzato con `Scrapy`
`Scrapy` Ã¨ un framework avanzato per scraping di grandi quantitÃ  di dati.

In [18]:
# Esempio di spider con Scrapy
%pip install scrapy
import scrapy

class ExampleSpider(scrapy.Spider):
    name = "example"
    start_urls = [URL]

    def parse(self, response):
        yield {"title": response.css("title::text").get()}

Defaulting to user installation because normal site-packages is not writeable
Note: you may need to restart the kernel to use updated packages.



[notice] A new release of pip is available: 24.3.1 -> 25.0
[notice] To update, run: C:\Users\gzile\AppData\Local\Microsoft\WindowsApps\PythonSoftwareFoundation.Python.3.12_qbz5n2kfra8p0\python.exe -m pip install --upgrade pip


## Conclusione
Abbiamo visto diverse tecniche di scraping in Python:
- **`requests`** per scaricare il codice HTML di una pagina
- **`BeautifulSoup`** per analizzare il codice HTML e estrarre dati
- **`Selenium`** per interagire con pagine dinamiche
- **`Scrapy`** per scraping avanzato di grandi quantitÃ  di dati

Ricorda di rispettare sempre le **policy dei siti web** e il `robots.txt` per evitare problemi legali.

Buon Web Scraping! ðŸš€