## Riassunto sul *web scraping* con `lxml` e `BeautifulSoup`

Il web scraping è una tecnica per estrarre dati da siti web. Due delle librerie Python più comuni per fare web scraping sono **lxml** e **BeautifulSoup**. Entrambe offrono modi diversi per navigare la struttura dei documenti HTML e estrarre dati da essi. Possiamo usare direttamente **XPath** (con `lxml`) o i **selettori CSS** (con `BeautifulSoup`).

Di seguito, un breve riassunto su come usare queste librerie e quando preferire una modalità rispetto all'altra.

### `lxml`
**lxml** è una libreria Python per la lavorazione di documenti XML e HTML. Una delle sue caratteristiche principali è il supporto per XPath, un potente linguaggio per la navigazione e selezione di nodi in documenti XML/HTML.

#### Utilizzo di lxml con XPath
```python
from lxml import html
import requests

# Effettua la richiesta HTTP
page = requests.get('http://esempio.com')

# Parse del contenuto HTML
tree = html.fromstring(page.content)

# Utilizzo di XPath per trovare elementi
titoli = tree.xpath('//h2/text()')

# Stampa i risultati
for titolo in titoli:
    print(titolo)
```
In questo esempio, `//h2/text()` è una query XPath che seleziona il testo di tutti gli elementi `<h2>`.

### `BeautifulSoup`
**BeautifulSoup** è una libreria Python per l'analisi di documenti HTML e XML. È particolarmente utile per la sua semplicità e flessibilità nell'utilizzo dei selettori CSS.

#### Utilizzo di BeautifulSoup con selettori CSS
```python
from bs4 import BeautifulSoup
import requests

# Effettua la richiesta HTTP
page = requests.get('http://esempio.com')

# Parse del contenuto HTML
soup = BeautifulSoup(page.content, 'html.parser')

# Utilizzo dei selettori CSS per trovare elementi
titoli = soup.select('h2')

# Stampa i risultati
for titolo in titoli:
    print(titolo.get_text())
```
In questo esempio, `h2` è un selettore CSS che seleziona tutti gli elementi `<h2>`.

### Confronto tra XPath e selettori CSS

- **XPath (con `lxml` o `BeautifulSoup`)**:
  - **Pro**: Molto potente e flessibile, permette di navigare nel documento in modo complesso. Vantaggioso per l'alta velocità di parsing dei documenti.
  - **Contro**: Più complesso da imparare rispetto ai selettori CSS.
  - **Quando usarlo**: Quando hai bisogno di selezionare elementi basandoti su relazioni complesse (es. parent-child, sibling) e/o quando vi sono molte condizioni da rispettare per selezionare l'elemento desiderato.

- **Selettori CSS (con `BeautifulSoup`)**:
  - **Pro**: Più semplice e intuitivo per chi ha familiarità con CSS.
  - **Contro**: Meno potente di XPath per selezioni molto complesse.
  - **Quando usarlo**: Quando hai bisogno di selezionare elementi basandoti su classi, ID, tag o altre semplici regole CSS oppure quando hai bisogno di gestire bene anche un HTML malformato.

### Riassumendo
Sia lxml che BeautifulSoup sono potenti strumenti per il web scraping. La scelta tra XPath e selettori CSS dipende dalle tue necessità specifiche: usa XPath con lxml o BeautifulSoup per selezioni complesse e usa i selettori CSS con BeautifulSoup per selezioni più semplici e intuitive.

# HTTP request methods

Come detto, il protocollo HTTP prevede una serie di [messaggi di richiesta](https://it.wikipedia.org/wiki/Hypertext_Transfer_Protocol#Messaggio_di_richiesta) che il client può inviare al server. In particolare i più noti sono

- GET
- POST
- PUT
- DELETE
- ...

**PER APPROFINDIRE:** https://developer.mozilla.org/en-US/docs/Web/HTTP/Methods

Inizialmente vedre o prima il metodo GET e poi il metodo POST.

# HTTP status codes

Quando viene effettuata una richiesta dal browser, il server può rispondere in diversi modi, ma ciascuna risposta è sempre associata a un relativo corice.

Questi codici li potete vedere nell log di Flask, visibile nel terminale di VS Code, oppure nella sezione "Network" o "Rete" degli strumenti per sviluppatori all'interno del browser.

Il significato primario dei codici di risposta è determinato dalla prima cifra, secondo questo schema:

- `1xx`: *information* - La richiesta è stata ricevuta, proceda chi deve procedere, attenda chi deve attendere.
- `2xx`: *success* - La richiesta è stata ricevuta con successo, compresa ed accettata.
- `3xx`: *redirect* - Il client deve eseguire ulteriori azioni per completare la richiesta.
- `4xx`: *client error* - La richiesta contiene una sintassi errata o non può essere soddisfatta.
- `5xx`: *server error* - Il server non è riuscito a soddisfare una richiesta apparentemente valida.

In generale vale questa regola:

- `1xx`, `2xx`, `3xx` &rarr; NESSUN PROBLEMA
- `4xx`, `5xx` &rarr; C'È QUALCHE PROBLEMA

Per avere un'idea dei loro significati, ecco una lista dei più comuni codici che potrete riscontrare:

- `200` OK
- `301` Moved Permanently
- `302` Found (Moved temporarily)
- `304` Not Modified
- `400` Bad Request
- `401` Unauthorized
- `403` Forbidden
- `404` Not Found
- `500` Internal Server Error
- `503` Service Unavailable
- `501` Not Implemented

Per approfondire il significato di questi codici, potete leggere la pagina di Wikipedia sui [Codici di stato HTTP](https://it.wikipedia.org/wiki/Codici_di_stato_HTTP).

# Headers

Sia la richiesta sia la risposta oltre che a un "contenuto" vengono accompagnati anche da un cosiddetto _**header**_, ovvero una "intestazione".

In parole povere un [header HTTP](https://en.wikipedia.org/wiki/List_of_HTTP_header_fields) è una sorta di bolla di accompagnamento del messaggio, che contiene dei dati utili ai fini della corretta comunicazione tra client e server sotto forma di coppie *campo* (chiave) e *valore*.

Più precisamente, *campi* dell'header HTTP sono un elenco di parole chiave e valori sotto forma di stringhe, le quali sono inviate e ricevute dal client e dal server ad ogni richiesta e risposta HTTP. Queste intestazioni sono solitamente invisibili all'utente e vengono elaborate e loggate solo dalle rispettive applicazioni del server e del client. Definiscono il modo in cui la connessione e le informazioni inviate/ricevute attraverso essa devono essere interpretate e gestite.

## Pretty Print

Quando devi stampare a monitor una struttura dati lunga o complessa (con annidatamento), usando il `print()` normale molto spesso il risultato è poco leggibile.

Usando la funzione `pprint()` del modulo `pprint` potete ottenere risultato "prettified", ovvero più bello da vedere, con l'indentazione che rispetta i livelli di annidamento della struttura dati.

Ad esempio:

In [2]:
from pprint import pprint

pprint({'pippo1': 'asdasdasdasdasdasdasdasdasdasdasd', 'pippo2': 'asdasdasdasdasdasdasdasdasdasdasd', 'pippo3': 'asdasdasdasdasdasdasdasdasdasdasd', 'pippo4': 'asdasdasdasdasdasdasdasdasdasdasd'})

{'pippo1': 'asdasdasdasdasdasdasdasdasdasdasd',
 'pippo2': 'asdasdasdasdasdasdasdasdasdasdasd',
 'pippo3': 'asdasdasdasdasdasdasdasdasdasdasd',
 'pippo4': 'asdasdasdasdasdasdasdasdasdasdasd'}
