## Web scraping

### Fare pause di durata casuale tra una richieste HTTP e la successiva

Per ottenere dei numeri casuali all'interno di un intervallo:

In [8]:
from random import randint, uniform, random

print(random())        # numero casuale tra 0 e 1
print(random() * 10)   # numero casuale tra 0 e 10
print(randint(1, 10))  # numero casuale tra 1 e 10
print(uniform(1, 10))  # numero casuale tra 1 e 10


0.4469469990511349
4.59343944246696
4
6.738963394821492


Per fare una pausa, che sospende l'esecuzione del codice in modo temporaneo, possiamo usare la funzione `sleep()` dal modulo built-in `time`:

In [9]:
from time import sleep
from random import uniform

for n in range(5):
    random_seconds = uniform(1, 4)
    print(f'Pippo, aspetta {random_seconds} secondi!')
    sleep(random_seconds)

Pippo, aspetta 3.276542233251874 secondi!
Pippo, aspetta 2.3158174795360345 secondi!
Pippo, aspetta 3.1412638585874553 secondi!
Pippo, aspetta 2.181086664243215 secondi!
Pippo, aspetta 2.788314701876284 secondi!


### Modificare l'User-Agent del client HTTP

Di default, `requests` quando effettua una richiesta si identifica come "python-requests/2.28.2", il che palesa il fatto che siamo un "bot".

Se volete "camuffarvi" da vero browser, potete usare un User-Agent di un browser!

Gli User-Agent più comuni e più recenti, li potete trovare qua:

- User-Agent di [Firefox](https://www.whatismybrowser.com/guides/the-latest-user-agent/firefox)
- User-Agent di [Chrome](https://www.whatismybrowser.com/guides/the-latest-user-agent/chrome)

Esistono anche molti siti che offrono elenchi degli User-Agent noti, basta fare qualche [ricerca sul web](https://www.google.com/search?q=user+agent+list).

Tuttavia come abbiamo già detto, un normale browser invia molti altri dati negli header della richiesta, come per esempio informazioni sui cookie e altre utili al funzionamento del sito. Quindi, se il server a cui vi state collegando necessita di particolari header, dovete provvedere voi a impostarli in modo dorretto prima di effettuare la richiesta.

In [17]:
from pprint import pprint
import requests

headers = {
    'User-Agent': 'Mozilla/5.0 (X11; Ubuntu; Linux i686; rv:109.0) Gecko/20100101 Firefox/113.0'
}

# Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/126.0.0.0 Safari/537.36

response = requests.get('https://scrapeme.live/shop/', headers=headers, verify=False)

pprint(dict(response.request.headers), width=100)



{'Accept': '*/*',
 'Accept-Encoding': 'gzip, deflate, br',
 'Connection': 'keep-alive',
 'User-Agent': 'Mozilla/5.0 (X11; Ubuntu; Linux i686; rv:109.0) Gecko/20100101 Firefox/113.0'}


## Lista di dizionari su Excel

In [21]:
import pandas as pd

# Lista di dizionari da scrivere su una tabella Excel
data = [
    {"Nome": "Mario", "Età": 30, "Città": "Roma"},
    {"Nome": "Luigi", "Età": 25, "Città": "Milano"},
    {"Nome": "Anna", "Età": 28, "Città": "Napoli"},
]

# Crea un DataFrame dalla lista di dizionari
df = pd.DataFrame(data)

# Scrive il DataFrame su un file Excel
df.to_excel("output.xlsx", index=True)

print("Dati scritti con successo su output.xlsx")

Dati scritti con successo su output.xlsx


## Lista di dizionari su CSV

In [1]:
import pandas as pd

# Lista di dizionari da scrivere su un file CSV
data = [
    {"Nome": "Mario", "Età": 30, "Città": "Roma"},
    {"Nome": "Luigi", "Età": 25, "Città": "Milano"},
    {"Nome": "Anna", "Età": 28, "Città": "Napoli"},
]

# Crea un DataFrame dalla lista di dizionari
df = pd.DataFrame(data)

# Scrive il DataFrame su un file CSV
df.to_csv("output.csv", index=False)

print("Dati scritti con successo su output.csv")


Dati scritti con successo su output.csv


In [6]:
import csv

# Lista di dizionari da scrivere su un file CSV
data = [
    {"Nome": "Mario", "Età": 30, "Città": "Roma"},
    {"Nome": "Luigi", "Età": 25, "Città": "Milano"},
    {"Nome": "Anna", "Età": 28, "Città": "Napoli"},
]

# Nome del file CSV
filename = "output.csv"

# Estrae nomi delle colonne dai dizionari (assumendo che tutti i dizionari abbiano le stesse chiavi)
fieldnames = data[0].keys()

# Scrive la lista di dizionari su un file CSV
with open(filename, mode='w', newline='') as file:
    writer = csv.DictWriter(file, fieldnames=fieldnames)
    
    writer.writeheader()    # Scrive l'intestazione
    writer.writerows(data)  # Scrive i dati

print("Dati scritti con successo su", filename)


Dati scritti con successo su output.csv


In [28]:
pippo = []
pippo += [4, 5]
pippo

[4, 5]

## Invio di email

Vediamo un paio di esempi di script Python che inviano un'email utilizzando un account di posta e un server SMTP.

Per utilizzare questi script, avrai bisogno delle credenziali del tuo account di posta (indirizzo email e password) e del modulo `smtplib` di Python nel primo caso e della libreria di terze parti `yagmail` nel secondo.

**ATTENZIONE**: Se devi condividere il tuo codice con altre persone dovresti evitare di inserire le credenziali direttamente nel codice! Dovresti invece utilizzare metodi sicuri come variabili d'ambiente o servizi di gestione delle credenziali.

### Invio con gmail

Dal 30 maggio 2022 Google ha rimosso l'opzione che consentiva di autenticarsi con la semplice password. [Vedi la notifica](https://support.google.com/accounts/answer/185833?hl=it).

Sono disponibili due opzioni

- Abilitare il 2FA sul proprio account google e poi creare una password per le applicazioni da utilizzare al posto della vera password nel codice a [questo indirizzo](https://myaccount.google.com/apppasswords).

- Passare all'utilizzo di Xoauth2, che è supportato dalla maggior parte delle librerie (più complesso).

### Credenziali e variabili d'ambiente

Per impostare delle variabili d'ambiente che siano disponibili nel tuo codice Python indipendentemente che tu lo esegua come script o all'interno di un Jupyter notebook, devi creare un file .env nella directory del tuo progetto e utilizzare la libreria `python-dotenv` per caricare queste variabili.

Prima installa `python-dotenv`

```bash
$ py -m pip install python-dotenv
```

Poi crea un file `.env` e mettilo nella cartella del tuo progetto:

```bash
GMAIL_USER=tuoindirizzo@gmail.com
GMAIL_PASSWORD=tuapassword
```

### Invio con `smtplib`

In [2]:
import smtplib
from email.mime.multipart import MIMEMultipart
from email.mime.text import MIMEText
import os
from dotenv import load_dotenv

# load_dotenv('/.env')  # Carica le variabili dal file .env
load_dotenv()

def send_email():
    # Credenziali email
    email = os.getenv('GMAIL_USER')  # Usa variabili d'ambiente per le credenziali
    password = os.getenv('GMAIL_PASSWORD')
    
    # Parametri email
    from_email = email
    to_email = 'mantowalter@gmail.com'
    subject = 'Oggetto dell\'email'
    body = 'Questo è il contenuto dell\'email.'

    # Creazione del messaggio
    msg = MIMEMultipart()
    msg['From'] = from_email
    msg['To'] = to_email
    msg['Subject'] = subject
    msg.attach(MIMEText(body, 'plain'))

    try:
        # Connessione al server SMTP di Gmail
        server = smtplib.SMTP('smtp.gmail.com', 587)
        server.starttls()  # Avvio della connessione sicura
        server.login(email, password)
        
        # Invio dell'email
        text = msg.as_string()
        server.sendmail(from_email, to_email, text)
        server.quit()

        print('Email inviata con successo!')
    except Exception as e:
        print(f'Errore durante l\'invio dell\'email: {e}')

if __name__ == '__main__':
    send_email()


Email inviata con successo!


### Invio con `yagmail` (solo Gmail)

In [29]:
import yagmail
import os
from dotenv import load_dotenv

load_dotenv()  # Carica le variabili dal file .env

def send_email():
    # Credenziali email
    email = os.getenv('GMAIL_USER')
    password = os.getenv('GMAIL_PASSWORD')

    # Creazione del client yagmail
    yag = yagmail.SMTP(email, password)

    # Parametri email
    to_email = 'mantowalter@gmail.com'
    subject = 'Oggetto dell\'email'
    body = 'Questo è il contenuto dell\'email.'

    try:
        # Invio dell'email
        yag.send(to=to_email, subject=subject, contents=body)
        print('Email inviata con successo!')
    except Exception as e:
        print(f'Errore durante l\'invio dell\'email: {e}')

if __name__ == '__main__':
    send_email()


Email inviata con successo!


## Lettura e creazione di archivi compressi ZIP

Vedi notebook [09_python_zip.ipynb](../../../09_python_zip.ipynb)