<h1><center> WebScraping </h1>
<h1><center> Anno Accademico 2023-2024 </h1>
<h1><center>  Docente: Laura Ricci </h1>
<h1><center>  Lezione 10 </h1>
<h1><center>  La libreria Request</h1> 
<h1><center>  Web Scraping: introduzione </h1>    
<h1><center> 5 Marzo 2025 </h1>

## Data Storage: il  web

* sul web, i dati sono generalmente memorizzati in
    * **repositories** come servers, **GitHub**
    * **FTP-like** repositories
    * **pagine web**

## Estrarre dati dal web

* scaricare databases strutturati (**.csv**,**.xml**,...)
  * resi disponibili dagli autori per il download
  * accessibili tramite una **URL**
* **API: Application Programming Interfaces**
  * interfacce generalmente accedibili via **REST**
* **scraping** di pagine web
  * dati tabulari
  * testo
* **Python** offre un insieme di  librerie per supportare tutte queste modalità di reperimento dati
  * **Request**
  * **BeautifulSoup**
  * **Scrapy**
  * **Selenium**

## Estrarre dati dal web: API 

* interfacce tra applicazioni diverse, implementate con diversi linguaggi di programmazione
* un concetto generale, però ormai il termine ha acquisito il significato di **web application API**
* richieste **HTPP**
    * in alcuni casi richiedono solo una **URL** con un particolare formato, da inserire nel browser
    * generalmente la risposta è in formato **XML** o **JSON**, formati regolari e semplici da eleborare:**JSON** "standard de facto"  
* generalmente il reperimento di dati mediante **API** non è considerato **web scraping**
    * tuttavia le due modalità di reperimento presentano molti aspetti comuni (uso protocollo **HTTP**)
    * spesso usate contemporaneamente per ottenere la maggior quantità possibile di dati

## Estrarre dati dal web: API

* diversi tipi di **API REST**, molte con caratteristiche specifiche
* in tutti i casi si richiede di trovare una specifica risorsa, nel nostro caso un dataset, mediante una **URL**

<center>
<img src="Figures/URL.jpg" style="width:800px;height:100px;"/>

## HTTP in Python: The Requests Library

* la libreria di riferimento di Python per leggere dati utilizzando il protocollo **HTTP**
* esempio: accedere alla timeline pubblica di GitHub


In [1]:
import requests
url="https://api.github.com/events"
response = requests.get(url)
print(response.status_code)
print(response.reason)

200
OK


* ottenuto un oggetto **Response**, che contiene la risposta del server alla richiesta **http**

## HTTP status codes

* 1xx: la richiesta è in elaborazione, il client viene avvertito di attendere
* 2xx: success
* 3xx: redirection
* 4xx: client error, errori nella richiesta, che non può essere servita **404** not found, **403** forbidden
* 5xx: server error, richiesta valida, ma il server non è stato in grado di servirla

## HTTP headers

In [2]:
url="https://api.github.com/events"
response = requests.get(url)
print("Headers sent:",response.request.headers)
print("\nHeaders received: ", response.headers)

Headers sent: {'User-Agent': 'python-requests/2.32.3', 'Accept-Encoding': 'gzip, deflate', 'Accept': '*/*', 'Connection': 'keep-alive'}

Headers received:  {'Date': 'Wed, 05 Mar 2025 12:08:36 GMT', 'Content-Type': 'application/json; charset=utf-8', 'Cache-Control': 'public, max-age=60, s-maxage=60', 'Vary': 'Accept,Accept-Encoding, Accept, X-Requested-With', 'ETag': 'W/"58fee8388ce8855833ee7cfeccfb3f3fd607cd6030bfd7100199a743566b071c"', 'Last-Modified': 'Wed, 05 Mar 2025 12:03:36 GMT', 'X-Poll-Interval': '60', 'X-GitHub-Media-Type': 'github.v3; format=json', 'Link': '<https://api.github.com/events?page=2>; rel="next", <https://api.github.com/events?page=10>; rel="last"', 'x-github-api-version-selected': '2022-11-28', 'Access-Control-Expose-Headers': 'ETag, Link, Location, Retry-After, X-GitHub-OTP, X-RateLimit-Limit, X-RateLimit-Remaining, X-RateLimit-Used, X-RateLimit-Resource, X-RateLimit-Reset, X-OAuth-Scopes, X-Accepted-OAuth-Scopes, X-Poll-Interval, X-GitHub-Media-Type, X-GitHub-S

## HTTP headers

* headers contenuti in un **dizionario Python**
* accedibili per chiave

In [4]:
response.headers['Content-Type']

'application/json; charset=utf-8'

In [5]:
response.request.headers['Accept']

'*/*'

* **Content-Type**: formato dei dat contenuti nell'**http body**
* nel contesto di un **API REST**, questo parametro indica, in generale, **application/json**, il formato dei dati inviati dal server
* **Accept** utilizzato dal client per indicare al server il tipo di contenuto che è in grado di elaborare


## HTTP cookies

In [6]:
url="http://www.facebook.com"
response = requests.get(url)
cookies = response.cookies

for cookie in cookies:
    print(cookie.name, cookie.value)

fr 014rjDoxPKL1apYCi..BnyD7u..AAA.0.0.BnyD7u.AWX2I-WOBr0
sb 7j7IZ7TWS6yrVrSaTcVbZS_P


## Reperire Dati: richieste web per dati "aperti"

* **punti di accesso liberi** per l'accesso ai dati
    * non richiesto alcune token o autorizzazione per l'accesso
* di solito disponibili per dataset di piccole dimensioni, per non caricare eccessivamente il server
    * talvolta campioni di dataset di maggiori diemnsioni
* esempio: 
    * 1,65 milioni di record riguardanti **incidenti stradali** disponibili all'indirizzo
      **https://data.ny.gov/Transportation/Motor-Vehicle-Crashes-Vehicle-Information-Three-Ye/xe9x-a24f/about_data**
    * un campione composto da un migliaio di record disponibile all'indirizzo **https://data.ny.gov/resource/xe9x-a24f.json** 

## Reperire Dati: richieste web per dati "aperti"

In [7]:
import json
import requests
mv_data_json = requests.get('https://data.ny.gov/resource/xe9x-a24f.json')
mv_data_json .headers['Content-Type']

'application/json;charset=utf-8'

## La libreria Json

* gestire dati formattati in **JSON** in **Python** è semplice, perchè c'è un match uno a uno tra **JSON** e i tipi di dato di Python


<center>
<img src="Figures/JSON.jpg" style="width:500px;height:400px;"/>

## La libreria Json

* modulo **json** incluso per default in **Python**

In [8]:
import json
print(dir(json))

['JSONDecodeError', 'JSONDecoder', 'JSONEncoder', '__all__', '__author__', '__builtins__', '__cached__', '__doc__', '__file__', '__loader__', '__name__', '__package__', '__path__', '__spec__', '__version__', '_default_decoder', '_default_encoder', 'codecs', 'decoder', 'detect_encoding', 'dump', 'dumps', 'encoder', 'load', 'loads', 'scanner']


## La libreria Json

In [11]:
import json
json_sample =  '''{
        "whisky": [
                  {
                    "name": "Hibiki",
                    "type": "Blended",
                     "age": 17
                   },
                  {
                     "name": "Old Pulteney",
                     "type": "Single Malt",
                     "age": 21
                   }
                   ],
        "stock": null,
        "alcohol": true } '''
data = json.loads(json_sample)
print(type(data))
print(data)
new_data = json.dumps(data)
print(type(new_data))
print(new_data)

<class 'dict'>
{'whisky': [{'name': 'Hibiki', 'type': 'Blended', 'age': 17}, {'name': 'Old Pulteney', 'type': 'Single Malt', 'age': 21}], 'stock': None, 'alcohol': True}
<class 'str'>
{"whisky": [{"name": "Hibiki", "type": "Blended", "age": 17}, {"name": "Old Pulteney", "type": "Single Malt", "age": 21}], "stock": null, "alcohol": true}


## Reperire Dati: richieste web per dati "aperti"

In [12]:
mv_list_recs = json.loads(mv_data_json.text)
print(mv_list_recs[0])

{'year': '2021', 'case_vehicle_id': '18127660', 'vehicle_body_type': 'UNKNOWN VEHICLE', 'registration_class': 'Not Entered', 'action_prior_to_accident': 'Going Straight Ahead', 'type_axles_of_truck_or_bus': 'Not Entered', 'direction_of_travel': 'Unknown', 'fuel_type': 'Not Entered', 'contributing_factor_1': 'HUMAN', 'contributing_factor_1_description': 'Not Entered', 'contributing_factor_2': 'HUMAN', 'contributing_factor_2_description': 'Unknown', 'event_type': 'Not Entered'}


## Reperire Dati: richieste web per dati "aperti"

In [13]:
import pandas as pd
mv_df = pd.DataFrame(mv_list_recs)
mv_df.head(10)

Unnamed: 0,year,case_vehicle_id,vehicle_body_type,registration_class,action_prior_to_accident,type_axles_of_truck_or_bus,direction_of_travel,fuel_type,contributing_factor_1,contributing_factor_1_description,contributing_factor_2,contributing_factor_2_description,event_type,vehicle_year,state_of_registration,number_of_occupants,engine_cylinders,vehicle_make,partial_vin
0,2021,18127660,UNKNOWN VEHICLE,Not Entered,Going Straight Ahead,Not Entered,Unknown,Not Entered,HUMAN,Not Entered,HUMAN,Unknown,Not Entered,,,,,,
1,2021,18126564,SUBURBAN,PASSENGER OR SUBURBAN,Parked,Not Entered,West,Gas,HUMAN,Not Entered,HUMAN,Not Entered,"Other Motor Vehicle, Collision With",2020.0,NY,0.0,4.0,MAZDA,JM3KFBCM4L0771428
2,2021,18126574,SUBURBAN,PASSENGER OR SUBURBAN,Other,Not Entered,Northwest,Gas,HUMAN,Not Entered,HUMAN,Not Entered,Not Entered,2020.0,NY,1.0,4.0,HYUND,KM8J3CA40LU281000
3,2021,18126575,SEDAN,Not Entered,Going Straight Ahead,Not Entered,Northwest,Not Entered,HUMAN,Alcohol Involvement,HUMAN,Driver Inattention/Distraction*,Not Entered,,TX,1.0,,,
4,2021,18126577,SUBURBAN,Not Entered,Going Straight Ahead,Not Entered,South,Not Entered,HUMAN,Driver Inattention/Distraction*,HUMAN,Driver Inexperience*,Not Entered,,PA,1.0,,,
5,2021,18126576,SUBURBAN,PASSENGER OR SUBURBAN,Parked,Not Entered,South,Gas,HUMAN,Not Entered,HUMAN,Not Entered,Not Entered,2009.0,NY,3.0,6.0,HONDA,5FNRL386X9B027780
6,2021,18126580,4 DOOR SEDAN,PASSENGER OR SUBURBAN,Going Straight Ahead,Not Entered,South,Gas,HUMAN,Not Entered,HUMAN,Not Entered,Not Entered,2020.0,NY,1.0,4.0,NISSA,1N4BL4CV5LC134543
7,2021,18126581,SUBURBAN,Not Entered,Going Straight Ahead,Not Entered,South,Not Entered,HUMAN,Not Entered,HUMAN,Not Entered,"Other Motor Vehicle, Collision With",2018.0,SC,2.0,,HYUND,
8,2021,18126578,4 DOOR SEDAN,PASSENGER OR SUBURBAN,Going Straight Ahead,Not Entered,South,Gas,HUMAN,Not Entered,HUMAN,Not Entered,Not Entered,2011.0,NY,1.0,4.0,CHEVR,1G1RC6E49BU103290
9,2021,18126579,SEDAN,Not Entered,Going Straight Ahead,Not Entered,South,Not Entered,HUMAN,Unsafe Speed,HUMAN,Aggressive Driving/Road Rage,"Other Motor Vehicle, Collision With",2009.0,NY,1.0,,ME/BE,


## Dogs as a service: the DOG API

In [14]:
import requests
response = requests.get("https://api.thedogapi.com/")
response.text

'{"message":"The Dog API","version":"1.3.9"}'

* accedere a dati mediante **API**
* restituita informazione sulla API, non dati associati
* per ottenere i dati è necessario individuare un **endpoint**
* **endpoint** di una **API**
    * identifica una specifica risorsa offerta dalla **API**
    * un endpoint è identificato aggiungendo una ulteriore parte alla **URL**
    

## Dogs as a service: the DOG API

In [15]:
mv_data_json = requests.get("https://api.thedogapi.com/v1/breeds")
mv_list_recs = json.loads(mv_data_json.text)
print(mv_list_recs[0])

{'weight': {'imperial': '6 - 13', 'metric': '3 - 6'}, 'height': {'imperial': '9 - 11.5', 'metric': '23 - 29'}, 'id': 1, 'name': 'Affenpinscher', 'bred_for': 'Small rodent hunting, lapdog', 'breed_group': 'Toy', 'life_span': '10 - 12 years', 'temperament': 'Stubborn, Curious, Playful, Adventurous, Active, Fun-loving', 'origin': 'Germany, France', 'reference_image_id': 'BJa4kxc4X'}


In [16]:
import pandas as pd
mv_df = pd.DataFrame(mv_list_recs)
mv_df.head(10)

Unnamed: 0,weight,height,id,name,bred_for,breed_group,life_span,temperament,origin,reference_image_id,country_code,description,history
0,"{'imperial': '6 - 13', 'metric': '3 - 6'}","{'imperial': '9 - 11.5', 'metric': '23 - 29'}",1,Affenpinscher,"Small rodent hunting, lapdog",Toy,10 - 12 years,"Stubborn, Curious, Playful, Adventurous, Activ...","Germany, France",BJa4kxc4X,,,
1,"{'imperial': '50 - 60', 'metric': '23 - 27'}","{'imperial': '25 - 27', 'metric': '64 - 69'}",2,Afghan Hound,Coursing and hunting,Hound,10 - 13 years,"Aloof, Clownish, Dignified, Independent, Happy","Afghanistan, Iran, Pakistan",hMyT4CDXR,AG,,
2,"{'imperial': '44 - 66', 'metric': '20 - 30'}","{'imperial': '30', 'metric': '76'}",3,African Hunting Dog,A wild pack animal,,11 years,"Wild, Hardworking, Dutiful",,rkiByec47,,,
3,"{'imperial': '40 - 65', 'metric': '18 - 29'}","{'imperial': '21 - 23', 'metric': '53 - 58'}",4,Airedale Terrier,"Badger, otter hunting",Terrier,10 - 13 years,"Outgoing, Friendly, Alert, Confident, Intellig...","United Kingdom, England",1-7cgoZSh,,,
4,"{'imperial': '90 - 120', 'metric': '41 - 54'}","{'imperial': '28 - 34', 'metric': '71 - 86'}",5,Akbash Dog,Sheep guarding,Working,10 - 12 years,"Loyal, Independent, Intelligent, Brave",,26pHT3Qk7,,,
5,"{'imperial': '65 - 115', 'metric': '29 - 52'}","{'imperial': '24 - 28', 'metric': '61 - 71'}",6,Akita,Hunting bears,Working,10 - 14 years,"Docile, Alert, Responsive, Dignified, Composed...",,BFRYBufpm,,,
6,"{'imperial': '55 - 90', 'metric': '25 - 41'}","{'imperial': '18 - 24', 'metric': '46 - 61'}",7,Alapaha Blue Blood Bulldog,Guarding,Mixed,12 - 13 years,"Loving, Protective, Trainable, Dutiful, Respon...",,33mJ-V3RX,,The Alapaha Blue Blood Bulldog is a well-devel...,
7,"{'imperial': '38 - 50', 'metric': '17 - 23'}","{'imperial': '23 - 26', 'metric': '58 - 66'}",8,Alaskan Husky,Sled pulling,Mixed,10 - 13 years,"Friendly, Energetic, Loyal, Gentle, Confident",,-HgpNnGXl,,,
8,"{'imperial': '65 - 100', 'metric': '29 - 45'}","{'imperial': '23 - 25', 'metric': '58 - 64'}",9,Alaskan Malamute,"Hauling heavy freight, Sled pulling",Working,12 - 15 years,"Friendly, Affectionate, Devoted, Loyal, Dignif...",,dW5UucTIW,,,
9,"{'imperial': '60 - 120', 'metric': '27 - 54'}","{'imperial': '22 - 27', 'metric': '56 - 69'}",10,American Bulldog,,Working,10 - 12 years,"Friendly, Assertive, Energetic, Loyal, Gentle,...",,pk1AAdloG,,,


## Dogs as a Service: inserire parametri nella query

In [18]:
query_params = {"q": "ragamuffin"}
endpoint = "https://api.thecatapi.com/v1/breeds/search"
requests.get(endpoint, params=query_params).json()


[{'weight': {'imperial': '8 - 20', 'metric': '4 - 9'},
  'id': 'raga',
  'name': 'Ragamuffin',
  'cfa_url': 'http://cfa.org/Breeds/BreedsKthruR/Ragamuffin.aspx',
  'vetstreet_url': 'http://www.vetstreet.com/cats/ragamuffin',
  'vcahospitals_url': 'https://vcahospitals.com/know-your-pet/cat-breeds/ragamuffin',
  'temperament': 'Affectionate, Friendly, Gentle, Calm',
  'origin': 'United States',
  'country_codes': 'US',
  'country_code': 'US',
  'description': 'The Ragamuffin is calm, even tempered and gets along well with all family members. Changes in routine generally do not upset her. She is an ideal companion for those in apartments, and with children due to her patient nature.',
  'life_span': '12 - 16',
  'indoor': 0,
  'lap': 1,
  'alt_names': '',
  'adaptability': 5,
  'affection_level': 5,
  'child_friendly': 4,
  'dog_friendly': 5,
  'energy_level': 3,
  'grooming': 3,
  'health_issues': 3,
  'intelligence': 5,
  'shedding_level': 3,
  'social_needs': 3,
  'stranger_friendly':

## International Space Station: quante persone nello spazio?

In [19]:
import requests
response = requests.get("http://api.open-notify.org/astros.json")
r=response.json()
r

{'people': [{'craft': 'ISS', 'name': 'Oleg Kononenko'},
  {'craft': 'ISS', 'name': 'Nikolai Chub'},
  {'craft': 'ISS', 'name': 'Tracy Caldwell Dyson'},
  {'craft': 'ISS', 'name': 'Matthew Dominick'},
  {'craft': 'ISS', 'name': 'Michael Barratt'},
  {'craft': 'ISS', 'name': 'Jeanette Epps'},
  {'craft': 'ISS', 'name': 'Alexander Grebenkin'},
  {'craft': 'ISS', 'name': 'Butch Wilmore'},
  {'craft': 'ISS', 'name': 'Sunita Williams'},
  {'craft': 'Tiangong', 'name': 'Li Guangsu'},
  {'craft': 'Tiangong', 'name': 'Li Cong'},
  {'craft': 'Tiangong', 'name': 'Ye Guangfu'}],
 'number': 12,
 'message': 'success'}

## International Space Station: dove è ora la International Space Station?

In [20]:
response = requests.get("http://api.open-notify.org/iss-now.json")
r=response.json() # This method is convenient when the API returns JSON
r

{'iss_position': {'latitude': '10.4590', 'longitude': '122.0611'},
 'timestamp': 1741176814,
 'message': 'success'}

## API: modalità di intefacciamento

* varia a seconda del sistema
* la modalità più semplice: inviare una richiesta **HTTP GET**
     * la **URL** indica la locazione dei dati richiesti
     * la **URL** può includere una *query*
     * i parametri della query indicano come filtrare i dati oppure danno indicazioni aggiuntive per la ricerca
* per modalità di interazione più complesse, spesso il server che offre le **API** mette a disposizione il codice di un client
    * **Twitter** ha (aveva?) un sistema di autenticazione complesso e metteva a disposizione un client **Python**
    * **Google** raccomanda di usare il proprio client, anche se ammette anche l'accesso **URL-based**   
    * **Coingecko** mette a disposizione un client 

## API: Autenticazione

* esistono diverse **API** completamente pubbliche
* ...ma la maggior parte delle API di ultima generazione richiedono qualche forma di autenticazione
* ad esempio quelle di
    * **GitHub**
    * **Twitter**
    * **Instagram**
* meccanismi di autenticazione
    * **API Keys**
    * **Oauth**-based

## API: Autenticazione con API Keys

* generalmente basata sul rilascio di una **API-KEY** o di un **token**
     * rilasciato in fase di registrazione 
     * il token può rimanere invariato per tutta la sessione dell'utente oppure viene cambiato periodicamente
     * maggior sicurezza nel secondo caso
* il **token** ricevuto in fase di registrazione, viene quindi passato al servizio web ad ogni chiamata di una funzione delle **API**
     * inviato direttamente nella **URL** in cui si richiede l'accesso all'API
     * un esempio di embedding della **api_key** nella **URL**
         https://api.eia.gov/v2/electricity/retail-sales/data?api_key=KLsYOGH31rwhp1gerGMh5UZFM6gDV9gEEfGB7tSo&
         

## API: Autenticazione con API Keys

* Queste chiavi sono utulizzate per identificare l'utente e tracciare il suo uso delle **API**
* le **API keys** sono tipicamente inviate nell'header o come parametro della query
* nella prossima slide: **NASA API**
    * collezione pubblica di immagini della terra e dello spazio fornite dalla NASA
    * accessibili con una **DEMO KEY**

## API: Autenticazione con API Keys

In [21]:
import json
endpoint = "https://api.nasa.gov/mars-photos/api/v1/rovers/curiosity/photos"
 # Replace DEMO_KEY below with your own key if you generated one.
api_key = "DEMO_KEY"
query_params = {"api_key": api_key, "earth_date": "2020-07-01"}
response = requests.get(endpoint, params=query_params)
responsed=response.json()
pretty = json.dumps(responsed, indent=4)
print(pretty)


{
    "photos": [
        {
            "id": 754118,
            "sol": 2809,
            "camera": {
                "id": 20,
                "name": "FHAZ",
                "rover_id": 5,
                "full_name": "Front Hazard Avoidance Camera"
            },
            "img_src": "https://mars.nasa.gov/msl-raw-images/proj/msl/redops/ods/surface/sol/02809/opgs/edr/fcam/FLB_646868981EDR_F0810628FHAZ00337M_.JPG",
            "earth_date": "2020-07-01",
            "rover": {
                "id": 5,
                "name": "Curiosity",
                "landing_date": "2012-08-06",
                "launch_date": "2011-11-26",
                "status": "active"
            }
        },
        {
            "id": 754119,
            "sol": 2809,
            "camera": {
                "id": 20,
                "name": "FHAZ",
                "rover_id": 5,
                "full_name": "Front Hazard Avoidance Camera"
            },
            "img_src": "https://mars.nasa.gov/msl-

## API: Autenticazione con API Keys

In [22]:
print(f"Found {len(responsed['photos'])} photos")


Found 12 photos


In [23]:
responsed['photos'][4]["img_src"]


'https://mars.nasa.gov/msl-raw-images/proj/msl/redops/ods/surface/sol/02809/opgs/edr/rcam/RRB_646869036EDR_F0810628RHAZ00337M_.JPG'

## Rate limiting

* le API pubbliche possono essere utilizzate da chiunque
* per evitare gli abusi, molti siti adottano una tecnica detta **API limiting**
    * restringe il numero di richieste che un utente può fare in un time frame
    * se si eccede questo limite, il server blocca l'**IP** del richiedente o la **API KEY** per un certo periodo di tempo
* le **API** di **GitHub**, con endpoint **events**, consentono al massimo 60 richieste per ora, dopo cui bloccano l'utente
* se si supera quel limite
    * si ottiene un codice di errore **403**
    * si deve aspettare un intervallo di tempo prima di risottomettere una richiesta


## Rate limiting

In [25]:
endpoint = "https://api.github.com/events"
for i in range(1, 100):
    response = requests.get(endpoint)
    print(f"{i} - {response.status_code}")
    if response.status_code != 200:
         break
            

1 - 200
2 - 200
3 - 200
4 - 200
5 - 200
6 - 200
7 - 200
8 - 200
9 - 200
10 - 200
11 - 200
12 - 200
13 - 200
14 - 200
15 - 200
16 - 200
17 - 200
18 - 200
19 - 200
20 - 200
21 - 200
22 - 200
23 - 200
24 - 200
25 - 200
26 - 200
27 - 200
28 - 200
29 - 200
30 - 200
31 - 200
32 - 200
33 - 200
34 - 200
35 - 200
36 - 200
37 - 200
38 - 200
39 - 200
40 - 200
41 - 200
42 - 200
43 - 200
44 - 200
45 - 200
46 - 200
47 - 200
48 - 200
49 - 200
50 - 200
51 - 200
52 - 200
53 - 200
54 - 200
55 - 200
56 - 200
57 - 200
58 - 200
59 - 403


## Rate limiting

* alcune **API**, come quelle di **GitHub** possono includere nell'header informazioni circa il **rate limit** corrente
    * ottenibile da **response.header**
* utile per evitare di superare questo limite


In [26]:
endpoint = "https://api.github.com/events"
response = requests.get(endpoint)
response.headers


{'Date': 'Wed, 05 Mar 2025 12:16:00 GMT', 'Server': 'Varnish', 'Strict-Transport-Security': 'max-age=31536000; includeSubdomains; preload', 'X-Content-Type-Options': 'nosniff', 'X-Frame-Options': 'deny', 'X-XSS-Protection': '1; mode=block', 'Content-Security-Policy': "default-src 'none'; style-src 'unsafe-inline'", 'Access-Control-Allow-Origin': '*', 'Access-Control-Expose-Headers': 'ETag, Link, Location, Retry-After, X-GitHub-OTP, X-RateLimit-Limit, X-RateLimit-Remaining, X-RateLimit-Reset, X-RateLimit-Used, X-RateLimit-Resource, X-OAuth-Scopes, X-Accepted-OAuth-Scopes, X-Poll-Interval, X-GitHub-Media-Type, Deprecation, Sunset', 'Content-Type': 'application/json; charset=utf-8', 'Referrer-Policy': 'origin-when-cross-origin, strict-origin-when-cross-origin', 'X-GitHub-Media-Type': 'github.v3; format=json', 'X-RateLimit-Limit': '60', 'X-RateLimit-Remaining': '0', 'X-RateLimit-Reset': '1741180073', 'X-RateLimit-Resource': 'core', 'X-RateLimit-Used': '60', 'Content-Length': '280', 'X-GitH

## Le API di EIA: U.S. Energy Information Administration

* un' agenzia  del Dipartimento dell'energia degli Stati Uniti d'America (https://www.eia.gov/)
* raccoglie, analizza e diffonde informazioni sull'energia indipendenti e imparziali 
* scopo: promuovere informazioni trasparenti su energia e ambiente 
* dati relativi a
    * carbone
    * petrolio
    * gas naturale
    * energia elettrica
    * energia nucleare
    * fonti rinnovabili

## Le API di EIA: U.S. Energy Information Administration

<center>
<img src="Figures/APIEIA.jpg" style="width:800px;height:500px;"/>

## Le API di EIA: U.S. Energy Information Administration

* richiesto l'account e l'acquisizione di un token da inserire nelle richieste
* reperire i dati annnuali relativi al prezzo dell'energia nei diversi stati **USA** a partire del **31/01/2021**
* le specifiche su come costruire la **URL** per questa query, per il reperimento dei dati sono presenti in una dashboard messa 
a dispozizione da **EIA**

<img src="Figures/EIAelectricity.jpg" style="width:1000px;height:700px;"/>

## Importare dati da EIA

* scrivere uno script **Python** per importare i dati da **EIA**, relativi alla query descritta nella slide precedente
* i dati importati devono essere registrati su un file **csv**
   * raggruppare le informazioni per stato **USA** e sul file registrare la la sigla dello stato, la descrizione dello          stato per esteso, la rilevazione del prezzo della energia
* quindi effettuare alcune analisi sui dati reperiti
* quale librerie sono necessarie?

## Interpretare i dati reperiti: il JSON

* la query su ogni stato restituisce in oggetto  JSON **response** 
* struttura è la seguente

<img src="Figures/EIAJSON.jpg" style="width:1000px;height:400px;"/>

## Importare dati da EIA

* i dati reperiti vengono scritti in un file **csv**
* costruiamo la Directory con il nome del file che intendiamo creare
* prepariamo una lista con le sigle di tutti gli **stati USA**

In [27]:
import requests
import csv
import os
import pandas as pd
outputfile = 'electricity_data.csv'
states = ['AL','AK','AZ','AR','CA','CO','CT','DE','FL','GA','HI','ID','IL','IN',
          'IA','KS','KY','LA','ME','MD','MA','MI','MN','MS','MO','MT','NE','NV',
          'NH','NJ','NM','NY','NC','ND','OH','OK','OR','PA','RI','SC','SD','TN',
          'TX','UT','VT','VA','WA','WV','WI','WY']


##  U.S. Energy Information Administration: il file JSON

In [28]:
with open(outputfile, 'w') as f:
    writer = csv.writer(f)
    writer.writerow(['State','Description','Value'])
    for s in states:
        url = f'https://api.eia.gov/v2/electricity/retail-sales/data?api_key=KLsYOGH31rwhp1gerGMh5UZFM6gDV9gEEfGB7tSo&\
        data[]=price&frequency=annual&start=2021-01-31&facets[stateid][]={s}'
        response = requests.get(url)
        webpage = response.json()
        for i in range(pd.to_numeric(webpage['response']['total'])):
            writer.writerow([s,webpage['response']['data'][i]['stateDescription'], 
                            webpage['response']['data'][i]['price']])
            

##  U.S. Energy Information Administration: il file JSON

* la **url** è stata  costruita in base alle regole presentate nella **EIA API dashboard**
    * contiene l'**API key**
    * indica la frequenza (annuale) e l'inizio del periodo di rilevazione
    * contiene la sigla dello stato di cui si richiedono le rilevazioni
        * prelevata dalla lista di stati precedentemente costruita
        * indica che il dato di interesse è il prezzo
* costruzione di un oggetto **writer** per trasformare i dati in **csv**
*  metodo **writerow** dell'oggetto **writer**
    * data una lista, scrive sul file i valori della lista separati da virgola
    * prima riga del file **csv** contiene i nomi dei vari campi del filr


## Analizzare i dati reperiti

In [29]:
import pandas as pd
import matplotlib.pyplot as plt
df_electricity = pd.read_csv('electricity_data.csv')
df_electricity.info()
df_electricity

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1200 entries, 0 to 1199
Data columns (total 3 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   State        1200 non-null   object 
 1   Description  1200 non-null   object 
 2   Value        1000 non-null   float64
dtypes: float64(1), object(2)
memory usage: 28.3+ KB


Unnamed: 0,State,Description,Value
0,AL,Alabama,11.59
1,AL,Alabama,13.16
2,AL,Alabama,7.72
3,AL,Alabama,
4,AL,Alabama,14.25
...,...,...,...
1195,WY,Wyoming,9.29
1196,WY,Wyoming,7.96
1197,WY,Wyoming,
1198,WY,Wyoming,12.50


## Le API di Etherscan

* **Etherscan** (https://etherscan.io/): a **blockchain explorer** per la blockchain di **Ethereum**
    * un servizio per visualizzare dati provenienti da blockchain
    
* consente di ricercare informazioni sun
    * transazioni
    * blocchi    
    * smart contracts: gas fees
    * indirizzi di wallet
    * altre informazioni ** on-chain**

* offre 
    * un'interfaccia web tramite la quale è possibile sottomettere queries
    * un insieme di **API**

## Le API di Etherscan

<img src="Figures/Etherscan.jpg" style="width:1000px;height:700px;"/>



## Le API di Etherscan

* istallare un client fornito da **Etherscan**
    * **pip install etherscan-python**
    * creare un account
    * l'accesso alle **API** è libero, con una restrizione sul numero di chiamate per secondo e per giorno
    * creare un **API KEy token** che verrà quindi utilizzato nelle chaimate  alle **API**

## Le API di Etherscan


<img src="Figures/EtherscanEndpoint.jpg" style="width:800px;height:800px;"/>


## Le API di Etherscan

In [30]:
import requests as re
import json
import pandas as pd
res3 = re.get("https://api.etherscan.io/api?" +
            "module=account&action=balancemulti" +
            "&address=0xddbd2b932c763ba5b1b7ae3b362eac3e8d40121a," +
            "0x63a9975ba31b0b9626b34300f7f627147df1f526,"+
            "0x198ef1ec325a96cc354c7266a038be8b5c558f67&" +
            "tag=latest&apikey=HSC9H26BSMNPUUWS7V3CX12NG7PSYQENHG&" +
            "endblock=2702578&page=1offset=10&sort=asc&" +
            "apikey=HSC9H26BSMNPUUWS7V3CX12NG7PSYQENHG")
d = res3.json().get("result")
print(d)
print(type(d))
mv_df = pd.DataFrame(d)
mv_df

[{'account': '0xddbd2b932c763ba5b1b7ae3b362eac3e8d40121a', 'balance': '40891626854930000000999'}, {'account': '0x63a9975ba31b0b9626b34300f7f627147df1f526', 'balance': '332567468194302174169'}, {'account': '0x198ef1ec325a96cc354c7266a038be8b5c558f67', 'balance': '21000000000000000'}]
<class 'list'>


Unnamed: 0,account,balance
0,0xddbd2b932c763ba5b1b7ae3b362eac3e8d40121a,40891626854930000000999
1,0x63a9975ba31b0b9626b34300f7f627147df1f526,332567468194302174169
2,0x198ef1ec325a96cc354c7266a038be8b5c558f67,21000000000000000


## La API di Blockchain.com

*Blockchain.com is a popular cryptocurrency wallet and blockchain explorer platform. It was founded in 2011 and is based in Luxembourg. The platform provides users with tools and services that enable them to securely store, manage, and trade cryptocurrencies, including Bitcoin, Ethereum, and Bitcoin Cash.
In addition to its wallet and trading services, Blockchain.com also offers a blockchain explorer that allows users to search and view transactions on various blockchain networks. The platform also provides market data, news, and educational resources to help users stay informed about the cryptocurrency industry.
Blockchain.com is one of the most widely used cryptocurrency platforms, with millions of users worldwide. The platform has a reputation for security, reliability, and ease of use, making it a popular choice for both novice and experienced cryptocurrency users"*

[ by ChayGPT, risposta verificata, completa e corretta]

* consentono di analizzare singole transazioni, blocchi, indirizzi,...
* analizzeremo una transazione, fornendo in input  l'hash che la identifica univocamente



## Le API di Blockchain.com

* diversi metodi di accesso


<img src="Figures/Blockchaincom.jpg" style="width:800px;height:600px;"/>

## Le API di Blockchain.com

In [31]:
import requests
response = requests.get("https://blockchain.info/rawtx/b6f6991d03df0e2e04dafffcd6bc418aac66049e2cd74b80f14ac86db1e3f0da")  
responsed=response.json()
responsed

{'hash': 'b6f6991d03df0e2e04dafffcd6bc418aac66049e2cd74b80f14ac86db1e3f0da',
 'ver': 1,
 'vin_sz': 1,
 'vout_sz': 2,
 'size': 258,
 'weight': 1032,
 'fee': 0,
 'relayed_by': '0.0.0.0',
 'lock_time': 0,
 'tx_index': 7703300705990921,
 'double_spend': False,
 'time': 1322135154,
 'block_index': 154598,
 'block_height': 154598,
 'inputs': [{'sequence': 4294967295,
   'witness': '',
   'script': '48304502210098a2851420e4daba656fd79cb60cb565bd7218b6b117fda9a512ffbf17f8f178022005c61f31fef3ce3f906eb672e05b65f506045a65a80431b5eaf28e0999266993014104f0f86fa57c424deb160d0fc7693f13fce5ed6542c29483c51953e4fa87ebf247487ed79b1ddcf3de66b182217fcaf3fcef3fcb44737eb93b1fcb8927ebecea26',
   'index': 0,
   'prev_out': {'type': 0,
    'spent': True,
    'value': 100000000,
    'spending_outpoints': [{'tx_index': 7703300705990921, 'n': 0}],
    'n': 2,
    'tx_index': 53059022299747,
    'script': '76a914a3e2bcc9a5f776112497a32b05f4b9e5b2405ed988ac',
    'addr': '1FwYmGEjXhMtxpWDpUXwLx7ndLNfFQncKq'}}],
 'out

## Il servizio CoinGecko

* il più grande e uno dei primi aggregatori di cryptocurrencies
* riporta analisi dettagliate del mercato di tutte le criptomonete
    * andamento storico del mercato
* fornisce una **libreria** per collegarsi direttamente alle loro **API**
    * wrapper per le **API**
    * per installarla: **pip3 install pycoingecko**

## Il servizio CoinGecko

<img src="Figures/CoinGecko.jpg" style="width:800px;height:600px;"/>

## La API di CoinGecko

* scelta di un programma a pagamento, poi **Create Demo Account**
* non richiesta carta di credito, creazione free di una **API key**
    * Total Monthly API Calls: 10,000
    * Remaining monthly API Calls: 10,000
    * Rate Limit - Request Per Minute: 30
* disponibili alcuni client **Python** (wrapper) per interfacciarsi con le **API**

In [32]:
pip install --upgrade coingecko


Defaulting to user installation because normal site-packages is not writeable
Note: you may need to restart the kernel to use updated packages.



[notice] A new release of pip is available: 24.3.1 -> 25.0.1
[notice] To update, run: C:\Users\ricci\AppData\Local\Microsoft\WindowsApps\PythonSoftwareFoundation.Python.3.13_qbz5n2kfra8p0\python.exe -m pip install --upgrade pip


## La API di CoinGecko

In [33]:
import coingecko
client = coingecko.CoinGeckoDemoClient(api_key="CG-JNM1XYf6tbi4Mm7ow26wHVwS")
# Test your API key with ping
response = client.ping.get()
response

{'gecko_says': '(V3) To the Moon!'}

In [34]:
response = client.simple.get_price(ids='bitcoin', vs_currencies='usd')
response

{'bitcoin': {'usd': 90231}}

## Web Scraping

* raccolta di dati effettuata da siti web, effettuata senza utilizzare **API** 
* implementazione mediante uno script **Python** che
    * si collega a un web server
    * richiede una o più pagine **HTML**
    * parsa le pagine ricevute
* altri meccanismi legati al web scraping
    * information security
    * authentication
    * data analysis
* perchè utilizzare scraping? 
    * molti siti non forniscono **API**
        * perchè il gestore non possiede l'infrastruttura per supportare una **API**
        * perchè i dati sono pochi, e il webmaster ha deciso di non fornire le **API**
    * anche se un sito fornisce un servizio di **API**, possono esserevi diverse restrizioni, come abbiamo visto
        * sul volume dei dati fornite
        * sul numero di richieste nella unità di tempo
        * sul tipo o sul formato dei dati

## Web Scraping: fasi fondamentali

* la quasi totalità delle informazioni che sono visualizzate in un browser  usa **HTML**
* quindi il primo passo è capire come strarre informazione da un sito **HTML**
    * individure dati interessanti all'interno della pagina reperita con la libreria **request**
    * parsing dei dati ricevuti
* ma questo non è un corso di **web programming**, quindi  analizziamo l'**HTML**, mostrando esempi di scraping

## Disclaimer: prestare attenzione all'uso dello scraping!

* effettuare scraping di informazioni protette da copyright può avere conseguenze legali!
* alcuni siti web proibiscono lo scraping su alcune parti o su tutto il sito
    * condizioni definite in **terms and conditions** (termini di Servizio)
    * controllare il file **robot.txt** (se presente) che specifica 
        * su quale parti del siti è possibile effettuare **scraping**
        * la frequenza accettata delle richieste

## Disclaimer: termini di servizio

* se un sito web è accessibile al pubblico, il  webmaster **può dichiarare** quali software possono e 
non possono accedervi.
* molti siti web  includono un link ai **Termini di Servizio (TOS)** nel footer di ogni pagina. 
* i TOS contengono più di semplici regole per i web crawler e l'accesso automatizzato; 
* spesso forniscono anche informazioni sul tipo di dati che il sito raccoglie,  su come vengono utilizzati, 
* Un TOS potrebbe essere  **va bene se usi il tuo browser per visualizzare questo sito,  ma non se usi un programma che 
hai scritto per farlo**
* di solito includono una clausola di esclusione di responsabilità che specifica  che i servizi forniti dal sito sono offerti senza alcuna garanzia espressa o implicita.

## Disclaimer: termini di servizio

* un esempio di termine di servizio che esclude il web scraping

<img src="Figures/TOSExamplecroped.jpg" style="width:1000px;height:400px;"/>

## Disclaimer: Robot Exclusion Protocol

* la sintassi dei file **robots.txt** è stata sviluppata nel 1994, durante il boom iniziale della tecnologia dei motori di ricerca.
* in quel periodo che i motori di ricerca  iniziarono a competere seriamente con semplici elenchi di siti organizzati per argomento, come quello curato da Yahoo!.
* questa crescita della ricerca su internet comportò un'esplosione non solo nel numero di web crawler, ma anche nella disponibilità di informazioni raccolte.
* oggi potremmo dare per scontata tale disponibilità, ma al tempo  alcuni webmaster rimasero sorpresi quando le informazioni pubblicate in profondità nella struttura dei file dei loro siti web divennero accessibili nella prima pagina dei risultati dei principali motori di ricerca. 
* in risposta a ciò, fu sviluppata la sintassi dei file robots.txt, nota come **Robots Exclusion Protocol**.

## Disclaimer: Robot Exclusion Protocol

 * il file **robots.txt** può essere analizzato e utilizzato estremamente facilmente da programmi automatizzati.
    * si può scrivere un web scraper o crawler che rispetti il contenuto del file
* diverso dai Termini di Servizio, che spesso trattano i web crawler in termini generali e in un linguaggio molto umano, tuttavia
    * non esiste un organismo ufficiale che regoli la sintassi di **robots.txt**
    * è una convenzione largamente utilizzata e generalmente rispettata
    * anche se non c'è nulla che impedisca a chiunque di creare una propria versione di un file robots.txt, i web master sono disincentivati a fare questo,
      perchè nessun bot riconoscerebbe quel formato 
    * non riconosciuto dal punto di vista legale

## La sintassi del file Robot Exclusion Protocol (robots)

* come in **Python**, i commenti iniziano con il simbolo **#**, terminano con un carattere di newline e possono essere inseriti ovunque nel file.
* la prima riga del file, escludendo eventuali commenti, inizia con **User-agent:**
    * specifica a quale bot si applicano le regole successive. 
    * segue un insieme di regole, espresse come **Allow:** o **Disallow:**, a seconda che il bot sia 
       autorizzato o meno a navigare in quella sezione del sito. 
    * un asterisco* indica un carattere jolly e può essere usato per descrivere sia un **User-agent** che una URL.
<code> 


## La sintassi del file Robot Exclusion Protocol (robots)

<code>
#Welcome to my robots.txt file!
User-agent: *
Disallow: *
User-agent: Googlebot
Allow: *
Disallow: /private
</code>

* la prima regole indica è vietato l'accesso a qualsiasi parte del sito da parte di qualsiasi bot
* la seconda regola indica che l'accesso a tutte le directories, esclusa la directory **/private**, è permesso a un bot
proveniente da **Google**
* la seconda regola ha precedenza

## The Robot DataBase

* elenca alcuni robots importanti
* segnalati dai loro proprietari o dai proprietari dei siti web che sono stati visitati dai robot. 

<img src="Figures/RobotsDB.jpg" style="width:800px;height:600px;"/>











## Il robot.txt file di X (ex-Twitter)

<img src="Figures/GoogleRobot.jpg" style="width:600px;height:800px;"/>

## La libreria robotparser

* consideriamo il sito https://www.python.org/
* analizziamo il file **robots.txt**

<img src="Figures/PythonRobots.jpg" style="width:800px;height:500px;"/>

## La libreria robotparser

In [40]:
import requests
import urllib.robotparser
# URL of the website you want to scrape
base_url = 'https://example.com/'
# Parse the robots.txt file
rp = urllib.robotparser.RobotFileParser()
rp.set_url(base_url + 'robots.txt')
rp.read()
# Function to check if a URL is allowed by robots.txt
def is_allowed(url):
    return rp.can_fetch('*', url)
# Function to scrape a URL if allowed by robots.txt
def scrape_url(url):
    if is_allowed(url):
        response = requests.get(url)
        # Process the response
        print(response.status_code)
        print(response.text)
    else:
        print(f"Scraping blocked by robots.txt: {url}")
# Example usage
scrape_url(base_url + 'some-page/')

404
<!doctype html>
<html>
<head>
    <title>Example Domain</title>

    <meta charset="utf-8" />
    <meta http-equiv="Content-type" content="text/html; charset=utf-8" />
    <meta name="viewport" content="width=device-width, initial-scale=1" />
    <style type="text/css">
    body {
        background-color: #f0f0f2;
        margin: 0;
        padding: 0;
        font-family: -apple-system, system-ui, BlinkMacSystemFont, "Segoe UI", "Open Sans", "Helvetica Neue", Helvetica, Arial, sans-serif;
        
    }
    div {
        width: 600px;
        margin: 5em auto;
        padding: 2em;
        background-color: #fdfdff;
        border-radius: 0.5em;
        box-shadow: 2px 3px 7px 2px rgba(0,0,0,0.02);
    }
    a:link, a:visited {
        color: #38488f;
        text-decoration: none;
    }
    @media (max-width: 700px) {
        div {
            margin: 0 auto;
            width: auto;
        }
    }
    </style>    
</head>

<body>
<div>
    <h1>Example Domain</h1>
    <p>This d

## La classe urllib.robotparser.RobotFileParse



* **set_url(url)**: sets the URL referring to a robots.txt file.
* **read()**: reads the robots.txt URL and feeds it to the parser.
* **parse(lines)**: parses the lines argument.
* **can_fetch(useragent, url)**: returns True if the useragent is allowed to fetch the url according to the rules contained 
in the parsed robots.txt file.
* **mtime()**:  returns the time the robots.txt file was last fetched. This is useful for long-running web spiders that 
need to check for new robots.txt files periodically.
* **modified()**: sets the time the robots.txt file was last fetched to the current time.
* **crawl_delay(useragent):** returns the value of the Crawl-delay parameter from robots.txt for the useragent in question. If there is no such parameter or it doesn’t apply to the useragent specified or the robots.txt entry for this parameter has invalid syntax, return None.
* **request_rate(useragent):** Returns the contents of the Request-rate parameter from **robots.txt** as a 
        named tuple **RequestRate(requests, seconds)**. If there is no such parameter or it doesn’t apply 
        to the useragent specified or the robots.txt entry for this parameter has invalid syntax, return None.

## Assignment 11

* **CoinMarketCap** è una delle piattaforme più popolari per il monitoraggio dei prezzi delle criptovalute
* Servizi frniti
    * Elenca le criptovalute in base alla loro capitalizzazione di mercato.
    * Prezzi in tempo reale: Mostra il valore attuale di ogni criptovaluta in diverse valute fiat e criptovalute.
    * Dati storici e grafici: Permette di analizzare l’andamento del prezzo nel tempo.
    * Exchange e volumi di scambio: Fornisce informazioni sulle piattaforme di scambio e sul volume delle transazioni.
    * Indice di fiducia: Valuta l'affidabilità dei dati sugli scambi.
* Analizzare l'utilizzo delle **API** di **CoinMarketCup** e sviluppare un programma **Python** che utilizzi le **API** per offrire almeno due dei servizi elencati in precedenza.
