<h1><center> WebScraping </h1>
<h1><center> Anno Accademico 2022-2023 </h1>
<h1><center>  Docente: Laura Ricci </h1>
<h1><center>  Lezione 11 </h1>
<h1><center>  WebScarping in Python: </h1> 
<h1><center>    introduzione a BeautifulSoup </h1>  
<h1><center> 1 Marzo 2023 </h1>

# La libreria BeautifulSoup

<code>
"Beautiful soup, so rich and green,
Waiting in a hot tureen!
Who for such dainties would not stop?
Soup of everithing, beutiful Soup!"
</code>

*[Lewis Carroll Alice's Adventures in Wonderland, Mock Turtle song]*
    
* perchè questo nome?
    * **tag soup**: indica come molte pagine **HTML** siano create in modo caotico, uilizzando, letteralmente **"una zuppa di tag"**
    * le funzioni di **BeautifulSoup** sono in  grado di parsare queste **zuppe di tag** e renderle **belle**, ovvero strutturate.   

# La libreria BeautifulSoup

* non appartiene alle librerie standard di Python

* quindi è necessario installarla

<code>
pip install beautifulsoup4
</code>

* 3 librerie per lo scraping in **Python**: **BeautifulSoup**, **Scrapy**, **Selenium**


In [1]:
from urllib.request import urlopen
from bs4 import BeautifulSoup
html = urlopen('https://pages.di.unipi.it/ricci/')
bs = BeautifulSoup(html.read(), 'html.parser')
print(type(bs))
print(bs.title)

<class 'bs4.BeautifulSoup'>
<title>Laura Ricci --- Home Page</title>


# La libreria BeautifulSoup

* per creare un oggetto **BeautifulSoup**, sono necessari due parametri
    * il primo è il testo **HTML** che deve essere parsato e trasformato nell'oggetto **BeautifulSoup**
    * il secondo specifica il tipo di parser che si vuole utilizzare per parsare il sorgente e creare l'oggetto **BeautifulSoup**
        * **html parser** incluso nella libreria standard di **Python 3**, non richiede ulteriori informazioni
        * **lxml** 
            * migliore nella gestione di pagine malfomate
            * prestazioni migliori
            * richiesta una installazione esplicita
        * **html5lib** 
            * migliore funzinalità per pagine mal formate
* tutte le librerie sono in grado di estrarre qualsiasi contenuto da un file **HTML**, purchè questo contenuto sia identificabile con un tag, a cui sono eventualmente associate un insieme di proprietà

# Gestire le eccezioni

* è molto importante gestire le eccezioni che possono essere sollevate durante un processo di scraping

In [2]:
from urllib.request import urlopen
from urllib.error import HTTPError
from bs4 import BeautifulSoup

def getTitle(url):
    try:
        html = urlopen(url)
    except HTTPError as e:
        print(e)
        return None
    except URLError as e:
        print("The server could not be found!") 
        return None
    bs = BeautifulSoup(html.read(), 'html.parser')
    title = bs.title
    print (title.text)
    return title

title = getTitle('https://pages.di.unipi.it/ricci/')

if title == None:
    print('Title could not be found')
else:
    print(title)
    

Laura Ricci --- Home Page
<title>Laura Ricci --- Home Page</title>


# Approfondimenti, le eccezioni 

* eccezioni sollevate nel tentativo di connettersi al server e reperire la pagina
    * **HTTPError**
        * la pagina non puà essere reperita sul server
        * c'è un errore nel reperimento della pagina
    * **URLError**
        * la **URL** non è valida
        * il server non è raggiungibile
* meccanismo delle eccezioni molto simile a quello di **JAVA**

# Gestire le eccezioni

* ogni volta che si tenta di effettuare l'accesso a un tag che non esiste, BeautifulSoup restituisce l'oggetto **None**
    * nell'esempio sotto 
    <code>
    title = bs.hf
    </code>   
    * il tag "hf" è inesistente
* viene restituito **None**
* se si tenta poi di accedere a qualche proprietà dell'oggetto **None**
    * viene sollevata una eccezione di tipo **Attribute Error**
    * inserita nell'esempio sotto accedendo volutamente a un tag inesistente

In [4]:
from urllib.request import urlopen
from urllib.error import HTTPError
from bs4 import BeautifulSoup

def getTitle(url):
    try:
        html = urlopen(url)
    except HTTPError as e:
        print(e)
        return None
    except URLError as e:
        print("The server could not be found!")
        return None
    bs = BeautifulSoup(html.read(), 'html.parser')
    title = bs.hf
    print (title.text)
    return title

title = getTitle('https://pages.di.unipi.it/ricci/')
if title == None:
    print('Title could not be found')
else:
    print(title.text)

AttributeError: 'NoneType' object has no attribute 'text'

# Gestire le eccezioni

* quando si accede a un tag è opportuno intercettare sempre una eventuale eccezione di tipo **AttributeError**

In [5]:
from urllib.request import urlopen
from urllib.error import HTTPError
from bs4 import BeautifulSoup

def getTitle(url):
    try:
        html = urlopen(url)
    except HTTPError as e:
        print(e)
        return None
    except URLError as e:
        print("The server could not be found!")
    try:
        bs = BeautifulSoup(html.read(), 'html.parser')
        title = bs.title
    except AttributeError as e:
        return None
    return title

title = getTitle('https://pages.di.unipi.it/ricco/')
if title == None:
    print('Title could not be found')
else:
    print(title)

HTTP Error 404: Not Found
Title could not be found


# Esplorare l'albero del contenuto HTML

* le varie componenti del documento restituito da **BeautifulSoap** possono essere accedute come proprità dell'oggetto **soup**, che corrispondono ai vari **tag**

* un modo più efficace e più generale è quello di user le funzioni
    * **find(tag, attributes)**
    * **findAll(tag,attributes)**
    
* sono funzioni utilizzate per ricercare un tag caratterizzati da  certi attributi all'interno di un oggetto **BeautifulSoup**
     * prevedono anche un insieme di altri attributi, di minore importanza

# Scraping con find() e findAll()

* scraping della pagina **https://en.wikipedia.org/wiki/List_of_countries_by_greenhouse_gas_emissions**



<center>
<img src="Figures/wikipedia.jpg" style="width:1400px;height:400px;"/>

# Scraping con find() e findAll()

In [3]:
from urllib.request import urlopen
from bs4 import BeautifulSoup
html = urlopen('https://en.wikipedia.org/wiki/List_of_countries_by_greenhouse_gas_emissions')
bs = BeautifulSoup(html.read(), 'html.parser')
row1 = bs.findAll('tr')
print(len(row1))
print(row1[5])

243
<tr>
<th scope="row"><span class="flagicon"><img alt="" class="thumbborder" data-file-height="900" data-file-width="1350" decoding="async" height="15" src="//upload.wikimedia.org/wikipedia/en/thumb/4/41/Flag_of_India.svg/23px-Flag_of_India.svg.png" srcset="//upload.wikimedia.org/wikipedia/en/thumb/4/41/Flag_of_India.svg/35px-Flag_of_India.svg.png 1.5x, //upload.wikimedia.org/wikipedia/en/thumb/4/41/Flag_of_India.svg/45px-Flag_of_India.svg.png 2x" width="23"/> </span><a href="/wiki/India" title="India">India</a> (see: <a class="mw-redirect" href="/wiki/Greenhouse_gas_emissions_by_India" title="Greenhouse gas emissions by India">Greenhouse gas emissions by India</a>)
</th>
<td>3,347
</td>
<td>
</td>
<td>2870
</td>
<td>2217
</td></tr>


# Gaming by scraping

* esempio di scraping pubblicato in https://www.geeksforgeeks.org/quote-guessing-game-using-web-scraping-in-python/

* a "guessing game" effettuato con il supporto di uno scraper

* il gioco utilizza informazione reperite sul sito https://quotes.toscrape.com/

    * il sito pubblica frasi pronuciate da personaggi celebri
    
* il gioco è il seguente

    * viene proposta all'utente una frase celebre (**quote**), senza svelarne l'autore
    * vengono date k possibilità  di indovinare chi è l'autore della frase
    * ad ogni round, viene dato un suggerimento all'autore circa la data di nascita dell'autore, la prima lettera del nome dell'autore, la seconda lettera del nome dell'autore, etc,
    * viene indicato all'utente se ha indovinato, oppure dopo tutti k tentativi senza successo, viene comunicata la sconfitta
    

# Gaming by scraping

<center>
<img src="Figures/Quotes.jpg" style="width:900px;height:700px;"/>

# Gaming by scraping

* in fondo alla pagina il bottone **next** per passare alla pagina successiva

<center>
<img src="Figures/Quotesinspect2.jpg" style="width:1000px;height:600px;"/>

# Prima fase: reperimento contenuti via scraping

* ricercare nella pagina tutte le "quotes" (frasi celebri)
* memorizzare le informazioni relative in una lista **Python**
* memorizzare per ogni frase le informazioni utili per fornire i suggerimenti 
    * il testo
    * l'autore
    * la bibliografia dell'autore
* queste informazioni servono per implementare il gioco
    * mostrare il testo
    * dare i suggerimenti al giovcatore

# Ispezionare il codice HTML di Quotes.toScrape

* utilizzare il tasto "ispeziona" disponibile su qualunque browser

<center>
<img src="Figures/Quotesinspect1.jpg" style="width:1000px;height:600px;"/>

# Individuare nella pagina frasi e tag associati

* scorrendo la pagina, si osserva che 
    * le "quotes" sono individuate dalla class "quote"
    * all'interno dellla **class quote** esiste
        * una **class text** che individua il testo della "quote"
        * una **class author** che individua l'autore della "quote"
        * una **class tags** che individua i tag  associati alla "quote"

<center>
<img src="Figures/Quotesinspect3.jpg" style="width:1200px;height:500px;"/>

# Importare le librerie e preparare la url

* notare come la **url** sia composta da due parti diverse
    * una parte fissa
    * una parte variabile

In [9]:
import requests
from bs4 import BeautifulSoup
from csv import writer
from time import sleep
from random import choice
 
# la lista in cui memorizzeremo tutte le quote
all_quotes = []
 
# questa parte della URL rimane fissa
base_url = "http://quotes.toscrape.com/"
 
# questa parte della url indica la pagina visitata, all'inizio la prima pagina
# il numero di pafina verrà incrementato mano a mano che il codice scorrerà le pagine
url = "/page/1"

# Collezionare le quotes in una lista

In [10]:
while url:
   
    # concateniamo la url base con la url di pagina e effettuiamo la richiesta
    # costruzione di una stringa con i valori di due variabili
    
    res = requests.get(f"{base_url}{url}")
    print(f"Now Scraping{base_url}{url}")
    
    soup = BeautifulSoup(res.text, "html.parser")
 
    # estraiamo le "quotes" da questa pagina
    quotes = soup.find_all('div', class_="quote")
 
    for quote in quotes:
        all_quotes.append({
            "text": quote.find(class_="text").get_text(),
            "author": quote.find(class_="author").get_text(),
            "bio-link": quote.find("a")["href"]
        })
    next_btn = soup.find(class_="next")
    url = next_btn.find("a")["href"] if next_btn else None
print(len(all_quotes))
print(all_quotes[1])

Now Scrapinghttp://quotes.toscrape.com//page/1
Now Scrapinghttp://quotes.toscrape.com//page/2/
Now Scrapinghttp://quotes.toscrape.com//page/3/
Now Scrapinghttp://quotes.toscrape.com//page/4/
Now Scrapinghttp://quotes.toscrape.com//page/5/
Now Scrapinghttp://quotes.toscrape.com//page/6/
Now Scrapinghttp://quotes.toscrape.com//page/7/
Now Scrapinghttp://quotes.toscrape.com//page/8/
Now Scrapinghttp://quotes.toscrape.com//page/9/
Now Scrapinghttp://quotes.toscrape.com//page/10/
100
{'text': '“It is our choices, Harry, that show what we truly are, far more than our abilities.”', 'author': 'J.K. Rowling', 'bio-link': '/author/J-K-Rowling'}


# Collezionare le quotes in una lista: osservazioni sul codice

* si individuano tutti gli elementi con tag=**div** e con **classe=quotes** sono **quotes** con una **find_all**
     <code>
     quotes = soup.find_all('div', class_="quote")
     </code>
* si analizza ogni elemento restituito, e le sue proprietà, inserendole in una lista (Python)
    <code>
    "text": quote.find(class_="text").get_text(),
    "author": quote.find(class_="author").get_text(),
    "bio-link": quote.find("a")["href"]
     </code>
* dopo aver effettuato lo scraping di una pagina, si passa alla pagina successiva, ricercando  il bottone in fondo alla pagina e individuando il link associato al bottone
     <code>
     next_btn = soup.find(class_="next") 
     url = next_btn.find("a")["href"]
     </code>
* segue il link se diverso da **None**, altrimenti esce dal while, tutte le pagine sono state visitate 
* la struttura dati costruita è una lista di dictionaries

# Fase di gioco

In [11]:
quote = choice(all_quotes)
# print (type(quote))

remaining_guesses = 4
print("Here's a quote:  ")
print(quote["text"])
 
guess = ''
while guess.lower() != quote["author"].lower() and remaining_guesses > 0:
    guess = input(
        f"Who said this quote? Guesses remaining {remaining_guesses}")
     
    if guess == quote["author"]:
        print("CONGRATULATIONS!!! YOU GOT IT RIGHT")
        break
    remaining_guesses -= 1
     
    if remaining_guesses == 3:
        res = requests.get(f"{base_url}{quote['bio-link']}")
        soup = BeautifulSoup(res.text, "html.parser")
        birth_date = soup.find(class_="author-born-date").get_text()
        birth_place = soup.find(class_="author-born-location").get_text()
        print(
            f"Here's a hint: The author was born on {birth_date}{birth_place}")
     
    elif remaining_guesses == 2:
        print(
            f"Here's a hint: The author's first name starts with: {quote['author'][0]}")
     
    elif remaining_guesses == 1:
        last_initial = quote["author"].split(" ")[1][0]
        print(
            f"Here's a hint: The author's last name starts with: {last_initial}")
    else:
        print(
            f"Sorry, you ran out of guesses. The answer was {quote['author']}")

Here's a quote:  
“The more that you read, the more things you will know. The more that you learn, the more places you'll go.”
Who said this quote? Guesses remaining 4Darwin
Here's a hint: The author was born on March 02, 1904in Springfield, MA, The United States
Who said this quote? Guesses remaining 3Capote
Here's a hint: The author's first name starts with: D
Who said this quote? Guesses remaining 2Donald
Here's a hint: The author's last name starts with: S
Who said this quote? Guesses remaining 1Shiller
Sorry, you ran out of guesses. The answer was Dr. Seuss


# Collezionare le quotes in una lista: osservazioni sul codice

<code>
from random import choice
quote = choice(all_quotes)
</code>

* il metodo **choice()** restituisce un elemento scelto in modo casuale da una sequenza
* la sequenza può essere una stringa, una lista, una tupla o qualsasi tipo di sequenza
* nel nsotro caso restituisce un lemento della lista, che è a sua volta un **dictionary**

# Scraping Coingecko

<center>
<img src="Figures/Coingecko.jpg" style="width:1200px;height:500px;"/>

# Scraping Coingecko

In [12]:
import json
import requests
from bs4 import BeautifulSoup


def fetch_coingecko_html():
    # effettua una richiesta a CoinGecko
    r = requests.get("https://www.coingecko.com")
    if r.status_code == 200:
        # se la richiesta ha successi restituisci il testo
        return r.text
    else:
        # altrimenti solleva una eccezione
        raise Exception("an error occurred while fetching coingecko html") 

# Scraping CoinGecko

In [13]:
def extract_crypto_info(html):
    # parse the HTML content with Beautiful Soup
    soup = BeautifulSoup(html, "html.parser")

    # find all the cryptocurrency elements
    coin_table = soup.find("div", {"class": "coin-table"})
    crypto_elements = coin_table.find_all("tr")[1:]

    # iterate through our cryptocurrency elements
    cryptos = []
    for crypto in crypto_elements:
        # extract the information needed using our observations
        cryptos.append({
            "name": crypto.find("td", {"class": "coin-name"})["data-sort"],
            "price": crypto.find("td", {"class": "td-price"}).text.strip(),
            "change_1h": crypto.find("td", {"class": "td-change1h"}).text.strip(),
            "change_24h": crypto.find("td", {"class": "td-change24h"}).text.strip(),
            "change_7d": crypto.find("td", {"class": "td-change7d"}).text.strip(),
            "volume": crypto.find("td", {"class": "td-liquidity_score"}).text.strip(),
            "market_cap": crypto.find("td", {"class": "td-market_cap"}).text.strip()
        })

    return cryptos

# Scraping CoinGecko: osservazioni sul codice

<code>
crypto_elements = coin_table.find_all("tr")[1:]
</code>

* restituisce tutti gli elementi con tag **tr (table row)**, a parte il primo
    * la prima riga è una riga di intestazione e non va considerta
    
<code>
"price": crypto.find("td", {"class": "td-price"}).text.strip()
</code>

* all'interno della riga ricerca l'elemento **td, table element**, individuato da **"class":"td-price"**
* restituisce una lista di dictionaries

# Scraping CoinGecko

In [14]:
# fetch CoinGecko's HTML content
html = fetch_coingecko_html()

# extract our data from the HTML document
cryptos = extract_crypto_info(html)

# display the scraper results
for crypto in cryptos:
    print(crypto, "\n")

# save the results locally in JSON
with open("coingecko.json", "w") as f:
    f.write(json.dumps(cryptos, indent=2))

{'name': 'Bitcoin', 'price': '$23,393.37', 'change_1h': '0.5%', 'change_24h': '-1.3%', 'change_7d': '-3.1%', 'volume': '$28,752,962,681', 'market_cap': '$451,270,797,739'} 

{'name': 'Ethereum', 'price': '$1,633.97', 'change_1h': '0.5%', 'change_24h': '-1.3%', 'change_7d': '-0.6%', 'volume': '$7,935,978,915', 'market_cap': '$196,703,523,094'} 

{'name': 'Tether', 'price': '$0.999795', 'change_1h': '-0.1%', 'change_24h': '-0.0%', 'change_7d': '0.0%', 'volume': '$35,641,164,375', 'market_cap': '$71,022,219,699'} 

{'name': 'BNB', 'price': '$298.56', 'change_1h': '0.4%', 'change_24h': '-1.3%', 'change_7d': '-4.5%', 'volume': '$399,105,595', 'market_cap': '$47,076,701,455'} 

{'name': 'USD Coin', 'price': '$0.999986', 'change_1h': '0.0%', 'change_24h': '-0.0%', 'change_7d': '0.0%', 'volume': '$3,439,250,518', 'market_cap': '$43,002,837,602'} 

{'name': 'XRP', 'price': '$0.378617', 'change_1h': '0.6%', 'change_24h': '-1.2%', 'change_7d': '-4.2%', 'volume': '$945,805,003', 'market_cap': '$19