# <h1><center> WebScraping </h1>
<h1><center> Anno Accademico 2023-2024 </h1>
<h1><center>  Docente: Laura Ricci </h1>
<h1><center>  Lezione 10 </h1>
<h1><center>  Scraping HTML: BeautifulSoup </h1>     
<h1><center> 08 Marzo 2024 </h1>

## HTML: concetti di base

* effettuare scraping implica scaripare e quindi parsare una pagina **HTML**
* **markup language**
    * linguaggio definito per la definizione, la elaborazione e la presentazione del testo
    * non un linguaggio di programmazione
* tag based
* proposto nei primi anni '90  da **Tim Barnes Lee, (CERN)** per scambiare documenti su **Internet**
* standard attuale **HTML 5: ottobre 2014**


## HTML: concetti di base

* il documento **HTML** si trova tra i tag  **$<html>$...$</html>$**
* **HEAD section** 
    * char encoding e titolo
* **BODY section**
  * headers, paragraphs, tables, lists,...
  

## HTML: tag di base

* **elemento HTML** delineato da una **coppia di tag**
    * tag di apertura : **\< tag-name \>**
    * tag di chiusura: **forward slash** : **\< /tag-name \>** 
    * il tag iniziale attiva l'effetto del tag sul suo contenuto, il tag finale lo disattiva
* principali **markup tag**
    * tag per la strutturazione del documento   
       * paragraph: *&lt;p&gt;*
       * headers da livello 1 a livello 6: *&lt;h1&gt;,..,&lt;h6&gt;*
       * ordered e unordered lists:   &lt;ol&gt;* &lt;ul&gt;
           * &lt;li&gt;
       * tables: *&lt;table&gt;*
         * *\<th\>*
         * *\<tr\>*
         * *\<td\>*
    * hyperlink verso altri documenti **HTML**
       * **anchor tag**: &lt;a&gt;: &lt;a href="https://www.w3schools.com" Laura Ricci's Home Page</a>&gt;
    * tag per inserire contenuto multimediale/fragmenti di programma: ad esempio per inserire immagini
         * *\<img\>*
 

## HTML: struttura di un elemento HTML

* elemento: **tag+attributi**
* la maggior parte dei tag sono associati ad un insieme di **attributi**
    * nella forma **nome=valore**, forniscono informazioni ulteriori sul tag
* funzioni
    * specificare  più informazioni sul contenuto
    * identificazione dello specifico tag



<img src="Figures/HTMLStructure.jpg" style="width:1000px;height:400px;"/>

## HTML: struttura di un elemento HTML

<img src="Figures/HTMLStructure1.jpg" style="width:1000px;height:500px;"/>

## Attributi di un elemento HTML

<code>
    html lang="en"
</code>
    
* l'attributo **lang="en"** del tag **htnl** specifica il tipo di linguaggio naturale per questo documento

<code>
   meta charset="utf-8">
</code>

* l'attributo specifica lo schema di encoding dei caratteri

<code>
   img src="logo.gif" alt="logo" width="50" height="30"
</code> 

* il tag image può contenere diversi attributi
    * alcuni attributi obbligatori, ad esempio 
         * **URL** dell'immagine (attributo obbligatorio)
         * testo alternativo da mostrare se l'immagine non può essere reperita (attributo obbligatorio)
         * ampiezza e altezza della immagine **facoltativi**
    * altri sono opzionali, ad esempio gli attributi **width* e **height**


## BeautifulSoup: "trying to organize the complexity"

<img src="Figures/Soup.jpg" style="width:1000px;height:600px;"/>

## BeautifulSoup

* una libreria Python per **parsare HTML**
    * non parte della libreria standard
    * installare con **pip install**

* a partire dal documento **HTML**, crea un **parse tree** che consente di
    * **ricerca per posizione** navigare su di esso utilizzando funzioni per passare ai figli di un nodo o al padre di un nodo
    * **ricerca per contenuto** ricercare contenuti basandosi sul nome dei tag e sui loro attributi
    

## Parsare un documento HTML con BeautifulSoup

<img src="Figures/HTML1.jpg" style="width:1000px;height:500px;"/>

## Parsare un documento con BeautifulSoup

In [6]:
from bs4 import BeautifulSoup
small_example_html = """ 
         <!DOCTYPE html>
         <html>
            <body>
               <p> Click <a id='info' href='http://www.example.com'>here</a>
                   for more information.
                </p>
            </body>
          </html>"""
small_soup = BeautifulSoup(small_example_html, 'html.parser')
print(small_soup.prettify())



<!DOCTYPE html>
<html>
 <body>
  <p>
   Click
   <a href="http://www.example.com" id="info">
    here
   </a>
   for more information.
  </p>
 </body>
</html>



## BeautifulSoup

* la classe **bs4.BeautifulSoup** accetta due parametri per il suo costruttore
    * una stringa che rappresenta il codice **HTML**
    * il tipo di parser che si intende utilizzare per effettuare il parsing della pagina
        * il parametro parser tecnicamente è un argomento di tipo **keyword**, ma viene sollevato un warning se non viene specificato
        * **html.parser** è il **parser standard**, non richiede una installazione "ad hoc" 
* altre opzioni
    * **lxml**, parser etremamente veloce scritto in C, richiede una installazione apposita
    * **html5lib**, parser meno efficiente, ma simula molto bene il comportamento di un web browser, permettendo di parsare anche
    documenti **HTML** estremamente complessi, ma un pò più meno efficiente
    

## BeautifulSoup: creazione dell'albero

<td> <img src="Figures/HTMLTree1.jpg" style="width:1000px;height:600px;"/>

* a partire dal documento **HTML**, BEautifulSoup crea un **parse tree** 
* le funzioni di **BeautifulSoup** consentono di
    * navigare sull'albero
        * utilizzando funzioni per passare ai figli di un nodo o al padre di un nodo o ai nodi "fratelli"
    * ricercare contenuti basandosi sui nomi dei tag e sui loro attributi
    

## Tipi di dato in BeautifulSoup

* **BeautifulSoup** object
    * rappresenta **tutto l'albero** risultante dal parsing di un documento **HTML**
* **Tag** object
    * rappresenta un qualsiasi tag **HTML** del documeto 
    * molte proprietà e metodi associati: nome del tag, attributi,...
* **NavigableString** object
    * rappresentano il testo all'interno di un **tag**, piuttosto che il tag stesso
* **Comment** object
    * HTML comments
    * poco utili per lo scraping
    

## Il tipo di dato Tag

In [7]:
from bs4 import BeautifulSoup
small_example_html = """
       <!DOCTYPE html>
       <html>
          <body>
          <p> Click <a id='info' href='http://www.example.com'>here</a>bfor more information.
          </p>
         </body>
        </html>
        """
small_soup = BeautifulSoup(small_example_html, 'html.parser')

# Get the <p> tag (and everything inside of it).
print(small_soup.p, type(small_soup.p), sep='\n')


<p> Click <a href="http://www.example.com" id="info">here</a>bfor more information.
          </p>
<class 'bs4.element.Tag'>


## Il tipo di dato Tag

In [8]:
from bs4 import BeautifulSoup
small_example_html = """
       <!DOCTYPE html>
       <html>
          <body>
          <p> Click <a id='info' href='http://www.example.com'>here</a>bfor more information.
          </p>
         </body>
        </html>
        """
small_soup = BeautifulSoup(small_example_html, 'html.parser')

# Get the <a> sub-tag of the <p> tag.
a_tag = small_soup.p.a
print(a_tag, type(a_tag), sep='\n')


<a href="http://www.example.com" id="info">here</a>
<class 'bs4.element.Tag'>


In [9]:
from bs4 import BeautifulSoup
small_example_html = """
       <!DOCTYPE html>
       <html>
          <body>
          <p> Click <a id='info' href='http://www.example.com'>here</a>bfor more information.
          </p>
         </body>
        </html>
        """

# Get just the name, attributes, and text of the <a> tag.
a_tag = small_soup.p.a
print(a_tag.name, a_tag.attrs, a_tag.string, sep="\n")


a
{'id': 'info', 'href': 'http://www.example.com'}
here


## Navigare l'albero 

<td> <img src="Figures/ThreeLittlePigs.jpg" style="width:1200px;height:700px;"/>

* sulla sinistra il sorgente **HTML**
* sulla deatrs la visualizzazione del documento
* nel documento sopra vi sono più tag  dello stesso tipo
    * come si accede a tutti i tag?

## Navigare l'albero 

In [11]:
pig_html = """
<html><head><title>Three Little Pigs</title></head>
     <body>
       <p class="title"><b>The Three Little Pigs</b></p>
       <p class="story"> Once upon a time, there were three little pigs named
          <a href="http://example.com/larry" class="pig" id="link1">Larry,</a>
          <a href="http://example.com/mo" class="pig" id="link2">Mo</a>, and
         <a href="http://example.com/curly" class="pig" id="link3">Curly.</a></p>
       <p>The three pigs had an odd fascination with experimental construction.</p>
       <p>...</p>
    </body>
</html>
"""
pig_soup = BeautifulSoup(pig_html, "html.parser")

print(pig_soup.p)

print(pig_soup.a)


<p class="title"><b>The Three Little Pigs</b></p>
<a class="pig" href="http://example.com/larry" id="link1">Larry,</a>


* notare la presenza di attributi di tipo **class**, riguardano la tecnologiia **CSS**, di cui parleremo in seguito
* viene restituita la prima occorrenza di ogni tag ricercato
* per accedere agli altri tag occorre **navigare esplicitamente** l'albero 

## Funzioni per la navigazione dell'albero

* ogni elemento id tipo **tag** (eccetto il tag a più alto livello, che è, in genere, il tag **html**), ha
    * un **parent tag**
    * zero o più **sibling tags**
    * zero o più **children tags**
* **BeautifulSoup** definisce metodi per iterare sui ciascuno degli elementi precedemti
* queste funzioni consentono di individuare i **tag** rispetto alla loro **posizione** nell'albero e non rispetto al loro **contenuto**


<td> <img src="Figures/TagAttributes.jpg" style="width:1100px;height:500px;"/>

## Navigare l'albero 

In [12]:
pig_html = """
<html><head><title>Three Little Pigs</title></head>
     <body>
       <p class="title"><b>The Three Little Pigs</b></p>
       <p class="story"> Once upon a time, there were three little pigs named
          <a href="http://example.com/larry" class="pig" id="link1">Larry,</a>
          <a href="http://example.com/mo" class="pig" id="link2">Mo</a>, and
          <a href="http://example.com/curly" class="pig" id="link3">Curly.</a>
       <p>The three pigs had an odd fascination with experimental construction.</p>
       <p>...</p>
    </body>
</html>
"""

# Start at the first <a> tag in the soup.
a_tag = pig_soup.a
print(a_tag)

[par.name for par in a_tag.parents] 


<a class="pig" href="http://example.com/larry" id="link1">Larry,</a>


['p', 'body', 'html', '[document]']

## Navigare l'albero 

In [13]:
pig_html = """
<html><head><title>Three Little Pigs</title></head>
     <body>
       <p class="title"><b>The Three Little Pigs</b></p>
       <p class="story"> Once upon a time, there were three little pigs named
         <a href="http://example.com/larry" class="pig" id="link1">Larry,</a>
         <a href="http://example.com/mo" class="pig" id="link2">Mo</a>, and
         <a href="http://example.com/curly" class="pig" id="link3">Curly.</a></p>
       <p>The three pigs had an odd fascination with experimental construction.</p>
       <p>...</p>
    </body>
</html>
"""

# Get the next siblings of <a>.
a_tag.next_sibling
# The first sibling is just text.


'\n'

* attenzione ai tag inseriti automaticamente da BeautifulSoup, come \n!

## Navigare l'albero 

In [14]:
pig_html = """
<html><head><title>Three Little Pigs</title></head>
     <body>
       <p class="title"><b>The Three Little Pigs</b></p>
       <p class="story"> Once upon a time, there were three little pigs named
          <a href="http://example.com/larry" class="pig" id="link1">Larry,</a>
          <a href="http://example.com/mo" class="pig" id="link2">Mo</a>, and
           <a href="http://example.com/curly" class="pig" id="link3">Curly.</a></p>
       <p>The three pigs had an odd fascination with experimental construction.</p>
       <p>...</p>
    </body>
</html>
"""

# The second sibling is a tag.

a_tag.next_sibling.next_sibling


<a class="pig" href="http://example.com/mo" id="link2">Mo</a>

## Navigare l'albero

In [16]:
pig_html = """
<html><head><title>Three Little Pigs</title></head>
     <body>
       <p class="title"><b>The Three Little Pigs</b></p>
       <p class="story"> Once upon a time, there were three little pigs named
          <a href="http://example.com/larry" class="pig" id="link1">Larry,</a>
          <a href="http://example.com/mo" class="pig" id="link2">Mo</a>, and
          <a href="http://example.com/curly" class="pig" id="link3">Curly.</a></p>
       <p>The three pigs had an odd fascination with experimental construction.</p>
       <p>...</p>
    </body>
</html>
"""


# Get to the <p> tag that has class="story".
p_tag = pig_soup.body.p.next_sibling.next_sibling
print(p_tag)
print(p_tag.attrs["class"]) 


<p class="story"> Once upon a time, there were three little pigs named
          <a class="pig" href="http://example.com/larry" id="link1">Larry,</a>
<a class="pig" href="http://example.com/mo" id="link2">Mo</a>, and
         <a class="pig" href="http://example.com/curly" id="link3">Curly.</a></p>
['story']


## Navigare l'albero

In [17]:
pig_html = """
<html><head><title>Three Little Pigs</title></head>
     <body>
       <p class="title"><b>The Three Little Pigs</b></p>
       <p class="story"> Once upon a time, there were three little pigs named
       <a href="http://example.com/larry" class="pig" id="link1">Larry,</a>
       <a href="http://example.com/mo" class="pig" id="link2">Mo</a>, and
       <a href="http://example.com/curly" class="pig" id="link3">Curly.</a>
       <p>The three pigs had an odd fascination with experimental construction.</p>
       <p>...</p>
    </body>
</html>
"""

# Iterate through the child tags of <p> and print hrefs whenever they exist.
for child in p_tag.children:
    if hasattr(child, "attrs") and "href" in child.attrs:
       print(child.attrs["href"])


http://example.com/larry
http://example.com/mo
http://example.com/curly


## Ricerca per contenuto

* le informazioni da reperire mediante scarping sono spesso contenute in tabelle o il liste e spesso queste strutture sono presenti in profondità, nell'albero
* può essere molto frustrante percorrere l'albero fino alla struttura ricercata
* alternativa
    * **identificazione di un tag** in base ai suoi attributi
    * metodi **find()** e **find_all()**
* **find** restituisce la prima occorrenza di un tag con certe caratteristiche
* **find_all** restituisce la lista di tutti i tag con una certa caratteristica
* ricerca per nome, attributo e/o testo


## Ricerca per contenuto

<code>
findAll(tag, attribute, recursive, text, limit, keywords)
</code>

<code>
find(tag, attribute, recursive, text,  keywords)
</code>

* i parametri
    * **tag** una stringa che è il nome di un tag, oppure una lista di tag 
    * **attributes** un dizionario Python che individua un insieme di attributi del tag selezionato
    * **recursive** valore **booleano**
       * se **Falso** si ricercano solo i tag al livello più alto nell'albero del documento, altrimenti
      la ricerca è ricorsiva
       * per default settato a **True**
    * **text**  si cerca un match basato sul campo text del tag, piuttosto che attraverso le proprietà del tag
    * **limit** indica il numero massimo di match che devono essere restituiti
    * **keyword** delezione di tag con un particolare attributo (stesso effetto usando gli attributi)

## Ricerca per contenuto

In [18]:
pig_html = """
<html><head><title>Three Little Pigs</title></head>
     <body>
       <p class="title"><b>The Three Little Pigs</b></p>
       <p class="story"> Once upon a time, there were three little pigs named
       <a href="http://example.com/larry" class="pig" id="link1">Larry,</a>
       <a href="http://example.com/mo" class="pig" id="link2">Mo</a>, and
       <a href="http://example.com/curly" class="pig" id="link3">Curly.</a>
       <p>The three pigs had an odd fascination with experimental construction.</p>
       <p>...</p>
    </body>
</html>
"""

# Find the first <b> tag in the soup.
pig_soup.find(name='b')


<b>The Three Little Pigs</b>

## Ricerca per contenuto

In [19]:
# Find all tags with a class attribute of 'pig'.
# Since 'class' is a Python keyword, use 'class_' as the argument.
pig_html = """
<html><head><title>Three Little Pigs</title></head>
     <body>
       <p class="title"><b>The Three Little Pigs</b></p>
       <p class="story"> Once upon a time, there were three little pigs named
       <a href="http://example.com/larry" class="pig" id="link1">Larry,</a>
       <a href="http://example.com/mo" class="pig" id="link2">Mo</a>, and
       <a href="http://example.com/curly" class="pig" id="link3">Curly.</a>
       <p>The three pigs had an odd fascination with experimental construction.</p>
       <p>...</p>
    </body>
</html>
"""

pig_soup.find_all(class_="pig")


[<a class="pig" href="http://example.com/larry" id="link1">Larry,</a>,
 <a class="pig" href="http://example.com/mo" id="link2">Mo</a>,
 <a class="pig" href="http://example.com/curly" id="link3">Curly.</a>]

## Ricerca per contenuto

In [20]:
# Find the first tag that matches several attributes.
pig_html = """
<html><head><title>Three Little Pigs</title></head>
     <body>
       <p class="title"><b>The Three Little Pigs</b></p>
       <p class="story"> Once upon a time, there were three little pigs named
       <a href="http://example.com/larry" class="pig" id="link1">Larry,</a>
       <a href="http://example.com/mo" class="pig" id="link2">Mo</a>, and
       <a href="http://example.com/curly" class="pig" id="link3">Curly.</a>
       <p>The three pigs had an odd fascination with experimental construction.</p>
       <p>...</p>
    </body>
</html>
"""
pig_soup.find(attrs={"class": "pig", "href": "http://example.com/mo"})


<a class="pig" href="http://example.com/mo" id="link2">Mo</a>

## Ricerca per contenuto

In [22]:
# Find the first tag that matches several attributes.
pig_html = """
<html><head><title>Three Little Pigs</title></head>
     <body>
       <p class="title"><b>The Three Little Pigs</b></p>
       <p class="story"> Once upon a time, there were three little pigs named
       <a href="http://example.com/larry" class="pig" id="link1">Larry,</a>
       <a href="http://example.com/mo" class="pig" id="link2">Mo</a>, and
       <a href="http://example.com/curly" class="pig" id="link3">Curly.</a>
       <p>The three pigs had an odd fascination with experimental construction.</p>
       <p>...</p>
    </body>
</html>
"""

pig_soup.find(string='Mo')


'Mo'

In [21]:
pig_soup.find(string='Mo').parent # so go up one level to get the tag.


<a class="pig" href="http://example.com/mo" id="link2">Mo</a>

## HTML: Liste e Hyperlinks

<td> <img src="Figures/ListAndHyperlinks.jpg" style="width:800px;height:500px;"/>

## HTML: Liste e Hyperlinks

In [26]:
list_example_html="""<!DOCTYPE html>
    <html lang="en">
    <head>
      <meta charset="utf-8">
      <title>Lists and Hyperlinks</title>
    </head>
    <body>
      <h1>Lists and Hyperlinks</h1>
      <p>There are two types of <em>lists</em> in HTML:</p>
      <ol>
        <li>Ordered List.</li>
        <li>Unordered List.</li>
      </ol>
      <p>This is a nested unordered list of links:</p>
      <ul>
        <li>List Crypto-Services:
          <ul>
            <li>CoinGecko @ <a href="https://www.coingecko.com/">https://www.coingecko.com/</a>.</li>
            <li>Blockchain.com @ <a href="https://www.blockchain.com/">https://www.blockchain.com//</a>.</li>
          </ul>
        </li>
           <ul>
              <li>WalletExplorer @ <a href="https://www.walletexplorer.com/">https://www.walletexplorer.com/</a>.</li>
              <li>CoinMarketCup @ <a href="https://coinmarketcap.com/">https://coinmarketcap.com//</a>.</li>
          </ul>
        </li>
      </ul>
</body>
</html>"""


## HTML: Liste e Hyperlinks

In [31]:
# Parse the html content
soup = BeautifulSoup(list_example_html, "html.parser")
 
# Find all li tag
datas = soup.find_all("li")
 
# Iterate through all li tags
for data in datas:
    # Get text from each tag
    print(data.text)
 
print(f"Total {len(datas)} li tag found")

Ordered List.
Unordered List.
List Crypto-Services:
          
CoinGecko @ https://www.coingecko.com/.
Blockchain.com @ https://www.blockchain.com//.


CoinGecko @ https://www.coingecko.com/.
Blockchain.com @ https://www.blockchain.com//.
WalletExplorer @ https://www.walletexplorer.com/.
CoinMarketCup @ https://coinmarketcap.com//.
Total 7 li tag found


## Tables

<img src="Figures/Table.jpg" style="width:500px;height:200px;"/>

## Tables


In [32]:
table_doc = """
<table class="table-1">
  <tr>
    <th>Corso</th>
    <th>Laurea</th>
    <th>Numero Studenti</th>
  </tr>
  <tr>
    <td>Laboratorio Web Scraping</td>
    <td>Informatica</td>
    <td>20</td>
  </tr>
  <tr>
    <td>Blockchains</td>
    <td>Magistrale Informatica</td>
    <td>40</td>
  </tr>
</table> """


## Tables

In [33]:
from bs4 import BeautifulSoup
import requests 

# first we should find our table object:
soup = BeautifulSoup(table_doc,'html.parser')
table = soup.find('table')

# then we can iterate through each row and extract either header or row values:
header = []
rows = []
for i, row in enumerate(table.find_all('tr')):
    if i == 0:
        header = [el.text.strip() for el in row.find_all('th')] 
    else:
        rows.append([el.text.strip() for el in row.find_all('td')])

print(header)
for row in rows:
    print(row)

['Corso', 'Laurea', 'Numero Studenti']
['Laboratorio Web Scraping', 'Informatica', '20']
['Blockchains', 'Magistrale Informatica', '40']


## HTML: span tag

* inline element
* un "container" di una parte di testo, uno spazio inserito in mezzo a una linea di testo
* consente di applicare a quella porzione di testo delle regole di stile (eventualmente *(CSS)*), oppure riferirlo da *JAVA script*.
    

In [34]:
from bs4 import BeautifulSoup
span_example_html = """
        <p> Python è un linguaggio <span> facile </span> da usare. </p>"""

# first we should find our table object:
span_soup = BeautifulSoup(span_example_html,'html.parser')
print(span_soup.prettify())


<p>
 Python è un linguaggio
 <span>
  facile
 </span>
 da usare.
</p>



<img src="Figures/span_1.png" style="width:400px;height:100px;"/>

* nessun effetto sulla visualizzazione

## HTML: span tag

In [35]:
from bs4 import BeautifulSoup
span_example_html = """
        <p> Python è un linguaggio <span style = "font-size: 24; font-family: Arial; color: red"> facile </span> 
         da usare. </p>"""
span_soup = BeautifulSoup(span_example_html,'html.parser')
print(span_soup.prettify())

<p>
 Python è un linguaggio
 <span style="font-size: 24; font-family: Arial; color: red">
  facile
 </span>
 da usare.
</p>



<img src="Figures/span_2.png" style="width:400px;height:100px;"/>

* regola di stile applicata alla visualizzazione

## HTML: tag DIV

* block element
* empty container  utilizzato  per raggruppare diversi **elementi HTML** e applicare loro alcune regole di stile (eventualmente contenute in **CSS**)
* a differenza di tag quali &lt;p&gt; o  &lt;h1&gt; non da alcuna indicazione sulla formattazione dell'elemento stesso
* marca porzioni della pagina

## HTML: tag DIV

* consente di raggruppare parti del documento (ad esempio più pargrafi ed applicare a tutti una regole di stile)

In [36]:
from bs4 import BeautifulSoup
div_html= """
 <html>
  <body>
    <h1> The &lt;div&gt; Tag </h1>
    <div style="background-color:#8ebf42">
      <p> Primo Paragrafo</p>
      <p> Secondo Pargarafo </p>
    </div>
  </body>
</html>"""

## HTML: tag DIV

In [37]:
div_soup = BeautifulSoup(div_html,'html.parser')
print(div_soup.prettify())


<html>
 <body>
  <h1>
   The &lt;div&gt; Tag
  </h1>
  <div style="background-color:#8ebf42">
   <p>
    Primo Paragrafo
   </p>
   <p>
    Secondo Pargarafo
   </p>
  </div>
 </body>
</html>



<img src="Figures/div.jpg" style="width:400px;height:100px;"/>

## Tutti i tag in un documento

<img src="Figures/HTMLTagsAll.png" style="width:1700px;height:1000px;"/>

## Ancora su find_all

<td> <img src="Figures/HTMLObject2.jpg" style="width:800px;height:400px;"/>

* fino a questo momento abbiamo applicato le due funzioni ad un oggetto di tipo **BeautifulSoup**
* le due funzioni possono essere applicata a qualsiaisi oggetto di tipo **BeautifulSoup**
* le funzioni sono sempre applicate al sottoalbero radicato nell'oggetto su cui vengono applicate e che può essere:
    * l'intero documento
    * un tag individuato navigando l'albero, oppure con altre **findall()**
    * in questo modo si può restringere la ricerca in iterazioni successive

## Ancora su find_all

* **find** e **findAll** sono metodi molto  versatili
* è possibile passare un alista di tag da reperire
    * **html_soup.find(['h1', 'h2'])**
* è possibile passare una **espressione regolare** costruita mediante il modulo Python **re**
* è possibile passare funzioni come la seguente:

In [None]:
 def has_classa_but_not_classb(tag):
        cls = tag.get('class', [])
        return 'classa' in cls and not 'classb' in cls
    
div_soup.find(has_classa_but_not_classb)
    

## Web Scraping



* raccolta di dati effettuata da siti web, effettuata senza utilizzare **API** 
* implementazione mediante uno script **Python** che
    * si collega a un web server
    * richiede una o più pagine **HTML**
    * parsa le pagine ricevute
* altri meccanismi legati al web scraping
    * information security
    * authentication
    * data analysis
* perchè utilizzare scraping? 
    * molti siti non forniscono **API**
        * perchè il gestore non possiede l'infrastruttura per gestire un accesso alle **API**
        * perchè i dati sono pochi, e il webmaster ha deciso di non fornire le **API**
    * anche se un sito fornisce un servizio di **API**, possono esserevi diverse restrizioni, come abbiamo visto
        * sul volume dei dati fornite
        * sul numero di richieste nella unità di tempo
        * sul tipo o sul formato dei dati

## Web Scraping: fasi fondamentali

* poichè la quasi totalità delle informazioni che sono visualizzate in un browser come una pagina web usa **HTML**, il primo passo è capire come strarre informazione da un sito **HTML**
    * individure dati interessanti all'interno della pagina reperita con la libreria **request**
    * parsing dei dati ricevuti
* ma questo non è un corso di **web programming**, quindi  analizziamo l'**HTML**, mostrando esempi di scraping


## Disclaimer: prestare attenzione all'uso dello scraping!

* effettuare scraping di informazioni protette da copyright può avere conseguenze legali!
* alcuni siti web proibiscono lo scraping su alcune parti o su tutto il sito
    * condizioni definite in **terms and conditions**
    * controllare il file **robot.txt** (se presente) che specifica 
        * su quale parti del siti è possibile effettuare **scraping**
        * la frequenza accettata delle richieste
* considerare **https://www.google.com/robots.txt** 


<img src="Figures/Google_Robots.jpg" style="width:1000px;height:800px;"/>

## Disclaimer: prestare attenzione all'uso dello scraping!

* http://www.robotstxt.org/robotstxt.html
* contiene istruzioni per la definizione del file **robots.txt**
    * non uno standard, ma una direttiva seguita da diversi web servers

<code> User-agent: *
  Disallow: /
</code>

* esclude i robots dall'intero web server 

<code> User-agent: *
  Disallow: /cgi-bin/
  Disallow: /tmp/
  Disallow: /junk/
</code>

* esclude i robots da alcuni parti del web server

## Disclaimer: prestare attenzione all'uso dello scraping!

<code> User-agent: BadBot
   Disallow: /
</code>

* esclude un solo particolare robot

## La libreria robotparser

* consideriamo il sito https://www.python.org/
* analizziamo il file **robots.txt**

<img src="Figures/PythonRobots.jpg" style="width:1000px;height:700px;"/>

## La libreria robotparser

In [38]:
from urllib import parse
from urllib import robotparser
AGENT_NAME = 'Nutch'
URL_BASE = 'https://www.python.org/'
parser = robotparser.RobotFileParser()
parser.set_url(parse.urljoin(URL_BASE, 'robots.txt'))
parser.read()
PATHS = ['/','/~guido/orlijn/',]
for path in PATHS:
    print('{!r:>6} : {}'.format( parser.can_fetch(AGENT_NAME, path), path))
 
AGENT_NAME = 'Python'
PATHS = ['/','/webstats/',]
for path in PATHS:
    print('{!r:>6} : {}'.format( parser.can_fetch(AGENT_NAME, path), path))
 

 False : /
 False : /~guido/orlijn/
  True : /
 False : /webstats/


## Usare il Browser come strumento di sviluppo

* la maggior parte dei browser attuali include un toolkit di potenti strumenti per gestire pagine **HTML**
* accedere ad esempio alla pagina https://en.wikipedia.org/w/index.php?title=List_of:Gam_of_thrones_episodes&oldid=802553687,
* riporta tutti gli episodi di Game of Thrones

<img src="Figures/GameOfThrones.png" style="width2000px;height:900px;"/>

## Il browser come strumento di sviluppo

* browser di riferimento: **Chrome**

<img src="Figures/GameOfThronesSource.png" style="width2000px;height:900px;"/>

## Il browser come strumento di sviluppo

* **Developer Tool**: Uno strumento più evoluto
    * aprire il menù di **Chrome** e poi **Altri Strumenti**, **Strumenti per sviluppatori**
    * in alternativa: **right click** sulla pagine  e selezioneare **Inspect Element**
* altri browser come **Firefox** o **Microsoft Edge** hanno strumenti simili

<img src="Figures/ChromeDeveloperTool.png" style="width:2000px;height:1000px;"/>

## Il browser come strumento di sviluppo: il tag "Elements"

* utilizzare questo tag per passare il mouse sopra gli elementi HTML 
* per ogni elemento così individuato il browser visualizza una finestra trasparente sul corrispondente elemento sulla rappresentazione visuale della pagina
* alternativamente, cliccare su un elemento della pagina web con il tasto destro e selezionare **Inspect element**


<img src="Figures/Elements.png" style="width:2000px;height:1000px;"/>

## Confrontare tag Elements verso View Source

* **View Source**: una visione "raw" del documento **HTML**
    * restituisce il codice **HTML** così come restituito dal web server
    * restituisce lo stesso codice restituiro da **r.text**, di *request**
* **Element tab**: visione più strutturata del dicumento **HTML**
    * restitusice una **versione pulita** del documento
    * **overlapping tags** risolti
    * rimozione di spazi bianchi
    * versione dinamica della pagina: riporta la pagina dopo l'eventuale esecuzione di codice **JAVA Script**
    * codice reperibile tra i tag <scrpt e </scrpt>

## First scraping Example: Scraping War and Peace

<td> <img src="Figures/WarAndPeace.jpg" style="width2000px;height:900px;"/>

## First Scraping Example: Scraping War and Peace

In [None]:
from urllib.request import urlopen
from bs4 import BeautifulSoup
html = urlopen('http://www.pythonscraping.com/pages/warandpeace.html')
bs = BeautifulSoup(html.read(), 'html.parser')

print(bs.prettify())


## First scraping example: Scraping War and Peace

In [None]:
bs.findAll(['h1','h2','h3','h4','h5','h6' ])


In [None]:
bs.find('span', {'class':{'red'}})


## Second Scraping example: Scraping Game of Thrones

In [None]:
import requests
from bs4 import BeautifulSoup
url = 'https://en.wikipedia.org/w/index.php' + '?title=List_of_Game_of_Thrones_episodes&oldid=802553687'
r = requests.get(url)
html_contents = r.text
html_soup = BeautifulSoup(html_contents, 'html.parser')

first_h1 = html_soup.find('h1')

print(first_h1.name) # h1
print(first_h1.contents) # ['List of ', [...], ' episodes']
print(str(first_h1))


## Second Scraping example: Scraping Game of Thrones

In [None]:
print(first_h1.text) # List of Game of Thrones episodes
print(first_h1.get_text()) # Does the same
print(first_h1.attrs)
# Prints out: {'id': 'firstHeading', 'class': ['firstHeading'], 'lang': 'en'}


## Second Scraping example: Scraping Game of Thrones

In [None]:
print(first_h1.attrs['id']) # firstHeading
print(first_h1['id']) # Does the same
print(first_h1.get('id')) # Does the same


## Second Scraping example: Scraping Game of Thrones

In [None]:
print('------------ CITATIONS ------------')
# Find the first five cite elements with a citation class
cites = html_soup.find_all('cite', class_='citation', limit=5)
for citation in cites:
    print(citation.get_text())
    # Inside of this cite element, find the first a tag
    link = citation.find('a')
    

## Assignment

* analizzare la pagina **Wikipedia** di **Game_of_Thrones**, utilizzando gli strumenti disponibili sul vostro browser
* la pagina contiene un insieme di tabelle che contengono una lista degli episodi, riportando per ciascuno, chi ha diretto l'episodia, chi lo ha scritto, la data di rilascio, il numero di 
richieste di streaming dell'episodio
* scaricare la pagina e quindi, mediante, scraping, trovare i dati di tutti gli episodi e stamparli