In [1]:
import matplotlib.pyplot as plt
import numpy as np
import time
import networkx as nx
%matplotlib inline

# Web Scraping
Con il termine **web scraping** si intende l'estrazione di dati da risorse Web attraverso una serie di procedure che non invocano le API. Essenzialmente si richiede una risorsa ad un web server per estrarne le informazioni necessarie.

I web browser rappresentano uno dei principali strumenti di accesso alle risorse Web, tuttavia l'esigenza di disporre le informazioni rendendole facilmente leggibili agli utenti li rende poco adatti per l'estrazione e il processamento di grandi quantità di dati. I web scraper sopperiscono a queste limitazioni.

Il web scraping sosituisce le API quando:
* non esistono
* i limiti sul volume di richieste sono troppo vincolanti per l'applicazione che si vuole sviluppare

## Primi passi
Lo sviluppo di un web scraper richiede una buona conoscenza:
- HTTP -HTML e Javascript (non strettamente necessario). Conoscenze e dettagli che il web browser cela all'utente finale.

Uno dei primi passi nel web scraping è inviare richieste HTTP ad un web server per poter accedere alla risorsa desiderata.

Come strumento per gestire le richieste/risposte HTTP utilizzeremo il modulo **requests**

In [None]:
import requests

### (Installazione di un modulo)
1. Aprire un prompt dei comandi
2. Spostarsi nella directory Users\<username>\Anaconda3\Script
3. Digitare il comando pip install requests. In generale il comando è pip install **nome_modulo**

Attraverso questo modulo possiamo inviare una richiesta GET ...

In [None]:
risposta = requests.get('http://pythonscraping.com/pages/page1.html')

Possiamo accedere al contenuto della risorsa attraverso l'attributo **content**

In [None]:
risposta.content

In [None]:
risposta.headers

Il contenuto corrisponde al codice HTML della pagina/risorsa richiesta.

## Gestione minimale degli errori
In caso di problemi di rete, il modulo solleva un'eccezione **ConnectionError**, mentre in caso di connection timeout viene sollevata l'eccezione **Timeout**. In generale tutte le eccezioni sollevate da requests ereditano dall'eccezione **requests.exceptions.RequestException**

In [None]:
try:
    risposta = requests.get('http://pythonscraping.com/pages/page1.html')
except requests.exceptions.RequestException as e:
    print(e)

## Beautiful Soup
BS è un modulo che permette di estrarre informazioni da una pagina HTML cercando di correggere HTML malformato e trasformando il codice HTML in una struttura XML facilmente navigabile (ricerca e attraversamento - traversal).

L'oggetto BeautifulSoup rappresenta il punto d'accesso alla risorsa HTML.

Per installare BeautifulSoup utilizzo il comando **pip install beautifulsoup4**

In [None]:
from bs4 import BeautifulSoup

In [None]:
bsObj = BeautifulSoup(risposta.content,'lxml')

La pagina HTML (risposta.content) ha la seguente struttura
<img src='tree_html.jpg'>
Di conseguenza posso accedere ai nodi dell'albero utilizzando la notazione puntata.

In [None]:
print(bsObj.html.body.h1)
print(bsObj.body.h1)
print(bsObj.h1)

# Web Scraping Applicato: WeHeartIt
WeHeartIt è un social network per molti aspetti molto simile a Instagram o Pinterest che non mette ad disposizione una API per poter ottenere informazioni sugli utenti, immagini postate e altri elementi che caratterizzano la piattaforma. 

Per questi motivi lo utilizzeremo che caso di studio per mostrare alcuni metodi di estrazione delle informazioni.

## Login e form
Form e login sono ormai parte integrate di qualsiasi piattaforma social in quanto permettono di autenticare l'utente e offrire un servizio personalizzato. In più alcune funzionalità sono rese disponibili se e solo se l'utente è loggato.

Dal punto di vista HTML, un modulo di login corrisponde ad un form. Un form permette all'utente di inviare una richiesta POST al web server.

In questa parte replicheremo il processo di login a WHI utilizzando il modulo requests.
La pagina di login è disponibile all'indirizzo weheartit.com/login 
<img src='login.png'>
Attraverso la funzione 'Ispeziona elemento' messa a disposizione da Chrome possiamo analizzare il codice HTML corrispondente al form di login. In particolare il seguente codice è tipico dei form HTML

``` html
<form accept-charset="UTF-8" action="https://weheartit.com/login/authenticate" class="new_user" id="new_user" method="post">
    <div style="display:none">
        <input name="utf8" type="hidden" value="✓">
        <input name="authenticity_token" type="hidden" value="7nob+s3tKKbYNHEUFqKkzM1kp5g3ykl2uVtAC2/hLJG6uEF4QkxEoGHBWIFY7sTnMVMWOldZZmglLEKLdP73Rg==">
    </div>
    <input class="btn-large input-block js-empty" id="user_email_or_username" name="user[email]" placeholder="Indirizzo e-mail o nome utente" type="text">
    <input class="btn-large input-block js-empty" id="user_password_login" name="user[password]" placeholder="Password" type="password">
    <input type="submit" value="Seguente" class="btn btn-block btn-large bg-primary sign_up_button disabled" disabled="disabled">
</form>
```
Gli attributi fondamentali per il tag form sono:
- **action**: indica l'url a cui verranno inviati i dati del form
- **method**: indica il metodo http con cui inviare la richiesta
Il tag input indica quali campi verranno inviati all'url specificato dall'attributo action. Ogni input ha un nome del campo (valore associato all'attributo _name_), mentre il valore dipende dal tipo di campo.

Cliccando il pulsante 'Seguente' il contenuto del form viene inviato alla risorsa tramite una richiesta http POST:

E' possibile ispezionare la richiesta inviata, attraverso la console di Chrome (CTRL+SHIFT+I). Le richieste HTTP sono visibili nel tab 'Network'.

Nel nostro caso la richiesta HTTP è la seguente (solo informazioni essenziali):
```
POST /login/authenticate HTTP/1.1
Host: weheartit.com
Connection: keep-alive
Content-Length: 149
Cache-Control: max-age=0
Origin: http://weheartit.com
User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.133 Safari/537.36
Content-Type: application/x-www-form-urlencoded
Referer: http://weheartit.com/login
Accept-Encoding: gzip, deflate, br
Accept-Language: it-IT,it;q=0.8,en-US;q=0.6,en;q=0.4

utf8:✓
authenticity_token:7nob+s3tKKbYNHEUFqKkzM1kp5g3ykl2uVtAC2/hLJG6uEF4QkxEoGHBWIFY7sTnMVMWOldZZmglLEKLdP73Rg==
user[email]:somenilab@gmail.com
user[password]:SomeniLab
```

Dato il codice HTML del form è possibile, quindi, ricostruire la richiesta http da inviare.

Proviamo a loggarci in WHI...

In [None]:
parametri = {'user[email]':'somenilab@gmail.com',
             'user[password]':'SomeniLab',
            'authenticity_token':'ugPJ3bSDakNaFzEbOdysnkwp8y7V8syYAkaa0Fn/Ek1Wf/Ra2XXR93D4VqWfSzjIgHMTNhClqkr4gRCWXyW2pQ=='}

In [None]:
rispostaLoginWHI = requests.post('https://weheartit.com/login/authenticate',data=parametri,allow_redirects=False)

Per mantenere lo stato di 'utente loggato' le varie webapp utilizzano i cookies per mantenere lo 'stato' tra diverse richieste HTTP. I siti utilizzano i cookies per controllare l'identità dell'utente loggato. 

Dal punto di vista del web scraper, per mantenere un utente loggato esso deve gestire i cookies. Il modulo requests agevola la gestione dei cookies...

Vediamo i cookie inviati da WHI

In [None]:
rispostaLoginWHI.cookies.get_dict()

Per verificare che i cookie vengano settati correttamente possiamo richiedere la pagina delle 'impostazioni' relative all'utente loggato e cercare la stringa 'somenilab'.

In [None]:
rispostaSettings  = requests.get('https://weheartit.com/settings', cookies = rispostaLoginWHI.cookies)
str(rispostaSettings.content).find('somenilab')

### La classe Session di requests
Requests mette a disposizione la classe Session per mantenere la persistenza di una sessione HTML. La classe gestisce i cookie e ci evita di passare i cookies come argomento ad ogni richiesta GET o POST

In [None]:
whi_session = requests.session()

Vediamo come risolvere il problema precedente attraverso richieste inviate mediante la classe Session

In [None]:
whi_session.post('https://weheartit.com/login/authenticate',data=parametri)

In [None]:
whi_session.cookies

In [None]:
rispostaSettings  = whi_session.get('https://weheartit.com/settings')
str(rispostaSettings.content).find('somenilab')

### Immagini popolari il 14/02/2018
In WHI è possibile visualizzare le immagini più apprezzate ('numero di heart') in un giorno specifico. In questo esempio vogliamo ottenere le immagini popolari il 14/02/2018.

La risorsa da richiedere è **/popular_images/2018/02/14** e la pagina restituita è la seguente:
<img src='most_popular.png'>
Se ispezioniamo il codice di ogni elemento che racchiude un'immagine otteniamo il seguente codice HTML:
``` HTML
<div class="entry grid-item" data-actionable="false" data-context-user-id="35809162" data-context="popular_images" data-entry-group-id="107512524" data-entry-id="278465817" data-page-number="1" data-promoted="false" data-uploader-username="the_night_skies">
    <div class="no-padding">
        <div class="entry-preview ">
            <a class="js-entry-detail-link" href="/entry/278465817/popular_images/2017/02/16" tabindex="-1">
              <img alt="food" class="entry-thumbnail" height="250" src="http://data.whicdn.com/images/278465817/superthumb.webp" width="300">  
            </a>
            <div class="entry-hover">
                <div class="user-preview grid-flex ">
                    <div class="col">
                          <a class="avatar-container avatar-small" href="/the_night_skies"><img alt="་ Aᴅᴠᴇɴᴛᴜʀᴇ ་" class="avatar" src="http://data.whicdn.com/avatars/35809162/thumb.webp?1488568625" title="་ Aᴅᴠᴇɴᴛᴜʀᴇ ་"><span class="avatar-badge badge-heartist"></span>
                          </a>
                    </div>
                    <div class="col span-12">
                        <span class="text-overflow-parent">
                              <span class="text-overflow">
                                <a href="/the_night_skies">
                                  <span class="text-big">་ Aᴅᴠᴇɴᴛᴜʀᴇ ་</span>
                                </a><br>
                                <small><abbr class="timeago" title="2 mesi fa">2 mesi fa</abbr></small>
                                &nbsp;
                              </span>
                        </span>
                    </div>
                    <div class="col">
                          <a href="javascript:void(0);" class="js-follow-button btn text-primary btn-small" data-user-id="35809162" data-username="the_night_skies" data-collection-count="0">Segui</a>
                    </div>
                </div> 
                <a href="/entry/278465817" class="btn-heart btn btn-heart-circle js-heart-button" data-tiny-thumb="http://data.whicdn.com/images/278465817/tiny.webp" data-entry-id="278465817" data-hearter-username="the_night_skies">
  <i class="icon icon-heart icon-primary  "></i>
                </a>
                <div class="entry-actions">
                    <div class="grid-flex js-entry-hover-collections-select" style="display:none" data-entry-id="278465817">
                        <div class="col">
                            <a href="#" class="btn btn-block btn-dropdown text-primary text-left js-add-to-collection" data-entry-id="278465817">
                                <i class="icon icon-collection icon-primary"></i> &nbsp;&nbsp;
                                Aggiungi alle collezioni
                            </a>
                        </div>
                        <a href="#" class="col hide-sm js-hide-entry-hover-collections-select" data-entry-id="278465817"> &nbsp;&nbsp;
                              <i class="icon icon-medium icon-white icon-more"></i>
                        </a>
                    </div>
                    <div class="grid-flex text-center js-entry-hover-actions" data-entry-id="278465817">        
                        <a href="javascript:void(0)" class="js-add-to-collection col" data-entry-id="278465817" style="display:none">
                              <i class="icon icon-collection icon-medium icon-white"></i>
                        </a>
                        <a data-item-id="278465817" data-type="entry" data-message="Ho%20proprio%20dovuto%20condividere%20questa%20immagine%20%40WeHeartIt" class="js-share-button col" title="Condividi" tabindex="-1" href="/entry/278465817"><i class="icon icon-share icon-medium icon-white"></i>
                        </a>
                        <a href="/postcards/278465817" class="js-postcard-button col" data-entry-id="278465817">
                            <i class="icon icon-messages icon-medium icon-white"></i>
                        </a>
                    </div>
                </div>
            </div>
        </div>
    </div>
</div>
```
La struttura di ogni singolo elemento è piuttosto complicata, ma procediamo per piccoli passi. Il nostro primo obiettivo è cercare nella pagina tutti gli elementi che contengono le immagini.

Per completare il primo obiettivo possiamo sfruttare il modulo BeautifulSoup, il quale permette di ricerca tag HTML specificando, per esempio, l'attributo da cercare.

Nel nostro caso possiamo sfruttare l'integrazione del codice HTML con un foglio di stile CSS. In particolare l'applicazione di un determinato stile ad un tag HTML è possibile grazie alla presenza di attributi identificatori come **class** o **id**. Nel nostro caso ogni elemento contenente un'immagine è un tag **div** il cui attributo **class** è uguale a **entry grid-item**.

A tal fine possiamo utilizzare il metodo **findAll** dell'oggetto BS.

In [None]:
r = whi_session.get('https://weheartit.com/popular_images/2018/02/14')

In [None]:
most_popular_page = BeautifulSoup(r.text.replace('\n',''),'lxml')

In [None]:
div_immagini = most_popular_page.findAll('div',{'class':'entry grid-item'})

In [None]:
for e in div_immagini:
    print(str(e.get_text()))

Il metodo **get_text()** rimuove tutti i tag dal documento e restituisce una stringa che contiene solo il testo. Elementi come link (a), paragrafi (p) vengono rimossi.

BS rende a disposizione due metodi di ricerca **find** e **find_all**. Entrambi i metodi accettano gli stessi parametri: tag, attributes, recursive, text, limit e keywords.
- **tag** accetta un tag o una lista di tag HTML (stringhe)
- **attributes** accetta una dict di attributi e restituisce i tag che contengono uno qualsiasi degli attributi (OR)
- **recursive** se False limita la ricerca ai tag a profondità 1 nell'albero XML
- **text** la ricerca viene effettuata sul testo contenuto dai tag
- **limit** limita il numero di elementi restituiti. Funziona solo con findAll
- **keyword** permette di selezionare tags che contengono un determinato attributo (AND)

N.b. Attenzione all'utilizzo di class come keyword in quanto la parola _class_ è riservata da Python

In [None]:
most_popular_page.findAll('div',class='entry grid-item',limit=1)

In [None]:
str(most_popular_page.findAll('div',class_='entry grid-item',limit=1))

Una volta ottenuto l'elemento ricercato possiamo 'navigare' il suo albero HTML per ottenere gli elementi che contengono le informazioni richieste.

Nel nostro caso l'albero è il seguente:
<img src='tree_immagine.jpg'>

Per accedere ai nodi del nostro albero possiamo sfruttare la sintassi vista in precedenza tuttavia si deve precisare che la sintassi vista viene utilizzata per indicare un qualsiasi **discendente** del tag corrente = un qualsiasi nodo nel sottoalbero la cui radice è il tag corrente.

Se voglio accedere solo ai figli (discendenti diretti) di un nodo utilizzo l'attributo **children**

In [None]:
first_image = most_popular_page.find('div',class_='entry grid-item')

Selezioniamo il figlio della radice _div_

In [None]:
str(list(first_image.children)[0])

Posso ottenere i 'fratelli di un tag' utilizzando l'attributo **next_siblings**, il quale restituisce un iteratore sugli elementi.

In [None]:
for bro in first_image.div.div.a.next_siblings:
    print('---',str(bro),'---')

Cerchiamo ora di estrarre da ogni immagine il link all'immagine e l'utente che ha pubblicato l'immagine.

Le informazioni dell'utente sono contenute in **a class="avatar-container avatar-small"**


In [None]:
for e in div_immagini:
    print(e.find('a',class_ = 'avatar-container').attrs['href'][1:])

Mentre il link all'immagine è associato al tag **a class="js-entry-detail-link"**

In [None]:
for e in div_immagini:
    print('https://weheartit.com'+e.find('a',class_ = 'js-entry-detail-link').attrs['href'])

Come ulteriore passo possiamo scaricare la thumbnail associato al profile che ha postato l'immagine. L'URL è associato all'attributo _src_ del tag _img_ contenuto in  **a class = avatar-container**.

In [None]:
from PIL import Image
from io import BytesIO

In [None]:
for e in div_immagini:
    url = e.find('a',class_='avatar-container').img.attrs['src']
    print(url)
    filename = url.split('/')[4]
    r = whi_session.get(url)
    i = Image.open(BytesIO(r.content))
    i.save('thumbnails/'+filename+'.jpg')

Se apriamo nel nostro browser la pagina delle immagini più popolari possiamo notare che il caricamento delle immagini è dinamico. Quando si raggiunge il termine della pagina vengono caricate delle nuove immagini. Questo tipo di metodo è ormai utilizzato nella maggior parte delle piattaforme sociali (timeline di Facebook, Twitter, ...) in quanto evita di caricare immagini che molto probabilmente non verranno mai guardate. Il meccanismo di caricamento dinamico si riduce ai seguenti passi:
1. L'utente arriva alla fine della pagina generando un evento 'finePagina'
2. L'evento viene catturato da Javascript e risveglia una funzione che si occupa di ottenere le nuove immagini
3. Viene inviato una richiesta HTTP al web server per chiedere le nuove immagini
4. La funzione di caricamento modifica il codice HTML e inserisce i nuovi elementi

Il passo fondamentale per implementare lo scraper è il numero di 3. Se riuscissimo ad intercettare la richiesta inviata potremmo replicare la stessa richiesta all'interno del nostro server.

Per intercettare la richiesta possiamo utilizzare il developer tools di Chrome (CRTL+SHIFT+I) e aprire il tab 'Network'.

Dopo aver analizzato le varie richieste si scopre che la richiesta per ottenere un nuovo insieme di immagini è la seguente:

http://weheartit.com/popular_images/2018/02/14?scrolling=true&page=2&before=278465601

I parametri fondamentali sono page e before:
**page** rappresenta la pagina da richiedere
**before** rappresenta l'id dell'ultima immagine attualmente visualizzata.

Il problema diventa, quindi, estrarre i parametri dalla pagina/informazioni che abbiamo a disposizione. Per quanto riguarda _page_, il valore accettato è incrementale (+1 ad ogni nuova richiesta) ed è limitato dal numero massimo di pagine. Come possiamo ottenere questa informazione.

Nel codice HTML della prima pagina troviamo il seguente tag con attributo **data-infinite-scroll-count**. L'attributo definisce il numero massimo di pagine.
``` html
<div data-ad-placeholder-url="http://weheartit.com/entry/placeholder?options=%7B%22context%22%3A%7B%22type%22%3A%22popular_images%22%7D%7D" data-infinite-scroll-count="294" data-infinite-scroll-page="1" data-infinite-scroll-url="http://weheartit.com/popular_images/2017/02/16" id="content">
```

Come possiamo estrarre questa informazione...

Otteniamo il div

In [None]:
div_pagina = most_popular_page.find('div',{'id':'content'})

Estriamo il valore associato all'attributo

In [None]:
max_pages = int(div_pagina.attrs['data-infinite-scroll-count'])
print(max_pages)

Per quanto riguarda il secondo parametro, dobbiamo estrarre l'id delle immagini. Il metodo è molto simile a quanto abbiamo già visto in precedenza.

In [None]:
for e in div_immagini:
    u = e.find('a',class_ = 'js-entry-detail-link').attrs['href']
    print(u)
    before = u.split('?')[0][len('/entry/'):]
print(before)

Ora siamo in grado di estrarre tutte le informazioni da tutte le immagini più popolari:

In [None]:
whi_session.post('https://weheartit.com/login/authenticate',data=parametri,allow_redirects=False)

In [None]:
most_popular_page = BeautifulSoup(whi_session.get('https://weheartit.com/popular_images/2018/02/14').text,'lxml')
most_popular_images = []
max_pages = int(most_popular_page.find('div',{'id':'content'}).attrs['data-infinite-scroll-count'])
for e in most_popular_page.findAll('div',{'class':'entry grid-item'}):
    username = e.find('a',class_ = 'avatar-container').attrs['href'][1:]
    url = e.find('a',class_ = 'js-entry-detail-link').attrs['href']
    url_thumb = e.find('a',class_='avatar-container').img.attrs['src']
    filename = url_thumb.split('/')[4]
    r = whi_session.get(url_thumb)
    i = Image.open(BytesIO(r.content))
    i.save('thumbnails/'+filename+'.jpg')
    before = u.split('?')[0][len('/entry/'):]
    most_popular_images.append({'username':username,'url':url})
for k in range(2,16):
    if k % 15 == 0:
        time.sleep(15)
    most_popular_page = BeautifulSoup(whi_session.get('http://weheartit.com/popular_images/2018/02/14?scrolling=true&page='+str(k)+'&before='+before).text,'lxml')
    for e in most_popular_page.findAll('div',{'class':'entry grid-item'}):
        try:
            username = e.find('a',class_ = 'avatar-container').attrs['href'][1:]
        except AttributeError:
            pass
        url = e.find('a',class_ = 'js-entry-detail-link').attrs['href']
        try:
            url_thumb = e.find('a',class_='avatar-container').img.attrs['src']
            filename = url_thumb.split('/')[4]
            extension = url_thumb.split('?')[0][-3:]
            r = whi_session.get(url_thumb)
            i = Image.open(BytesIO(r.content))
            i.save('thumbnails/'+filename+'.'+extension)
        except AttributeError:
            pass
        before = u.split('?')[0][len('/entry/'):]
        most_popular_images.append({'username':username,'url':url})

# Costruzione del grafo dei follower in WHI

Per rendere il codice minimamente modulare implementeremo una funzione get_friend(profile_name) che restituisce i primi venti profili che l'utente *profile_name* segue in WHI.

In [None]:
def get_friends(profile_name):
    lista_amici = []
    url = 'http://weheartit.com/'+profile_name+'/contacts'
    profile_friend_page = requests.get(url)
    friend_soup = BeautifulSoup(profile_friend_page.content,'lxml')
    div_friends = friend_soup.findAll('div',class_='js-user-info')
    for friend in div_friends:
        friend_profile = friend.find('a',class_='avatar-container').attrs['href'][1:]
        lista_amici.append(friend_profile)
    return lista_amici

Una volta definita la funzione di estrazione della lista degli amici possiamo implementare una visita in profondità del grafo.
Nella seguente implementazione esploriamo i nodi a distanza due hop dalla sorgente.

In [None]:
seeds = ['somenilab']
#whi_graph = nx.DiGraph() --> questa riga verrà utilizzata una volta introdotta la libreria NetworkX
file_edge_list = open('edge_list_whi.txt','w')
nodi_visitati = set()
queue = []
for e in seeds:
    queue.append((e,0))
while queue:
    nodo, distanza = queue.pop(0)
    print(nodo,distanza)
    if (nodo not in nodi_visitati) and distanza < 3:
        lista_amici = get_friends(nodo)
        print(len(lista_amici))
        time.sleep(2)
        for a in lista_amici:
            #whi_graph.add_edge(nodo,a)
            file_edge_list.write(nodo+','+a+'\n')
            queue.append((a,distanza+1))
        nodi_visitati.add(nodo)