Vediamo due strumenti importanti il primo [psutil](https://github.com/giampaolo/psutil) è molto utile per monitorare il consumo della ram

In [1]:
import psutil

In [2]:
import os

process = psutil.Process(os.getpid())
t = process.memory_info()

In [3]:
t.vms, t.rss

(69566464, 66330624)

In [4]:
def mem_usage():
    process = psutil.Process(os.getpid())
    return process.memory_info().rss / psutil.virtual_memory().total

In [5]:
mem_usage()

0.007865596409392786

il secondo è [TQDM](https://github.com/tqdm/tqdm) che ci mette a disposizione una progress bar

In [6]:
from time import sleep

In [7]:
s = 0
for i in range(10):
    s += i
    sleep(0.2)
print(s)

45


In [8]:
from tqdm import tqdm

s = 0
for i in tqdm(range(10)):
    s += i
    sleep(0.2)
print(s)

100%|██████████████████████████████████████████████████████████████████████████████████| 10/10 [00:02<00:00,  4.59it/s]

45





## Alcune applicazioni di SVD

Alcuni studi interessanti che implicano l'uso di SVD sono ad esempio il debiasing del word-embeddings.

Word2Vec è una libreria rilasciata da Google che permette di rappresentare le parole come vettori.
La similitudine delle parole cattura il significato semantico, possiamo anche trovare analogie come Parigi -> Francia e Tokyo -> Giappone

![word2vec](./images/word2vec_analogies.png)

Tuttavia il metodo di embeddings non è esente da problemi, implicitamente codifica dei bias come ad esempio padre -> dottore, madre -> infermiera 

Un approccio per il debiasing coinvolge l'uso di svd per ridurre la dimensionalità

### Modi di pensare circa SVD

* Compressione dei dati
* SVD scambia un numero elevato di features per un insieme più piccolo di features migliori
* Tutte le matrici sono diagonali 


### Prospettive su SVD

[Qui](https://www.frankcleary.com/svd/) una spiegazione di come funziona il sistema, parlando di SVD in termini di matrici sappiamo che una matrice $A$ può essere scomposta nel seguente modo:

$$A = U \Sigma V^T$$

vediamo un esempio di scomposizione SVD su delle piccole matrici

In [9]:
import numpy as np

A = [[1,0],[1,2]]
A = np.asarray(A)
A

array([[1, 0],
       [1, 2]])

In [10]:
U, sigma, V = np.linalg.svd(A)
print("U = ")
print(np.round(U, decimals=2))

print("sigma = ")
print(np.round(sigma, decimals=2))

print("V = ")
print(np.round(V, decimals=2))

U = 
[[-0.23 -0.97]
 [-0.97  0.23]]
sigma = 
[2.29 0.87]
V = 
[[-0.53 -0.85]
 [-0.85  0.53]]


In [11]:
np.round(U @ np.diag(sigma) @ V,2)

array([[ 1., -0.],
       [ 1.,  2.]])

possiamo vedere questa scomposizione anche in termine di vettori sapendo che $V^{-1} = V^T$ possiamo pensare che $V$ e $U$ siano una serie di vettori ortonormali tale per cui preso un vettore di indice j:

$$Av_j = \sigma_j u_j$$

Dove $\sigma_j$ è uno scalare chiamato anche valore singolare. Ricorda qualcosa ?

**Relazione tra SVD e la scomposizione per autovalori** i valori dei vettori singolari di sinistra sono gli autovettori della matrice $AA^T$ mentre i vettori singolari della matrice di destra sono gli autovettori di $A^T A$ i valori singoli sono rappresentati dalla matrice quadrata degli autovalori di $A^T A$.

La cosa più importante da ricordare è che non tutte le matrici hanno degli autovalori ma tutte le matrici hanno valori singoli
Per ora dimentichiamoci pure di svd e concentriamoci su come calcolare di una matrice simmetrica positiva.

Teniamo a mente che :
* se A è simmetrica gli autovalori di A sono reali e possiamo ottenere una scomposizione tale che $A = Q \Lambda Q^T$ 
* se A è triangolare i suoi autovalori sono 


In [12]:
B = np.random.rand(3,2)

In [13]:
B @ B.T

array([[0.76443578, 0.22182332, 0.55251767],
       [0.22182332, 0.92895796, 0.96546823],
       [0.55251767, 0.96546823, 1.14912451]])

## Il dataset DBPedia

In [27]:
import pandas as pd
import time

start = time.time()
df = pd.read_csv('./data/archive.zip')
print(f"Ho caricato {len(df)} righe in {(time.time() - start):.2f} secondi") 

Ho caricato 517401 righe in 21.94 secondi


In [28]:
test_str = df['message'][3032]
test_lines = test_str.splitlines()
test_lines

['Message-ID: <23831327.1075855692946.JavaMail.evans@thyme>',
 'Date: Fri, 7 Jan 2000 16:23:00 -0800 (PST)',
 'From: owner-strawbale@crest.org',
 'Subject: ',
 'Mime-Version: 1.0',
 'Content-Type: text/plain; charset=us-ascii',
 'Content-Transfer-Encoding: 7bit',
 'X-From: owner-strawbale@crest.org',
 'X-To: undisclosed-recipients:, ',
 'X-cc: ',
 'X-bcc: ',
 'X-Folder: \\Phillip_Allen_Dec2000\\Notes Folders\\Straw',
 'X-Origin: Allen-P',
 'X-FileName: pallen.nsf',
 '',
 '<4DDE116DBCA1D3118B130080C840BAAD02CD53@ppims.Services.McMaster.CA>',
 'From: "Wesko, George" <gwesko@PPIMS.SERVICES.MCMASTER.CA>',
 'To: strawbale@crest.org',
 'Subject: RADIANT HEATING',
 'Date: Tue, 4 Jan 2000 11:28:29 -0500',
 'MIME-Version: 1.0',
 'X-Mailer: Internet Mail Service (5.5.2650.21)',
 'Content-Type: multipart/alternative;',
 '------_=_NextPart_001_01BF56D0.C002317E',
 'Content-Type: text/plain;',
 'charset="iso-8859-1"',
 'Sender: owner-strawbale@crest.org',
 'Precedence: bulk',
 '',
 '',
 'There are 

In [29]:
str_from = test_lines[2]
print(str_from)

From: owner-strawbale@crest.org


In [30]:
str_to = test_lines[3]
print(str_to)

Subject: 


In [31]:
import re
emails = re.findall(r"[a-z0-9\.\-+_]+@[a-z0-9\.\-+_]+\.[a-z]+", str_to)

In [32]:
emails

[]

In [33]:
email_regex = r"[a-z0-9\.\-+_]+@[a-z0-9\.\-+_]+\.[a-z]+"

def extractEmails(text,index):
    text_lines = text.splitlines()
    str_from = text_lines[2]
    str_to = text_lines[3]
    email_from = re.findall(email_regex, str_from)
    
    if not email_from:
        print(f"Attenzione non ho trovato nessun mittente !! {str_from} indice {index}")
        email_from = ['']
    
    if len(email_from) > 1:
        print(f"Attenzione ho trovato più di un mittente !! !! {str_from} indice {index}")
    
    email_from = email_from[0]
    email_to = re.findall(email_regex, str_to)
    
    if not email_to:
        email_to = ['']
    
    
    
    
    return email_from.lower(),set([email.lower() for email in email_to])
    
    
    
    

In [34]:
extractEmails(test_str,1)

('owner-strawbale@crest.org', {''})

In [35]:
from collections import defaultdict
from tqdm.notebook import tqdm

email_sender = defaultdict(lambda: defaultdict(int))

for index, message in tqdm(df['message'].items(),total=len(df['message'])):
    mail_from,mail_to = extractEmails(message,index)
    for to in mail_to:
        email_sender[mail_from][to] += 1
    

0it [00:00, ?it/s]

Attenzione non ho trovato nessun mittente !! From: pep <performance.> indice 445288


In [37]:
del df

In [38]:
mem_usage()

0.18744149856689657

Dalla struttura dati sopra creiamo il grafo delle adiacenze, che indica chi ha scritto una mail a quale persona.
per prima cosa creo un dataset con tutti gli indirizzi mail.

In [59]:
email_adress = set()

for email in email_sender:
    email_adress.add(email)
    for email_sent in email_sender[email]:
        email_adress.add(email_sent)

print(len(email_adress))

35997


Il grafo delle adiacenze avrà un arco da A verso B se una persona A ha scritto una mail alla persona B
![grafo](./images/graph.png)

con questo grafo in mente possiamo costruire una matrice di adiacenza che contiene il valore 1 sulla riga di indice A e sulla colonna di indice B

In [60]:
test_address = 'anita.luong@enron.com'

index_map = list(email_adress)
index_map.index(test_address)
n = len(index_map)

In [61]:
import pickle

PATH = 'data/'
pickle.dump(index_map, open(PATH+'index_map.pkl', 'wb'))

In [64]:
from scipy import sparse

rows = []
cols = []
data = []

for email in  tqdm(email_sender):
    row = index_map.index(email)
    for email_sent in email_sender[email]:
        col = index_map.index(email_sent)
        rows.append(row)
        cols.append(col)
        data.append(1)

  0%|          | 0/20312 [00:00<?, ?it/s]

In [68]:
X = sparse.coo_matrix((data, (rows,cols)), shape=(n,n), dtype=np.float32)

In [69]:
del(data,rows,cols)

In [71]:
pickle.dump(X, open(PATH+'X.pkl', 'wb'))

In [72]:
def show_ex(v):
    print(', '.join(index_map[i] for i in np.abs(v.squeeze()).argsort()[-1:-10:-1]))

In [91]:
from sklearn.decomposition import randomized_svd
from pprint import pprint
from time import time

print("Computing the principal singular vectors using randomized_svd")
t0 = time()
U, s, V = randomized_svd(X, 5, n_iter=3)
print("done in %0.3fs" % (time() - t0))


Computing the principal singular vectors using randomized_svd
done in 0.104s


In [92]:
show_ex(U.T[0])
show_ex(V[0])

tana.jones@enron.com, sara.shackleton@enron.com, louise.kitchen@enron.com, mark.taylor@enron.com, richard.sanders@enron.com, vince.kaminski@enron.com, jeff.dasovich@enron.com, sally.beck@enron.com, elizabeth.sager@enron.com
, louise.kitchen@enron.com, john.lavorato@enron.com, tana.jones@enron.com, sara.shackleton@enron.com, greg.whalley@enron.com, mark.taylor@enron.com, sally.beck@enron.com, elizabeth.sager@enron.com


In [96]:
def centrality_scores(X, alpha=0.85, max_iter=100, tol=1e-10):
    """Power iteration computation of the principal eigenvector

    This method is also known as Google PageRank and the implementation
    is based on the one from the NetworkX project (BSD licensed too)
    with copyrights by:

      Aric Hagberg <hagberg@lanl.gov>
      Dan Schult <dschult@colgate.edu>
      Pieter Swart <swart@lanl.gov>
    """
    n = X.shape[0]
    X = X.copy()
    incoming_counts = np.asarray(X.sum(axis=1)).ravel()

    print("Normalizing the graph")
    for i in incoming_counts.nonzero()[0]:
        X.data[X.indptr[i] : X.indptr[i + 1]] *= 1.0 / incoming_counts[i]
    dangle = np.asarray(np.where(np.isclose(X.sum(axis=1), 0), 1.0 / n, 0)).ravel()

    scores = np.full(n, 1.0 / n, dtype=np.float32)  # initial guess
    for i in range(max_iter):
        print("power iteration #%d" % i)
        prev_scores = scores
        scores = (
            alpha * (scores * X + np.dot(dangle, prev_scores))
            + (1 - alpha) * prev_scores.sum() / n
        )
        # check convergence: normalized l_inf norm
        scores_max = np.abs(scores).max()
        if scores_max == 0.0:
            scores_max = 1.0
        err = np.abs(scores - prev_scores).max() / scores_max
        print("error: %0.6f" % err)
        if err < n * tol:
            return scores

    return scores


print("Computing principal eigenvector score using a power iteration method")
t0 = time()
scores = centrality_scores(X.tocsr(), max_iter=100)
print("done in %0.3fs" % (time() - t0))
pprint([index_map[i] for i in np.abs(scores).argsort()[-30:]])

Computing principal eigenvector score using a power iteration method
Normalizing the graph
power iteration #0
error: 0.999055
power iteration #1
error: 0.911728
power iteration #2
error: 0.300302
power iteration #3
error: 0.093169
power iteration #4
error: 0.052141
power iteration #5
error: 0.028819
power iteration #6
error: 0.012735
power iteration #7
error: 0.010607
power iteration #8
error: 0.008847
power iteration #9
error: 0.007437
power iteration #10
error: 0.006263
power iteration #11
error: 0.005287
power iteration #12
error: 0.004468
power iteration #13
error: 0.003778
power iteration #14
error: 0.003196
power iteration #15
error: 0.002704
power iteration #16
error: 0.002288
power iteration #17
error: 0.001937
power iteration #18
error: 0.001639
power iteration #19
error: 0.001388
power iteration #20
error: 0.001174
power iteration #21
error: 0.000994
power iteration #22
error: 0.000841
power iteration #23
error: 0.000712
power iteration #24
error: 0.000603
power iteration #25