In [56]:
import numpy as np
import operator

In [57]:
def build_link_matrix_A(filename, apply_patch=True):
    """
    Costruisce la Link Matrix A (o A') partendo da un file dataset .dat.
    
    Questa funzione gestisce la lettura dei dati sparsi (archi) e la creazione 
    della matrice densa o sparsa necessaria per il calcolo.
    
    Args:
        filename (str): Il percorso del file .dat (es. 'web-Stanford.dat').
        apply_patch (bool): 
            - Se True: Applica la "Patch" ai dangling nodes. Sostituisce le colonne di zeri
              con 1/N. Restituisce una matrice A' perfettamente STOCASTICA.
              (Utile se si vuole simulare il comportamento 'random surfer' puro).
            - Se False: Lascia le colonne di zeri intatte. Restituisce A SUBSTOCASTICA.
              (Questo è il metodo usato nel paper originale e richiede la normalizzazione
               finale nel calcolo del PageRank per compensare la perdita di massa).
                            
    Returns:
        tuple: (A, N)
            - A (numpy.ndarray): La matrice N x N costruita.
            - N (int): Il numero totale di nodi (pagine), utile per creare i vettori successivi.
    """
    
    links = []
    
    # =========================================================================
    # --- PARTE 1: LETTURA DEL FILE E PRE-ELABORAZIONE ---
    # =========================================================================
    try:
        with open(filename, 'r') as file:
            
            # 1. Lettura Header
            # Il file inizia con "N M" (Nodi, Archi). Ci serve N per dimensionare la matrice.
            header_line = file.readline().strip().split()
            if not header_line or len(header_line) < 2:
                raise ValueError("Il file deve iniziare con una riga 'N M' valida.")
            
            num_nodes = int(header_line[0])
            N = num_nodes  # Dimensione della matrice quadrata (N x N)
            
            # 2. Salta le righe di mappatura URL
            # Le prime N righe dopo l'header sono URL (stringhe). 
            # Per la matematica servono solo gli ID numerici, quindi le saltiamo.
            print(f"Saltando le prime {num_nodes} righe di mappatura URL...")
            for _ in range(num_nodes):
                file.readline()
            
            # 3. Processa gli archi (Link)
            # Dizionario per contare quanti link escono da ogni pagina (Out-Degree, n_j).
            # Serve per calcolare la probabilità di transizione (1 / n_j).
            out_degree = {} 
            valid_link_count = 0
            
            for line in file:
                parts = line.strip().split()
                # Ci aspettiamo righe fatte da "Source_ID Target_ID"
                if len(parts) == 2:
                    try:
                        source_id = int(parts[0])
                        target_id = int(parts[1])
                        
                        # Contiamo l'out-degree per il nodo sorgente
                        out_degree[source_id] = out_degree.get(source_id, 0) + 1
                        
                        # Memorizziamo l'arco per dopo
                        links.append((source_id, target_id))
                        valid_link_count += 1
                    except ValueError:
                        # Gestione robusta per righe malformate
                        continue
                        
            print(f"Letti {valid_link_count} archi validi.")

    except Exception as e:
        print(f"Errore durante l'elaborazione del file: {e}")
        return None, 0

    if N == 0:
        return None, 0

    # =========================================================================
    # --- PARTE 2: COSTRUZIONE BASE DI A (La Matrice dei Link) ---
    # =========================================================================
    
    # Creiamo una matrice N x N piena di zeri.
    A = np.zeros((N, N))

    # Popoliamo la matrice usando gli archi letti.
    # Regola: A[i, j] = 1 / n_j  (dove j=sorgente, i=destinazione)
    for source_id, target_id in links:
        # Convertiamo da ID (base-1, dal file) a Indice (base-0, per Python)
        source_idx = source_id - 1  # Colonna j
        target_idx = target_id - 1  # Riga i
        
        # Recuperiamo n_j (quanti link escono dalla sorgente)
        n_j = out_degree.get(source_id, 0)
        
        # Controllo di sicurezza sugli indici e divisione per zero
        if 0 <= source_idx < N and 0 <= target_idx < N and n_j > 0:
            A[target_idx, source_idx] = 1.0 / n_j

    # A questo punto, se un nodo non ha link in uscita (dangling), 
    # la sua colonna è interamente di ZERI. (Matrice Substocastica).

    # =========================================================================
    # --- PARTE 3: APPLICAZIONE DELLA PATCH (Opzionale) ---
    # =========================================================================
    if apply_patch:
        print("Applicazione della PATCH ai dangling nodes (Trasformazione A -> A')...")
        dangling_count = 0
        
        # Valore da inserire: probabilità uniforme distribuita su N nodi
        patch_value = 1.0 / N
        
        # Scansioniamo tutte le colonne (nodi sorgente)
        for j in range(N):
            # Verifichiamo se è un Dangling Node (out_degree = 0)
            # Nota: usiamo j+1 perché le chiavi del dizionario sono ID base-1
            if out_degree.get(j + 1, 0) == 0:
                
                # LA FIX: Sostituiamo la colonna di zeri con 1/N.
                # Fisicamente significa: "Se arrivi qui, salti a una pagina a caso".
                A[:, j] = patch_value
                dangling_count += 1
                
        print(f"Patch applicata a {dangling_count} dangling nodes su {N} totali.")
        print("La matrice risultante è ora perfettamente column-stocastica (somma colonne = 1).")
    else:
        print("Nessuna patch applicata.")
        print("La matrice rimane substocastica (le colonne dei dangling nodes sommano a 0).")
        print("NOTA: L'algoritmo PageRank dovrà usare la normalizzazione finale per funzionare.")

    print(f"Matrice Link {N}x{N} pronta per il calcolo.")
    return A, N

In [58]:
def calculate_pagerank(L_matrix, m=0.15, max_iter=200, tolerance=1e-7):
    """
    Calcola il PageRank utilizzando il Power Method (Iterazione della Potenza).
    
    Questa funzione implementa la formula iterativa:
    x(k+1) = (1 - m) * A * x(k) + m * s
    
    Args:
        L_matrix (numpy.ndarray): La Link Matrix A (N x N). Può essere substocastica (dangling nodes).
        m (float): Probabilità di teletrasporto (es. 0.15). (1-m) è il Damping Factor (0.85).
        max_iter (int): Numero massimo di iterazioni per evitare loop infiniti.
        tolerance (float): Soglia di convergenza. Se la differenza tra due iterazioni è minore di questo, ci fermiamo.
        
    Returns:
        tuple: (autovettore_PageRank, numero_iterazioni)
    """
    
    # 1. Determina la dimensione del Web (N)
    # L_matrix.shape[0] restituisce il numero di righe (nodi).
    n = L_matrix.shape[0]
    
    # 2. Crea il vettore di Teletrasporto (s)
    # È un vettore colonna dove ogni elemento è 1/N.
    # Rappresenta la probabilità uniforme che l'utente atterri su una pagina a caso.
    s = np.full((n, 1), 1/n)
    
    # 3. Inizializzazione del vettore PageRank (x)
    # All'inizio (t=0), assumiamo che tutte le pagine abbiano la stessa importanza (1/N).
    x = np.full((n, 1), 1/n)
    
    # Variabile per contare le iterazioni effettive
    k = 0
    
    # --- INIZIO POWER METHOD ---
    for k in range(max_iter):
        
        # Salviamo il vettore dell'iterazione precedente per confrontarlo dopo
        x_prev = x.copy()
        
        # --- PASSO A: Navigazione tramite Link ---
        # Calcoliamo A * x. 
        # Qui la probabilità fluisce attraverso i link esistenti.
        # Nota: L_matrix è sparsa (ha molti zeri), quindi questa operazione è veloce.
        Ax = L_matrix @ x_prev
        
        # --- PASSO B: Applicazione della formula Google (Implicit M) ---
        # Formula: x_new = (1-m) * (Link) + m * (Teletrasporto)
        # (1 - m) * Ax : La probabilità che segue i link (es. 85%)
        # m * s        : La probabilità che viene ridistribuita ovunque (es. 15%)
        # Questo passaggio simula la moltiplicazione per la matrice M senza doverla costruire.
        x = (1 - m) * Ax + m * s
        
        # --- PASSO C: Verifica della Convergenza ---
        # Calcoliamo la Norma L1 della differenza (la somma dei valori assoluti delle differenze).
        # Se il vettore è cambiato pochissimo rispetto al giro prima, abbiamo trovato l'equilibrio.
        diff = np.sum(np.abs(x - x_prev))
        
        if diff < tolerance:
            # Usciamo dal ciclo for anticipatamente se abbiamo convergenza
            break
            
    # --- FINE POWER METHOD ---

    # 4. Normalizzazione Finale (Cruciale per i Dangling Nodes)
    # Se L_matrix non aveva la patch (aveva colonne di zeri), abbiamo perso un po' di probabilità
    # a ogni giro (la somma di x sarà < 1, es. 0.85).
    # Questa divisione riporta la somma esattamente a 1.0, mantenendo le proporzioni corrette.
    x_normalized = x / np.sum(x)
    
    # Restituisce l'autovettore finale (normalizzato) e il numero di iterazioni impiegate (k+1 perché k parte da 0)
    return x_normalized, k + 1

In [59]:
# --- Esempio 1: Web a 4 pagine (Figura 2.1) ---
print("=============================================")
print("  ESECUZIONE: WEB A 4 PAGINE (FIGURA 2.1) ")
print("=============================================")

A_4pages = np.array([
    [0.0, 0.0, 1.0, 0.5],
    [1/3, 0.0, 0.0, 0.0],
    [1/3, 0.5, 0.0, 0.5],
    [1/3, 0.5, 0.0, 0.0]
])

pagerank_scores_4pages,iterations_4pages = calculate_pagerank(A_4pages, m=0.15)

# Preparazione dei risultati: lista di tuple (ID pagina, Punteggio)
page_indices_4pages = np.arange(1, A_4pages.shape[0] + 1)
results_4pages = list(zip(page_indices_4pages, pagerank_scores_4pages.flatten()))
results_4pages_sorted = sorted(results_4pages, key=operator.itemgetter(1), reverse=True)

for page_id, score in results_4pages_sorted:
    print(f"Pagina {page_id}: {score:.4f}")
    
print(f"Calcolo completato in {iterations_4pages} iterazioni.")

# --- Esempio 2: Web a 5 pagine (Figura 2.2) ---
print("\n\n=============================================")
print("  ESECUZIONE: WEB A 5 PAGINE (FIGURA 2.2) ")
print("=============================================")


A_5pages = np.array([
    [0.0, 1.0, 0.0, 0.0, 0.0],   # Links TO page 1 (from 2)
    [1.0, 0.0, 0.0, 0.0, 0.0],   # Links TO page 2 (from 1)
    [0.0, 0.0, 0.0, 1.0, 0.5],   # Links TO page 3 (from 4, 5)
    [0.0, 0.0, 1.0, 0.0, 0.5],   # Links TO page 4 (from 3, 5)
    [0.0, 0.0, 0.0, 0.0, 0.0]    # Links TO page 5 (none)
])

# Calcolo del PageRank
pagerank_scores_5pages,iterations_5pages = calculate_pagerank(A_5pages, m=0.15)

# Preparazione dei risultati: lista di tuple (ID pagina, Punteggio)
page_indices_5pages = np.arange(1, A_5pages.shape[0] + 1)
results_5pages = list(zip(page_indices_5pages, pagerank_scores_5pages.flatten()))
results_5pages_sorted = sorted(results_5pages, key=operator.itemgetter(1), reverse=True)


for page_id, score in results_5pages_sorted:
    print(f"Pagina {page_id}: {score:.4f}")
    
print(f"Calcolo completato in {iterations_5pages} iterazioni.")


  ESECUZIONE: WEB A 4 PAGINE (FIGURA 2.1) 
Pagina 1: 0.3682
Pagina 3: 0.2880
Pagina 4: 0.2021
Pagina 2: 0.1418
Calcolo completato in 21 iterazioni.


  ESECUZIONE: WEB A 5 PAGINE (FIGURA 2.2) 
Pagina 3: 0.2850
Pagina 4: 0.2850
Pagina 1: 0.2000
Pagina 2: 0.2000
Pagina 5: 0.0300
Calcolo completato in 2 iterazioni.


In [60]:
#Calcolo del pagerank sul dataset hollins.dat

filename = 'hollins.dat'
m=0.15 
top_k=10

# 1. COSTRUZIONE DELLA MATRICE A 
# Versione senza patch: A_matrix, N_nodes = build_link_matrix_A(filename)

A_matrix, N_nodes = build_patched_matrix_A(filename)

# 2. CALCOLO DEL PAGERANK
print("\nInizio Calcolo PageRank (Iterazione della Potenza)...")
pagerank_scores, iterations = calculate_pagerank(A_matrix, m=m)

print(f"Calcolo completato in {iterations} iterazioni.")

# 3. PREPARAZIONE E STAMPA DEI RISULTATI
page_ids = np.arange(1, N_nodes + 1)
results = list(zip(page_ids, pagerank_scores.flatten()))

# Ordinamento per punteggio in ordine decrescente
results_sorted = sorted(results, key=operator.itemgetter(1), reverse=True)

print(f"\n--- Classifica TOP {top_k} Pagine (su {N_nodes} totali) ---")

# Stampa i primi K risultati
for rank, (page_id, score) in enumerate(results_sorted[:top_k], 1):
    # NOTA: Per un progetto reale, qui dovresti ricercare l'URL
    # corrispondente all'ID della pagina dalla sezione 1 del file.
    print(f"Rank {rank}: Pagina ID {page_id} (Score: {score:.6f})")

print("-------------------------------------------------------")

# INFORMAZIONI AGGIUNTIVE (Utile per la relazione)
# Per una buona valutazione, potresti stampare l'importanza del nodo meno importante
# che dovrebbe avvicinarsi al punteggio minimo teorico (m/N).
min_score = results_sorted[-1][1]
expected_min = m / N_nodes
print(f"Punteggio minimo (ultima pagina): {min_score:.6f}")
print(f"Punteggio teorico minimo ({m}/N): {expected_min:.6f}")
    


Saltando le prime 6012 righe di mappatura URL...
Letti 23875 archi validi.
Applicazione della PATCH ai dangling nodes...
Patch applicata a 3189 dangling nodes su 6012 totali.
La matrice A' risultante è ora column-stocastica.

Inizio Calcolo PageRank (Iterazione della Potenza)...
Calcolo completato in 71 iterazioni.

--- Classifica TOP 10 Pagine (su 6012 totali) ---
Rank 1: Pagina ID 2 (Score: 0.019879)
Rank 2: Pagina ID 37 (Score: 0.009288)
Rank 3: Pagina ID 38 (Score: 0.008610)
Rank 4: Pagina ID 61 (Score: 0.008065)
Rank 5: Pagina ID 52 (Score: 0.008027)
Rank 6: Pagina ID 43 (Score: 0.007165)
Rank 7: Pagina ID 425 (Score: 0.006583)
Rank 8: Pagina ID 27 (Score: 0.005989)
Rank 9: Pagina ID 28 (Score: 0.005572)
Rank 10: Pagina ID 4023 (Score: 0.004452)
-------------------------------------------------------
Punteggio minimo (ultima pagina): 0.000058
Punteggio teorico minimo (0.15/N): 0.000025


In [63]:
#ESERCIZIO 1

print("=============================================")
print(" ESERCIZIO 1: MANIPOLAZIONE DEL PAGERANK")
print("=============================================")


print("\n--- 1. Situazione Originale (4 Pagine) ---")

A_orig = np.array([
    [0.0, 0.0, 1.0, 0.5],  
    [1/3, 0.0, 0.0, 0.0],  
    [1/3, 0.5, 0.0, 0.5],  
    [1/3, 0.5, 0.0, 0.0]   
])

# Calcolo
scores_orig, iters_orig = calculate_pagerank(A_orig, m=0.15)

# Stampa Risultati Originali
indices_orig = np.arange(1, A_orig.shape[0] + 1)
results_orig = list(zip(indices_orig, scores_orig.flatten()))
results_orig_sorted = sorted(results_orig, key=operator.itemgetter(1), reverse=True)

print(A_orig)
print("Classifica Originale:")
for page_id, score in results_orig_sorted:
    print(f"Pagina {page_id}: {score:.4f}")

# Salviamo i punteggi specifici per il confronto finale
# (Usiamo indici base-0: Pagina 1 è indice 0, Pagina 3 è indice 2)
p1_score_orig = scores_orig[0][0]
p3_score_orig = scores_orig[2][0]


print("\n--- 2. Situazione Modificata (5 Pagine) ---")
print("Modifica: Aggiunta Pagina 5. Link: 3->5 e 5->3.")

# Matrice A Modificata (5x5)

A_mod = np.array([
    [0.0, 0.0, 0.5, 0.5, 0.0],  
    [1/3, 0.0, 0.0, 0.0, 0.0],  
    [1/3, 0.5, 0.0, 0.5, 1.0],  
    [1/3, 0.5, 0.0, 0.0, 0.0],  
    [0.0, 0.0, 0.5, 0.0, 0.0]   
])

# Calcolo
scores_mod, iters_mod = calculate_pagerank(A_mod, m=0.15)

# Stampa Risultati Modificati
indices_mod = np.arange(1, A_mod.shape[0] + 1)
results_mod = list(zip(indices_mod, scores_mod.flatten()))
results_mod_sorted = sorted(results_mod, key=operator.itemgetter(1), reverse=True)

print(f"Calcolo completato in {iters_mod} iterazioni.")
print(A_mod)
print("Classifica Modificata:")
for page_id, score in results_mod_sorted:
    print(f"Pagina {page_id}: {score:.4f}")

# Salviamo i nuovi punteggi
p1_score_mod = scores_mod[0][0]
p3_score_mod = scores_mod[2][0]

# ---------------------------------------------------------
# VERIFICA FINALE (RISPOSTA ALL'ESERCIZIO)
# ---------------------------------------------------------
print("\n=============================================")
print(" VERIFICA RISULTATI")
print("=============================================")
print(f"PRIMA: Pagina 1 ({p1_score_orig:.4f}) vs Pagina 3 ({p3_score_orig:.4f})")
print(f"DOPO:  Pagina 1 ({p1_score_mod:.4f}) vs Pagina 3 ({p3_score_mod:.4f})")

if p3_score_mod > p1_score_mod:
    print("\nRISPOSTA: SÌ. La strategia ha funzionato.")
    print("La Pagina 3 ha superato la Pagina 1 creando un loop con la Pagina 5.")
else:
    print("\nRISPOSTA: NO. La Pagina 3 è ancora sotto la Pagina 1.")

 ESERCIZIO 1: MANIPOLAZIONE DEL PAGERANK

--- 1. Situazione Originale (4 Pagine) ---
[[0.         0.         1.         0.5       ]
 [0.33333333 0.         0.         0.        ]
 [0.33333333 0.5        0.         0.5       ]
 [0.33333333 0.5        0.         0.        ]]
Classifica Originale:
Pagina 1: 0.3682
Pagina 3: 0.2880
Pagina 4: 0.2021
Pagina 2: 0.1418

--- 2. Situazione Modificata (5 Pagine) ---
Modifica: Aggiunta Pagina 5. Link: 3->5 e 5->3.
Calcolo completato in 33 iterazioni.
[[0.         0.         0.5        0.5        0.        ]
 [0.33333333 0.         0.         0.         0.        ]
 [0.33333333 0.5        0.         0.5        1.        ]
 [0.33333333 0.5        0.         0.         0.        ]
 [0.         0.         0.5        0.         0.        ]]
Classifica Modificata:
Pagina 3: 0.3489
Pagina 1: 0.2371
Pagina 5: 0.1783
Pagina 4: 0.1385
Pagina 2: 0.0972

 VERIFICA RISULTATI
PRIMA: Pagina 1 (0.3682) vs Pagina 3 (0.2880)
DOPO:  Pagina 1 (0.2371) vs Pagina 3 (0.