# Link Prediction

Um die Reichweite des Imperators im Sozialen Netzwerk zu vergrössern, verwenden wir eine Link Prediction. Somit wollen wir für nicht-verbundene Knoten eine passende Verbindung finden, um das Netzwerk zu vergrössern.

## Common Neighbours

Common Neighbours berechnet für zwei nich verbunde Knoten, wieviele gemeinsame nNachbarn existieren. 

Die Formel für gemeinsame Nachbarn lautet: 
$
\text{common\_neighbours}(X, Y) = \lvert N(X) \cap N(Y) \rvert
$

In [1]:
import json
import networkx as nx

with open('data/starwars-episode-1-interactions.json') as f:
    data_interactions = json.load(f)

# Graph erstellen: nutze direkt den 'name' aus den Node-Daten
G = nx.Graph()

for node in data_interactions['nodes']:
    # Verwende den 'name' als Knotenidentifikator
    G.add_node(node['name'])

for link in data_interactions['links']:
    src_id = link['source']
    tgt_id = link['target']
    # Falls source und target Indizes im nodes-Array sind:
    source_name = data_interactions['nodes'][src_id]['name']
    target_name = data_interactions['nodes'][tgt_id]['name']
    G.add_edge(source_name, target_name)


# Link-Prediction mit Common Neighbours
potential_links = []
nodes = list(G.nodes())
n = len(nodes)

for i in range(n):
    for j in range(i+1, n):
        u = nodes[i]
        v = nodes[j]
        if not G.has_edge(u, v):
            cn_count = len(list(nx.common_neighbors(G, u, v)))
            if cn_count > 0:
                potential_links.append((u, v, cn_count))

potential_links.sort(key=lambda x: x[2], reverse=True)

print("Top 10 Link Predictions basierend auf Common Neighbours mit Namen:")
for u, v, score in potential_links[:10]:
    print(f"{u} - {v}: gemeinsame Nachbarn = {score}")


Top 10 Link Predictions basierend auf Common Neighbours mit Namen:
NUTE GUNRAY - JAR JAR: gemeinsame Nachbarn = 5
OBI-WAN - EMPEROR: gemeinsame Nachbarn = 5
OBI-WAN - SEBULBA: gemeinsame Nachbarn = 5
OBI-WAN - KITSTER: gemeinsame Nachbarn = 5
OBI-WAN - JABBA: gemeinsame Nachbarn = 5
OBI-WAN - RABE: gemeinsame Nachbarn = 5
CAPTAIN PANAKA - SHMI: gemeinsame Nachbarn = 5
SIO BIBBLE - BOSS NASS: gemeinsame Nachbarn = 5
SIO BIBBLE - ANAKIN: gemeinsame Nachbarn = 5
BOSS NASS - RIC OLIE: gemeinsame Nachbarn = 5


## Jaccard Coefficient

Die Jaccarcd Coefficient Metrik ist eine Erweiterung der Common Neighbours Metrik.
Sie berücksichtigt nicht nur die Anzahl gemeinsamer Nachbarn zweier Knoten, sondern
setzt diese ins Verhältnis zu den Anzahl Nachbarn beider Knoten.

Die Formel für die Jaccard Coefficient lautet wie folgt: 

$
\text{jaccard\_coefficient}(X, Y) = \frac{\lvert N(X) \cap N(Y) \rvert}{\lvert N(X) \cup N(Y) \rvert}
$


In [2]:
import json
import networkx as nx

with open('data/starwars-episode-1-interactions.json') as f:
    data_interactions = json.load(f)

# Erstelle den Graphen
G = nx.Graph()

# Falls deine Daten so aufgebaut sind, dass die nodes-Liste Einträge wie {'name': 'Luke Skywalker'} enthält
for node in data_interactions['nodes']:
    G.add_node(node['name'])

# Falls 'source' und 'target' direkt die Namen enthalten, kannst du sie direkt nutzen.
# Falls es Indizes sind, musst du die Namen entsprechend aus data_interactions['nodes'] herauslesen.
for link in data_interactions['links']:
    src_id = link['source']
    tgt_id = link['target']
    source_name = data_interactions['nodes'][src_id]['name']
    target_name = data_interactions['nodes'][tgt_id]['name']
    G.add_edge(source_name, target_name)

# Jaccard-Koeffizienten für alle unverbundenen Paare berechnen
jaccard_scores = list(nx.jaccard_coefficient(G))

# jaccard_scores ist eine Liste von Tupeln (u, v, p) wobei p der Jaccard-Koeffizient ist
# Sortieren nach p absteigend
jaccard_scores.sort(key=lambda x: x[2], reverse=True)

# Top 10 ausgeben
print("Top 10 Link Predictions basierend auf Jaccard Coefficient:")
for u, v, score in jaccard_scores[:10]:
    print(f"{u} - {v}: Jaccard = {score:.4f}")


Top 10 Link Predictions basierend auf Jaccard Coefficient:
SIO BIBBLE - BOSS NASS: Jaccard = 0.6250
BOSS NASS - RIC OLIE: Jaccard = 0.6250
JIRA - C-3PO: Jaccard = 0.6000
JIRA - WATTO: Jaccard = 0.6000
RUNE - GENERAL CEEL: Jaccard = 0.6000
SEBULBA - KITSTER: Jaccard = 0.5556
SHMI - BOSS NASS: Jaccard = 0.5556
SEBULBA - BOSS NASS: Jaccard = 0.5000
SEBULBA - JIRA: Jaccard = 0.5000
SEBULBA - FODE/BEED: Jaccard = 0.5000
