# Ausbreitungsmechanismen
Im Skript haben Sie Ausbreitungsmechanismen und Verfahren zur Prognose theoretischer Diffusionsgraphen kennengelernt. Diese sollen Sie nun praktisch anwenden. Als Datenbasis dient erneut das bereits bekannte Game of Thrones Netzwerk. Bevor Sie mit der Analyse starten, müssen die notwendigen Pakete importiert werden.

In [None]:
import matplotlib.pyplot as plt
import ndlib.models.ModelConfig as mc
import ndlib.models.epidemics as ep
import networkx as nx
import pandas as pd
import random
import statistics

Nun kann das im .graphml-Format vorliegende Netzwerk geladen werden.

In [None]:
# Load network from graphml format
G_got = nx.read_graphml('./datasets/got.graphml')

### Aufgabe 1
Konvertieren Sie G_got in einen gerichteten Graphen und speichern Sie diesen in der Variable DiG_got.

In [None]:
# Platz für Ihre Lösung

### Aufgabe 2
Wie viele Knoten und Kanten enthält der entstandene Digraph? Und wie viele Kanten mehr besitzt der gerichtete Graph als der ungerichtete Graph?

In [None]:
# Platz für Ihre Lösung

## Linear Threshold Model
### Aufgabe 3
Voraussetzung für die Anwendung des Linear Threshold Model ist die Existenz von Schwellwerten pro Knoten sowie die Existenz von Kantengewichten, die den Einfluss eines Kontens auf einen anderen Knoten repräsentieren. Zweitere liegen im Graphen bereits als Node Attribut **weight** vor. Die Schwellwerte hingegen existieren noch nicht und müssen nun definiert werden. Schreiben Sie eine Funktion **set_thresholds**, die jedem Knoten des Netzwerks einen zufälligen ganzzahligen Wert zwischen 1 und 10 zuweist und diesen als Node Attribut mit der Bezeichnung **threshold** auf dem jeweiligen Knoten speichert. Die Funktion soll nur einen Parameter, den entsprechenden Graphen, als Input erwarten und keinen Rückgabewert besitzen.

In [None]:
def set_thresholds(G):
    
    # Platz für Ihre Lösung

Führen Sie die Funktion für den Graphen **DiG_got** aus.

In [None]:
set_thresholds(DiG_got)

### Aufgabe 4
Implementieren Sie eine Funktion **linear_threshold_model**, die das im Skript beschriebene Linear Threshold Verfahren ausführt. Berücksichtigen Sie dabei folgende Punkte:
* Die Funktion soll zwei Input-Parameter besitzen: Den Graphen sowie eine Liste der Early Adopters.
* Sobald keine neuen Knoten mehr aktiviert werden können, soll der Algorithmus terminieren.
* Die Funktion soll einen Rückgabewert **ltm_results** besitzen. Dieser soll eine Liste sein, die pro Iteration des Algorithmus ein Dictionary enthält. Jedes Dictionary soll alle Knoten des Netzwerks (Key) sowie deren Status in der aktuellen Iteration (Value; 0 = susceptible, 1 = infectious, 2 = removed) enthalten. **Beispiel zum Aufbau des Rückgabewerts**:
[{'KnotenA': 0,
  'KnotenB': 1,
  'KnotenC': 0},
 {'KnotenA': 1,
  'KnotenB': 2,
  'KnotenC': 1}]

In [None]:
def linear_threshold_model (G, early_adopters):
  
    # Platz für Ihre Lösung
    
    return ltm_results

### Aufgabe 5
Führen Sie die zuvor implementierte Funktion **linear_threshold_model** mit folgenden Parametern aus und speichern Sie den Rückgabewert in einer Variable **ltm_results**:
* early_adopters = ['Bran-Stark', 'Samwell-Tarly', 'Jon-Snow']
* G = DiG_got

In [None]:
# Platz für Ihre Lösung

### Aufgabe 6
Ermitteln Sie die Anzahl der Personen pro Status (S, I, R) nach Abschluss der letzten Iteration.

In [None]:
# Platz für Ihre Lösung

### Visualisierung
Führen Sie die folgende Zelle aus, um die Anzahl der Personen pro Status (S, I, R) über alle Iterationen zu visualisieren.

In [None]:
# Create list of values over all iterations per state
susceptible_nodes = []
for iteration in range(0, len(ltm_results)):
    susceptible_nodes.append(len([k for k, v in ltm_results[iteration].items() if v == 0]))
    
infectious_nodes = []
for iteration in range(0, len(ltm_results)):
    infectious_nodes.append(len([k for k, v in ltm_results[iteration].items() if v == 1]))
    
removed_nodes = []
for iteration in range(0, len(ltm_results)):
    removed_nodes.append(len([k for k, v in ltm_results[iteration].items() if v == 2]))
    
# Plot lines
plt.plot(susceptible_nodes, label='Susceptible')
plt.plot(infectious_nodes, label='Infectious')
plt.plot(removed_nodes, label='Removed')

# Add labels and title
plt.title("Linear Threshold Model - Game of Thrones")
plt.xlabel("Iteration")
plt.ylabel("Number of nodes")
 
plt.legend()
plt.show()

Alternativ können Sie Verbreitung der Information im Netzwerk auch wie folgt visualisieren.

**Hinweis**: Sollte Ihr Jupyter Notebook nach Ausführung der folgenden Zelle langsam reagieren, dann löschen Sie deren Output, nachdem Sie die Visualisierung betrachtet haben.

In [None]:
for iteration in range(0, len(ltm_results)):
    
    colors = [ltm_results[iteration][node] for node in DiG_got.nodes()]

    plt.figure(figsize=(30, 20))
    nx.draw_networkx(DiG_got, with_labels=True, node_size=1600, cmap = plt.get_cmap('Spectral'), node_color=colors, font_size=18)

## Independent Cascade Model
### Aufgabe 7
Schreiben Sie eine Funktion **icm**, die das Independent Cascade Model ausführt und drei Input-Parameter entgegennimmt:
* **G:** NetworkX-Graph, für den das IC-Modell ausgeführt werden soll.
* **early_adopters:** Liste der Knoten, die als Early Adopter dienen.
* **iter_nr:** Anzahl der Iterationen (int), die im IC-Modell ausgeführt werden sollen.

Das IC-Modell müssen Sie nicht selbst implementieren. Greifen Sie dafür auf das Paket *ndlib* zurück. Ein Beispiel zur Implementierung finden Sie hier: https://ndlib.readthedocs.io/en/latest/reference/models/epidemics/IndependentCascades.html#
Ausserdem finden Sie hier ein Beispiel, wie Sie Early Adopter in Form einer Node List setzen können: https://ndlib.readthedocs.io/en/latest/reference/mconf/Mconf.html#status-configuration.

Die Funktion soll den Status pro Knoten und Iteration in Form der Variable "iterations" zurückgeben. Ausserdem soll in der Funktion pro Kante ein "Threshold" (in ndlib so bezeichnet) zwischen 0 und 1 gesetzt werden, der angibt, mit welcher Wahrscheinlichkeit ein infizierter Knoten über diese Kante einen Nachbarknoten infiziert. Verwenden Sie dazu die im Graphen bereits existierenden Kantengewichte (Edge Attribut "weight") und normalisieren Sie diese auf den Wertebereich zwischen 0 und 1.

In [None]:
def icm (G, early_adopters, iter_nr):
    
    # Platz für Ihre Lösung
    
    return iterations

### Aufgabe 8
Führen Sie die zuvor implementierte icm-Funktion mit folgenden Parametern aus und speichern Sie den Rückgabewert in einer Variable **iterations_ex8**:
* G = DiG_got
* early_adopters = ['Bran-Stark', 'Samwell-Tarly', 'Jon-Snow']
* iter_nr = 10

Lassen Sie sich anschließend die Variable **iterations_ex8** ausgeben, um sich mit der inhaltlichen Struktur des Rückgabewerts vertraut zu machen.

In [None]:
# Platz für Ihre Lösung

### Aufgabe 9
Welche Personen wurden in der ersten Iteration **infiziert** (Status 1) und wie viele Personen besitzen in der letzten Iteration den Status **Removed** (2)?

In [None]:
# Platz für Ihre Lösung

### Aufgabe 10
Wieso hat die Information relativ wenige Personen erreicht, obwohl die drei Early Adopters hohe Out-Degrees besitzen ('Bran-Stark': 32, 'Samwell-Tarly': 12, 'Jon-Snow': 37)?

**Tipp:** Schauen Sie sich an, wie die Infektionswahrscheinlichkeiten (Thresholds) in der icm-Funktion gesetzt wurden. Diese Thresholds werden in ndlib wie folgt verwendet: Pro Kante zwischen infiziertem Knoten und Nachbarknoten wird eine zufällige Zahl (float) zwischen 0 und 1 erzeugt und geprüft, ob diese kleiner oder gleich dem Threshold der Kante ist. Ist das der Fall, wird der Nachbarknoten infiziert. Ist die zufällige Zahl größer als der Threshold, wird der Nachbarknoten nicht infiziert. Den entsprechenden Code dazu finden Sie hier: https://github.com/GiulioRossetti/ndlib/blob/master/ndlib/models/epidemics/IndependentCascadesModel.py

**Antwort zu Aufgabe 10:**
Platz für Ihre Lösung

### Aufgabe 11
Überprüfen Sie die in Aufgabe 10 aufgestellte Hypothese, indem Sie nun für alle Kanten einen sehr hohen Threshold von 0,99 setzen. Kopieren Sie dazu die Funktion aus Aufgabe 7 in die folgende Zelle und passen Sie diese so an, dass der Threshold für alle Kanten fix gesetzt wird.

In [None]:
def icm_fix (G, early_adopters, iter_nr):
    
    # Platz für Ihre Lösung
    
    return iterations

### Aufgabe 12
Führen Sie die zuvor implementierte icm_fix-Funktion mit folgenden Parametern aus und speichern Sie den Rückgabewert in einer Variable **iterations_ex12**:
* G = DiG_got
* early_adopters = ['Bran-Stark', 'Samwell-Tarly', 'Jon-Snow']
* iter_nr = 10

Ermitteln Sie anschließend, wie viele Personen in der letzten Iteration den Status **Removed** (2) besitzen. Konnten alle Personen im Netzwerk informiert werden?

In [None]:
# Platz für Ihre Lösung

### Aufgabe 13
Es scheint, als wäre das Setzen der Infektionswahrscheinlichkeiten auf Basis der normalisierten Kantengewichte keine optimale Lösung. Welche Alternativen fallen Ihnen ein?

**Antwort zu Aufgabe 13:**
* Platz für Ihre Lösung