# Soziale Netzwerkanalyse - Schulung mit Star Wars Daten 

Vorgestellt von Marc Sutjipto, Henry Mohrhoff und Simon Luckert

Die Vorliegende Schulung analysiert die Ineraktion zwischen Star Wars Charakteren. Der Datensatz basiert auf den Star Wars Filmen eins bis sieben.

Die Schulung ist folgernmaßen gegliedert:

1. Datenvisualisierung
2. Anwendung der Algorithmen 
3. Bonusaufgabe (Traveling Salesman Problem)

Das Ziel dieser Schulung ist es herauszufinden: 
1. Wer die drei Hauptcharaktere der Star Wars Reihe sind 
2. Welche Communities in der Star Wars Reihe gebildet werden 


Viel Spaß beim Bearbeiten!

## Aufgabe 0 - Arbeitsplatz einrichten 

Um die folgenden Aufgaben reibungslos durchführen zu können, müssen Sie zunächst die Networkx Bibliothek aktualisieren und die Community Bibliothek herunterladen.

Falls Sie dies noch nicht gemacht haben, führen sie die unten aufgeführten Befehle aus.
Importieren Sie alle notwendigen Bibliotheken, indem Sie auch die zweite Zelle ausführen.


In [1]:
!pip install --upgrade networkx
!pip install python-louvain # Dies ist die Community Bibliothek, sie enthält die Louvian-Methode

Collecting networkx
  Downloading networkx-2.6.3-py3-none-any.whl (1.9 MB)
[K     |████████████████████████████████| 1.9 MB 8.9 MB/s eta 0:00:01
[?25hInstalling collected packages: networkx
  Attempting uninstall: networkx
    Found existing installation: networkx 2.5.1
    Uninstalling networkx-2.5.1:
      Successfully uninstalled networkx-2.5.1
Successfully installed networkx-2.6.3


In [2]:
import networkx as nx
from matplotlib import pyplot as plt
import numpy as np 
import pandas as pd

## Aufgabe 1 - Einlesen des Star Wars Datensatzes

Lesen Sie den StarWarsEdges.csv Datensatz, mit dem gewohnten Vorgehen aus der Übung, ein und schauen Sie sich den Datensatz an

Beantworten Sie dabei folgende Fragen:

Hinweis: Source, Target und Value werden durch ein Delimiter ";" getrennt.

1.In welchem Kontext stehen die Spalten Source und Target zueinander?  


2.Für was könnte die value Spalte stehen? <br> 



In [4]:
df = pd.read_csv("StarWarsEdges.csv", delimiter=";")
df

Unnamed: 0,source,target,value
0,NUTE GUNRAY,QUI-GON,1
1,PK-4,TC-14,1
2,OBI-WAN,TC-14,1
3,QUI-GON,TC-14,1
4,OBI-WAN,QUI-GON,26
...,...,...,...
393,JESS,YOLO ZIFF,1
394,JESS,POE,2
395,ELLO ASTY,JESS,2
396,POE,YOLO ZIFF,1


### 1.1 Zuordnung der Kanten 
Es gibt mehrere Möglichkeiten die Beziehungen zwischen den Star Wars Charakteren, durch eine Kante zu definieren.Eine Möglichkeit ist es, zunächst einen leeren Graphen zu definieren und anschließend durch eine Schleife die Kanten zuzuordnen.
In der unteren Zelle sehen Sie ein Beispiel dafür. Hierbei wird auch der value Wert beachtet. 

In [5]:
M = nx.Graph()
for i in range (0, len(df)):
    M.add_edge(df['source'].iloc[i], df['target'].iloc[i], distance = df['value'].iloc[i])

Eine andere Methode mit der es möglich ist, Kanten zu definieren ist mit der Funktion nx.from_pandas_edgelist. Vorsicht diese Methode beachtet nicht den value Wert aus dem oberen DataFrame! 

Definieren Sie nun mit dem Befehl nx.from_pandas_edgelist(df,source = " ", target=" ") die Beziehung zwischen den Star Wars Charakteren. Speichern Sie das Ergebnis in der Variablen SW_graph.

Was müssen Sie in source = " " und target = " " eintragen? <br>

In [7]:
SW_graph = nx.from_pandas_edgelist(df,source = "source", target="target")
SW_graph

<networkx.classes.graph.Graph at 0x7f76ab4d0520>

### 1.2 Informationen zum Graphen ausgeben lassen 
Mit welcher Funktion aus der Networkx Bibliothek können sie herausfinden wie viele Knoten und Kanten ein Graph hat?

Wie viele Knoten und Kanten hat der SW_graph?

In [None]:
# Hier Code eingeben 

### 1.3 Graphen Visualisieren
Zeichnen Sie nun den Graphen. Benutzen Sie dafür die nx.draw Funktion. Die Knoten sollen außerdem mit ihren Bezeichnungen gezeichnet werden.

Die Größe des Graphen ist voreingestellt. 

Was sagen Sie zu diesem Graphen? 
- Ist der Graph anschaulich? 
- Lässt sich damit herausfinden, wer die Hauptcharaktere sind?

In [None]:
G = nx.Graph(SW_graph)
plt.figure(figsize = (50,40))
# Hier Code eingeben 

Versuchen Sie den unten stehenden Code nachzuvollziehen

- Ist der Graph nun anschaulicher? 
- Sind die Hauptcharaktere erkennbar? 

In [None]:
plt.figure(figsize = (100,100))
layout = nx.spring_layout(G, k = 0.8)
nx.draw_networkx_nodes(G, pos=layout, node_size = 1000, alpha = 0.8, node_color= "red")
nx.draw_networkx_edges(G, pos=layout, width = 3, style = 'dotted', edge_color = 'green')
nx.draw_networkx_labels(G, pos=layout, font_size = 50)
plt.show()

# Aufgabe 2 - Anwendung der Algorithmen
Nun wollen wir uns nochmal genauer mit den in der Präsentation vorgestellten Algorithmen beschäftigen.
Es geht also um die Anwendung des PageRank Algorithmus und die Anwendung Louvian Methode. Benutzen Sie dafür den Graphen M, da dieser auch die value bzw. weight Werte berücksichtigt.

### Aufgabe 2.1 - PageRank Algorithmus 

Wer hat den größen PageRank Wert und was sagt der PageRank Algorithmus in diesem Kontext aus?

Um den PageRank der Charaktere zu berechnen, benutze Sie am besten die nx.pagerank Funktion. Speichern Sie das Ergebnis in der Variablen p_rank.

In [None]:
# Anwendung des Page Rank Algorithmus 
# Hier Code eingeben 

Im unten stehenden Code wird das Ergebnis des PageRanks in zwei Spalten aufgeteilt. Einmal in die Namen und einmal in die PageRank Werte. Diese beiden Spalten werden zunächst in je einem DataFrame gespeichert und anschließend wieder zu einem DataFrame zusammengeführt. 

Versuchen Sie den Code nachzuvollziehen und die obere Frage damit zu beantworten.

In [None]:
# Die Namen von den PageRank Values trennen 
keys = p_rank.keys()
values = p_rank.values()

#DataFrame mit den Namen zu den zugehörigen PageRanks machen
df1 = pd.DataFrame(keys, columns = ['Name'])
df1["ID"] = df1.index + 1

#DataFrame mit den Werten des PageRanks machen
df2 = pd.DataFrame(values, columns = ['Werte'])
df2["ID"] = df2.index + 1

# Beide DataFrames auf der Attribut ID zusammenführen 
df_merge = pd.merge(df1, df2, on = 'ID')

# Attribut ID rausstreichen
df_filter = df_merge[['Name','Werte']]

# DataFrame nach den Werten des PageRank absteigend sortieren 
dfPageRank = df_filter.sort_values(by=['Werte','Name'], ascending=False)

# Ersten zehn Zeilen des DataFrames ausgeben
dfPageRank.head(10)

### Aufgaben 2.2 - Graphen mit den PageRank Werten zeichnen 

Versuchen Sie den vorliegenden Code nachzuvollziehen und ändern sie anschließend folgende Merkmale:

- Layout: spring Layout
- Transparenz der Nodes auf 0.5 
- Node Größe in Abhängigkeit der PageRank Werte 

Hinweise:
- Der Zugriff auf die PageRank Werte erfolgt über p_rank.values()
- Um die Node Größe in Abhängigkeit der PageRank Werte zu übergeben wird eine for Schleife benötigt

In [None]:
# Im unten stehenden Code sollen die Parameter verändert werden
plt.figure(figsize = (100,100))
layout = nx.random_layout(M, k = 2)
nx.draw_networkx_labels(M, pos=layout, font_size = 50)
nx.draw_networkx_nodes(M, pos=layout, node_size = 2000, alpha = 1, node_color= "blue") 
nx.draw_networkx_edges(M, pos=layout, width = 1, style = 'dotted', edge_color = 'green')
plt.show()

### Aufgabe 2.3 - Louvian-Methode 

Versuchen Sie den Code nachzuvollziehen und anschließend folgende Fragen zu beantworten

Wie viele Communities werden hier durch die Louvian-Methode gefunden? Fügen Sie dafür einen Befehl ein, aus dem Sie die Anzahl der Communities sehen können.


Zu welcher Community gehört der Charakter KYLO REN? Erstellen Sie dafür einen Befehl mit dem es möglich ist. Anfragen nach bestimmten Kriterien an ein DataFrame durchzuführen

In [None]:
import community as community_louvain
import matplotlib.cm as cm
import networkx as nx

# Louvian Methode durchführen
partition = community_louvain.best_partition(M)

In [None]:
# Namen und die gefundenen Cluster trennen
keys = partition.keys()
values = partition.values()

# DataFrame mit den Namen der Charakteren erstellen
df1 = pd.DataFrame(keys, columns = ['Name'])
df1["ID"] = df1.index + 1

# DataFrame mit den Communitys der Charaktere erstellen
df2 = pd.DataFrame(values, columns = ['Community'])
df2["ID"] = df2.index + 1

# Beide DataFrames auf der ID Spalte zusammenführen
df_merge = pd.merge(df1, df2, on = 'ID')

# ID Spalte entfernen
df_filter = df_merge[['Name','Community']]

# DataFrame in Abhängigkeit der Community aufsteigend sortieren
dfLouvian = df_filter.sort_values(by=['Community','Name'], ascending=True)

In [None]:
#dfLouvian ausgeben und überprüfen wie viele Cluster identifiziert wurden
# Hier Code eingeben 

In [None]:
#Zeile des DataFrames ausgeben in dem KYLO REN auftaucht
# Hier Code eingeben 

Nochmals alle Cluster des Louvian visuell dargestellt

In [None]:
pos = nx.spring_layout(M)
# Nodefarbe nach der Community ausgeben und Nodes nach der Größe des PageRank ausgeben
plt.figure(figsize = (60,40))
cmap = cm.get_cmap('viridis', max(partition.values()) + 1)
nx.draw_networkx(G, pos, partition.keys(), node_size=[v * 100000 for v in p_rank.values()], cmap= cmap,
                        node_color=list(partition.values()), width=1.0, alpha=1, font_size = 20)
plt.show()

# Bonusaufgabe - Traveling Salesman Problem 


Der Traveling Salesman Problem Algorithmus findet den kürzesten Weg innerhalb eines Netzwerk von einem Knoten zu einem anderen Knoten. Diesen Algorithmus wollen wir nun auf unsere Star Wars Netzwerk anwenden. 

Bestimmen Sie dafür den kürzesten Weg von SHMI zu KYLO REN. Tragen Sie den Weg der Knoten unten ein.



Wie könnte man dieses Ergebnis in unserem Kontext interpretieren?




(Uns ist bewusst, dass wir dieses Thema nicht in unserem Referat behandelt haben. Deshalb ist das hier nur als Bonusaufgabe aufgeführt)

In [None]:
from networkx.algorithms import approximation 

tsp = nx.approximation.traveling_salesman_problem
  
tsp(M, nodes = ['', ''], cycle = False)    #In dem Befehl Links die Charaktere eintragen

### Quelle für den Datensatz
https://github.com/ApoorvRusia/StarWars_Network_Analysis
