# Statistik für Biologen - Übung 10

### AG Supramolekulare und zelluläre Simulationen (Prof. Fischer), CCTB, Fakultät für Biologie, Universität Würzburg
Fragen und Anregungen gerne an sabine.fischer@uni-wuerzburg.de

## Netzwerk Analyse mit networkx
<p style='text-align: justify;'>Netzwerk Analysen wird schwieriger je größer das Netzwerk ist, nennenswerte/interessante Zusammenhänge lassen sich jedoch nur aus großen Netzwerken ableiten. Es ist somit nötig die Rechenleistung eines Computers zu nutzen. Python bietet mit dem Paket networkx ein nutzerfreundliches Paket an Funktionen zur Erstellung und Analyse von Graphen (Netzwerken).</p>

### Einen Graphen erstellen:

<p style='text-align: justify;'>Das Erstellen eines Graphen mit networkx ist vergleichsweise simpel und benötigt nur wenige Befehle:</p>

```Python
G = nx.Graph()
#erstellt einen leeren ungerichteten Graphen
G = nx.DiGraph()
#erstellt einen leeren gerichteten Graphen

G.add_node(1)
G.add_nodes_from([2,3])
#fügen einzelne Knoten oder eine Liste von Knoten hinzu

G.add_edge(1,2)
G.add_edges_from([(1,2),(1,3)])
#fügen Kanten oder eine Liste von Kanten hinzu

nx.draw(G, with_labels=True)
plt.show()
#zeigt den Graphen an

G.remove_node(1)
G.remove_edge(1,2)
#löscht einen Knoten oder eine Kante

G.clear()
#löscht den gesamten Inhalt des Graphen
```
### Aufgaben:
> - Importiere networkx als nx und matplotlib.pyplot als plt
- Erstelle einen Graphen mit 9 Knoten und 9 Kanten, lasse ihn anzeigen

### Graphen Parameter abfragen:
<p style='text-align: justify;'>Bei einem Netzwerk dieser Größe lassen sich alle Parameter noch einfach überblicken, es ist leicht zu erkennen wie die Knoten verknüpft sind oder generell wie viele Knoten und Kanten vorkommen.
<br>Bei großen Graphen ist dies graphisch meist nicht mehr möglich, deshalb bietet networkx die Möglichkeit Knoten und Kanten abzufragen, im Rahmen eines Skriptes können diese Funktionen auch für Rechenoperationen genutzt werden:</p>

```Python
G.nodes() #alle enthaltenen Knoten
G.edges() #alle enthaltenen Kanten
G.edges(1) #alle von Knoten 1 ausgehende Kanten
G.degree() #Anzahl ausgehender Kanten für jeden Knoten
G.degree(1) #Anzahl von Knoten 1 ausgehender Kanten
```
<p style='text-align: justify;'>
Es können statt einzelner Knoten auch Listen von Knoten an die Funktionen übergeben werden.
</p>    

```Python
G.adj[1] #alle mit Knoten 1 verknüpften Knoten
list(g.adjacency()) 
#zeigt alle Knoten und deren Nachbarn an
```
<p style='text-align: justify;'>
Neben diesen Funktionen gibt es noch weiter Funktionen, um grundlegende Eigenschaften eines Graphen abzufragen, weitere Informationen findet ihr unter:</p>

https://networkx.github.io/documentation/stable/reference/functions.html

### Aufgaben:
> - Teste die Funktionen mit dem zuvor erstellten Graphen

### Attribute:
<p style='text-align: justify;'>Graphen, Knoten und Kanten können Attribute zugeordnet werden, so kann man z.B. definieren, dass eine Verknüpfung zwischen zwei Knoten eine höhere Gewichtung (weight) hat als eine andere. <br>Entweder ordnet man den Kanten bereits bei deren Erstellung ein weight zu, oder man kann nachträglich beliebige Attribute hinzufügen.</p>

```Python
G.add_weighted_edges_from([(1,2, 0.25),(2,3, 0.5)])
#die ersten beiden Zahlen definieren die Kante, die dritte die Gewichtung

G = nx.Graph(Typ="Prokaryot") 
#ordnet dem Graphen bei Erstellung ein Attribut zu 
G.graph['Typ'] = "Eukaryot"
#ordnet dem Graphen nachträglich ein Attribut zu

G.nodes[1]['Größe'] = "5"
#ordnet einem Knoten ein Attribut zu
G.add_nodes_from([6,7,8],Attribut = 10) #Attribut steht hier für eine beliebige Variable
#ordnet einer Liste von Knoten ein Attribut zu

G.edges[1,2]['Distanz'] = "2"
#ordnet einer Kante ein Attribut zu
G.add_edgess_from([(6,3),(7,8),(8,9)],Attribut = 10) #Attribut steht hier für eine beliebige Variable
#ordnet einer Liste von Kanten ein Attribut zu
```
<p style='text-align: justify;'>Die Attribute von Graphen, Knoten und Kanten werden bei machen Funktionen automatisch mit angezeigt. Sie können aber auch gezielt je Klasse angezeigt werden.</p>

```Python
G.nodes.data()
G.edges.data()
G.graph()
#zeigen jeweils die Attribute der Klassen an
```

### Aufgaben:
> - Ordne dem zuvor erstellten Graphen, seinen Knoten und Kanten Attribute zu
- Nutze erneut die Funktion `list(g.adjacency())`
- Lass dir die Attribute anzeige

### Graphen schneller erstellen / laden:
<p style='text-align: justify;'>Um schnell größere Netzwerke zu laden können ganze Listen von Knoten und Kanten geladen werden oder Graphen direkt aus einer Datei oder einem Dataframe erstellt werden.</p>

```Python
G = nx.from_pandas_edgelist(df, source = 'Spalte1', target = 'Spalte2', edge_attr = ['Spalte3', 'Spalte4'], create_using = nx.DiGraph())
```
<p style='text-align: justify;'>(erstellt einen gerichteten Graphen mit Kanten von Knoten aus Spalte1 zu Knoten aus Spalte2 und ordnet den Kanten den jeweiligen Wert aus den Spalten 3 und 4 als Attribut zu)</p>

### Aufgaben:
> - Importiere das Paket Pandas als pd
- Lade die Datei: Routen.csv in eine Variable
- Lass dir den Kopf des Dataframe anzeigen (df.head())

> - Nutze den Dataframe um einen gerichteten Graphen, dessen Kanten die Attribute Anzahl und Distanz haben, zu erstellen
- Lass alle Knoten und deren Nachbarn anzeigen

> - Lass den Graphen anzeigen

### Analyse Algorithmen:
<p style='text-align: justify;'>Neben den Möglichkeiten zur Abfrage von Grundlegenden Eigenschaften eines Graphen bietet networkx viele integrierte Algorithmen zur Analyse von Graphen, im Folgenden werden nur einige wenige behandelt, weitere Informationen zu den einzelnen Algorithmen sowie weiteren Möglichkeiten von networkx unter:</p>

https://networkx.github.io/documentation/stable/reference/algorithms/index.html

```Python
nx.density(G) 
#Wert zw. 0/1, repräsentiert die Vernetzung des Graphen
nx.average_node_connectivity(G) 
#Wert repräsentiert die Stabilität des Graphen

nx.has_path(G, Knoten1, Knoten2) 
#besteht eine Verbindung zwischen den Knoten?
nx.shortest_path(G,weight='Distanz') 
#listet alle kürzesten Wege zwischen den Knoten des Graphen auf (weight ist optional)
nx.shortest_path(G, Knoten1, Knoten2,weight='Distanz') 
#kürzester Weg zwischen Knoten1 und Knoten2
nx.average_shortest_path_length(G, weigt='Distanz') 
#Durchschnittliche Länge der kürzesten Wege (weight ist optional)

nx.degree_centrality(G) 
#Listet für Jeden Knoten dessen Bedeutung im Netzwerk auf (Anzahl an ausgehenden Kanten)
nx.eigenvector_centrality_numpy(G,weight='Distanz') 
#Listet für Jeden Knoten dessen Bedeutung im Netzwerk auf (Einfluss auf das Netzwerk, sowie Bedeutung der benachbarten Knoten)
```

### Aufgaben:
> - Analysiere den zu Beginn erstellten Graphen

> - Analysiere den Flugrouten-Graphen, finde die wichtigsten Knoten im Netzwerk und überlege wie man am schnellsten im Netzwerk reisen kann.

## Weitere Anwendungen:
<p style='text-align: justify;'>Abschließend soll noch eine Funktion für Baum-Graphen, wie z.B. phylogenetische Bäume vorgestellt werden. Mit diesem Algorithmus kann schnell und einfach der letzte gemeinsame Vorfahre (lca) zweier Knoten des "Baums" gefunden werden:</p>

```Python
nx.lowest_common_ancestor(G, Knoten1, Knoten2)
```
### Aufgaben:
> - Führe die folgende Codezelle aus um einen Graphen zu laden
- Suche den lca verschiedener Knoten Paare in diesem Graphen

In [None]:
baum = nx.DiGraph()
baum.add_nodes_from([1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20])
baum.add_edges_from([(1,2),(2,3),(2,4),(3,5),(4,6),(5,7),(5,9),(5,11),(6,8),(6,10),(7,13),(7,15),(9,17),(9,19),(8,12),(10,14),(12,16),(12,18),(16,20)])
nx.draw(baum,with_labels=True)
plt.show()

## Für die Schnellen:

<p style='text-align: justify;'>Oft ist einer der umständlichsten Teile der Daten Analyse die Vorbereitung der Daten. Stehen die Daten nicht im benötigten Format zur Verfügung können sie nicht analysiert werden und müssen erst aufgearbeitet werden.</p>

### Aufgaben:
> - Gehe auf https://openflights.org/data.html und informiere dich über die Rohdaten
- erstelle eine Liste mit den Spalten Namen
- Lade die Rohdaten von OpenFlight direkt als Dataframe mit den Zuvor festgelegten Spalten Namen: https://raw.githubusercontent.com/jpatokal/openflights/master/data/airports.dat
- Erstelle einen neuen Dataframe, welcher nur die Flughäfen in Deutschland und nur die Spalten Name, Lat, Long, IATA und ICAO enthält
- Entferne alle Zeilen, welche keine korrekte IATA enthalten

### Für die ganz Schnellen:
> - Erstelle ein Dictionary mit der geographischen Position jedes Flughafens
-  Lass den Flugrouten-Graphen so darstellen, dass die Knoten in der zueinander „geographisch korrekten“ Position dargestellt werden 