<a href="https://colab.research.google.com/github/NiklasNesseler/DataMining/blob/main/Data_Mining.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Data Mining


*   Prozess der Extraktion von Mustern, Zusammenhängen und nützlichen Informationen aus großen Datenmengen
*   kombiniert Techniken aus verschiedenen Disziplinen
*   Prozess, interessante Muster und Wissen aus großen Datenmengen zu entdecken
*   Prozess, automatisch nützliche Informationen in großen Datenbeständen zu entdecken
* Prozess, aufschlussreiche, interessante und neuartige Muster sowie beschreibende, verständliche und prädiktive Modelle aus großen Datenmengen zu extrahieren

## Ziele von Data Mining

* Vorhersagen treffen
* Zusammenhänge aufdecken
* Cluster identifizieren
* Anomalien erkennen


## Techniken im Data Mining

1. Clustering
2. Klassifikation
3. Regressionsanalyse
4. Assoziationsregeln
5. Dimensionsreduktion





# Graphdaten

* spezielle Form von Daten, die Beziehungen zwischen Objekten erstellen
* besteht aus Nodes und Kanten

## Anwendungsbereiche von Graphdaten

* Soziale Netzwerke
* Verkehrsnetzwerke
* Finanztransaktionen

## Eigenschaften von Graphdaten

* Es gibt gerichtete und ungerichtete Graphen
* Es gibt gewichtete und ungewichtete Graphen
* Es gibt Sparse und Dense Graphs

## Wichtige Konzepte in der Graphanalyse

* Zentralitätsmaße
* Community Detection
* Graph Cut
* Graphenrepräsentation


#Streams

* kontinuierlich, potenziell unendlich große Mengen an Daten, die mit hoher Geschwindigkeit generiert werden
* erfordert spezielle Techniken, da die gesamte Datenmenge nicht vollständig gespeichert werden kann


## Eigenschaften von Data Streams

1. Unendlicher Datenfluss
2. Echtzeitverarbeitung
3. Begrenzte Speicherkapazität
4. Dynamische Datenveränderung

## Beispiele für Data Streams

* Sensordaten
* Netzwerküberwachung
* Soziale Netzwerke

## Techniken zur Data Stream Verarbeitung

* Stichprobenziehung
* Sliding Windows
* DGIM Algorithmus
* Bloom Filter
* Flajolet-Martin-Algorithmus
* Exponentially Decaying Window

# Transitivität

* die Wahrscheinlichkeit, dass 2 Knoten, die mit einem dritten Knoten verbunden sind, auch direkt miteinander verbunden sind
* wichtiger Aspekt in der Analyse sozialer Netzwerke und anderen Graphstrukturen

## Warum ist das Wichtig?

1. Soziale Netzwerke
2. Betrugserkennung
3. Empfehlungssysteme
4. Biologische Netzwerke

# Clustering Coefficient
* Ein Maß für die Transitivität
* wird häufig in Sozialen Netzwerken und anderen Graphstrukturen verwendet

## Anwendungsfälle
* Soziale Netzwerke
* Betrugserkennung
* Informationsnetzwerke

# Community Detection

* Methode zur Identifikation von Gruppen von Knoten in einem Graphen

## Methoden zur Community Detection
1. Modularity Maximization
2. Girvan-Newman-Algorithmus
3. Spectral Clustering
4. Louvain Methode

* Hilft Netzwerkstrukturen zu verstehen


# Girvan Newman Algorithmus
* Methode zur Erkennung von Gemeinschaften in Netzwerken
* Basiert auf der Edge Betweenness Centrality
* Gut für kleine bis mittelgroße Netzwerke geeignet
* Hohe Rechenkosten für große Netzwerke

## Ablauf des Algorithmus
1. Berechnung der Edge-Betweenness Centrality für alle Kanten
2. Entferne Kanten mit höchster EBC
3. Wiederhole 1 und 2



In [None]:
import networkx as nx
from networkx.algorithms.community import girvan_newman

G = nx.karate_club_graph()
communities = girvan_newman(G)

first_partition = next(communities)
print("Community 1: ", list(first_partition[0]))
print("Community 1: ", list(first_partition[1]))

Community 1:  [0, 1, 3, 4, 5, 6, 7, 10, 11, 12, 13, 16, 17, 19, 21]
Community 1:  [2, 8, 9, 14, 15, 18, 20, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33]


# Edge Betweenness

* Zentralitätsmaß das beschreibt, wie oft eine Kante auf den kürzesten Pfaden zwischen allen Knotenpaaren eines Netzwerks liegt

In [None]:
G = nx.Graph()
G.add_edges_from([("A", "B"), ("B", "C"), ("C", "F"), ("F", "E"), ("E", "D"), ("D", "A"), ("B", "E")])
edge_betweenness = nx.edge_betweenness_centrality(G)
for edge, betweenness in edge_betweenness.items():
  print(f"Edge: {edge}, Betweenness: {betweenness}")

Edge: ('A', 'B'), Betweenness: 0.2666666666666666
Edge: ('A', 'D'), Betweenness: 0.17777777777777776
Edge: ('B', 'C'), Betweenness: 0.26666666666666666
Edge: ('B', 'E'), Betweenness: 0.2444444444444444
Edge: ('C', 'F'), Betweenness: 0.17777777777777776
Edge: ('F', 'E'), Betweenness: 0.2666666666666666
Edge: ('E', 'D'), Betweenness: 0.26666666666666666


#Modularität

* Maß, wie gut ein Graph in Communities aufgeteilt ist


In [None]:
from networkx.algorithms.community import modularity, girvan_newman

G = nx.Graph()
G.add_edges_from([("A", "B"), ("B", "F"), ("F", "E"), ("E", "A"), ("C", "D"), ("D", "H"), ("H", "G"), ("G", "C")])

communities = next(girvan_newman(G))
community_list = [list(c) for c in communities]
modularity_value = modularity(G, community_list)
print("Gefundene Communities: ", community_list)
print(f"Modularität: , {modularity_value:.4f}")

Gefundene Communities:  [['A', 'E'], ['B', 'F'], ['C', 'D', 'H', 'G']]
Modularität: , 0.3750


#Spectral Graph Partitioning
* Methode zur Community Detection in Graphen
* Nutzt die Eigenwerte und Eigenvektoren der Laplace Matrix um den Graphen in Cluster zu unterteilen
* Effizient für große Netzwerke
* Kein Entfernen von Kanten nötig
* Man verwandelt den Graphen in eine Matrix, berechnet Eigenwerte und Eigenvektoren und nutzt den zweitkleinsten Eigenvektor zur Aufteilung


In [None]:
import numpy as np
import scipy.linalg as la
import matplotlib.pyplot as plt

G = nx.Graph()
G.add_edges_from([("A", "B"), ("B", "F"), ("F", "E"), ("E", "A"), ("C", "D"), ("D", "H"), ("H", "G"), ("G", "C")])

L = nx.laplacian_matrix(G).toarray()

eigenvalues, eigenvectors = la.eigh(L)

fiedler_vector = eigenvectors[:, 1]

cluster1 = [list(G.nodes())[i] for i in range(len(fiedler_vector)) if fiedler_vector[i] > 0]
cluster2 = [list(G.nodes())[i] for i in range(len(fiedler_vector)) if fiedler_vector[i] <= 0]

print("Cluster 1:", cluster1)
print("Cluster 2:", cluster2)

pos = nx.spring_layout(G)
nx.draw(G, pos, with_labels=True, node_color=["red" if node in cluster1 else "blue" for node in G.nodes()])

plt.s