# Reihenfolge der Kandidatengenerierung
In den vorangegangenen Abschnitten wurden verschiedene Algorithmen vorgestellt, die häufige Muster in Transaktionen und Sequenzen suchen. Verfahren, die Kandidaten generieren, gehen dabei auf verschiedene Weisen vor, die kurz veranschaulicht werden sollen.

In [None]:
from tui_dsmt.fpm import ItemsetGrid, ItemsetGridApriori, ItemsetGridECLAT, extended_numbers

## Inhaltsverzeichnis
- [Itemset Gitter](#Itemset-Gitter)
- [Apriori-Algorithmus](#Apriori-Algorithmus)
- [ECLAT-Algorithmus](#ECLAT-Algorithmus)

## Itemset Gitter
Der nachfolgende Datensatz erhält kodiert einige IDs als Transaktionsdaten. Im Gegensatz zu einem vorangeganenen Kapitel wurden weitere Transaktionen hinzugefügt, um die Darstellung zu verbessern.

In [None]:
extended_numbers

Das nachfolgende Schaubild zählt alle möglichen Itemsets auf und setzt diese in Verbindung zueinander. Die Itemsets fungieren dabei als Knoten eines Graphen, während eine Kante zwischen zwei Itemsets eingefügt wird, sobald die erste eine Teilmenge der zweiten ist und die Länge der beiden sich um genau $1$ unterscheidet.

Werden die Itemsets nach ihrer Länge gruppiert und reihenweise aufgezählt, entsteht die folgende Darstellung. Begonnen wird mit der leeren Menge, zu der jeweils eines der Items hinzugenommen werden kann. Zu diesen können wiederum schrittweise weitere Items hinzugenommen werden, bis die Menge aus allen zur Verfügung stehenden Items entsteht.

In [None]:
ItemsetGrid(extended_numbers)

## Apriori-Algorithmus
In der anschließenden Zelle können Sie die Kandidatengenerierung innerhalb des Itemset-Gitters schrittweise beobachten. Zunächst wird mit der leeren Menge gestartet, $C_1$ und $L_1$ erzeugt und dann iterativ mit den jeweiligen Join-, Pruning- und Filter-Schritten fortgefahren.

Erzeugte Kandidaten werden blau markiert. Sobald diese durch Pruning oder Filterung entfernt werden, werden sie rot eingefärbt. Grau gebliebene Itemsets werden dagegen gar nicht erreicht, weil sie frühzeitig ausgeschlossen wurden.

In [None]:
ItemsetGridApriori(extended_numbers)

Interessant ist dabei insbesondere die Reihenfolge, in welcher der Apriori-Algorithmus die Kandidaten generiert. Ausgehend von der leeren Menge werden zuerst alle 1-Itemsets erzeugt, dann alle 2-Itemsets, und so weiter. In jedem Schritt steigt damit die Distanz zum Start um genau eine Kante, die entsprechenden Itemsets werden abgearbeitet, um anschließend mit der nächsten "Ebene" fortzufahren.

Die Konstruktion der Kandidatenmengen entspricht demnach der Breitensuche innerhalb eines Graphen.

## ECLAT-Algorithmus
Nachfolgende können Sie die Traversierung des Itemset-Gitters mit Hilfe des ECLAT-Algorithmus betrachten. Die Farbgebung ist dabei komplizierter und teilt sich wie folgt ein:
- In das Ergebnis aufgenommene Itemsets sind im gewohnten, dunklen blau eingefärbt.
- Zur Erzeugung im aktuellen Schritt verwendete Itemsets sind grün.
- Frisch erzeugte Itemsets sind cyan markiert.
- Auf Grund des minimalen Supports herausgefilterte Itemsets sind rot, während akzeptierte Kandidaten ins dunklere blau wechseln.

In [None]:
ItemsetGridECLAT(extended_numbers)

Auch an dieser Stelle sei auf die Reihenfolge der Kandidatengenerierung hingewiesen. Der ECLAT-Algorithmus versucht zunächst die entstehenden Itemsets immer weiter zu größeren zu kombinieren, bis keine neuen Kandidaten mehr gefunden werden. Erst danach werden andere Wege gesucht und somit mit kleineren Itemsets fortgefahren.

Die Konstruktion der Kandidatenmengen entspricht demnach der Tiefensuche innerhalb eines Graphen.