# Motivation und Definitionen
Sequential Pattern Mining ist eine Data-Mining-Technik, die verwendet wird, um interessante sequenzielle Muster in Datensätzen zu entdecken. Im Gegensatz zu den zuvor gezeigten Problemen und Lösungsansätzen spielt also die Reihenfolge eine Rolle.

In [None]:
from tui_dsmt.fpm import sequential_receipts

## Inhaltsverzeichnis
- [Anwendung: Warenkorbanalyse](#Anwendung-Warenkorbanalyse)
- [Definitionen](#Definitionen)
- [Trivialer Algorithmus](#Trivialer-Algorithmus)

## Anwendung: Warenkorbanalyse
Durch Self-Scanning lassen sich nicht nur Warteschlangen im Kassenbereich vermeiden, sondern auch die Reihenfolge der ausgewählten Lebensmittel minutiös nachverfolgen. Die folgenden Transaktionen könnten beispielsweise einem solchen Self-Scanning Prozess entstamment und sind daher mit fester Sortierung gegeben.

In [None]:
sequential_receipts

Ziel ist es nun, Muster zu finden, welche die Reihenfolge der Items respektiert. Beispiele für diese sind:
- $Brot \rightarrow Milch$ mit den zwei Transaktionen $1$, $4$ und $5$. ($5$ gehört dazu, obwohl durch Eier unterbrochen wird.)
- $Brot \rightarrow Milch \rightarrow Käse$ mit den zwei Transaktionen $1$ und $4$.

## Definitionen
- Eine **diskrete Sequenz** $S$ ist eine endliche, geordnete Liste von Items $S = <i_1, i_2, \dots, i_n>$ mit $i_j \in I$.
- Eine **Datenbank** $D$ besteht aus verschiedenen Sequenzen $D = \{ S_1, S_2, \dots, S_N \}$.
- Die **Länge einer Sequenz** $|S|$ ist die Anzahl der in dieser Sequenz enthaltenen Items.
- Eine **k-Sequenz** ist eine Sequenz der Länge $k$.

---

- Eine **zusammenhängende Subsequenz** $R = <r_1, r_2, \dots, r_m>$ von $S = <s_1, s_2, \dots, s_n>$ ist eine Sequenz derart, dass $r_1 = s_j$, $r_2 = s_{j+1}$, $\dots$, $r_m = s_{j+m-1}$ mit $1 \leq j \leq n - m + 1$. $R$ ist dann in $S$ enthalten oder auch $R \subseteq S$.
- Eine **(beliebige) Subsequenz** $R$ von $S$ bedeutet, dass alle Elemente aus $R$ in $S$ in der richtigen Reihenfolge enthalten sein müssen. Lücken zwischen den Einträgen sind im Gegensatz zu zusammenhängendenen Subsequenzen erlaubt: $r_1 = s_{a_1}$, $r_2 = s_{a_2}$, $\dots$, $r_m = s_{a_m}$ mit $a_1 < a_2 < \dots < a_m$
- Ein **Präfix** der Länge $i$ einer Sequenz $S$ mit Länge $n$ ist eine zusammenhängende Subsequenz der Form $S[1:i] = <s_1, s_2, \dots, s_i>$ mit $0 \leq i \leq n$.
- Ein **Suffix** der Länge $i$ einer Sequenz $S$ mit Länge $n$ ist eine zusammenhängende Subsequenz der Form $S[i:n] = <s_{i}, s_{i+1}, \dots, s_{n}>$ mit $1 \leq i \leq n+1$.

## Trivialer Algorithmus
Analog zu den häufigen Itemsets lassen auch sequentielle Muster über einen Brute-Force Ansatz finden. Dafür werden wie bereits zuvor alle möglichen Muster erzeugt und deren Häufigkeit in der Datenbank festgestellt.

In [None]:
min_supp = 2

In [None]:
for _, i in sequential_receipts.item_powerset:
    support = i.count_in(sequential_receipts)
    if support >= min_supp:
        print(f'{support=}', ' ', i, sep='')

Die Funktion `item_powerset` generiert nur Sequenzen, deren maximale Länge der maximalen Länge der in der Datenbank enthaltenen Sequenzen entspricht. Da die Reihenfolge entscheidend ist, ergibt sich die Anzahl der zu betrachtenden Sequenzen für $N=$ Anzahl der Items und $k=$ maximale Länge der Sequenzen in der Transaktionsdatenbank: $$ \sum_{i=1}^{k} \frac{N!}{(N-i)!} $$

Im oben gezeigten Fall mit fünf verschiedenen Items und einer maximalen Sequenzlänge von vier sind das bereits $205$ Kandidaten. Dies also erneut kein Ansatz, der auf nichttriviale Transaktionsdatenbanken angewendet werden kann.