# 3.3. Assoziationsregellern

>## <ins>Table of contents</ins>
>* [**3.3.1. Assoziationsregeln**](#3_3_1)
>* [**3.3.2. Der Apriori-Algorithmus**](#3_3_2)
>* [**3.3.3. Der FP-Growth-Algorithmus**](#3_3_3)

## Imports

In [69]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import itertools

Beim Assoziationsregellernen, wie bei anderen unüberwachten Lernverfahren, geht es darum, Strukturen in Daten zu erkennen. Insbesondere werden häufig *zusammen auftretende Mengen von Elementen und Assoziationen zwischen Elementen* gesucht.

## 3.3.1.  Assoziationsregeln <a name="3_3_1"></a>

Die **Eingabedaten für Assoziationsregellernen** sind anders strukturiert als bei anderen maschinellen Lernverfahren. Ein Datensatz besteht aus einer Menge von *Transaktionen*, die jeweils aus einer Menge von Elementen bestehen.


#### **Beispiel 1: Standardbeispiel - Supermarkteinkäufe**:

Jeder Einkauf in einem Supermarkt besteht aus der Menge der eingekauften Artikel. Ein Supermarkt kann daran interessiert sein, aus diesen Daten zu ermitteln, welche Artikel oft zusammen eingekauft werden und ob das Kaufen eines gewissen Artikels den Kauf
eines anderen Artikels impliziert.

Solche Informationen sind aus Marketingperspektive wertvoll. Sie kann dazu genutzt werden, Artikel in der Nähe anderer Artikel zu positionieren, um Einkaufswege zu optimieren oder den Verkauf zu erhöhen.

#### **3.3.1.1.  (Assoziations-)Regel**

Sei $I$ eine Menge beliebiger Elemente.
Ein Datensatz $F$ ist dann eine Multimenge $F = {t_1,...,t_m}$ (die Transaktionen) mit $t_i ⊆ I$, wobei $i = 1,...,m$.

- Eine (Assoziations-)Regel hat die Form $X ⇒ Y$ mit $X,Y ⊆ I$
- Es wird "Wenn X dann auch Y" gelesen.
- Hier heißt $X$ auch Prämisse und $Y$ Konklusion.

Die folgende Tabelle zeigt den Datensatz $F_{supermarket}$, der die Einkäufe in einem Supermarkt (an einem bestimmten Tag oder einer bestimmten Stunde) darstellt. 

In [39]:
import pandas as pd

# Erstellen des DataFrames
F_supermarket = pd.DataFrame({
    'Milch': [1, 0, 1, 1, 1, 1, 1, 0, 1, 1],
    'Käse': [1, 1, 0, 0, 0, 0, 1, 0, 1, 1],
    'Butter': [1, 1, 1, 1, 1, 0, 1, 0, 1, 0],
    'Brot': [1, 1, 0, 0, 0, 0, 1, 0, 0, 1],
    'Kaffee': [0, 1, 1, 0, 1, 0, 1, 0, 0, 1],
    'Zucker': [1, 1, 1, 0, 0, 0, 1, 0, 1, 1],
    'Mehl': [1, 1, 1, 0, 0, 1, 1, 0, 0, 1]
})

# Ausgabe des DataFrames
print(F_supermarket)


   Milch  Käse  Butter  Brot  Kaffee  Zucker  Mehl
0      1     1       1     1       0       1     1
1      0     1       1     1       1       1     1
2      1     0       1     0       1       1     1
3      1     0       1     0       0       0     0
4      1     0       1     0       1       0     0
5      1     0       0     0       0       0     1
6      1     1       1     1       1       1     1
7      0     0       0     0       0       0     0
8      1     1       1     0       0       1     0
9      1     1       0     1       1       1     1


$$I_{supermarket} = \{Milch,Käse,Butter,Brot,Kaffee,Zucker,Mehl\}$$

Der Datensatz wird so gelesen:
- **1** bedeutet, dass das Element in der entsprechenden Transaktion enthalten ist.
- **0** bedeutet, dass das Element nicht vorhanden ist.
-  $F$ ist eine <ins>Multimenge</ins>, daher können die gleichen Transaktionen mehrfach auftreten.
-  **$F$** ist hier $$F = {t_1,...,t_{10}}$$
-  Ein **Beispielstransaktion** ist $$t_3 = {Milch, Butter, Kaffee, Zucker, Mehl}$$
-  Eine allgemeingültige **Assoziationsregel** in $F_{supermarket}$ ist beispielsweise $${Brot} ⇒ {Käse}$$ was bedeutet "*Wenn Brot gekauft wurde, dann wurde auch Käse gekauft*".

    Bei allen Transaktionen, bei denen Brot enthalten ist, ist auch Käse enthalten.

<ins>Das Ziel des Assoziationsregellernens</ins> ist es, Regeln wie {Brot} ⇒ {Käse} automatisch aus dem Datensatz zu extrahieren. Wir sind in der Regel nicht nur an allgemeingültigen Regeln interessiert, sondern an Regeln, die *häufig* auftreten.


#### **3.3.1.2. Evaluationsmetriken für Regeln:** 

Um den Aspekt der Häufigkeit zu formalisieren, gibt es eine Reihe von Evaluationsmetriken für Regeln. Die wichtigsten sind der **Support** und die **Konfidenz** (engl. confidence).

Seien $X, Y ⊆ I$:

- Der **Support von X** in $F$, bezeichnet als $support_F(X)$, ist der Anteil der Transaktionen in den Daten, bei denen $X$ eine Teilmenge ist, zur Gesamtzahl aller Transaktionen. Bzw. Der Prozentsatz der Transaktionen in den Daten die den Artikel oder die Artikelgruppe enthalten.

  Es wird definiert durch:
    $$support_F(X) = \frac{|{t \in F | X \subseteq t}|}{|F|}$$

  Zum Beispiel ist der Support von ${Zucker, Mehl}$ gleich $\frac{5}{10}$, was bedeutet, dass Zucker und Mehl zusammen in $50%$ der Transaktionen vorkommen.

In [40]:
# In Python, der Durchschnitt und der Prozentsatz sind im Grunde das Gleiche, wenn Sie mit binären Daten (0 und 1) arbeiten. 
support_Zucker_Mehl = ((F_supermarket['Zucker'] == 1) & (F_supermarket['Mehl'] == 1)).mean()

print(f"Der Support von {{Zucker, Mehl}} ist {support_Zucker_Mehl * 100}%")

Der Support von {Zucker, Mehl} ist 50.0%


- Der **Support einer Regel X ⇒ Y** in F, bezeichnet als $support_F(X ⇒ Y)$, ist der Anteil der Transaktionen, bei denen die Regel angewendet werden kann, zur Gesamtzahl aller Transaktionen.

  Es wird definiert durch:
    $$support_F(X \Rightarrow Y) = support_F(X \cup Y)$$

In [99]:
def intersection_all_elements(lst):
    result = (F_supermarket[lst[0]] == 1)
    for i in range(1, len(lst)):
        result &=  (F_supermarket[lst[i]] == 1)
    return result

'''
def supportF_regel(list1, list2):
    a = 0
    if len(list2) > 0:
        a = intersection_all_elements(list1+list2).mean()
    else:
        a = intersection_all_elements(list1).mean()
    return a'''
def supportF_regel(list1, list2):
    return intersection_all_elements(list1+list2).mean()
    
def supportF(list1):
    return supportF_regel(list1, [])

- Die **Konfidenz einer Regel X ⇒ Y** in F, bezeichnet als $conf_F(X ⇒ Y)$, ist der Anteil der Transaktionen, bei denen die Regel angewendet werden kann, zur Anzahl der Transaktionen, bei denen die Prämisse der Regel vorhanden ist. Bzw. Der Prozentsatz der Transaktionen, die A enthalten, die auch B enthalten.
  Es wird definiert durch:
    $$conf_F(X \Rightarrow Y) = \frac{support_F(X \cup Y)}{support_F(X)}$$

  Zum Beispiel ist die Konfidenz von ${Zucker, Mehl} ⇒ {Butter}$ gleich $\frac{4}{5}$, was bedeutet, dass, wenn Zucker und Mehl gekauft werden, in 80% der Fälle auch Butter gekauft wird.

In [42]:
# Erstellen Sie eine neue Spalte, die True ist, wenn Zucker, Mehl und Butter gekauft wurden, und False sonst
a = (F_supermarket['Zucker'] == 1) & (F_supermarket['Mehl'] == 1) & (F_supermarket['Butter'] == 1)

# Erstellen Sie eine neue Spalte, die True ist, wenn Zucker und Mehl gekauft wurden, und False sonst
b = (F_supermarket['Zucker'] == 1) & (F_supermarket['Mehl'] == 1)

# Berechnen Sie die Konfidenz, indem Sie den Durchschnitt der Spalte 'Zucker_Mehl_Butter' berechnen und durch den Durchschnitt der Spalte 'Zucker_Mehl' teilen
confidence_Zucker_Mehl_Butter = a.mean() / b.mean()

print(f"Die Konfidenz von {{Zucker, Mehl}} ⇒ {{Butter}} ist {confidence_Zucker_Mehl_Butter * 100}%")


Die Konfidenz von {Zucker, Mehl} ⇒ {Butter} ist 80.0%


In [43]:
def conF(list1, list2):
    return supportF(list1+list2)/supportF(list1)

>Beachten Sie:
>- dass die Werte von $support_F$ und $conf_F$ stets zwischen 0 und 1 liegen.
>
>- Beim Assoziationsregellernen ist es das Ziel, Regeln mit möglichst hohem Support und hoher Konfidenz zu lernen.
>  
>- im Allgemeinen der **Support** einen Hinweis darauf gibt, wie oft eine Regel angewendet werden kann, während die **Konfidenz** angibt, wie gut die Regel den Zusammenhang zwischen Prämisse und Konklusion abbildet.


#### Beispiel 2. Wir fahren mit Beispiel 1 fort. 

Hier gilt beispielsweise:

- $support_{F_{supermarket}}(\{Zucker,Mehl\}) = \frac{5}{10}$
- $support_{F_{supermarket}}(\{Zucker,Mehl,Butter\}) = \frac{4}{10}$
- $support_{F_{supermarket}}(\{Brot\}) = \frac{4}{10}$
- $support_{F_{supermarket}}(\{Brot,Käse\}) = \frac{4}{10}$
- $support_{F_{supermarket}}(\{Zucker,Mehl\} \Rightarrow \{Butter\}) = \frac{4}{10}$
- $conf_{F_{supermarket}}(\{Zucker,Mehl\} \Rightarrow \{Butter\}) = \frac{support_{F_{supermarket}}(\{Zucker,Mehl,Butter\})}{support_{F_{supermarket}}(\{Zucker,Mehl\})} = \frac{4}{5}$
- $support_{F_{supermarket}}(\{Brot\} \Rightarrow \{Käse\}) = \frac{4}{10}$
- $conf_{F_{supermarket}}(\{Brot\} \Rightarrow \{Käse\}) = \frac{support_{F_{supermarket}}(\{Brot,Käse\})}{support_{F_{supermarket}}(\{Brot\})} = 1$


In [44]:
supportF(['Zucker', 'Mehl'])

0.5

In [45]:
supportF(['Zucker', 'Mehl', 'Butter'])

0.4

In [46]:
supportF(['Brot'])

0.4

In [47]:
supportF(['Brot', 'Käse'])

0.4

In [48]:
supportF_regel(['Zucker', 'Mehl'], ['Butter'])

0.4

In [49]:
supportF_regel(['Brot'], ['Käse'])

0.4

In [50]:
conF(['Zucker', 'Mehl'], ['Butter'])

0.8

In [51]:
conF(['Brot'], ['Käse'])

1.0

Da die Kombinationsmöglichkeiten von Elementen aus $I$ zur Bildung einer Regel sehr hoch sind, muss man bei der Suche nach diesen Regeln etwas geschickter vorgehen. Im Folgenden schauen wir uns mit dem **Apriori-Algorithmus** und dem **FP-Growth-Algorithmus** zwei Algorithmen zum Assoziationsregellernen an.

## 3.3.2.  A-Priori-Algorithmus <a name="3_3_2"></a>

- Der Apriori-Algorithmus ist der klassische Algorithmus zum Lernen von Assoziationsregeln aus Daten.
- Neben dem eigentlichen Datensatz bekommt der Algorithmus noch zwei Parameter:
    - Der Parameter $minsupp \in [0,1]$ (minimal support) gibt an, welchen minimalen Wert $support_F(X \Rightarrow Y)$ eine gelernte Regel $X \Rightarrow Y$ haben muss,
    - der Parameter $minconf \in [0,1]$ (minimal confidence) gibt an, welchen minimalen Wert $conf_F(X \Rightarrow Y)$ haben muss.
- Die Ausgabe des Algorithmus besteht dann aus allen Regeln, die diese beiden Bedingungen erfüllen.
- Durch Variation von $minsupp$ und $minconf$ kann die Anzahl gelernter Regeln gesteuert werden.


Der Apriori-Algorithmus verfährt in zwei Schritten:
1. Bestimmung der häufigen Mengen (engl. frequent item sets).
2. Berechne solche Regeln $X \Rightarrow Y$ aus $Z$, sodass $X \cup Y$ häufig ist und für die $conf_F(X \Rightarrow Y) \geq minconf$ gilt.


#### Schritt 1. Bestimmung der häufigen Mengen (engl. frequent item sets).

   Zunächst werden alle Mengen $X \subseteq I$ bestimmt, die $support_F(X) \geq minsupp$ erfüllen.
   Notwendigerweise muss dann für alle Regeln $X \Rightarrow Y$ mit $support_F(X \Rightarrow Y) \geq minsupp$ gelten, dass $X \cup Y = Z$ für solch ein $Z$ gilt.

   Um eine stumpfe Auflistung aller Teilmengen und Überprüfung des Supports zu vermeiden, benutzt der Apriori-Algorithmus die folgende Einsicht.


  **Proposition 1.**
  Sei $X \subseteq I$.
  - Wenn $support_F(X) \geq minsupp$ dann $support_F(X') \geq minsupp$ für jedes $X'  \subseteq X$.
  - Wenn $support_F(X) < minsupp$ dann $support_F(X') < minsupp$ für jedes $X' \supseteq X$.

  Mit anderen Worten, Teilmengen häufiger Mengen sind häufig und Obermengen nicht-häufiger Mengen sind nicht-häufig.


1. **Berechnung der ein-elementigen Mengen**: Der Algorithmus betrachtet zunächst alle ein-elementigen Mengen und berechnet deren Suppor *: Nur die Mengen, deren Support größer oder gleich `minsupp` ist, werden weiter berücksichtigt.**: Aus diesen Mengen werden Kandidaten für häufige zwei-elementige Mengen gebildet, indem je zwei verschiedene ein-elementige Mengen vereinigt werden.n**: Alle zwei-elementigen Mengen, deren Support nicht größer oder gleich `minsupp` ist, werden aussortierten**: Aus den häufigen zwei-elementigen Mengen werden Kandidaten für häufige drei-elementige Mengen gebildet, indem Paare von zwei-elementigen Mengen vereinigt werden, die genau ein Element gemeinsam habegen**: Alle drei-elementigen Mengen, bei denen nicht alle zwei-elementigen Teilmengen häufig sind, werden aussortiert. Ebenso werden alle drei-elementigen Mengen aussortiert, deren Support nicht größer oder gleich `minsupp` ist.
7. **Weiterführung des Prozesses**: Der Algorithmus fährt entsprechend mit der Berechnung häufiger vier-elementiger Mengen fort bis keine weiteren häufigen Mengen gefunden werden.

Dieser Prozess wird iterativ fortgesetzt, bis keine weiteren häufigen Mengen gefunden werden können. Jede Iteration erhöht die Kardinalität der betrachteten Mengen um eins. Der Algorithmus endet, wenn keine weiteren häufigen Mengen gefunden werden können.

##### Schritt 2. Berechne solche Regeln $X \Rightarrow Y$ aus $Z$, sodass $X \cup Y$ häufig ist und für die $conf_F(X \Rightarrow Y) \geq minconf$ gilt.

#### Beispiel 3. Fortsetzung zu Beispiel 2 
Wir betrachten `minsupp = 0.4` und `minconf = 0.9`. Wir führen den Apriori-Algorithmus schrittweise aus.
1. Wir berechnen zunächst die häufigen ein-elementigen Mengen von Fsupermarket und erhalten:
    * $support_{F_{\text{supermarket}}} (\{\text{{Milch}}\}) = 0.8$
    * $support_{F_{\text{supermarket}}}(\{\text{{Käse}}\}) = 0.5$
    * $support_{F_{\text{supermarket}}}(\{\text{{Butter}}\}) = 0.7$
    * $support_{F_{\text{supermarket}}}(\{\text{{Brot}}\}) = 0.4$
    * $support_{F_{\text{supermarket}}}(\{\text{{Kaffee}}\}) = 0.5$
    * $support_{F_{\text{supermarket}}}(\{\text{{Zucker}}\}) = 0.6$
    * $support_{F_{\text{supermarket}}}(\{\text{{Mehl}}\}) = 0.6$
   

   Alle ein-elementigen Mengen sind häufig bzgl. minsupp und damit folgt:
    * $K1 = \{\{\text{{Milch}}\},\{\text{{Käse}}\},\{\text{{Butter}}\},\{\text{{Brot}}\},\{\text{{Kaffee}}\},\{\text{{Zucker}}\},\{\text{{Mehl}}\}\}$

In [52]:
minsupp = 0.4
minconf = 0.9

F_supermarket.columns

Index(['Milch', 'Käse', 'Butter', 'Brot', 'Kaffee', 'Zucker', 'Mehl'], dtype='object')

In [77]:
def get_frequent_items(lst_of_combinations):
    df = pd.DataFrame(columns = ['item', 'frequency'])
    i = 0

    if(isinstance(lst_of_combinations[0], list)):
        for e in lst_of_combinations:
            temp = supportF(e)
            if temp >= 0.4:
                df.loc[i,'item'] = e
                df.loc[i,'frequency'] = temp
                i+=1
    else:
        for e in lst_of_combinations:
            temp = supportF([e])
            if temp >= 0.4:
                df.loc[i,'item'] = e
                df.loc[i,'frequency'] = temp
                i+=1
    
    
    return df

In [152]:
df_1_item = get_frequent_items(F_supermarket.columns)
df_1_item

Unnamed: 0,item,frequency
0,Milch,0.8
1,Käse,0.5
2,Butter,0.7
3,Brot,0.4
4,Kaffee,0.5
5,Zucker,0.6
6,Mehl,0.6


2. Wir berechnen die häufigen zwei-elementigen Mengen. Dazu kombinieren wir alle Paare von ein-elementigen Mengen aus K1 und erhalten:
    * $\text{{support}}_{F_{\text{{supermarket}}}}(\{\text{{Milch}},\text{{Käse}}\}) = 0.4$
    * $\text{{support}}_{F_{\text{{supermarket}}}}(\{\text{{Milch}},\text{{Butter}}\}) = 0.6$
    * $\text{{support}}_{F_{\text{{supermarket}}}}(\{\text{{Milch}},\text{{Brot}}\}) = 0.3$
    * $\text{{support}}_{F_{\text{{supermarket}}}}(\{\text{{Milch}},\text{{Kaffee}}\}) = 0.4$
    * $\text{{support}}_{F_{\text{{supermarket}}}}(\{\text{{Milch}},\text{{Zucker}}\}) = 0.5$
    * $\text{{support}}_{F_{\text{{supermarket}}}}(\{\text{{Milch}},\text{{Mehl}}\}) = 0.5$
    * $\text{{support}}_{F_{\text{{supermarket}}}}(\{\text{{Käse}},\text{{Butter}}\}) = 0.4$
    * $\text{{support}}_{F_{\text{{supermarket}}}}(\{\text{{Käse}},\text{{Brot}}\}) = 0.4$
    * $\text{{support}}_{F_{\text{{supermarket}}}}(\{\text{{Käse}},\text{{Kaffee}}\}) = 0.3$
    * $\text{{support}}_{F_{\text{{supermarket}}}}(\{\text{{Käse}},\text{{Zucker}}\}) = 0.5$
    * $\text{{support}}_{F_{\text{{supermarket}}}}(\{\text{{Käse}},\text{{Mehl}}\}) = 0.4$
    * $\text{{support}}_{F_{\text{{supermarket}}}}(\{\text{{Butter}},\text{{Brot}}\}) = 0.3$
    * $\text{{support}}_{F_{\text{{supermarket}}}}(\{\text{{Butter}},\text{{Kaffee}}\}) = 0.4$
    * $\text{{support}}_{F_{\text{{supermarket}}}}(\{\text{{Butter}},\text{{Zucker}}\}) = 0.5$
    * $\text{{support}}_{F_{\text{{supermarket}}}}(\{\text{{Butter}},\text{{Mehl}}\}) = 0.4$
    * $\text{{support}}_{F_{\text{{supermarket}}}}(\{\text{{Brot}},\text{{Kaffee}}\}) = 0.3$
    * $\text{{support}}_{F_{\text{{supermarket}}}}(\{\text{{Brot}},\text{{Zucker}}\}) = 0.4$
    * $\text{{support}}_{F_{\text{{supermarket}}}}(\{\text{{Brot}},\text{{Mehl}}\}) = 0.4$
    * $\text{{support}}_{F_{\text{{supermarket}}}}(\{\text{{Kaffee}},\text{{Zucker}}\}) = 0.4$
    * $\text{{support}}_{F_{\text{{supermarket}}}}(\{\text{{Kaffee}},\text{{Mehl}}\}) = 0.4$
    * $\text{{support}}_{F_{\text{{supermarket}}}}(\{\text{{Zucker}},\text{{Mehl}}\}) = 0.5$
  

3. Beachten Sie, dass für alle zwei-elementigen Mengen oben die Bedingung von Zeile 9 aus Algorithmus 1 stets erfüllt ist. Wir sortieren noch die Mengen mit Support kleiner 0.4 aus und erhalten:
    * $$K2 = \{\{\text{{Milch}},\text{{Käse}}\},\{\text{{Milch}},\text{{Butter}}\},\{\text{{Milch}},\text{{Kaffee}}\},\{\text{{Milch}},\text{{Zucker}}\},\{\text{{Milch}},\text{{Mehl}}\},\{\text{{Käse}},\text{{Butter}}\},\{\text{{Käse}},\text{{Brot}}\},\{\text{{Käse}},\text{{Zucker}}\},\{\text{{Käse}},\text{{Mehl}}\},\{\text{{Butter}},\text{{Kaffee}}\},\{\text{{Butter}},\text{{Zucker}}\},\{\text{{Butter}},\text{{Mehl}}\},\{\text{{Brot}},\text{{Zucker}}\},\{\text{{Brot}},\text{{Mehl}}\},\{\text{{Kaffee}},\text{{Zucker}}\},\{\text{{Kaffee}},\text{{Mehl}}\},\{\text{{Zucker}},\text{{Mehl}}\}\}$$

In [75]:
def combinations(lst, n):
    if n>2:
        # Flatten the list
        flat_list = [item for sublist in lst for item in sublist]
        
        # Get all unique items
        unique_items = list(set(flat_list))

        list_of_tuples = list(itertools.combinations(unique_items, n))
        # Generate all combinations of 3 items
        return [list(tup) for tup in list_of_tuples] 
    else: 
        combinations = []
        for i in range(len(lst)):
            for j in range(i+1, len(lst)):
            # Append each 2-element combination to the list
                combinations.append([lst[i], lst[j]])
        return combinations


In [78]:
combis = combinations(df_1_item['item'].tolist(), 2)

df_2_item = get_frequent_items(combis)
df_2_item

Unnamed: 0,item,frequency
0,"[Milch, Käse]",0.4
1,"[Milch, Butter]",0.6
2,"[Milch, Kaffee]",0.4
3,"[Milch, Zucker]",0.5
4,"[Milch, Mehl]",0.5
5,"[Käse, Butter]",0.4
6,"[Käse, Brot]",0.4
7,"[Käse, Zucker]",0.5
8,"[Käse, Mehl]",0.4
9,"[Butter, Kaffee]",0.4


Wir berechnen die häufigen drei-elementigen Mengen. Dazu vereinigen wir je zwei zwei-elementige Mengen, die eine drei-elementige Menge erzeugen (d. h., wir vereinigen beispielsweise die Mengen {Milch,Käse} und {Butter,Kaffee} nicht). Wir erhalten zunächst die folgenden Kandidaten:

***{Milch,Käse,Butter}, {Milch,Käse,Brot}, {Milch,Käse,Zucker}, {Milch,Käse,Mehl}, {Milch,Butter,Kaffee},{Milch,Butter,Zucker}, {Milch,Butter,Mehl}, {Milch,Kaffee,Zucker}, {Milch,Kaffee,Mehl}, {Milch,Zucker,Mehl}, {Käse,Butter,Kaffee}, {Käse,Butter,Zucker}, {Käse,Butter,Mehl}, {Käse,Brot,Zucker}, {Käse,Brot,Mehl}, {Käse,Zucker,Mehl}, {Butter,Kaffee,Mehl}, {Butter,Zucker,Mehl}, {Brot,Zucker,Mehl}, {Kaffee,Zucker,Mehl}, {Milch,Käse,Kaffee}, {Käse,Butter,Brot}, {Käse,Zucker,Kaffee}, {Butter,Kaffee,Zucker}, {Butter,Zucker,Brot}, {Butter,Zucker,Kaffee}, {Butter,Mehl,Brot}, {Brot,Zucker,Kaffee}, {Brot,Kaffee,Mehl}***

Nicht alle obigen Mengen erfüllen die Bedingung von Zeile 9 aus Algorithmus 1, beispielsweise gilt für die Menge {Milch,Käse,Brot}, dass die Teilmenge {Milch,Brot} nicht in K2 enthalten ist. Für die übrigen Mengen berechnen wir...


In [79]:
combis = combinations(df_2_item['item'].tolist(), 3)
df_3_item = get_frequent_items(combis)
df_3_item

Unnamed: 0,item,frequency
0,"[Käse, Mehl, Brot]",0.4
1,"[Käse, Mehl, Zucker]",0.4
2,"[Käse, Milch, Zucker]",0.4
3,"[Käse, Butter, Zucker]",0.4
4,"[Käse, Brot, Zucker]",0.4
5,"[Mehl, Milch, Zucker]",0.4
6,"[Mehl, Butter, Zucker]",0.4
7,"[Mehl, Kaffee, Zucker]",0.4
8,"[Mehl, Brot, Zucker]",0.4
9,"[Milch, Butter, Zucker]",0.4


Und damit
***K3 = {{Milch,Käse,Zucker},{Milch,Butter,Zucker},{Milch,Zucker,Mehl},
{Käse,Butter,Zucker},{Käse,Brot,Zucker},{Käse,Brot,Mehl},{Käse,Zucker,Mehl},
{Butter,Zucker,Mehl},{Brot,Zucker,Mehl},{Kaffee,Zucker,Mehl}}***

4. Wir berechnen die häufigen vier-elementigen Mengen. Dazu vereinigen wir je zwei drei-elementige Mengen, die eine vier-elementige Menge erzeugen (d. h., wir vereinigen beispielsweise die Mengen {Milch,Käse,Zucker} und ***{Kaffee,Zucker,Mehl} nicht). Wir erhalten zunächst die folgenden Kandidaten:
{Milch,Käse,Zucker,Mehl}, {Milch,Käse,Zucker,Butter}, {Milch,Butter,Zucker,Mehl}, {Milch,Käse,Zucker,Brot}, {Milch,Zucker,Mehl,Brot}, {Käse,Butter,Zucker,Mehl}, {Milch,Zucker,Mehl,Kaffee}, {Butter,Zucker,Mehl,Kaffee}, {Brot,Kaffee,Zucker,Mehl}, {Käse,Butter,Zucker,Brot}, {Käse,Brot,Mehl,Zucker}, {Käse,Zucker,Mehl,Kaffee}, {Butter,Zucker,Mehl,Brot}***

Von den obigen Mengen erfüllt nur {Käse,Brot,Mehl,Zucker} die Bedingung von Zeile 9 aus Algorithmus 1 und wir erhalten
supportFsupermarket({Käse,Brot,Mehl,Zucker}) = 0.4

In [80]:
combis = combinations(df_2_item['item'].tolist(), 4)
df_4_item = get_frequent_items(combis)
df_4_item

Unnamed: 0,item,frequency
0,"[Käse, Mehl, Brot, Zucker]",0.4


In [150]:
X = df_4_item['item'][0]
X

['Käse', 'Mehl', 'Brot', 'Zucker']

und damit

***K4 = {{Käse,Brot,Mehl,Zucker}}***

5. Da K4 nur ein Element hat, ist K5 = 0/ (wir können keine zwei Elemente aus K4 vereinigen) und damit ist die Bestimmung der häufigsten Mengen abgeschlossen. Die Menge K aller häufigsten Mengen ist damit
$$K = K1 \cup K2 \cup K3 \cup K4$$
Bzw. die nicht-leere Powerset von `K4`:

***{{'Zucker'}, {'Brot'}, {'Mehl'}, {'Käse'}, {'Brot', 'Zucker'}, {'Mehl', 'Zucker'}, {'Mehl', 'Brot'}, {'Käse', 'Zucker'}, {'Käse', 'Brot'}, {'Käse', 'Mehl'}, {'Mehl', 'Brot', 'Zucker'}, {'Käse', 'Brot', 'Zucker'}, {'Käse', 'Mehl', 'Zucker'}, {'Käse', 'Mehl', 'Brot'}}***


In [151]:
def power_set(input_set):
    # Base case: an empty set has one subset, the empty set
    if len(input_set) == 0:
        return [[]]

    # Recursive case:
    # - take an element from the set
    # - find all subsets of the set without this element
    # - the power set is the set of subsets without this element plus the set of subsets with this element
    subsets = power_set(input_set[1:])
    return subsets + [[input_set[0]] + subset for subset in subsets]

def power_set_reduced(my_set):
    lst = power_set(my_set)
    del lst[0]
    del lst[-1]
    return lst

powerset = power_set_reduced(X)
powerset.sort(key=len)
print(powerset)

[['Zucker'], ['Brot'], ['Mehl'], ['Käse'], ['Brot', 'Zucker'], ['Mehl', 'Zucker'], ['Mehl', 'Brot'], ['Käse', 'Zucker'], ['Käse', 'Brot'], ['Käse', 'Mehl'], ['Mehl', 'Brot', 'Zucker'], ['Käse', 'Brot', 'Zucker'], ['Käse', 'Mehl', 'Zucker'], ['Käse', 'Mehl', 'Brot']]


#### Schritt 2. die Konfidenz aller Regeln mit einer ein-elementigen Konklusion vberechnen.

Wir betrachten wir exemplarisch nur die Menge X = {Käse,Brot, 
Mehl,Zucker}. Wir berechnen zuä¨chst die Konfidenz aller Regeln mit einer ein-elementigen Konklusion, di 
man aus X bilden kan:


In [146]:
# Convert X to a set for faster operations
X_set = set(X)

# Generate association rules
association_rules = []
for p in powerset:
    temp = conF(X, p)
    if temp >= minconf:
        association_rules.append((list(X_set - set(p)), p))

# Print the association rules
for rule in association_rules:
    print(f"{rule[0]} --> {rule[1]} = {conF(rule[0], rule[1])}")
    print()

['Käse', 'Brot', 'Mehl'] --> ['Zucker'] = 1.0

['Mehl', 'Käse', 'Zucker'] --> ['Brot'] = 1.0

['Käse', 'Brot', 'Zucker'] --> ['Mehl'] = 1.0

['Mehl', 'Brot', 'Zucker'] --> ['Käse'] = 1.0

['Käse', 'Mehl'] --> ['Brot', 'Zucker'] = 1.0

['Käse', 'Brot'] --> ['Mehl', 'Zucker'] = 1.0

['Käse', 'Zucker'] --> ['Mehl', 'Brot'] = 0.8

['Mehl', 'Brot'] --> ['Käse', 'Zucker'] = 1.0

['Mehl', 'Zucker'] --> ['Käse', 'Brot'] = 0.8

['Brot', 'Zucker'] --> ['Käse', 'Mehl'] = 1.0

['Käse'] --> ['Mehl', 'Brot', 'Zucker'] = 0.8

['Mehl'] --> ['Käse', 'Brot', 'Zucker'] = 0.6666666666666667

['Brot'] --> ['Käse', 'Mehl', 'Zucker'] = 1.0

['Zucker'] --> ['Käse', 'Mehl', 'Brot'] = 0.6666666666666667



Für alle vier Regeln ist die Konfidenz größer oder gleich minconf = 0.9, also gilt

***R1 = {({Brot,Mehl,Zucker} ⇒ {Käse},{Käse,Mehl,Zucker} ⇒ {Brot},{Käse,Brot,Zucker} ⇒ {Mehl},
{Käse,Brot,Mehl} ⇒ {Zucker}}***

***R2 = {{Brot,Mehl} ⇒ {Käse,Zucker},{Brot,Käse} ⇒ {Mehl,Zucker},
{Brot,Zucker} ⇒ {Käse,Mehl},{Käse,Mehl} ⇒ {Zucker,Brot}}***

***R3 = {{Brot} ⇒ {Käse,Zucker,Mehl}}***

9. Da R3 nur ein Element hat, ist R4 = 0/ und damit ist die Bestimmung der Regeln für X abgeschlossen. Eine weiterführende Ausführung des Algorithmus findet insgesamt 29 Assoziationsregeln für minsupp = 0.4 und minconf = 0.9



## 3.3.3.  Der FP-Growth-Algorithmus <a name="3_3_3"></a>

Eine Frequent pattern set $I_f$ beinhaltet alle Elemente `>= minsupp`

#### Beispiel 4. 
Wir betrachten wieder $F_{supermarket} = \{t_1,...,t_{10}\}$ aus Beispiel 1 und nehmen wieder `minsupp = 0.4` an, d. h., $minsupp_{abs} = 4$. Wir bestimmen zunächst den Support aller ein-elementigen Mengen (siehe auch Beispiel 2):

In [159]:
import pandas as pd

# Erstellen des DataFrames
F_supermarket = pd.DataFrame({
    'Milch': [1, 0, 1, 1, 1, 1, 1, 0, 1, 1],
    'Käse': [1, 1, 0, 0, 0, 0, 1, 0, 1, 1],
    'Butter': [1, 1, 1, 1, 1, 0, 1, 0, 1, 0],
    'Brot': [1, 1, 0, 0, 0, 0, 1, 0, 0, 1],
    'Kaffee': [0, 1, 1, 0, 1, 0, 1, 0, 0, 1],
    'Zucker': [1, 1, 1, 0, 0, 0, 1, 0, 1, 1],
    'Mehl': [1, 1, 1, 0, 0, 1, 1, 0, 0, 1]
})

# Ausgabe des DataFrames
print(F_supermarket)


   Milch  Käse  Butter  Brot  Kaffee  Zucker  Mehl
0      1     1       1     1       0       1     1
1      0     1       1     1       1       1     1
2      1     0       1     0       1       1     1
3      1     0       1     0       0       0     0
4      1     0       1     0       1       0     0
5      1     0       0     0       0       0     1
6      1     1       1     1       1       1     1
7      0     0       0     0       0       0     0
8      1     1       1     0       0       1     0
9      1     1       0     1       1       1     1


In [161]:
# Erstellen des neuen DataFrames
transactions = pd.DataFrame({
    'items': [row[row == 1].index.tolist() for _, row in F_supermarket.iterrows()]
})

# Ausgabe des neuen DataFrames
transactions

Unnamed: 0,items
0,"[Milch, Käse, Butter, Brot, Zucker, Mehl]"
1,"[Käse, Butter, Brot, Kaffee, Zucker, Mehl]"
2,"[Milch, Butter, Kaffee, Zucker, Mehl]"
3,"[Milch, Butter]"
4,"[Milch, Butter, Kaffee]"
5,"[Milch, Mehl]"
6,"[Milch, Käse, Butter, Brot, Kaffee, Zucker, Mehl]"
7,[]
8,"[Milch, Käse, Butter, Zucker]"
9,"[Milch, Käse, Brot, Kaffee, Zucker, Mehl]"


In [162]:
frequency = get_frequent_items(F_supermarket.columns)
frequency = frequency.sort_values(by='frequency', ascending=False)
frequency

Unnamed: 0,item,frequency
0,Milch,0.8
2,Butter,0.7
5,Zucker,0.6
6,Mehl,0.6
1,Käse,0.5
4,Kaffee,0.5
3,Brot,0.4


In [165]:
I_f = frequency['item'].tolist()
I_f

['Milch', 'Butter', 'Zucker', 'Mehl', 'Käse', 'Kaffee', 'Brot']

Damit sind alle ein-elementigen Mengen häufig. Aufgrund der Support-Werte definieren wir die Ordnung (Frequent pattern set)
$$I_f = (Milch, Butter, Zucker, Mehl, Kaffee, Käse, Brot)$$

(Ordered Item set)
Damit gilt für die Transaktionen aus Tabelle 1:
- $t_1^f$ = (Milch,Butter,Zucker,Mehl,Käse,Brot)
- $t_2^f$ = (Butter,Zucker,Mehl,Kaffee,Käse,Brot)
- $t_3^f$ = (Milch,Butter,Zucker,Mehl,Kaffee)
- $t_4^f$ = (Milch,Butter)
- $t_5^f$ = (Milch,Butter,Kaffee)
- $t_6^f$ = (Milch,Mehl)
- $t_7^f$ = (Milch,Butter,Zucker,Mehl,Kaffee,Käse,Brot)
- $t_8^f$ = ()
- $t_9^f$ = (Milch,Zucker,Mehl,Kaffee,Käse,Brot)
- $t_{10}^f$ = (Milch,Zucker,Mehl,Kaffee,Käse,Brot)


In [169]:
# Erstellen Sie ein Wörterbuch, das jedem Element in 'I' seine Frequenz zuordnet
frequency_dict = frequency.set_index('item')['frequency'].to_dict()

# Definieren Sie eine Funktion, die die Elemente in 'items' mit den Elementen in 'I' vergleicht,
# die Schnittmenge berechnet, die Elemente basierend auf ihrer Frequenz sortiert und das Ergebnis zurückgibt
def order_items(items):
    intersected_items = [item for item in items if item in I_f]
    return sorted(intersected_items, key=lambda item: frequency_dict[item], reverse=True)

# Wenden Sie die Funktion auf jede Zeile in der Spalte 'items' an und speichern Sie das Ergebnis in einer neuen Spalte 'ordered'
transactions['ordered'] = transactions['items'].apply(order_items)

# Ausgabe des aktualisierten DataFrame 'transactions'
transactions

Unnamed: 0,items,ordered
0,"[Milch, Käse, Butter, Brot, Zucker, Mehl]","[Milch, Butter, Zucker, Mehl, Käse, Brot]"
1,"[Käse, Butter, Brot, Kaffee, Zucker, Mehl]","[Butter, Zucker, Mehl, Käse, Kaffee, Brot]"
2,"[Milch, Butter, Kaffee, Zucker, Mehl]","[Milch, Butter, Zucker, Mehl, Kaffee]"
3,"[Milch, Butter]","[Milch, Butter]"
4,"[Milch, Butter, Kaffee]","[Milch, Butter, Kaffee]"
5,"[Milch, Mehl]","[Milch, Mehl]"
6,"[Milch, Käse, Butter, Brot, Kaffee, Zucker, Mehl]","[Milch, Butter, Zucker, Mehl, Käse, Kaffee, Brot]"
7,[],[]
8,"[Milch, Käse, Butter, Zucker]","[Milch, Butter, Zucker, Käse]"
9,"[Milch, Käse, Brot, Kaffee, Zucker, Mehl]","[Milch, Zucker, Mehl, Käse, Kaffee, Brot]"


![fp-baum](.\dataset\fp-baum.PNG)

Conditional pattern base

Ein nach Algorithmus 3 konstruierter FP-Baum enthält kompakt alle Information über das Auftreten häufiger Elemente und mit welchen anderen häufigeren Elementen diese häufig auftreten. Diese Information ist in den Pfaden von den jeweiligen Elementen bis zur Wurzel enthalten. Schauen wir uns den FP-Baum in Abbildung 2 noch einmal an und betrachten das Element "Mehl". Insgesamt gibt es vier Knoten in dem Baum für das Element "Mehl" und die zugehörigen Pfade (ohne die Wurzel) sind

- $P_1 = (\text{{Mehl}} : 1,\text{{Milch}} : 8)$
- $P_2 = (\text{{Mehl}} : 1,\text{{Zucker}} : 1,\text{{Milch}} : 8)$
- $P_3 = (\text{{Mehl}} : 3,\text{{Zucker}} : 4,\text{{Butter}} : 6,\text{{Milch}} : 8)$
- $P_4 = (\text{{Mehl}} : 1,\text{{Zucker}} : 1,\text{{Butter}} : 1)$



Aus diesen Pfaden kann man ablesen, dass "Mehl" 1-mal in Kombination mit "Milch" auftritt , 1-mal mit "Zucker" und "Milch", 3-mal mit "Zucker", "Butter" und "Milch" und 1-mal mit "Zucker" und "Butter".

>(beachten Sie, dass für diese Beobachtung nur die Frequenz des betrachteten Elements von Relevanz ist, nicht die Frequenz der anderen Knoten)

Betrachten wir nun den folgenden Datensatz $F'_{\text{{supermarket}}}$:
$F'_{\text{{supermarket}}} = \{\{\text{{Milch}}\},
\{\text{{Zucker,Milch}}\},\{\text{{Zucker,Butter,Milch}}\},\{\text{{Zucker,Butter,Milch}}\},\{\text{{Zucker,Butter,Milch}}\},\{\text{{Zucker,Butter}}\}\}$


$F'_{\text{{supermarket}}}$ enthält genau die in $F_{\text{{supermarket}}}$ enthaltenen Informationen zu häufigen Elementen, die mit "Mehl" zusammen vorkommen und vor "Mehl" in $I_f$ einsortiert sind. Insbesondere gilt:
- $M \subseteq \{\text{{Milch}},\text{{Butter}},\text{{Zucker}},\text{{Mehl}}\}$ ist eine häufige Menge in $F_{\text{{supermarket}}}$ mit "Mehl" $\in M$ (bzgl. minsuppabs)
- gdw. $M \setminus \{\text{{Mehl}}\}$ eine häufige Menge in $F'_{\text{{supermarket}}}$ ist (bzgl. minsuppabs).

Die obige Einsicht erlaubt es, zur Bestimmung aller häufigen Mengen $M \subseteq \{\text{{Milch}},\text{{Butter}},\text{{Zucker}},\text{{Mehl}}\}$ mit "Mehl" $\in M$ einfach die häufigen Mengen von $F'_{\text{{supermarket}}}$ zu bestimmen und "Mehl" hinzuzufügen. Hierzu kann man dann den (noch zu konkretisierenden) FP-Growth-Algorithmus rekursiv aufrufen. Den Datensatz $F'_{\text{{supermarket}}}$ nennt man auch den zu "Mehl" konditionierten Datensatz und dieser ist allgemein wie folgt definiert.


In [172]:
conditional_df = frequency.drop('frequency', axis=1)
conditional_df

Unnamed: 0,item
0,Milch
2,Butter
5,Zucker
6,Mehl
1,Käse
4,Kaffee
3,Brot


In [180]:
conditional_df['CP-base'] = None
conditional_df['CP-base'][0] = [([], 8)]
conditional_df['CP-base'][1] = [(['Butter','Zucker','Mehl','Kaffee'], 1),
                                   (['Milch','Butter','Zucker','Mehl','Käse'], 1),
                                  (['Milch','Butter','Zucker','Käse'], 1),
                                  (['Milch','Zucker','Mehl','Kaffee'], 1)]
conditional_df['CP-base'][2] = [([], 1), (['Milch'], 6)]
conditional_df['CP-base'][3] = [(['Butter','Zucker','Mehl','Kaffee', 'Käse'], 1), 
                                (['Milch', 'Butter','Zucker','Mehl','Kaffee', 'Käse'], 1), 
                                (['Milch','Butter','Zucker','Mehl', 'Käse'], 1),
                               (['Milch','Zucker','Mehl','Kaffee', 'Käse'], 1)]
conditional_df['CP-base'][4] = [(['Butter','Zucker','Mehl'], 1),
                               (['Milch', 'Butter'], 1),
                               (['Milch', 'Butter','Zucker','Mehl'], 2),
                               (['Milch','Zucker','Mehl'], 1)]
conditional_df['CP-base'][5] = [(['Butter'], 1),
                               (['Milch', 'Butter'], 4),
                               (['Milch'], 1)]
conditional_df['CP-base'][6] = [(['Milch'], 1),
                               (['Milch','Zucker'], 1),
                               (['Milch', 'Butter','Zucker'], 3),
                               (['Butter','Zucker'], 1)]

conditional_df

Unnamed: 0,item,CP-base
0,Milch,"[([], 8)]"
2,Butter,"[([], 1), ([Milch], 6)]"
5,Zucker,"[([Butter], 1), ([Milch, Butter], 4), ([Milch]..."
6,Mehl,"[([Milch], 1), ([Milch, Zucker], 1), ([Milch, ..."
1,Käse,"[([Butter, Zucker, Mehl, Kaffee], 1), ([Milch,..."
4,Kaffee,"[([Butter, Zucker, Mehl], 1), ([Milch, Butter]..."
3,Brot,"[([Butter, Zucker, Mehl, Kaffee, Käse], 1), ([..."
