# Assoziationsanalysen

Bei dieser Art der Analyse spricht man häufig auch von *Warenkorbanalyse* (engl. *market basket analysis*),
da der anfangs häufigste Anwendungsfall der ist, dass man wissen möchte, welche Artikel aus einem Sortiment
besonders häufig gemeinsam erworben werden, um daraus dann geschäftssteigernde Aktivitäten abzuleiten.

Es geht also darum, *Regeln* der Form "Wenn $X$, dann $Y$"
aufzustellen (kurz $X \rightarrow Y$), wobei $X$ und $Y$ sogenannte *Itemmengen*
repräsentieren. Der Begriff *Item* ist dabei der Fachausdruck für einen
Untersuchungsgegenstand. In der Warenkorbanalyse sind diese Items beispielsweise Artikel in einem
Supermarkt oder bei einem Onlinehändler. So ist wohl jedem auch bereits die Nutzung derartiger
Regeln begegnet: Beim Online-Einkauf erhält man *Kaufempfehlungen* für Produkte, die
demjenigen, für das man sich interessiert, ähnlich sind oder aber dieses ggf. ergänzen.
Geschäftsziel derartiger Warenkorbanalysen ist also das *Cross-Selling*.

Die gesuchten Regeln müssen quasi ohne Vorkenntnisse aus den vorhandenen Verkaufsdaten
herausgefiltert werden. Daher handelt es sich bei der Assoziationsanalyse um ein Verfahren des
*unüberwachten Lernens*.

Zur Illustration betrachten wir die folgende Tabelle. Beim Einkauf mit *BelegNr* 47110816
werden die Artikel mit den Nummern 2 und 530 also zusammen erworben (möglicherweise handelt es sich
ja um Bier und Windeln ...)


  BelegNr  | KundenNr | ArtikelNr | Menge
:---------:|:--------:|:---------:|:-------
47110815 |		649 |		30 |		4
47110816 |		563 |		2 |		1
47110816 |		563 |		530 |		2
47110817 |		43 |		122 |		3
... |		... |		... |		...


 Im Folgenden betrachten wir noch näher, welche
Berechnungen Warenkorbanalysen erfordern.

## Objekte von Warenkorbanalysen

Den Untersuchungen zugrunde liegt immer eine Itemmenge $I = \{ i_1, i_2, \dots, i_m\}$ von $m$ Items
$i_k,\ k=1,\dots,m$. Es werden dann *Transaktionen* $T\subseteq I$ betrachtet. Diese
repräsentieren bei der klassischen Warenkorbanalyse den Einkauf eines Kunden, bei dem (normalerweise
mehrere) Artikel ($\hat=$ Items) zusammen gekauft werden. Im Allgemeinen repräsentieren sie
Ereignisse, bei denen Untersuchungsgegenstände gemeinsam auftreten. Untersucht wird schließlich eine
*Datenbank* $D = \{ T_1, T_2, ..., T_n\}$ von $n$ Transaktionen $T_j,\ j=1,\dots,n$, die auch
*Population* genannt wird. Gesucht werden dann Regeln

$$
 X \rightarrow Y\quad\text{mit}\quad X,Y \subseteq I\quad\text{und}\quad X\cap Y = \emptyset
$$

d.h. $X$ und $Y$ müssen *disjunkt* sein. Dabei spricht man von $X$ als dem *Kopf*
(bzw. der *Voraussetzung*) der Regel, während $Y$ der *Körper* (bzw. der *Schluss*
(im Sinne des logischen Schließens)) der Regel ist. 

Die Forderung nach der leeren Schnittmenge von $X$ und $Y$ bedeutet im Rahmen der klassischen
Warenkorbanalyse, dass ein Artikel nicht sowohl im Kopf als auch im Körper der Regel vorkommen darf.
Das würde aber auch keinen Sinn ergeben, denn für ein Item $i$ ist natürlich die Regel
$\{i\}\rightarrow\{i\}$ immer erfüllt, denn $i$ kommt natürlich immer mit sich selbst vor.

## Kennzahlen von Warenkorbanalysen

Die wichtigsten Kenngrößen sind zunächst
* der *Support* ($=$ relative Häufigkeit in der Population)
$$
       \begin{aligned}
         \text{sup}(X) & = \frac{\lvert\lbrace T \in D \mid X \subseteq T \rbrace\rvert}{\lvert D \rvert}\\
         \text{sup}(X \rightarrow Y) & = \frac{\lvert\lbrace T \in D \mid X \cup Y \subseteq T \rbrace\rvert}{\lvert D \rvert}
         = \text{sup}(X\cup Y) = \text{sup}(Y \rightarrow X)
       \end{aligned}
$$
* die *Confidence* ($=$ relative Häufigkeit im $X$-Teil der Population)
$$
       \text{conf}(X \rightarrow Y) = 
         \frac{\lvert\lbrace T \in D \mid X \cup Y \subseteq T \rbrace\rvert}{\lvert\lbrace T \in D \mid X \subseteq T \rbrace\rvert} =
         \frac{\text{sup}(X \rightarrow Y)}{\text{sup}(X)}
$$

 
Man sollte sich bei diesen Formeln vor allem klar machen, dass immer die folgende ***Hinzunahmeungleichung*** gilt
 
$$
\text{sup}(X\rightarrow Y) \leq \text{sup}(X)\qquad(1)
$$
 
denn $X \cup Y \subseteq T$ ist eine stärker einschränkende Bedingung als $X \subseteq T$. Denn wenn man noch weitere Items zu einer Transaktion hinzunimmt, also mehr Items gleichzeitig in einer Transaktion vorkommen müssen, was der Fall ist, wenn $X$ und $Y$ zusammen betrachtet werden, im Vergleich zu dem Fall, wenn nur $X$ betrachtet wird. Die Aussage der *Hinzunahmeungleichung* ist also einfach, dass alle Artikel aus $X$ und $Y$ zusammen höchstens so häufig gekauft werden wie die Artikel aus $X$ alleine. Daraus ergibt sich insbesondere, dass 
 
$$
0 \leq \text{sup}(X),\quad \text{conf}(X\rightarrow Y) \leq 1
$$

d.h. sowohl *Support* als auch *Confidence* können nur Werte zwischen 0 und 1 annehmen
(was natürlich auch aus deren Interpretation als relative Häufigkeiten folgt).

Ferner ist zu beachten, dass man den *Support* auch als *erwartete Confidence*
interpretieren kann. Hat man nämlich eine *leere Voraussetzung* (also keine näheren
Informationen über die Population), dann muss man die gesamte Population betrachten. Somit kann man
festhalten

$$
\text{sup}(X) = \text{conf}_{\text{exp}}(X)
$$

Hieraus lässt sich nun ein weiteres *Interessantheitsmaß* für eine Regel ableiten, der sogenannte
*Lift*. Es handelt sich dabei um ein Konzept, welches ursprünglich aus dem Marketing stammt und
hinter dem allgemein die Frage steht, wieviel "besser" (in welchem Sinne auch immer) wir
sind, wenn uns gewisse Informationen vorliegen, als wenn wir ohne diese Information auskommen
müssten (letzlich also ein ähnliches Konzept wie der *Informationsgewinn* bei Entscheidungsbäumen).
In unserem Kontext wird der Lift berechnet als das
Verhältnis der Confidence und der erwarteten Confidence, also

\begin{aligned}
 \text{lift}(X \rightarrow Y) = \frac{\text{conf}(X \rightarrow Y)}{\text{conf}_{\text{exp}}(Y)} 
                         &= \frac{\text{conf}(X \rightarrow Y)}{\text{sup}(Y)} \\
                         &= \frac{\text{sup}(X \cup Y)}{\text{sup}(X)\cdot\text{sup}(Y)}
                          = \text{lift}(Y \rightarrow X)
\end{aligned}

Es ergibt sich damit unmittelbar folgende Interpretation:
* $\text{lift}(X \rightarrow Y ) > 1$: *Komplementäreffekt*
* $\text{lift}(X \rightarrow Y ) < 1$: *Substitutionseffekt*

d.h., wenn der Lift größer als 1 ist, dann verbessert sich die Chance, auch die Artikel aus $Y$ zu
verkaufen, wenn man bereits weiß, dass die Artikel in $X$ gekauft wurden, im anderen Fall
verschlechtert sie sich.

**Bemerkung:** Betrachtet man die Formeln für Support, Confidence und Lift nochmal, so sieht man, dass Support
     und Lift *symmetrisch* bezüglich Voraussetzung und Schluss der Regel sind, während es bei
     der Confidence sehr wohl darauf ankommt, was die Voraussetzung und was der Schluss ist.

### Beispiel
Wir nehmen das berühmte Bier-und-Windeln-Beispiel und unterfüttern es mit Zahlen. Dabei gehen wir
davon aus, dass bereits die *Datenbank* durchstöbert wurde und bei den Zählungen die in der folgenden
Tabelle angegebenen Zahlen herauskamen. 


   Transaktionen | Anzahl
:--------------- | ----------------:
Gesamt |    3.000.000
Bier (B) |    300.000
Windeln (W) | 500.000
B & W | 150.000

Hieraus lassen sich also die Kenngrößen *Support, Confidence* und *Lift* berechnen.

Es ergibt sich:

\begin{aligned}
\text{sup}(B) &= \frac{300.000}{3.000.000} = 10\%\\
\text{sup}(W) &= \frac{500.000}{3.000.000} = 16.67\%\\
\text{sup}(W\rightarrow B) &= \frac{150.000}{3.000.000} = 5\% = \text{sup}(B\rightarrow W)\\
\text{conf}(W \rightarrow B) & = \frac{150.000}{500.000} = 30\%\\
\text{conf}(B \rightarrow W) & = \frac{150.000}{300.000} = 50\%\\
\text{lift}(W \rightarrow B) & = \frac{\text{conf}(W \rightarrow B)}{\text{conf}_{\text{exp}}(B)} 
                               = \frac{30\%}{10\%} = 3 = \text{lift}(B \rightarrow W)
\end{aligned}

Die Zuversicht, wenn Bier gekauft ist, auch Windeln zu verkaufen können, ist also höher (50\%) als
im umgekehrten Fall (30\%). Allerdings verdreifacht sich also die Chance, Bier zu verkaufen, wenn
Windeln gekauft werden!

## A-priori Algorithmus

So trivial die Beobachtung der *Hinzunahmeungleichung* (1) und deren Interpretation auch erscheinen
mag, sie bildet doch die Grundlage des sogenannten *A-priori Algorithmus*, auf dem viele
Algorithmen zur Assoziationsanalyse basieren. Die Idee ist dabei bestechend einfach. Zunächst wird
eine *Untergrenze für den Support* angegeben, damit eine Regel überhaupt in Betracht gezogen
wird. Man sucht dann nach sogenannten *großen Itemmengen* (engl. *large itemsets*). Dabei
ist eine Itemmenge genau dann groß, wenn ihr Support den geforderten Mindestsupport nicht
unterschreitet.

Geht man diese Suche nun naiv an, dann erhält man einen Algorithmus mit sehr hoher Komplexität,
d.h. die Laufzeiten wachsen immens. Hier kommt nun wieder die *Hinzunahmeungleichung* (1) ins Spiel, denn
aus ihr folgt, dass eine Itemmenge nur dann groß sein kann, wenn *jede Teilmenge* dieser
Itemmenge *groß* ist. Somit lassen sich also zunächst die einelementigen großen Itemmengen
finden, d.h. diejenigen Artikel, die oft genug gekauft werden. Jede zweielementige große Itemmenge
muss sich aus diesen Artikeln kombinieren lassen, wobei hier wiederum nicht alle Kombinationen groß
sein werden. Der Algorithmus stoppt also recht bald und man kann dann alle disjunkten Teilmengen der
großen Itemmengen zur Regelgenerierung untersuchen.

Für die Ermittlung der eigentlichen Regeln wird neben dem Mindestsupport auch eine
*Mindestconfidence* sowie häufig auch die Maximalzahl der Items in den großen Itemmengen
angegeben.



Als nächstes schauen wir uns die [praktische Umsetzung in R](2017-12-15_RvS_Assoziationsanalysen_R.ipynb) an.