<a href="https://colab.research.google.com/github/sakuronohana/my_datascience/blob/master/udemy/mlaz/Part%205%20-%20Association%20Rule%20Learning/Section%2028%20-%20Apriori/Python/apriori.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Apriori-Algorithmus

Wenn wir einkaufen gehen, haben wir oft eine Standardliste mit Dingen, die wir kaufen können. Jeder Käufer hat eine eigene Liste, die von seinen Bedürfnissen und Vorlieben abhängt. Eine Hausfrau könnte gesunde Zutaten für ein Familienessen kaufen, während ein Junggeselle Bier und Pommes kaufen könnte. Das Verständnis dieser Kaufmuster kann auf verschiedene Weise zur Umsatzsteigerung beitragen. Wenn es ein Paar Artikel gibt, X und Y, die häufig zusammen gekauft werden:

* Sowohl X als auch Y können im selben Regal platziert werden, sodass Käufer eines Artikels aufgefordert werden, den anderen zu kaufen.
* Aktionsrabatte können auf nur einen der beiden Artikel angewendet werden.
* Werbung auf X könnte sich an Käufer richten, die Y kaufen.
* X und Y könnten zu einem neuen Produkt kombiniert werden, beispielsweise mit Y in Aromen von X.

Während wir vielleicht wissen, dass bestimmte Artikel häufig zusammen gekauft werden, ist die Frage, wie wir diese Assoziationen aufdecken können. Neben der Steigerung des Umsatzgewinns können Assoziationsregeln auch in anderen Bereichen angewendet werden. In der medizinischen Diagnose kann beispielsweise das Verständnis, welche Symptome zur Komorbidität neigen, dazu beitragen, die Patientenversorgung und die Verschreibung von Medikamenten zu verbessern. 

Die Analyse von Zuordnungsregeln ist eine Technik, um aufzudecken, wie Elemente miteinander verknüpft sind. Der Apriori-Algorithmus ist der beliebteste Algorithmus für Mining-Assoziationsregeln. Er findet die häufigsten Kombinationen in Daten und identifiziert Zuordnungsregeln zwischen den Elementen basierend auf 3 wichtigen Faktoren:
* **Unterstützung (Support)** : Dies gibt an, wie beliebt eine Artikelgruppe ist, gemessen am Anteil der Transaktionen, in denen eine Artikelgruppe angezeigt wird. In der folgenden Tabelle 1 beträgt die Unterstützung von Apfel 4 von 8 oder 50%. Itemsets können auch mehrere Items enthalten. Zum Beispiel beträgt die Unterstützung von {Apfel, Bier, Reis} 2 von 8 oder 25%.
 <img src='https://annalyzin.files.wordpress.com/2016/03/association-rule-support-eqn.png?w=248&h=68' width='150'>

 <img src='https://annalyzin.files.wordpress.com/2016/04/association-rule-support-table.png?w=503&h=447' width='200'>
* **Vertrauen (Confidence)** : Dies gibt an, wie wahrscheinlich Artikel Y gekauft wird, wenn Artikel X gekauft wird, ausgedrückt als {X -> Y}. Dies wird am Anteil der Transaktionen mit Punkt X gemessen, in dem auch Punkt Y erscheint. In Tabelle 1 beträgt das Vertrauen von {Apfel -> Bier} 3 von 4 oder 75%.

 <img src='https://annalyzin.files.wordpress.com/2016/03/association-rule-confidence-eqn.png?w=527&h=77' width='300'>
* **Lift** : Dies gibt an, wie wahrscheinlich Artikel Y gekauft wird, wenn Artikel X gekauft wird, während gesteuert wird, wie beliebt Artikel Y ist. In Tabelle 1 beträgt der Auftrieb von {Apfel -> Bier} 1, was keine Zuordnung zwischen Elementen impliziert. Ein Hubwert größer als 1 bedeutet, dass Artikel Y  wahrscheinlich  gekauft wird, wenn Artikel X gekauft wird, während ein Wert kleiner als 1 bedeutet, dass Artikel Y  wahrscheinlich  nicht gekauft wird, wenn Artikel X gekauft wird.

  <img src='https://annalyzin.files.wordpress.com/2016/03/association-rule-lift-eqn.png?w=566&h=80' width='300'>

Mehr zum Thema auf [KDnuggets](https://www.kdnuggets.com/2016/04/association-rules-apriori-algorithm-tutorial.html)

Der Apriori-Algorithmus wird oft im Zusammenhang mit sogenannten Recommender Systemen (Empfehlungssystemen) eingesetzt. Unternehmen wie Amazon, Netflix usw. setzen um Recommender Systeme, wenn es darum geht Kunden Produkte, Serien oder Filme zu empfehlen.


## Importing the libraries

Bei der Umsetzung eines Apriori-basierenden Models können wir nicht auf Scikit-Learn zurückgreifen. Anstelle von Scitkit müssen wir die Python Bibliothek '[Apyori](https://zaxrosenberg.com/unofficial-apyori-documentation/)' installieren.

In [1]:
!pip install apyori

Collecting apyori
  Downloading https://files.pythonhosted.org/packages/5e/62/5ffde5c473ea4b033490617ec5caa80d59804875ad3c3c57c0976533a21a/apyori-1.1.2.tar.gz
Building wheels for collected packages: apyori
  Building wheel for apyori (setup.py) ... [?25l[?25hdone
  Created wheel for apyori: filename=apyori-1.1.2-cp36-none-any.whl size=5975 sha256=a8fddfd4082b6e0a8ef47184f1c1e572fc8e0ec1d2d48ca9e0cb7688357951ce
  Stored in directory: /root/.cache/pip/wheels/5d/92/bb/474bbadbc8c0062b9eb168f69982a0443263f8ab1711a8cad0
Successfully built apyori
Installing collected packages: apyori
Successfully installed apyori-1.1.2


In [2]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

## Data Preprocessing

In [4]:
datloc = 'https://raw.githubusercontent.com/sakuronohana/my_datascience/master/udemy/mlaz/Part%205%20-%20Association%20Rule%20Learning/Section%2028%20-%20Apriori/Python/Market_Basket_Optimisation.csv'
dataset = pd.read_csv(datloc, header=None) # Da der Datensatz keinen Header hat müssen wir diesen ausklammern


# Apyori erwartet Lists anstelle von Dataframes.
transactions = []
for i in range(0, len(dataset)):
  # Nachfolgenden werden
  transactions.append([str(dataset.values[i,j]) for j in range(0,20)])


In [None]:
transactions

## Training the Apriori model on the dataset

In [11]:
from apyori import apriori
rules = apriori(transactions = transactions, min_support = 0.003, min_confidence = 0.2, min_lift = 3, min_length = 2, max_length = 2)

## Visualising the results

### Displaying the first results coming directly from the output of the apriori function



In [12]:
results = list(rules)
results

[RelationRecord(items=frozenset({'chicken', 'light cream'}), support=0.004532728969470737, ordered_statistics=[OrderedStatistic(items_base=frozenset({'light cream'}), items_add=frozenset({'chicken'}), confidence=0.29059829059829057, lift=4.84395061728395)]),
 RelationRecord(items=frozenset({'escalope', 'mushroom cream sauce'}), support=0.005732568990801226, ordered_statistics=[OrderedStatistic(items_base=frozenset({'mushroom cream sauce'}), items_add=frozenset({'escalope'}), confidence=0.3006993006993007, lift=3.790832696715049)]),
 RelationRecord(items=frozenset({'escalope', 'pasta'}), support=0.005865884548726837, ordered_statistics=[OrderedStatistic(items_base=frozenset({'pasta'}), items_add=frozenset({'escalope'}), confidence=0.3728813559322034, lift=4.700811850163794)]),
 RelationRecord(items=frozenset({'honey', 'fromage blanc'}), support=0.003332888948140248, ordered_statistics=[OrderedStatistic(items_base=frozenset({'fromage blanc'}), items_add=frozenset({'honey'}), confidence=0

Oben sehen wir das Trainingsresultat des Apriori-Modells. Schauen wir uns mal die erste Rule etwas genauer an.

Hierbei geht es um die Produktekombination Light cream und Chicken. Was heisst, dass bei Kunden die Light Cream (Items_base) kauften eine hohe Chance bestand, dass dies auch Chicken (items_add) kauften. 
* **Confidence**: Bei Kunden die Light Cream kauften bestand eine 29% Chance, dass diese auch Chicken kauften.
* **Support**: Diese Kombination erscheit in 0.45% aller Transaktionen.
* **Lift**: Die Bedeutung der Regel im Kontext zu den gesamten Transaktionen liegt bei 4.8, was über alle Lifts hinweg ein sehr guter Wert darstellt. 

### Putting the results well organised into a Pandas DataFrame

In [15]:
def inspect(results):
  lhs =         [tuple(result[2][0][0])[0] for result in results]
  rhs =         [tuple(result[2][0][1])[0] for result in results]
  supports =    [result[1] for result in results]
  confidence =  [result[2][0][2] for result in results]
  lifts =       [result[2][0][3] for result in results]
  return list(zip(lhs, rhs, supports, confidence, lifts))
resultsinDataFrame = pd.DataFrame(inspect(results), columns=['Left Hand Side', 'Right Hand Side', 'Support', 'Confidence','Lift'])


In [16]:
resultsinDataFrame

Unnamed: 0,Left Hand Side,Right Hand Side,Support,Confidence,Lift
0,light cream,chicken,0.004533,0.290598,4.843951
1,mushroom cream sauce,escalope,0.005733,0.300699,3.790833
2,pasta,escalope,0.005866,0.372881,4.700812
3,fromage blanc,honey,0.003333,0.245098,5.164271
4,herb & pepper,ground beef,0.015998,0.32345,3.291994
5,tomato sauce,ground beef,0.005333,0.377358,3.840659
6,light cream,olive oil,0.0032,0.205128,3.11471
7,whole wheat pasta,olive oil,0.007999,0.271493,4.12241
8,pasta,shrimp,0.005066,0.322034,4.506672


### Displaying the results non sorted

### Displaying the results sorted by descending lifts