<a href="https://colab.research.google.com/github/sakuronohana/my_datascience/blob/master/udemy/mlaz/Part%205%20-%20Association%20Rule%20Learning/Section%2028%20-%20Apriori/Python/apriori.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Apriori-Algorithmus

Wenn wir einkaufen gehen, haben wir oft eine Standardliste mit Dingen, die wir kaufen können. Jeder Käufer hat eine eigene Liste, die von seinen Bedürfnissen und Vorlieben abhängt. Eine Hausfrau könnte gesunde Zutaten für ein Familienessen kaufen, während ein Junggeselle Bier und Pommes kaufen könnte. Das Verständnis dieser Kaufmuster kann auf verschiedene Weise zur Umsatzsteigerung beitragen. Wenn es ein Paar Artikel gibt, X und Y, die häufig zusammen gekauft werden:

* Sowohl X als auch Y können im selben Regal platziert werden, sodass Käufer eines Artikels aufgefordert werden, den anderen zu kaufen.
* Aktionsrabatte können auf nur einen der beiden Artikel angewendet werden.
* Werbung auf X könnte sich an Käufer richten, die Y kaufen.
* X und Y könnten zu einem neuen Produkt kombiniert werden, beispielsweise mit Y in Aromen von X.

Während wir vielleicht wissen, dass bestimmte Artikel häufig zusammen gekauft werden, ist die Frage, wie wir diese Assoziationen aufdecken können. Neben der Steigerung des Umsatzgewinns können Assoziationsregeln auch in anderen Bereichen angewendet werden. In der medizinischen Diagnose kann beispielsweise das Verständnis, welche Symptome zur Komorbidität neigen, dazu beitragen, die Patientenversorgung und die Verschreibung von Medikamenten zu verbessern. 

Die Analyse von Zuordnungsregeln ist eine Technik, um aufzudecken, wie Elemente miteinander verknüpft sind. Der Apriori-Algorithmus ist der beliebteste Algorithmus für Mining-Assoziationsregeln. Er findet die häufigsten Kombinationen in Daten und identifiziert Zuordnungsregeln zwischen den Elementen basierend auf 3 wichtigen Faktoren:
* **Unterstützung (Support)** : Dies gibt an, wie beliebt eine Artikelgruppe ist, gemessen am Anteil der Transaktionen, in denen eine Artikelgruppe angezeigt wird. In der folgenden Tabelle 1 beträgt die Unterstützung von {apple} 4 von 8 oder 50%. Itemsets können auch mehrere Items enthalten. Zum Beispiel beträgt die Unterstützung von {Apfel, Bier, Reis} 2 von 8 oder 25%.
 <img src='https://annalyzin.files.wordpress.com/2016/03/association-rule-support-eqn.png?w=248&h=68' width='150'>

 <img src='https://annalyzin.files.wordpress.com/2016/04/association-rule-support-table.png?w=503&h=447' width='200'>
* **Vertrauen (Confidence)** : Dies gibt an, wie wahrscheinlich Artikel Y gekauft wird, wenn Artikel X gekauft wird, ausgedrückt als {X -> Y}. Dies wird am Anteil der Transaktionen mit Punkt X gemessen, in dem auch Punkt Y erscheint. In Tabelle 1 beträgt das Vertrauen von {Apfel -> Bier} 3 von 4 oder 75%.

 <img src='https://annalyzin.files.wordpress.com/2016/03/association-rule-confidence-eqn.png?w=527&h=77' width='300'>
* **Lift** : Dies gibt an, wie wahrscheinlich Artikel Y gekauft wird, wenn Artikel X gekauft wird, während gesteuert wird, wie beliebt Artikel Y ist. In Tabelle 1 beträgt der Auftrieb von {Apfel -> Bier} 1, was keine Zuordnung zwischen Elementen impliziert. Ein Hubwert größer als 1 bedeutet, dass Artikel Y  wahrscheinlich  gekauft wird, wenn Artikel X gekauft wird, während ein Wert kleiner als 1 bedeutet, dass Artikel Y  wahrscheinlich  nicht gekauft wird, wenn Artikel X gekauft wird.

  <img src='https://annalyzin.files.wordpress.com/2016/03/association-rule-lift-eqn.png?w=566&h=80' width='300'>

Mehr zum Thema auf [KDnuggets](https://www.kdnuggets.com/2016/04/association-rules-apriori-algorithm-tutorial.html)

Der Apriori-Algorithmus wird oft im Zusammenhang mit sogenannten Recommender Systemen (Empfehlungssystemen) eingesetzt. Unternehmen wie Amazon, Netflix usw. setzen um Recommender Systeme, wenn es darum geht Kunden Produkte, Serien oder Filme zu empfehlen.


## Importing the libraries

Bei der Umsetzung eines Apriori-basierenden Models können wir nicht auf Scikit-Learn zurückgreifen. Anstelle von Scitkit müssen wir die Python Bibliothek '[Apyori](https://zaxrosenberg.com/unofficial-apyori-documentation/)' installieren.

In [8]:
!pip install apyori

Collecting apyori
  Downloading https://files.pythonhosted.org/packages/5e/62/5ffde5c473ea4b033490617ec5caa80d59804875ad3c3c57c0976533a21a/apyori-1.1.2.tar.gz
Building wheels for collected packages: apyori
  Building wheel for apyori (setup.py) ... [?25l[?25hdone
  Created wheel for apyori: filename=apyori-1.1.2-cp36-none-any.whl size=5975 sha256=e7172d23c5f41e3dec9f557c8e8887fb8b0fb52fe6777376ebfe793716e68b97
  Stored in directory: /root/.cache/pip/wheels/5d/92/bb/474bbadbc8c0062b9eb168f69982a0443263f8ab1711a8cad0
Successfully built apyori
Installing collected packages: apyori
Successfully installed apyori-1.1.2


In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

## Data Preprocessing

In [6]:
datloc = 'https://raw.githubusercontent.com/sakuronohana/my_datascience/master/udemy/mlaz/Part%205%20-%20Association%20Rule%20Learning/Section%2028%20-%20Apriori/Python/Market_Basket_Optimisation.csv'
dataset = pd.read_csv(datloc, header=None)

for i in dataset:
  

In [7]:
X

array([['shrimp', 'almonds', 'avocado', ..., 'frozen smoothie',
        'spinach', 'olive oil'],
       ['burgers', 'meatballs', 'eggs', ..., nan, nan, nan],
       ['chutney', nan, nan, ..., nan, nan, nan],
       ...,
       ['chicken', nan, nan, ..., nan, nan, nan],
       ['escalope', 'green tea', nan, ..., nan, nan, nan],
       ['eggs', 'frozen smoothie', 'yogurt cake', ..., nan, nan, nan]],
      dtype=object)

## Training the Apriori model on the dataset

## Visualising the results

### Displaying the first results coming directly from the output of the apriori function

### Putting the results well organised into a Pandas DataFrame

### Displaying the results non sorted

### Displaying the results sorted by descending lifts