# Apriori-Algorithmus
Implementieren Sie den Apriori-Algorithmus zum Finden häufiger Item Sets bei einer gegebenen Menge von Transaktionen. Nutzen Sie das gegebene Grundgerüst und beachten Sie folgende Anforderungen:
- Hinweis: Achten Sie besonders bei der Apriori Kandidatengenerierung darauf, dass Sie den Support möglichst effizient und nur von möglichst wenigen Itemsets berechnen.
- Die Ausgabe des Programms ist eine Liste aller Frequent Item Sets zusammen mit ihrem jeweiligen Support. Diese sollen in einer sinnvollen Datenstruktur zurückgegeben werden.
- Die Implementierung der Itemsets als Hashbäume müssen Sie NICHT umsetzen.
- Sie können Ihr Programm zum Beispiel auf dem Datensatz warenkorb.csv testen.
- Ihre Implementierung können Sie bis zum 15.12.2023 23:59 im Moodle abgeben.
- Sie dürfen das externe Paket numpy verwenden. Aus dem Standard-Paket collections sollte vor allen Dingen die Klasse *Counter* für Sie hilfreich sein.

## Zusatzaufgabe für 6 ECTS:
**Hinweis**: Bearbeiten Sie diese Aufgaben nur, falls Sie am Praktikum für 6 ECTS-Punkte teilnehmen, jedoch nicht, falls Sie am Praktikum für 3 ECTS-Punkte teilnehmen.
### Anti-Monotone Constraints
- In der Vorlesung haben Sie anti-monotone Constraints zur Einschränkung der relevanten Itemsets kennengelernt.
- Implementieren Sie eine Möglichkeit, mittels des Parameters *prices* ein Dictionary mitzugeben, welches die Preise der einzelnen Items mitgibt.
- Durch den Parameter *max_price* soll dann eine mögliche Preisgrenze gegeben werden. Das heißt, es sollen nur frequent Itemsets zurückgegeben werden, welche nicht mehr als *max_price* kosten. Falls *max_price* den Wert None hat, soll der Constraint des maximalen Preises nicht genutzt werden.
- Nutzen Sie die Anti-Monotonie des Constraints aus, um die Generierung unnötiger Kandidaten zu vermeiden. Es ist NICHT ausreichend, alle frequent Itemsetzs erst zu berechnen um dann ganz zum Schluss die "zu teuren" zu entfernen!

### Konfidenz und Interessantheit
- Der Apriorie Algorithmus liefert Ihnen die Frequent Itemsets und ihren Support. Berechnen Sie aus diesen die Assoziationsregeln, welche eine vorgegebene Konfidenz überschreiten.
- Implementieren Sie die Funktion *interestingness* so, dass sie die Assozationsregeln, welche eine gewisse Konfidenz überschreiten und deren Interessantheit zurückgeben!
- **Hinweis**: Überlegen Sie sich, wie Sie die (teure!) Berechnung aller Teilmengen eines Itemsets vermeiden können. Vielleicht haben Sie diese zu dieesm Zeitpunkt schon als Teil einer Liste/Menge vorliegen?

## Erinnerung
Bitte vergessen Sie nicht, sich offiziell im Praktikum einzuschreiben! Sollten Sie Fragen dazu haben, wenden Sie sich bitte per E-Mail an hille@cs.uni-kassel.de.

# Daten laden
Diesen Teil bitte nicht verändern.

In [69]:
from collections import Counter

import numpy as np

with open("warenkorb.csv") as f:
    data = []
    for line in f.readlines():
        items = [item.strip() for item in line.split(",")]
        items.sort()
        data.append(items)
data
prices = {
    "Chips": 2.5,
    "Bier": 5,
    "TV-Zeitschrift": 2,
    "Windeln": 1.5,
    "Zahnpasta": 2
}

# Implementierung
Implementieren Sie in diesem Teil Ihre Lösung. Die gegebenen Datenstrukturen und Methoden können Sie als Hilfestellung (insbesondere für eine effiziente Lösung) benutzen, müssen Sie aber nicht. Nur die Apriori-Methode sollte so funktionieren wie  gegeben. Sie können natürlich weitere Methoden hinzufügen.

In [70]:
import numpy as np

def aprioriCandidateGeneration(l, max_price):
    res = set()
    
    for i in l:
        for j in l:
            if i == j: continue
            # Sammle alle Itemsets die auf den ersten n-1 Elementen gleich sind
            if i.eqFirstElements(j):
                # Erstelle neue Itemsets der Länge n+1, mit den n-1 gleichen Elementen und den beiden letzten der Itemsets
                t = i.join(j)
                # Nehme nur Itemsets aud deren n-1 letzte Elemente in den Itemsets der Länge n-1 liegen und maxPrice nicht überschreiten
                if t.items[1:] in [k.items for k in l] and sum(prices[i] for i in t.items) <= max_price:
                    res.add(t)

    return res


def freqItems(transactions, candidates, minSup):
    res = []
    counter = Counter()

    # Zähle wie oft die Itemsets in den Transaktionen vorkommen
    for i in transactions:
        for j in candidates:
            if set(j.items).issubset(set(i)):
                if j not in counter:
                    counter[j] = 1
                else:
                    counter[j] += 1

    # Sammle alle Itemsets mit dem minimal Support
    for c in counter.copy():
        support = counter[c] / len(transactions)
        if support >= minSup:
            counter[c] = support
            res.append(c)
        else:
            del counter[c]

    return res, counter


def apriori(transactions, prices=prices, max_price=None, minsup=0.01):
    # The parameters prices and max_price are just needed for 6ECTS!
    res = []
    counter = Counter()
    if max_price is None: max_price = np.inf
    
    # Berechne ein elementige frequent Itemsets
    l, c  = freqItems(transactions, set(Itemset([i]) for i in set(item for t in transactions for item in t)), minsup)
    res.append(l)
    counter.update(c)

    # Berechne ein mehrelementige frequent Itemsets
    while l:
        candidates = aprioriCandidateGeneration(l, max_price)
        l, c = freqItems(transactions, candidates, minsup)
        res.append(l)
        counter.update(c)

    return counter


def extendRules(temp, l, min_conf):
    # Kreiere neue Regeln aus der Vereinigung der linken Seiten; und dem Schnitt der rechten Seiten
    res = Counter()

    while len(list(temp.keys())[0][0].items) > 1: #Regel bei denen die lineke Regelseite ein Element hat sind fertig
    
        tempL = [i for i in temp]
        temp = {}
        
        for i in range(0, len(tempL)-1):
            for j in range(i+1, len(tempL)):
                leftSide, rightSide = tempL[i][0].intersection(tempL[j][0]) , tempL[i][1].union(tempL[j][1])
                conf = l[leftSide]/l[rightSide]
                interestingness = l[leftSide.union(rightSide)]/l[leftSide] - l[rightSide]
                if conf >= min_conf:
                    res[leftSide, rightSide] = interestingness
                    temp[leftSide, rightSide] = interestingness
    return res
            
    
            

def interestingness(l, min_conf):
    r"""
    This function is only needed for 6ECTS!
    The list l contains all frequent itemsets and their support.
    Compute fom all frequent Itemsets X and all their subsets A the interestingness of the rule
    A -> X\A if this rule has at least the confidence min_conf.
    Returns a list of tuples where each tuple has the form (A, X\A , interstingness of A -> X\A)
    """
    res = Counter()
    temp = {}
    leftSide, rightSide = [], []
    
    for i in l:
        if len(i.items) == 1: continue
        # Berechne alle Regeln mit einelementiger rechter Regelseite
        for j in range(len(i.items)):
            leftSide, rightSide = Itemset(i.items[:j] + i.items[j+1:]) , Itemset([i.items[j]])
            conf = l[leftSide]/l[rightSide]
            interestingness = l[leftSide.union(rightSide)]/l[leftSide] - l[rightSide]
            if conf >= min_conf:
                temp[leftSide, rightSide] = interestingness
                res[leftSide, rightSide] = interestingness

        res.update(extendRules(temp, l, min_conf))
        temp = {}

    return res


class Itemset:
    """A hashable itemset that can be used as a key in dictionaries or as an element in sets.
    You can change this class how ever you like."""

    def __init__(self, items):
        items.sort()
        self.items = items

    def __str__(self):
        return str(self.items)

    def __repr__(self):
        return str(self)

    def __eq__(self, other):
        return len(self.items) == len(other.items) and set(
            self.items).issubset(other.items)

    def __hash__(self):
        return hash(str(self))

    def join(self, other):
        t = self.items[0:-1] + [self.items[-1]] + [other.items[-1]]
        return Itemset(t)

    def eqFirstElements(self, other):
        return self.items[0:-1] == other.items[0:-1]
    
    def union(self, other):
        t = list(set(self.items).union(set(other.items)))
        return Itemset(t)

    def intersection(self, other):
        t = list(set(self.items).intersection(set(other.items)))
        return Itemset(t)



# Calculate frequent itemsets for the given data-set and print the result.
items = apriori(data, minsup=0.1)
items

Counter({['Chips']: 0.75,
         ['Bier']: 0.625,
         ['TV-Zeitschrift']: 0.5,
         ['Chips', 'TV-Zeitschrift']: 0.5,
         ['Windeln']: 0.375,
         ['Bier', 'Chips']: 0.375,
         ['Bier', 'Windeln']: 0.375,
         ['Zahnpasta']: 0.25,
         ['Bier', 'TV-Zeitschrift']: 0.25,
         ['Bier', 'Chips', 'TV-Zeitschrift']: 0.25,
         ['Chips', 'Windeln']: 0.125,
         ['Windeln', 'Zahnpasta']: 0.125,
         ['Bier', 'Zahnpasta']: 0.125,
         ['Chips', 'Zahnpasta']: 0.125,
         ['Bier', 'Chips', 'Windeln']: 0.125,
         ['Bier', 'Windeln', 'Zahnpasta']: 0.125})

## Tests für die 6ECTS Aufgaben
Löschen Sie die folgenden Zellen, wenn Sie nur 3ECTS benötigen!

In [71]:
item_sets = apriori(data, minsup=0.2, max_price=7)
item_sets




Counter({['Chips']: 0.75,
         ['Bier']: 0.625,
         ['TV-Zeitschrift']: 0.5,
         ['Chips', 'TV-Zeitschrift']: 0.5,
         ['Windeln']: 0.375,
         ['Bier', 'Windeln']: 0.375,
         ['Zahnpasta']: 0.25,
         ['Bier', 'TV-Zeitschrift']: 0.25})

In [72]:
item_sets = apriori(data, minsup=0.01)
i = interestingness(item_sets, min_conf=0.3)
i

28


Counter({(['Bier', 'Zahnpasta'], ['Windeln']): 0.625,
         (['Windeln'], ['Bier']): 0.375,
         (['TV-Zeitschrift'], ['Chips']): 0.25,
         (['Bier', 'TV-Zeitschrift'], ['Chips']): 0.25,
         (['Bier'], ['Windeln']): 0.22499999999999998,
         (['Chips'], ['TV-Zeitschrift']): 0.16666666666666663,
         (['Bier', 'Chips'], ['TV-Zeitschrift']): 0.16666666666666663,
         (['Zahnpasta'], ['Windeln']): 0.125,
         (['TV-Zeitschrift'], ['Bier', 'Chips']): 0.125,
         (['Windeln'], ['Zahnpasta']): 0.08333333333333331,
         (['Chips'], ['Bier', 'TV-Zeitschrift']): 0.08333333333333331,
         (['Bier', 'Windeln'], ['Zahnpasta']): 0.08333333333333331,
         (['Bier'], ['Chips', 'Windeln']): 0.07500000000000001,
         (['Bier'], ['Windeln', 'Zahnpasta']): 0.07500000000000001,
         (['Bier', 'Chips'], ['Windeln']): -0.041666666666666685,
         (['Bier'], ['Zahnpasta']): -0.04999999999999999,
         (['Chips'], ['Zahnpasta']): -0.08333333333333