We hebben gezien hoe we Associatie Regels kunnen vinden m.b.v. 3 stappen:

1. Datamanagement
    - de dataset moet in het correct formaat gezet worden.

2. Frequenties tellen: de gegevens moeten geturfd worden. Dit betekent dat we de Support moeten berekenen. Dit kan met twee algoritmen:

    - Apriori
    - FP-growth

3. Associatieregels bepalen. Verschillende soorten regels kunnen berekend worden uit de Supports:

    - Confidence
    - Lift
    - Leverage
    - Conviction

Eens de gegevens in het juiste formaat staan, is het een koud kunstje om in Python met de mlxtend library op zoek te: gaan naar de interessantste verbanden in onze dataset.



# Samenvatting: Inleiding tot Association Rules

## Inleiding
In deze cursus gaan we verder met het ontdekken van patronen, net zoals in Data Science 1, waar we tijdsgebonden patronen onderzochten met forecasting en attributen voorspelden met beslissingsbomen. Hier richten we ons echter op het identificeren van combinaties van items die vaak samen voorkomen, een techniek die bekendstaat als "Association Rules".

## Voorbeelden van gebruik
- **Webshops:** Wanneer je een product zoals "Python for Dummies" bekijkt, krijg je aanbevelingen voor andere producten die vaak samen met dat boek worden gekocht. Dit is een toepassing van association rules.
  
- **Sociale Media en Streamingdiensten:** Bedrijven zoals Spotify en Facebook gebruiken vergelijkbare algoritmes om gepersonaliseerde aanbevelingen te doen op basis van wat andere gebruikers samen met jouw gekozen inhoud hebben beluisterd of gelezen.

## Gevaren van Association Rules
Hoewel association rules nuttig zijn, hebben ze ook nadelen. Door alleen vaak voorkomende combinaties te tonen, kunnen platforms zoals Facebook een "information bubble" creëren. Dit betekent dat gebruikers voornamelijk inhoud te zien krijgen die overeenkomt met hun eerdere interacties. Een voorbeeld hiervan is hoe Amerikaanse gebruikers na het lezen van een conservatief artikel waarschijnlijk meer rechtsgerichte content zullen zien. Dit kan leiden tot een eenzijdige perceptie van de werkelijkheid.

Het gevaar van deze informatiefiltering is niet te onderschatten, aangezien dergelijke algoritmes een grote impact kunnen hebben op maatschappelijke ontwikkelingen. Een dramatisch voorbeeld is de suggestie dat zulke algoritmes mogelijk hebben bijgedragen aan de verkiezing van Donald Trump.


## Stappen voor het identificeren van Association Rules

Het proces om Association Rules te identificeren verloopt in drie belangrijke stappen:

### 1. Gegevens in het juiste formaat zetten
- **Datamanagementtechnieken:** Voordat we associatieregels kunnen bepalen, moeten de gegevens worden voorbereid en geformatteerd. De Python library die we gebruiken, verwacht dat de gegevens in een specifiek formaat beschikbaar zijn.
  
### 2. Frequenties van combinaties berekenen
- **Transacties:** We berekenen de frequentie van combinaties van items die in verschillende transacties voorkomen. Een transactie kan bijvoorbeeld een online verkoop zijn waarbij meerdere artikelen zijn gekocht, of een luistersessie op een streamingdienst waarbij een gebruiker meerdere nummers selecteert.
  
### 3. Associatieregels bepalen
- **Bepalen van regels:** Op basis van de berekende frequenties kunnen we associatieregels identificeren. Voor eenvoudige datasets is het mogelijk om deze regels handmatig te bepalen, maar we zullen een Python library gebruiken om dit efficiënter te doen.


# Stap 1 - Datamanagement

## Gegevensvoorbereiding voor Association Rules

### Transacties naar het juiste formaat omzetten
- **Verkoopgegevens:** In ruwe vorm kunnen verkoopgegevens elke aankoop als een afzonderlijke rij weergeven, waarbij meerdere rijen een enkele transactie kunnen vertegenwoordigen.
  
- **Transactietabel:** Voor het toepassen van algoritmes moeten de gegevens worden omgezet naar een format waarbij elke rij overeenkomt met één transactie, met daarin de producten die bij die transactie zijn gekocht.

### Implementatie in Python
- **Gebruik van Pandas:** Door gebruik te maken van functies zoals `get_dummies` en `groupby`, kunnen de ruwe verkoopgegevens worden omgezet naar een transactietabel die geschikt is voor verdere analyse.

### Itemsets
- Een **itemset** is de verzameling producten die samen in één transactie voorkomen. Dit is cruciaal voor het volgende stappen in het proces van Association Rules.

### Vooruitblik
- Met de gegevens in het juiste transactionele formaat kunnen we doorgaan met het berekenen van de frequenties van combinaties en het zoeken naar associatieregels.


# Stap 2 - Frequente Patronen Identificeren

## Support Berekenen
- **Support:** De support meet hoe vaak een bepaalde itemset voorkomt in de dataset. Dit is de verhouding van transacties waarin een itemset aanwezig is ten opzichte van het totaal aantal transacties.

## Uitdagingen
- **Combinatorische Explosie:** Het aantal mogelijke combinaties van items kan enorm groot worden, waardoor handmatige berekeningen onpraktisch zijn. Dit probleem wordt verergerd naarmate het aantal producten toeneemt.

## Apriori Algoritme
- **Principe:** Maakt gebruik van de monotoniciteitseigenschap van support om het aantal combinaties te beperken. Het algoritme begint met het berekenen van de support voor 1-itemsets en breidt vervolgens uit naar grotere itemsets, terwijl het combinaties onder de minimum support elimineert.
- **Gebruik in Python:** Met de `mlxtend` library kan het Apriori algoritme efficiënt worden geïmplementeerd om itemsets te identificeren die voldoen aan een minimale supportwaarde.

## FP-Growth Algoritme
- **Principe:** Biedt een efficiëntere benadering dan Apriori door gebruik te maken van een boomstructuur om frequentiecombinaties te identificeren. Het algoritme vereist slechts twee doorlopen van de dataset, wat het bijzonder geschikt maakt voor grote datasets.
- **Gebruik in Python:** Ook dit algoritme kan worden geïmplementeerd met de `mlxtend` library, op een vergelijkbare manier als het Apriori algoritme.

## Resultaten
- Beide algoritmen kunnen dezelfde frequente itemsets identificeren, afhankelijk van de gekozen minimum supportwaarde. FP-Growth is echter efficiënter voor grote datasets.



### Stap 3: Associatieregels vastleggen

In deze stap gaan we associatieregels vastleggen door de verschillende metrics zoals **confidence**, **lift**, **leverage**, en **conviction** te berekenen. Deze metrics helpen ons om de sterkte en relevantie van de associaties tussen producten te bepalen.

#### Confidence
**Confidence** is de zekerheid waarmee we kunnen zeggen dat, als een klant item A koopt, deze ook item B zal kopen. Het is een voorwaardelijke kans

Een hogere confidence betekent een sterkere associatie tussen de items.

**Voorbeeld:**
Als we willen berekenen wat de confidence is dat iemand een cartridge koopt gegeven dat hij een printer heeft gekocht

#### Lift
**Lift** meet hoe vaak item B voorkomt gegeven item A, in vergelijking met hoe vaak B sowieso voorkomt.

Als de lift groter is dan 1, suggereert dit dat de aanwezigheid van A de kans op B verhoogt. Een lift van 1 betekent dat er geen verband is tussen A en B.

#### Leverage
**Leverage** bekijkt de afhankelijkheid tussen twee items A en B. Het is het verschil tussen de waargenomen frequentie van A en B samen, en de verwachte frequentie ervan als ze onafhankelijk van elkaar zouden zijn

Een positieve leverage suggereert een positieve afhankelijkheid tussen A en B.

#### Conviction
**Conviction** corrigeert enkele problemen van confidence door rekening te houden met de kans dat A voorkomt zonder B.

Een hogere conviction waarde suggereert een sterkere en meer betrouwbare associatie tussen A en B.

### Python Implementatie

In Python kunnen we deze metrics berekenen met de `association_rules` functie uit de `mlxtend` library. De code hieronder laat zien hoe je associatieregels kunt berekenen, sorteren en selecteren op basis van deze metrics:

In [8]:
import pandas as pd
from mlxtend.frequent_patterns import fpgrowth, association_rules

# Stap 1 - Datamanagement
kassatickets = pd.read_csv('./data/transactions.csv', sep=';', index_col=0)
transacties = pd.get_dummies(kassatickets, columns=['Product'], prefix='', prefix_sep='').groupby(level='TransactionID').sum()

# Stap 2 - Itemsets met support berekenen
itemsets = fpgrowth(transacties, min_support=0.3, use_colnames=True)

# Stap 3 - Association rules zoeken
rules = association_rules(itemsets, min_threshold=0.5)

# Resultaat - Associatieregels bekijken
print(rules)

  antecedents  consequents  antecedent support  consequent support  support  \
0   (Printer)  (Cartridge)                 0.4                 0.7      0.3   
1     (Paper)  (Cartridge)                 0.4                 0.7      0.3   

   confidence      lift  leverage  conviction  zhangs_metric  
0        0.75  1.071429      0.02         1.2       0.111111  
1        0.75  1.071429      0.02         1.2       0.111111  




### Resultaten en Interpretatie

Bij het uitvoeren van bovenstaande code worden de associatieregels berekend en gefilterd op basis van een minimum support van 0.3 en een minimum confidence van 0.5. 

**Voorbeeld:**
- **Rule 1**: (Printer → Cartridge) met een confidence van 0.75 en een lift van 1.071.
- **Rule 2**: (Papier → Cartridge) met een confidence van 0.75 en een lift van 1.071.

Deze regels geven aan dat de kans groot is dat als een klant een printer of papier koopt, ze ook een cartridge kopen.

Door het minimum support te verlagen en te filteren op conviction, kunnen we meer regels ontdekken die wellicht minder frequent zijn, maar toch een sterk verband tonen.

In [9]:
# Meer associatieregels zoeken met lagere minimum support en selectie op conviction
itemsets = fpgrowth(transacties, min_support=0.01, use_colnames=True)
rules = association_rules(itemsets, metric='conviction', min_threshold=1.2)
rules.sort_values(by='conviction', ascending=False)
print(rules)

              antecedents  consequents  antecedent support  \
0             (Ballpoint)    (Printer)                 0.4   
1               (Printer)  (Ballpoint)                 0.4   
2  (Cartridge, Ballpoint)    (Printer)                 0.2   
3  (Cartridge, Ballpoint)      (Paper)                 0.2   
4      (Paper, Ballpoint)  (Cartridge)                 0.1   

   consequent support  support  confidence      lift  leverage  conviction  \
0                 0.4      0.2         0.5  1.250000      0.04         1.2   
1                 0.4      0.2         0.5  1.250000      0.04         1.2   
2                 0.4      0.1         0.5  1.250000      0.02         1.2   
3                 0.4      0.1         0.5  1.250000      0.02         1.2   
4                 0.7      0.1         1.0  1.428571      0.03         inf   

   zhangs_metric  
0       0.333333  
1       0.333333  
2       0.250000  
3       0.250000  
4       0.333333  




Met deze aanpak worden associatieregels gevonden die belangrijk kunnen zijn voor bijvoorbeeld productaanbevelingen in een winkelomgeving, zelfs als deze minder frequent voorkomen.
