# Análisis de Asociación

## Ejemplo de algoritmo A priori
Este ejemplo ha sido tomado del siguiente post: https://stackabuse.com/association-rule-mining-via-apriori-algorithm-in-python/ escrito por Usman Malik

### Requisitos
- Instalar esta biblioteca https://github.com/ymoch/apyori
- Descargar el dataset: https://drive.google.com/file/d/1y5DYn0dGoSbC22xowBq2d4po6h1JxcTQ/view

Puede instalar el paquete apyori desde una terminal:

```
$ pip install apyori
```

o desde el notebook

```
import sys
!conda install --yes --prefix {sys.prefix} numpy
```

o puede instalarlo mediante `pip`

```
import sys
!{sys.executable} -m pip install numpy
```

### Inicialización del programa

In [None]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
from apyori import apriori

### Importar el dataset

#### Primera revisión

In [None]:
store_data = pd.read_csv('store_data.csv')
store_data.head()

#### Ingnorar la primera fila

In [None]:
store_data = pd.read_csv('store_data.csv', header=None)
store_data.head()

In [None]:
print("El dataset tiene " + str(store_data.shape[0]) + " transacciones (filas) que involucran " + str(store_data.shape[1]) + " items (columnas).")



### Retomando los conceptos de Asociación y A Priori 

- **Itemsets**: Son grupos de items, representados con letras mayúsculas $A$ , $B$

- **Reglas**: son asociaciones de itemsets con la forma $A \rightarrow B$. Quiere decir que presencia de $A$ implica la presencia de $B$.

- **Support**: Es una propieda de una regla e indica la evidencia sobre la cual se fundamenta la regla

    $\frac{\sigma (A \cup B)}{N}$ o $\frac{\textrm{Cantidad de transacciones que contienen A y B}}{N}$ donde $N$ es el número total de transacciones del dataset.

- **Confidence**: Es una propieda de una regla e indica la precisión de la regla

    $\frac{\sigma (A \cup B)}{B}$ o $\frac{\textrm{Cantidad de transacciones que contienen A y B}}{\textrm{Cantidad de transacciones que contienen A}}$ 
    
- **Lift**: Es una propiedad de una regla e indica la utilidad de la regla 
    $\frac{\textrm{Confidence of the rule} A \rightarrow B}{Prior(B)}$


### Extraer las transacciones

In [None]:
total_transactions = store_data.shape[0]
total_items = store_data.shape[1]
records = []

for i in range(0, total_transactions):
    records.append([str(store_data.values[i,j]) for j in range(0, total_items)])

### Parámetros que necesita el algoritmo a priori

- `min_support` umbral de aceptación para  **Support** 
- `min_confidence` umbral de aceptación apra **Confidence**
- `min_lift` umbral de aceptación para **Lift** 
- `max_length` (en el tutorial dice `min_records` por error)


In [None]:
def find_rules(records, min_support, min_confidence, min_lift, max_length):
    association_rules = apriori(records, min_support=min_support, min_confidence=min_confidence, min_lift=min_lift, max_length=max_length)
    association_results = list(association_rules)
    found = len(association_results)
    if (found > 0):
        print("Found " + str(len(association_results)) + " rules \n")        
        for item in association_results:

            # first index of the inner list
            # Contains base item and add item
            pair = item[0] 
            items = [x for x in pair]
            print("Rule: " + items[0] + " -> " + items[1])

            #second index of the inner list
            print("Support: " + str(item[1]))

            #third index of the list located at 0th
            #of the third index of the inner list

            print("Confidence: " + str(item[2][0][2]))
            print("Lift: " + str(item[2][0][3]))
            print("=====================================")
    else:
        print("Found no rules")
        

In [None]:
min_support    = 0.0045
min_confidence = 0.2
min_lift       = 4
max_length     = 3

find_rules(records, min_support=min_support, min_confidence=min_confidence, min_lift=min_lift, max_length=max_length)