# Apriori

En aquesta primera pràctica es programarà l'algorisme **Apriori**, que computa el nombre de subconjunts d'un tamany determinat que es troben freqüenment en un conjunt més gran. Per exemple, ens pot servir per trobar productes que es compren freqüentment en una mateixa compra.

Per tal de comprovar perque es fa servir Apriori, s'implementarà també l'algorisme Naive, que calcula totes les possibles combinacions i, després, les filtra per quedar-se solament amb les més comuns.



## Funcionament

L'algormisme d'apriori, tal i com s'explica a teoria, evita crear totes les possibles combinacions d'un tamany $n$ i per tant reporta un estalvi comptutacional i de memòria considerable.

Supossem que volem totes les combinacions de tamany $n=3$, Apriori faria:

```python
conjunt_1 = productes_per_compra()
filtrat_1 = filtrar(conjunt_1, suport_minim)

conjunt_2 = generar(filtrat_1, 2)
filtrat_2 = filtrar(conjunt_2, suport_minim)

conjunt_3 = generar(filtrat_2, 3)
filtrat_3 = filtrar(conjunt_3, suport_minim)
```

Seguint l'exemple de teoria, supossem que inicialment tenim el següent `DataFrame` de compres i volem un suport mínim de 2 i conjunts de 3.

<div style="text-align: center; margin: 20px;">
    <table style="display: inline-block;">
        <tr><th>order_id</th><th>products</th></tr>
        <tr><td>1</td><td>1, 2, 5</td></tr>
        <tr><td>2</td><td>2, 4</td></tr>
        <tr><td>3</td><td>2, 3</td></tr>
        <tr><td>4</td><td>1, 2, 4</td></tr>
        <tr><td>5</td><td>1, 3</td></tr>
        <tr><td>6</td><td>2, 3</td></tr>
        <tr><td>7</td><td>1, 3</td></tr>
        <tr><td>8</td><td>1, 2, 3, 5</td></tr>
        <tr><td>9</td><td>1, 2, 3</td></tr>
    </table>
</div>

Després de la primera crida a `productes_per_compra` obtindríem el següent dataframe, composat per totes les possibles combinacions d'1 (és a dir una llista amb únicament el producte) i la respectiva compra:

<div style="text-align: center; margin: 20px;">
    <table style="display: inline-block;">
        <tr><th>order_id</th><th>products</th></tr>
        <tr><td>1</td><td>(1,)</td></tr>
        <tr><td>1</td><td>(2,)</td></tr>
        <tr><td>1</td><td>(5,)</td></tr>
        <tr><td>2</td><td>(2,)</td></tr>
        <tr><td>2</td><td>(4,)</td></tr>
        <tr><td>3</td><td>(2,)</td></tr>
        <tr><td>3</td><td>(3,)</td></tr>
        <tr><td>4</td><td>(1,)</td></tr>
        <tr><td>4</td><td>(2,)</td></tr>
        <tr><td>4</td><td>(4,)</td></tr>
        <tr><td>5</td><td>(1,)</td></tr>
        <tr><td>5</td><td>(3,)</td></tr>
    </table>
    <span style="display: inline-block; margin: 10px; font-size: 50px;">...</span>
    <table style="display: inline-block;">
        <tr><th>order_id</th><th>products</th></tr>
        <tr><td>6</td><td>(2,)</td></tr>
        <tr><td>6</td><td>(3,)</td></tr>
        <tr><td>7</td><td>(1,)</td></tr>
        <tr><td>7</td><td>(3,)</td></tr>
        <tr><td>8</td><td>(1,)</td></tr>
        <tr><td>8</td><td>(2,)</td></tr>
        <tr><td>8</td><td>(3,)</td></tr>
        <tr><td>8</td><td>(5,)</td></tr>
        <tr><td>9</td><td>(1,)</td></tr>
        <tr><td>9</td><td>(2,)</td></tr>
        <tr><td>9</td><td>(3,)</td></tr>
    </table>
</div>

Ara, cridant `filtrar` amb el conjunt anterior i suport 2, obtindríem (fent un pas intermig per calcular el suport):


<div style="text-align: center; margin: 20px;">
    <table style="display: inline-block;">
        <tr><th>order_id</th><th>products</th><th>suport</th></tr>
        <tr><td>1</td><td>(1,)</td><td>6</td></tr>
        <tr><td>1</td><td>(2,)</td><td>7</td></tr>
        <tr><td>1</td><td>(5,)</td><td>2</td></tr>
        <tr><td>2</td><td>(2,)</td><td>7</td></tr>
        <tr><td>2</td><td>(4,)</td><td>2</td></tr>
        <tr><td>3</td><td>(2,)</td><td>7</td></tr>
        <tr><td>3</td><td>(3,)</td><td>6</td></tr>
        <tr><td>4</td><td>(1,)</td><td>6</td></tr>
        <tr><td>4</td><td>(2,)</td><td>7</td></tr>
        <tr><td>4</td><td>(4,)</td><td>2</td></tr>
        <tr><td>5</td><td>(1,)</td><td>6</td></tr>
        <tr><td>5</td><td>(3,)</td><td>6</td></tr>
    </table>
    <span style="display: inline-block; margin: 10px; font-size: 50px;">...</span>
    <table style="display: inline-block;">
        <tr><th>order_id</th><th>products</th><th>suport</th></tr>
        <tr><td>6</td><td>(2,)</td><td>7</td></tr>
        <tr><td>6</td><td>(3,)</td><td>6</td></tr>
        <tr><td>7</td><td>(1,)</td><td>6</td></tr>
        <tr><td>7</td><td>(3,)</td><td>6</td></tr>
        <tr><td>8</td><td>(1,)</td><td>6</td></tr>
        <tr><td>8</td><td>(2,)</td><td>7</td></tr>
        <tr><td>8</td><td>(3,)</td><td>6</td></tr>
        <tr><td>8</td><td>(5,)</td><td>2</td></tr>
        <tr><td>9</td><td>(1,)</td><td>6</td></tr>
        <tr><td>9</td><td>(2,)</td><td>7</td></tr>
        <tr><td>9</td><td>(3,)</td><td>6</td></tr>
    </table>
</div>

Obtenim:

<div style="text-align: center; margin: 20px;">
    <table style="display: inline-block;">
        <tr><th>order_id</th><th>products</th></tr>
        <tr><td>1</td><td>(1,)</td></tr>
        <tr><td>1</td><td>(2,)</td></tr>
        <tr><td>1</td><td>(5,)</td></tr>
        <tr><td>2</td><td>(2,)</td></tr>
        <tr><td>2</td><td>(4,)</td></tr>
        <tr><td>3</td><td>(2,)</td></tr>
        <tr><td>3</td><td>(3,)</td></tr>
        <tr><td>4</td><td>(1,)</td></tr>
        <tr><td>4</td><td>(2,)</td></tr>
        <tr><td>4</td><td>(4,)</td></tr>
        <tr><td>5</td><td>(1,)</td></tr>
        <tr><td>5</td><td>(3,)</td></tr>
    </table>
    <span style="display: inline-block; margin: 10px; font-size: 50px;">...</span>
    <table style="display: inline-block;">
        <tr><th>order_id</th><th>products</th></tr>
        <tr><td>6</td><td>(2,)</td></tr>
        <tr><td>6</td><td>(3,)</td></tr>
        <tr><td>7</td><td>(1,)</td></tr>
        <tr><td>7</td><td>(3,)</td></tr>
        <tr><td>8</td><td>(1,)</td></tr>
        <tr><td>8</td><td>(2,)</td></tr>
        <tr><td>8</td><td>(3,)</td></tr>
        <tr><td>8</td><td>(5,)</td></tr>
        <tr><td>9</td><td>(1,)</td></tr>
        <tr><td>9</td><td>(2,)</td></tr>
        <tr><td>9</td><td>(3,)</td></tr>
    </table>
</div>

Per generar el següent conjunt, faríem totes les possibles parelles d'entre les anteriors. Molt important, solament considerem productes d'una mateixa ordre! Mai podem fer combinacions que involucrin més d'una compra, sinó ja no estaríem considerant compres freqüentment juntes.

<div style="text-align: center; margin: 20px;">
    <table style="display: inline-block;">
        <tr><th>order_id</th><th>products</th></tr>
        <tr><td>1</td><td>(1,2)</td></tr>
        <tr><td>1</td><td>(1,5)</td></tr>
        <tr><td>1</td><td>(2,5)</td></tr>
        <tr><td>2</td><td>(2,4)</td></tr>
        <tr><td>3</td><td>(2,3)</td></tr>
        <tr><td>4</td><td>(1,2)</td></tr>
        <tr><td>4</td><td>(1,4)</td></tr>
        <tr><td>4</td><td>(2,4)</td></tr>
        <tr><td>5</td><td>(1,3)</td></tr>
        <tr><td>6</td><td>(2,3)</td></tr>
    </table>
    <span style="display: inline-block; margin: 10px; font-size: 50px;">...</span>
    <table style="display: inline-block;">
        <tr><th>order_id</th><th>products</th></tr>
        <tr><td>7</td><td>(1,3)</td></tr>
        <tr><td>8</td><td>(1,2)</td></tr>
        <tr><td>8</td><td>(1,3)</td></tr>
        <tr><td>8</td><td>(1,5)</td></tr>
        <tr><td>8</td><td>(2,3)</td></tr>
        <tr><td>8</td><td>(2,5)</td></tr>
        <tr><td>8</td><td>(3,5)</td></tr>
        <tr><td>9</td><td>(1,2)</td></tr>
        <tr><td>9</td><td>(1,3)</td></tr>
        <tr><td>9</td><td>(2,3)</td></tr>
    </table>
</div>

De nou filtrem fent un pas intermig per calcular el suport:

<div style="text-align: center; margin: 20px;">
    <table style="display: inline-block;">
        <tr><th>order_id</th><th>products</th><th>suport</th></tr>
        <tr><td>1</td><td>(1,2)</td><td>4</td></tr>
        <tr><td>1</td><td>(1,5)</td><td>2</td></tr>
        <tr><td>1</td><td>(2,5)</td><td>2</td></tr>
        <tr><td>2</td><td>(2,4)</td><td>2</td></tr>
        <tr><td>3</td><td>(2,3)</td><td>4</td></tr>
        <tr><td>4</td><td>(1,2)</td><td>4</td></tr>
        <tr><td>4</td><td>(1,4)</td><td>1</td></tr>
        <tr><td>4</td><td>(2,4)</td><td>2</td></tr>
        <tr><td>5</td><td>(1,3)</td><td>4</td></tr>
        <tr><td>6</td><td>(2,3)</td><td>4</td></tr>
    </table>
    <span style="display: inline-block; margin: 10px; font-size: 50px;">...</span>
    <table style="display: inline-block;">
        <tr><th>order_id</th><th>products</th><th>suport</th></tr>
        <tr><td>7</td><td>(1,3)</td><td>4</td></tr>
        <tr><td>8</td><td>(1,2)</td><td>4</td></tr>
        <tr><td>8</td><td>(1,3)</td><td>4</td></tr>
        <tr><td>8</td><td>(1,5)</td><td>2</td></tr>
        <tr><td>8</td><td>(2,3)</td><td>4</td></tr>
        <tr><td>8</td><td>(2,5)</td><td>2</td></tr>
        <tr><td>8</td><td>(3,5)</td><td>1</td></tr>
        <tr><td>9</td><td>(1,2)</td><td>4</td></tr>
        <tr><td>9</td><td>(1,3)</td><td>4</td></tr>
        <tr><td>9</td><td>(2,3)</td><td>4</td></tr>
    </table>
</div>

Quedant:

<div style="text-align: center; margin: 20px;">
    <table style="display: inline-block;">
        <tr><th>order_id</th><th>products</th></tr>
        <tr><td>1</td><td>(1,2)</td></tr>
        <tr><td>1</td><td>(1,5)</td></tr>
        <tr><td>1</td><td>(2,5)</td></tr>
        <tr><td>2</td><td>(2,4)</td></tr>
        <tr><td>3</td><td>(2,3)</td></tr>
        <tr><td>4</td><td>(1,2)</td></tr>
        <tr><td>4</td><td>(2,4)</td></tr>
        <tr><td>5</td><td>(1,3)</td></tr>
        <tr><td>6</td><td>(2,3)</td></tr>
    </table>
    <span style="display: inline-block; margin: 10px; font-size: 50px;">...</span>
    <table style="display: inline-block;">
        <tr><th>order_id</th><th>products</th></tr>
        <tr><td>7</td><td>(1,3)</td></tr>
        <tr><td>8</td><td>(1,2)</td></tr>
        <tr><td>8</td><td>(1,3)</td></tr>
        <tr><td>8</td><td>(1,5)</td></tr>
        <tr><td>8</td><td>(2,3)</td></tr>
        <tr><td>8</td><td>(2,5)</td></tr>
        <tr><td>9</td><td>(1,2)</td></tr>
        <tr><td>9</td><td>(1,3)</td></tr>
        <tr><td>9</td><td>(2,3)</td></tr>
    </table>
</div>

I finalment, com abans, fem totes les combinacions de 3 dins d'una mateixa compra a partir de les anterior:

<div style="text-align: center; margin: 20px;">
    <table style="display: inline-block;">
        <tr><th>order_id</th><th>products</th></tr>
        <tr><td>1</td><td>(1,2,5)</td></tr>
        <tr><td>8</td><td>(1,2,3)</td></tr>
        <tr><td>8</td><td>(1,2,5)</td></tr>
        <tr><td>9</td><td>(1,2,3)</td></tr>
    </table>
</div>

Totes tenen suport 2, i per tant, després de filtrar obtindríem el mateix.

## Abans de començar

**\+ Després de fer la pràctica, caldrà que respongueu les següents preguntes**:

* Quin(s) aventatge(s) proporciona Apriori respecte la implementació Naive?


* La principal diferència i avantatge és que en l'implementació Naive arroseguem totes aquelles combinacions que no són válides fins al final del algoritme. En canvi, amb Apriori, eliminem aquelles que ja sabem que no son posibles i que no pasaràn a la següent iteració de combinacions. 

* És a dir, amb Apriori, si un producte no apareix en cap combinació d'alguna ordre, llavors aquest producte no pot aparèixer en cap combinacio següent. 




**\+ Durant la pràctica, solament es podran fer servir les següents llibreries**:

`Pandas, Numpy, Itertools`

*Nota: A més de les que ja es troben presents en la 1a cel·la*

**\+ No es poden modificar les definicions de les funcions donades, ni canviar els noms de les variables i paràmetres ja donats**

Això no implica però que els hagueu de fer servir. És a dir, que la funció tingui un paràmetre anomenat `df` no implica que l'hagueu de fer servir, si no ho trobeu convenient.

**\+ En les funcions, s'especifica que serà i de quin tipus cada un dels paràmetres, cal respectar-ho**

Per exemple (ho posarà en el pydoc de la funció), `df` sempre serà indicatiu del `Pandas.DataFrame` de les dades. Durant els testos, els paràmetres (i especificament `df`) no contindran les mateixes dades que en aquest notebook, si bé si seran del mateix tipus! Per tant, no refieu de que tinguin, per exemple, el mateix nombre de files.

## Testos automàtics

Com ja sabeu, les pràctiques es fan a través de Github Classroom. Podeu treballar-hi lliurement i es recomana que feu commits sovint, per tal de que els canvis quedin reflectits de forma estructurada i modular.

Normalment traballareu a la branca `master`, però podeu fer fins a 3 cops al dia un `commit` (o `merge` de `master`) a la branca `tests`. Això provocarà que es llencin un seguit de proves sobre el vostre codi, en podreu veure el resultat a la següent web: http://52.59.217.167:8080

Penseu que aquests testos són un subconjunt, petit, dels que realment farem servir per evaluar. Per tant, us recomenem que aprofiteu al màxim els 3 intents diaris, que us serviran per comprovar que els formats d'entrada i sortida siguin correctes, a més d'alguns testos bàsics de correcte funcionament.

# Preparar les dades

### **En aquestes cel·la no feu cap modificació**

Descomprimeix el zip en la carpeta "data" automàticament. La funció locate serveix per trobar la ruta relativa a la carpeta on s'està executant aquest python/ipython.

In [1]:
import zipfile
from os.path import join, dirname

def locate(*path):
    base = globals().get('__file__', '.')
    return join(dirname(base), *path)

zip_ref = zipfile.ZipFile(locate('order_products__train.csv.zip'), 'r')
zip_ref.extractall(locate('data'))
zip_ref.close()

# Data loading

### **En aquestes cel·la no feu cap modificació**

Carrega les dades en un DataFrame Pandas y realitza dos operacions bàsiques:

* Número total d'operacions, entenent com a operació l'acció d'afegir un producte individual en una compra
* Número total d'ordres, és a dir de "cistelles" comprades

In [2]:
import pandas as pd

df_original = pd.read_csv(locate('data', 'order_products__train.csv'))
num_samples = len(df_original.index)

df_orders = df_original.groupby('order_id')
num_orders = len(df_orders)

Si voleu comprobar el resulta d'una funció en aquest notebook, i/o mostrar alguna sortida, és **obligatori** que ho feu dins d'un bloc `if __name__ == '__main__'`, doncs és necessari per poder realitzar els testos automàtics en un temps raonable.

In [3]:
if __name__ == '__main__':
    print(num_samples)
    print(num_orders)

1384617
131209


# Les dades

En aquest i futur notebooks farem servir dades reals corresponents a compres, concretament les utilitzades en el Kaggle Instacart Market Basket Analysis:
https://www.kaggle.com/c/instacart-market-basket-analysis

Tot i que aquí solament farem servir un dels 4 conjunts de dades disponibles, s'expliquen tots en vista a futures pràctiques.

* **Order Products**: És el de major interés, doncs conté la relació de productes comprats (`product_id`) per a cada conjunt de compra diferent (`order_id`). A aquests conjunts de compres ens hi referifem com a `ordres`, seguint la nomenclatura de les dades. A més, tot i que no ho farem servir, podríem arribar a saber en quin ordre s'han comprat els productes (`add_to_cart_order`) i inclús si ja s'havia comprat en alguna ordre anterior (`reordered`).

* **Orders**: Aquest dataset ens permet relacionar una compra en concret (`order_id`) amb l'usuari que l'ha feta (`user_id`)

* **Products**: Donat un `product_id` ens permet obtenir-ne més informació, com ara el nom (`product_name`), la secció en la que es troba (`aisle_id`) o al departament al que pertany (`department_id`). Aquests dos últims es complementen amb els conjunts **Aisles** i **Departments**.

Tal i com veuràs si executes el codi de les cel·les anteriors, tenim **1384617 productes** comprats, en un total de **131209 ordres** diferents.

# Algorisme Naive

En la primera part d'aquesta pràctica heu de programar un algorisme Naive que generi totes les possibles combinacions per una $n$ objectiu donada, i després les filtri segons el suport mínim.

Recordeu, seguiu els pydoc i compliu amb el que diuen!

In [4]:
import itertools

def get_order(df, order_id):
    """
    Donat un `order_id`, aquesta funció retorna una sèrie que conté solament
    totes les comandes de l'ordre en concret
    
    :param df: DataFrame de dades
    :param ord_id: Identificador de l'ordre a retornar
    :return: Una Serie consistent solament dels productes de l'ordre demanada
    """
    ordre = df[df['order_id']==order_id] #Mira en cada element de la columna order_id si es el que busques
    productes = ordre['product_id'] #Retorna els productes d'aquesta ordre que acabo de trobar
    return(productes)

def get_n_sets(df, order_id, n):
    """
    Retorna totes les possibles combinacions de tamany $n$ d'entre els
    productes d'una ordre en concret
    
    :param df: DataFrame de dades
    :param order_id: Identificador de l'ordre a retornar
    :return: Les combinacions de tamany $n$ d'aquesta ordre, com a llista, tupla o generador
    """
    productes = get_order(df, order_id).sort_values() #Ordena l'ordre que m'han pasat
    return(list(itertools.combinations(list(productes), n))) #Genera combinacions de l'ordre que m'han pasat amb itertools
    
def get_all_n_sets(df, n):
    """
    Retorna, per totes les ordres de forma independent, totes les possibles 
    combinacions de tamany $n$. Ho fa en un DataFrame com els de l'exemple superior,
    una columna anomenada `order_id` que indica a quina comanda pertany la combinació
    i una altre `products` que conté la combinació en si mateixa
    
    :param df: DataFrame de dades
    :param n: Tamany de les combinacions
    :return: Un DataFrame de dues columnes, `order_id` i`products`
    """
    #Creo una llista on aniré afegint llistes, formades per [ordre, producte]
    llista = [] 
    for i in df.order_id.unique(): #unique: perque no agafi combinacions repetides
        for x in get_n_sets(df,i,n): 
            llista.append([i,x])
    df2 = pd.DataFrame(llista, columns =['order_id','products']) #Creo el dataframe
    return df2
    
    

In [5]:
def get_support(df, prod_set, all_sets):
    """
    Retorna el suport d'una combinació en concret d'entre
    totes les combinacions
    
    :param df: DataFrame de dades
    :param prod_set: Una tupla que conté la combinació de productes
    :param all_sets: DataFrame de combinacions, consistent de `order_id` i `products`
    :return: Enter que indica el suport del producte
    """
    #Suma 1 per cada vegada que et trobis el producte pasat per paràmetre. Zero si no el troba.
    suport = 0
    for i in all_sets['products']:
        if i == prod_set:
            suport = suport+1
    
    return (suport)
        

In [6]:
def filter_by_support(df, all_sets, min_support):
    """
    Donades totes les combinacions i el suport mínim, retorna un altre
    DataFrame amb solament aquelles combinacions que tenen un suport
    major al mínim
    
    :param df: DataFrame de dades
    :param all_sets: DataFrame de combinacions, amb `order_id` i `products`
    :param min_support: Suport mínim de les combinacions
    :return: DataFrame amb estructura igual que `all_sets` però filtrat segons el
        suport mínim
    """     
    #Crea "un vector de suports" format per la combinacio i adjeçentment el seu suport
    counts = all_sets['products'].value_counts() 
    
    #Ara, quedat només amb les combinacions que compleixin el suport minim
    df = all_sets[all_sets['products'].isin(counts[counts >= min_support].index)] 
    return (df)
    

In [7]:
#Funcio disponible per comprovar funcions concretes
if __name__ == '__main__':
    orders_size = df_original.groupby('order_id').size()
    df = df_original[df_original['order_id'].isin(orders_size[orders_size > 50].index)]
    df2 = get_all_n_sets(df,3)
    print(filter_by_support(df,df2,10))

         order_id               products
36483        7793  (13176, 21137, 47209)
36503        7793  (13176, 21903, 27966)
37032        7793  (13176, 27966, 47209)
117815      68260  (13176, 21137, 39275)
472077     280429  (13176, 21137, 47209)
707068     341238  (13176, 21137, 47209)
741969     356263  (13176, 27966, 47209)
817355     427405  (13176, 27966, 47209)
899486     430336  (13176, 21137, 47209)
1054423    545696  (13176, 21137, 39275)
1054433    545696  (13176, 21137, 47209)
1077561    555738  (13176, 21903, 27966)
1181211    626027  (13176, 21137, 47209)
1298963    690200  (13176, 21137, 47209)
1498352    913574  (13176, 21137, 47209)
1498561    913574  (13176, 27966, 47209)
1774125   1051870  (13176, 21903, 27966)
2081002   1348435  (13176, 21137, 39275)
2138279   1355077  (13176, 21137, 39275)
2379803   1465173  (13176, 21137, 39275)
2508130   1496982  (13176, 27966, 47209)
2574692   1570487  (13176, 21137, 39275)
2574733   1570487  (13176, 21903, 27966)
2595681   161041

In [8]:
def naive(df, target_n, min_support):
    
    df2 = get_all_n_sets(df, target_n) #Agafa les combinacions
    df_final = filter_by_support(df, df2, min_support) #Filtreles
    return df_final #I retornales
    
    """
    Donat el conjunt original, la $n$ objectiu i el suport mínim,
    calcula aquelles combinacions freqüents de forma Naive, utilitzant
    les funcions programades adalt.
    
    :param df: DataFrame de dades
    :param target_n: $n$ objectiu
    :param min_support: Suport mínim de les combinacions
    :return: DataFrame de combinacions, amb `order_id` i `products`, amb
        combinacions de tamany $n$ i filtrat pel suport mínim
    """

In [9]:
#Funcio disponible per comprovar funcions concretes
if __name__ == '__main__':
    orders_size = df_original.groupby('order_id').size()
    df = df_original[df_original['order_id'].isin(orders_size[orders_size > 50].index)]
    print(naive(df, 3, 10))

         order_id               products
36483        7793  (13176, 21137, 47209)
36503        7793  (13176, 21903, 27966)
37032        7793  (13176, 27966, 47209)
117815      68260  (13176, 21137, 39275)
472077     280429  (13176, 21137, 47209)
707068     341238  (13176, 21137, 47209)
741969     356263  (13176, 27966, 47209)
817355     427405  (13176, 27966, 47209)
899486     430336  (13176, 21137, 47209)
1054423    545696  (13176, 21137, 39275)
1054433    545696  (13176, 21137, 47209)
1077561    555738  (13176, 21903, 27966)
1181211    626027  (13176, 21137, 47209)
1298963    690200  (13176, 21137, 47209)
1498352    913574  (13176, 21137, 47209)
1498561    913574  (13176, 27966, 47209)
1774125   1051870  (13176, 21903, 27966)
2081002   1348435  (13176, 21137, 39275)
2138279   1355077  (13176, 21137, 39275)
2379803   1465173  (13176, 21137, 39275)
2508130   1496982  (13176, 27966, 47209)
2574692   1570487  (13176, 21137, 39275)
2574733   1570487  (13176, 21903, 27966)
2595681   161041

# Algorisme Apriori

Ara, enlloc de generar totes les possibles combinacions de cop, el que s'haurà de fer és generar les noves a partir de les anteriors (ja filtrades per suport). Per tant, cal fer una funció que donat totes les combinacions de tamany $n-1$ generi les de tamany $n$.

In [15]:
import itertools

def get_order_apriori(df, order_id):
    #Retorna els productes d'una ordre concreta
    ordre = df[df['order_id']==order_id]
    productes = ordre['products']    
    return(productes)

def get_n_sets_apriori(df, order_id, n):
    #Retorna les combinacions de mida n dels productes d'una ordre concreta
    productes = get_order_apriori(df, order_id).sort_values()
    return(list(itertools.combinations(list(productes), n)))
    
def get_n_sets_apriori_gran(df, order_id, n):
    #Retorno per totes les ordres totes les combinacions de mida n
    
    productes = get_order_apriori(df, order_id).sort_values() #Ordeno els productes
    productes = list(productes) #Transformo les tuples de productes en llistes
    productes_comb = () #Tupla on posare els productes, un darrere l'altre
    llista_combinacions = [] #Llista amb les combinacions que em van sortint

    #Aqui afegeixo un producte radera l'altre. Finalment, trec els productes repetits amb set() i els torno a ordenar
    for i in productes:
        productes_comb = productes_comb + i
    llista_productes = list(set(productes_comb))
    llista_productes.sort()

    #Genero TOTES les posibles combinacions d'aquests productes
    llista_possibles = list(itertools.combinations(list(llista_productes), n))
    
    #Per cada una d'elles, genero les combinacions previes a elles, per exemple, [1,2,3] ve de [1,2], [1,3] i [2,3]
    for j in llista_possibles:
        llista_prev = list(itertools.combinations(list(j), n-1))
        #Ara, miro si per cada combinacio original he trobat la seva previa. Si no la he trobat, es que NO es una 
        #combinacio valida
        trobat = 0
        for k in llista_prev:
            if k not in productes:
                trobat = 1
        if trobat == 0:
            llista_combinacions.append(j)
    return(llista_combinacions)

def get_all_n_sets_apriori(df, n):
    #Agafem les combinacions i les ordres i creem un dataframe
    llista = []
    for i in df.order_id.unique():
        for x in get_n_sets_apriori(df,i,n):
            llista.append([i,x])

    df2 = pd.DataFrame(llista, columns =['order_id','products'])
    return df2

def get_all_n_sets_apriori_gran(df, n):
    #Agafem les combinacions i les ordres i creem un dataframe
    llista = []
    for i in df.order_id.unique():
        for x in get_n_sets_apriori_gran(df,i,n):
            llista.append([i,tuple(x)]) 
    df2 = pd.DataFrame(llista, columns =['order_id','products'])
    return df2

def generate_next(previous, n_prev):
    """
    Donades les combinacions de tamany $n-1$ genera les de tamany $n$. Ho fa
    seguint les regles d'Apriori (ie. si anteriorment en l'ordre 1 i tamany 2 teníem solament 
    (1,2),(1,4),(4,5) i ara volem generar les de tamany 3, la combinació (1,4,5) no és vàlida,
    doncs no teníem originalment la (1,5)!
    
    :param previous: DataFrame de combinacions del tamany previ, amb `order_id` i `products`
    :param n_prev: Tamany previ de les combinacions present en el DataFrame `previous`
    :return: DataFrame de combinacions de tamany $n$, amb `order_id` i `products`
    """
    #Si haig de generar combinacions de mida n = 2 (es a dir, nprev = 1), faig servir el metode senzill.
    #En canvi, per qualsevol altre mesura, faig servir el metode "gran"
    if n_prev == 1:
        return(get_all_n_sets_apriori(previous, n_prev+1))
    else:
        return(get_all_n_sets_apriori_gran(previous, n_prev+1))

In [11]:
def apriori(df, target_n, min_support):
    """
    L'algorisme ha de generar de forma iterativa, començant per 1 i fins a $n$ (inclosa)
    les combinacions de forma successiva, és a dir generant-les a partir de les anteriors.
    La primera de totes, de tamany 1, la podeu generar directament amb les funcions
    programades per l'algorisme Naive.
    
    :param df: DataFrame de dades
    :param target_n: $n$ objectiu
    :param min_support: Suport mínim
    :return: DataFrame amb cominacions de tamany $n$ i filtrat pel suport mínim, amb
        `order_id` i `products`
    """
    
    i = 0 #Per contar les iteracions fins al target demanat
    
    df1 = df.copy()
    df1 = df1.reindex(columns=['order_id','products','add_to_cart_order','reordered'])
    df1['products'] = df['product_id']
    
    counts = df1['products'].value_counts() #Calculo el suport dels productes inicials

    df1 = df1[df1['products'].isin(counts[counts >= min_support].index)] #Em quedo amb aquells que compleixen el suport passat

    i +=1
    
    while i <= target_n-1:

        df1 = generate_next(df1, i) #Genero les seguents combinacions valides
        #I torno a veure quines estan per sobre el suport minim
        counts = df1['products'].value_counts()  
        df1 = df1[df1['products'].isin(counts[counts >= min_support].index)]
        i +=1

    return df1

In [12]:
#Funcio disponible per comprovar funcions concretes
if __name__ == '__main__':
    orders_size = df_original.groupby('order_id').size()
    df = df_original[df_original['order_id'].isin(orders_size[orders_size > 50].index)]
    print(apriori(df, 3, 10))

     order_id               products
6        7793  (13176, 21137, 47209)
9        7793  (13176, 21903, 27966)
16       7793  (13176, 27966, 47209)
44      68260  (13176, 21137, 39275)
58     280429  (13176, 21137, 47209)
74     341238  (13176, 21137, 47209)
90     356263  (13176, 27966, 47209)
109    427405  (13176, 27966, 47209)
120    430336  (13176, 21137, 47209)
126    545696  (13176, 21137, 39275)
127    545696  (13176, 21137, 47209)
131    555738  (13176, 21903, 27966)
135    626027  (13176, 21137, 47209)
161    690200  (13176, 21137, 47209)
215    913574  (13176, 21137, 47209)
216    913574  (13176, 27966, 47209)
228   1051870  (13176, 21903, 27966)
252   1348435  (13176, 21137, 39275)
253   1355077  (13176, 21137, 39275)
272   1465173  (13176, 21137, 39275)
287   1496982  (13176, 27966, 47209)
291   1570487  (13176, 21137, 39275)
293   1570487  (13176, 21903, 27966)
315   1610411  (13176, 21903, 27966)
321   1610411  (13176, 27966, 47209)
330   1722326  (13176, 21137, 39275)
3

# Comparativa

In [13]:
if __name__ == '__main__':
    print(naive(df, 3, 10))

         order_id               products
36483        7793  (13176, 21137, 47209)
36503        7793  (13176, 21903, 27966)
37032        7793  (13176, 27966, 47209)
117815      68260  (13176, 21137, 39275)
472077     280429  (13176, 21137, 47209)
707068     341238  (13176, 21137, 47209)
741969     356263  (13176, 27966, 47209)
817355     427405  (13176, 27966, 47209)
899486     430336  (13176, 21137, 47209)
1054423    545696  (13176, 21137, 39275)
1054433    545696  (13176, 21137, 47209)
1077561    555738  (13176, 21903, 27966)
1181211    626027  (13176, 21137, 47209)
1298963    690200  (13176, 21137, 47209)
1498352    913574  (13176, 21137, 47209)
1498561    913574  (13176, 27966, 47209)
1774125   1051870  (13176, 21903, 27966)
2081002   1348435  (13176, 21137, 39275)
2138279   1355077  (13176, 21137, 39275)
2379803   1465173  (13176, 21137, 39275)
2508130   1496982  (13176, 27966, 47209)
2574692   1570487  (13176, 21137, 39275)
2574733   1570487  (13176, 21903, 27966)
2595681   161041

In [14]:
if __name__ == '__main__':
    print(apriori(df, 3, 10))

     order_id               products
6        7793  (13176, 21137, 47209)
9        7793  (13176, 21903, 27966)
16       7793  (13176, 27966, 47209)
44      68260  (13176, 21137, 39275)
58     280429  (13176, 21137, 47209)
74     341238  (13176, 21137, 47209)
90     356263  (13176, 27966, 47209)
109    427405  (13176, 27966, 47209)
120    430336  (13176, 21137, 47209)
126    545696  (13176, 21137, 39275)
127    545696  (13176, 21137, 47209)
131    555738  (13176, 21903, 27966)
135    626027  (13176, 21137, 47209)
161    690200  (13176, 21137, 47209)
215    913574  (13176, 21137, 47209)
216    913574  (13176, 27966, 47209)
228   1051870  (13176, 21903, 27966)
252   1348435  (13176, 21137, 39275)
253   1355077  (13176, 21137, 39275)
272   1465173  (13176, 21137, 39275)
287   1496982  (13176, 27966, 47209)
291   1570487  (13176, 21137, 39275)
293   1570487  (13176, 21903, 27966)
315   1610411  (13176, 21903, 27966)
321   1610411  (13176, 27966, 47209)
330   1722326  (13176, 21137, 39275)
3

#Aqui veig com la implementacio Naive és efectivament més lenta que la Apriori, és a dir, menys eficient. També observo que com més gran es N (mida de les combinacions) més triga.

In [15]:
if __name__ == '__main__':
    %timeit apriori(df, 3, 10)

1 loop, best of 3: 233 ms per loop


In [16]:
if __name__ == '__main__':
    %timeit naive(df, 3, 10)

1 loop, best of 3: 13.7 s per loop


In [17]:
if __name__ == '__main__':
    %timeit apriori(df, 2, 10)

10 loops, best of 3: 126 ms per loop


In [18]:
if __name__ == '__main__':
    %timeit naive(df, 2, 10)

1 loop, best of 3: 779 ms per loop
