# Apriori

En aquesta primera pràctica es programarà l'algorisme **Apriori**, que computa el nombre de subconjunts d'un tamany determinat que es troben freqüenment en un conjunt més gran. Per exemple, ens pot servir per trobar productes que es compren freqüentment en una mateixa compra.

Per tal de comprovar perque es fa servir Apriori, s'implementarà també l'algorisme Naive, que calcula totes les possibles combinacions i, després, les filtra per quedar-se solament amb les més comuns.



## Funcionament

L'algormisme d'apriori, tal i com s'explica a teoria, evita crear totes les possibles combinacions d'un tamany $n$ i per tant reporta un estalvi comptutacional i de memòria considerable.

Supossem que volem totes les combinacions de tamany $n=3$, Apriori faria:

```python
conjunt_1 = productes_per_compra()
filtrat_1 = filtrar(conjunt_1, suport_minim)

conjunt_2 = generar(filtrat_1, 2)
filtrat_2 = filtrar(conjunt_2, suport_minim)

conjunt_3 = generar(filtrat_2, 3)
filtrat_3 = filtrar(conjunt_3, suport_minim)
```

Seguint l'exemple de teoria, supossem que inicialment tenim el següent `DataFrame` de compres i volem un suport mínim de 2 i conjunts de 3.

<div style="text-align: center; margin: 20px;">
    <table style="display: inline-block;">
        <tr><th>order_id</th><th>products</th></tr>
        <tr><td>1</td><td>1, 2, 5</td></tr>
        <tr><td>2</td><td>2, 4</td></tr>
        <tr><td>3</td><td>2, 3</td></tr>
        <tr><td>4</td><td>1, 2, 4</td></tr>
        <tr><td>5</td><td>1, 3</td></tr>
        <tr><td>6</td><td>2, 3</td></tr>
        <tr><td>7</td><td>1, 3</td></tr>
        <tr><td>8</td><td>1, 2, 3, 5</td></tr>
        <tr><td>9</td><td>1, 2, 3</td></tr>
    </table>
</div>

Després de la primera crida a `productes_per_compra` obtindríem el següent dataframe, composat per totes les possibles combinacions d'1 (és a dir una llista amb únicament el producte) i la respectiva compra:

<div style="text-align: center; margin: 20px;">
    <table style="display: inline-block;">
        <tr><th>order_id</th><th>products</th></tr>
        <tr><td>1</td><td>(1,)</td></tr>
        <tr><td>1</td><td>(2,)</td></tr>
        <tr><td>1</td><td>(5,)</td></tr>
        <tr><td>2</td><td>(2,)</td></tr>
        <tr><td>2</td><td>(4,)</td></tr>
        <tr><td>3</td><td>(2,)</td></tr>
        <tr><td>3</td><td>(3,)</td></tr>
        <tr><td>4</td><td>(1,)</td></tr>
        <tr><td>4</td><td>(2,)</td></tr>
        <tr><td>4</td><td>(4,)</td></tr>
        <tr><td>5</td><td>(1,)</td></tr>
        <tr><td>5</td><td>(3,)</td></tr>
    </table>
    <span style="display: inline-block; margin: 10px; font-size: 50px;">...</span>
    <table style="display: inline-block;">
        <tr><th>order_id</th><th>products</th></tr>
        <tr><td>6</td><td>(2,)</td></tr>
        <tr><td>6</td><td>(3,)</td></tr>
        <tr><td>7</td><td>(1,)</td></tr>
        <tr><td>7</td><td>(3,)</td></tr>
        <tr><td>8</td><td>(1,)</td></tr>
        <tr><td>8</td><td>(2,)</td></tr>
        <tr><td>8</td><td>(3,)</td></tr>
        <tr><td>8</td><td>(5,)</td></tr>
        <tr><td>9</td><td>(1,)</td></tr>
        <tr><td>9</td><td>(2,)</td></tr>
        <tr><td>9</td><td>(3,)</td></tr>
    </table>
</div>

Ara, cridant `filtrar` amb el conjunt anterior i suport 2, obtindríem (fent un pas intermig per calcular el suport):


<div style="text-align: center; margin: 20px;">
    <table style="display: inline-block;">
        <tr><th>order_id</th><th>products</th><th>suport</th></tr>
        <tr><td>1</td><td>(1,)</td><td>6</td></tr>
        <tr><td>1</td><td>(2,)</td><td>7</td></tr>
        <tr><td>1</td><td>(5,)</td><td>2</td></tr>
        <tr><td>2</td><td>(2,)</td><td>7</td></tr>
        <tr><td>2</td><td>(4,)</td><td>2</td></tr>
        <tr><td>3</td><td>(2,)</td><td>7</td></tr>
        <tr><td>3</td><td>(3,)</td><td>6</td></tr>
        <tr><td>4</td><td>(1,)</td><td>6</td></tr>
        <tr><td>4</td><td>(2,)</td><td>7</td></tr>
        <tr><td>4</td><td>(4,)</td><td>2</td></tr>
        <tr><td>5</td><td>(1,)</td><td>6</td></tr>
        <tr><td>5</td><td>(3,)</td><td>6</td></tr>
    </table>
    <span style="display: inline-block; margin: 10px; font-size: 50px;">...</span>
    <table style="display: inline-block;">
        <tr><th>order_id</th><th>products</th><th>suport</th></tr>
        <tr><td>6</td><td>(2,)</td><td>7</td></tr>
        <tr><td>6</td><td>(3,)</td><td>6</td></tr>
        <tr><td>7</td><td>(1,)</td><td>6</td></tr>
        <tr><td>7</td><td>(3,)</td><td>6</td></tr>
        <tr><td>8</td><td>(1,)</td><td>6</td></tr>
        <tr><td>8</td><td>(2,)</td><td>7</td></tr>
        <tr><td>8</td><td>(3,)</td><td>6</td></tr>
        <tr><td>8</td><td>(5,)</td><td>2</td></tr>
        <tr><td>9</td><td>(1,)</td><td>6</td></tr>
        <tr><td>9</td><td>(2,)</td><td>7</td></tr>
        <tr><td>9</td><td>(3,)</td><td>6</td></tr>
    </table>
</div>

Obtenim:

<div style="text-align: center; margin: 20px;">
    <table style="display: inline-block;">
        <tr><th>order_id</th><th>products</th></tr>
        <tr><td>1</td><td>(1,)</td></tr>
        <tr><td>1</td><td>(2,)</td></tr>
        <tr><td>1</td><td>(5,)</td></tr>
        <tr><td>2</td><td>(2,)</td></tr>
        <tr><td>2</td><td>(4,)</td></tr>
        <tr><td>3</td><td>(2,)</td></tr>
        <tr><td>3</td><td>(3,)</td></tr>
        <tr><td>4</td><td>(1,)</td></tr>
        <tr><td>4</td><td>(2,)</td></tr>
        <tr><td>4</td><td>(4,)</td></tr>
        <tr><td>5</td><td>(1,)</td></tr>
        <tr><td>5</td><td>(3,)</td></tr>
    </table>
    <span style="display: inline-block; margin: 10px; font-size: 50px;">...</span>
    <table style="display: inline-block;">
        <tr><th>order_id</th><th>products</th></tr>
        <tr><td>6</td><td>(2,)</td></tr>
        <tr><td>6</td><td>(3,)</td></tr>
        <tr><td>7</td><td>(1,)</td></tr>
        <tr><td>7</td><td>(3,)</td></tr>
        <tr><td>8</td><td>(1,)</td></tr>
        <tr><td>8</td><td>(2,)</td></tr>
        <tr><td>8</td><td>(3,)</td></tr>
        <tr><td>8</td><td>(5,)</td></tr>
        <tr><td>9</td><td>(1,)</td></tr>
        <tr><td>9</td><td>(2,)</td></tr>
        <tr><td>9</td><td>(3,)</td></tr>
    </table>
</div>

Per generar el següent conjunt, faríem totes les possibles parelles d'entre les anteriors. Molt important, solament considerem productes d'una mateixa ordre! Mai podem fer combinacions que involucrin més d'una compra, sinó ja no estaríem considerant compres freqüentment juntes.

<div style="text-align: center; margin: 20px;">
    <table style="display: inline-block;">
        <tr><th>order_id</th><th>products</th></tr>
        <tr><td>1</td><td>(1,2)</td></tr>
        <tr><td>1</td><td>(1,5)</td></tr>
        <tr><td>1</td><td>(2,5)</td></tr>
        <tr><td>2</td><td>(2,4)</td></tr>
        <tr><td>3</td><td>(2,3)</td></tr>
        <tr><td>4</td><td>(1,2)</td></tr>
        <tr><td>4</td><td>(1,4)</td></tr>
        <tr><td>4</td><td>(2,4)</td></tr>
        <tr><td>5</td><td>(1,3)</td></tr>
        <tr><td>6</td><td>(2,3)</td></tr>
    </table>
    <span style="display: inline-block; margin: 10px; font-size: 50px;">...</span>
    <table style="display: inline-block;">
        <tr><th>order_id</th><th>products</th></tr>
        <tr><td>7</td><td>(1,3)</td></tr>
        <tr><td>8</td><td>(1,2)</td></tr>
        <tr><td>8</td><td>(1,3)</td></tr>
        <tr><td>8</td><td>(1,5)</td></tr>
        <tr><td>8</td><td>(2,3)</td></tr>
        <tr><td>8</td><td>(2,5)</td></tr>
        <tr><td>8</td><td>(3,5)</td></tr>
        <tr><td>9</td><td>(1,2)</td></tr>
        <tr><td>9</td><td>(1,3)</td></tr>
        <tr><td>9</td><td>(2,3)</td></tr>
    </table>
</div>

De nou filtrem fent un pas intermig per calcular el suport:

<div style="text-align: center; margin: 20px;">
    <table style="display: inline-block;">
        <tr><th>order_id</th><th>products</th><th>suport</th></tr>
        <tr><td>1</td><td>(1,2)</td><td>4</td></tr>
        <tr><td>1</td><td>(1,5)</td><td>2</td></tr>
        <tr><td>1</td><td>(2,5)</td><td>2</td></tr>
        <tr><td>2</td><td>(2,4)</td><td>2</td></tr>
        <tr><td>3</td><td>(2,3)</td><td>4</td></tr>
        <tr><td>4</td><td>(1,2)</td><td>4</td></tr>
        <tr><td>4</td><td>(1,4)</td><td>1</td></tr>
        <tr><td>4</td><td>(2,4)</td><td>2</td></tr>
        <tr><td>5</td><td>(1,3)</td><td>4</td></tr>
        <tr><td>6</td><td>(2,3)</td><td>4</td></tr>
    </table>
    <span style="display: inline-block; margin: 10px; font-size: 50px;">...</span>
    <table style="display: inline-block;">
        <tr><th>order_id</th><th>products</th><th>suport</th></tr>
        <tr><td>7</td><td>(1,3)</td><td>4</td></tr>
        <tr><td>8</td><td>(1,2)</td><td>4</td></tr>
        <tr><td>8</td><td>(1,3)</td><td>4</td></tr>
        <tr><td>8</td><td>(1,5)</td><td>2</td></tr>
        <tr><td>8</td><td>(2,3)</td><td>4</td></tr>
        <tr><td>8</td><td>(2,5)</td><td>2</td></tr>
        <tr><td>8</td><td>(3,5)</td><td>1</td></tr>
        <tr><td>9</td><td>(1,2)</td><td>4</td></tr>
        <tr><td>9</td><td>(1,3)</td><td>4</td></tr>
        <tr><td>9</td><td>(2,3)</td><td>4</td></tr>
    </table>
</div>

Quedant:

<div style="text-align: center; margin: 20px;">
    <table style="display: inline-block;">
        <tr><th>order_id</th><th>products</th></tr>
        <tr><td>1</td><td>(1,2)</td></tr>
        <tr><td>1</td><td>(1,5)</td></tr>
        <tr><td>1</td><td>(2,5)</td></tr>
        <tr><td>2</td><td>(2,4)</td></tr>
        <tr><td>3</td><td>(2,3)</td></tr>
        <tr><td>4</td><td>(1,2)</td></tr>
        <tr><td>4</td><td>(2,4)</td></tr>
        <tr><td>5</td><td>(1,3)</td></tr>
        <tr><td>6</td><td>(2,3)</td></tr>
    </table>
    <span style="display: inline-block; margin: 10px; font-size: 50px;">...</span>
    <table style="display: inline-block;">
        <tr><th>order_id</th><th>products</th></tr>
        <tr><td>7</td><td>(1,3)</td></tr>
        <tr><td>8</td><td>(1,2)</td></tr>
        <tr><td>8</td><td>(1,3)</td></tr>
        <tr><td>8</td><td>(1,5)</td></tr>
        <tr><td>8</td><td>(2,3)</td></tr>
        <tr><td>8</td><td>(2,5)</td></tr>
        <tr><td>9</td><td>(1,2)</td></tr>
        <tr><td>9</td><td>(1,3)</td></tr>
        <tr><td>9</td><td>(2,3)</td></tr>
    </table>
</div>

I finalment, com abans, fem totes les combinacions de 3 dins d'una mateixa compra a partir de les anterior:

<div style="text-align: center; margin: 20px;">
    <table style="display: inline-block;">
        <tr><th>order_id</th><th>products</th></tr>
        <tr><td>1</td><td>(1,2,5)</td></tr>
        <tr><td>8</td><td>(1,2,3)</td></tr>
        <tr><td>8</td><td>(1,2,5)</td></tr>
        <tr><td>9</td><td>(1,2,3)</td></tr>
    </table>
</div>

Totes tenen suport 2, i per tant, després de filtrar obtindríem el mateix.

## Abans de començar

**\+ Després de fer la pràctica, caldrà que respongueu les següents preguntes**:

* Quin(s) aventatge(s) proporciona Apriori respecte la implementació Naive?

**\+ Durant la pràctica, solament es podran fer servir les següents llibreries**:

`Pandas, Numpy, Itertools`

*Nota: A més de les que ja es troben presents en la 1a cel·la*

**\+ No es poden modificar les definicions de les funcions donades, ni canviar els noms de les variables i paràmetres ja donats**

Això no implica però que els hagueu de fer servir. És a dir, que la funció tingui un paràmetre anomenat `df` no implica que l'hagueu de fer servir, si no ho trobeu convenient.

**\+ En les funcions, s'especifica que serà i de quin tipus cada un dels paràmetres, cal respectar-ho**

Per exemple (ho posarà en el pydoc de la funció), `df` sempre serà indicatiu del `Pandas.DataFrame` de les dades. Durant els testos, els paràmetres (i especificament `df`) no contindran les mateixes dades que en aquest notebook, si bé si seran del mateix tipus! Per tant, no refieu de que tinguin, per exemple, el mateix nombre de files.

## Testos automàtics

Com ja sabeu, les pràctiques es fan a través de Github Classroom. Podeu treballar-hi lliurement i es recomana que feu commits sovint, per tal de que els canvis quedin reflectits de forma estructurada i modular.

Normalment traballareu a la branca `master`, però podeu fer fins a 3 cops al dia un `commit` (o `merge` de `master`) a la branca `tests`. Això provocarà que es llencin un seguit de proves sobre el vostre codi, en podreu veure el resultat a la següent web: http://52.59.217.167:8080

Penseu que aquests testos són un subconjunt, petit, dels que realment farem servir per evaluar. Per tant, us recomenem que aprofiteu al màxim els 3 intents diaris, que us serviran per comprovar que els formats d'entrada i sortida siguin correctes, a més d'alguns testos bàsics de correcte funcionament.

# Preparar les dades

### **En aquestes cel·la no feu cap modificació**

Descomprimeix el zip en la carpeta "data" automàticament. La funció locate serveix per trobar la ruta relativa a la carpeta on s'està executant aquest python/ipython.

In [1]:
import zipfile
from os.path import join, dirname

def locate(*path):
    base = globals().get('__file__', '.')
    return join(dirname(base), *path)

zip_ref = zipfile.ZipFile(locate('order_products__train.csv.zip'), 'r')
zip_ref.extractall(locate('data'))
zip_ref.close()

# Data loading

### **En aquestes cel·la no feu cap modificació**

Carrega les dades en un DataFrame Pandas y realitza dos operacions bàsiques:

* Número total d'operacions, entenent com a operació l'acció d'afegir un producte individual en una compra
* Número total d'ordres, és a dir de "cistelles" comprades

In [2]:
import pandas as pd

df_original = pd.read_csv(locate('data', 'order_products__train.csv'))
num_samples = len(df_original.index)

df_orders = df_original.groupby('order_id')
num_orders = len(df_orders)

In [3]:
print(pd.__version__)

0.19.2


Si voleu comprobar el resulta d'una funció en aquest notebook, i/o mostrar alguna sortida, és **obligatori** que ho feu dins d'un bloc `if __name__ == '__main__'`, doncs és necessari per poder realitzar els testos automàtics en un temps raonable.

In [4]:
if __name__ == '__main__':
    print(num_samples)
    print(num_orders)

1384617
131209


# Les dades

En aquest i futur notebooks farem servir dades reals corresponents a compres, concretament les utilitzades en el Kaggle Instacart Market Basket Analysis:
https://www.kaggle.com/c/instacart-market-basket-analysis

Tot i que aquí solament farem servir un dels 4 conjunts de dades disponibles, s'expliquen tots en vista a futures pràctiques.

* **Order Products**: És el de major interés, doncs conté la relació de productes comprats (`product_id`) per a cada conjunt de compra diferent (`order_id`). A aquests conjunts de compres ens hi referifem com a `ordres`, seguint la nomenclatura de les dades. A més, tot i que no ho farem servir, podríem arribar a saber en quin ordre s'han comprat els productes (`add_to_cart_order`) i inclús si ja s'havia comprat en alguna ordre anterior (`reordered`).

* **Orders**: Aquest dataset ens permet relacionar una compra en concret (`order_id`) amb l'usuari que l'ha feta (`user_id`)

* **Products**: Donat un `product_id` ens permet obtenir-ne més informació, com ara el nom (`product_name`), la secció en la que es troba (`aisle_id`) o al departament al que pertany (`department_id`). Aquests dos últims es complementen amb els conjunts **Aisles** i **Departments**.

Tal i com veuràs si executes el codi de les cel·les anteriors, tenim **1384617 productes** comprats, en un total de **131209 ordres** diferents.

# Algorisme Naive

En la primera part d'aquesta pràctica heu de programar un algorisme Naive que generi totes les possibles combinacions per una $n$ objectiu donada, i després les filtri segons el suport mínim.

Recordeu, seguiu els pydoc i compliu amb el que diuen!

In [5]:
import itertools as it

def get_order(df, order_id):
    """
    Donat un `order_id`, aquesta funció retorna una sèrie que conté solament
    totes les comandes de l'ordre en concret
    
    :param df: DataFrame de dades
    :param ord_id: Identificador de l'ordre a retornar
    :return: Una Serie consistent solament dels productes de l'ordre demanada
    """
    return df[df.order_id == order_id]['product_id']

def get_n_sets(df, order_id, n):
    """
    Retorna totes les possibles combinacions de tamany $n$ d'entre els
    productes d'una ordre en concret
    
    :param df: DataFrame de dades
    :param order_id: Identificador de l'ordre a retornar
    :return: Les combinacions de tamany $n$ d'aquesta ordre, com a llista, tupla o generador
    """
    return it.combinations(get_order(df,order_id).sort_values(),n)

def get_all_n_sets(df, n):
    """
    Retorna, per totes les ordres de forma independent, totes les possibles 
    combinacions de tamany $n$. Ho fa en un DataFrame com els de l'exemple superior,
    una columna anomenada `order_id` que indica a quina comanda pertany la combinació
    i una altre `products` que conté la combinació en si mateixa
    
    :param df: DataFrame de dades
    :param n: Tamany de les combinacions
    :return: Un DataFrame de dues columnes, `order_id` i`products`
    """
    
    order_id = []
    products =[]
    for order in df.order_id.unique(): # per cada ordre diferent
        for combination in get_n_sets(df,order,n): 
            #per cada combinacio possible en una ordre
            #afegim la combinacio i la ordre a la que pertany a les
            #llistes generadores del df
            order_id.append(order)
            products.append(combination)
        
    #generem el df i el retornem    
    return ( pd.DataFrame({'order_id':order_id,'products':products}))
                            
#get_all_n_sets(df_original,2)


In [6]:
#aquesta funcio no la fem servir
def get_support(df, prod_set, all_sets):
    """
    Retorna el suport d'una combinació en concret d'entre
    totes les combinacions
    
    :param df: DataFrame de dades
    :param prod_set: Una tupla que conté la combinació de productes
    :param all_sets: DataFrame de combinacions, consistent de `order_id` i `products`
    :return: Enter que indica el suport del producte
    """
    sol = all_sets['product_id'].value_counts()
    all_sets[all_sets['product_id'].isin(sol[sol>=3].index)]
    return(sol[prod_set])

In [7]:
def filter_by_support(df, all_sets, min_support):
    """
    Donades totes les combinacions i el suport mínim, retorna un altre
    DataFrame amb solament aquelles combinacions que tenen un suport
    major al mínim
    
    :param df: DataFrame de dades
    :param all_sets: DataFrame de combinacions, amb `order_id` i `products`
    :param min_support: Suport mínim de les combinacions
    :return: DataFrame amb estructura igual que `all_sets` però filtrat segons el
        suport mínim
    """
    
    #calulem el suport de cada un dels elements 
    suports = all_sets['products'].value_counts()
    #nomes retornem els productes que tingun un suport superior al minim
    #ho consultem cada cop a la llista de suports
    return all_sets[all_sets['products'].isin(suports[suports>=min_support].index)]

In [8]:
def naive(df, target_n, min_support):
    """
    Donat el conjunt original, la $n$ objectiu i el suport mínim,
    calcula aquelles combinacions freqüents de forma Naive, utilitzant
    les funcions programades adalt.
    
    :param df: DataFrame de dades
    :param target_n: $n$ objectiu
    :param min_support: Suport mínim de les combinacions
    :return: DataFrame de combinacions, amb `order_id` i `products`, amb
        combinacions de tamany $n$ i filtrat pel suport mínim
    """
    if target_n==1:
        #si la n es igual a 1 directament cridem a filtre per estalviarnos el n_sets
        all_sets = df[['order_id','product_id']].sort_values(['order_id','product_id'])
        all_sets.columns = ['order_id','products']
    else:
        #sino cridem al get n sets
        all_sets = get_all_n_sets(df,target_n)
    return (filter_by_support(df,all_sets,min_support))


In [21]:
if __name__ == '__main__':
    orders_size = df_original.groupby('order_id').size()
    df = df_original[df_original['order_id'].isin(orders_size[orders_size > 50].index)]
    all_sets = df[['order_id','product_id']].sort_values(['order_id','product_id'])
    print(get_support(df,(13176),all_sets))#Utilitzem get_support aquí, per a comprovar
    #si no passa el test pel fet de no utilitzar-lo
    
    print(naive(df,3,10))

52
         order_id               products
36483        7793  (13176, 21137, 47209)
36503        7793  (13176, 21903, 27966)
37032        7793  (13176, 27966, 47209)
117815      68260  (13176, 21137, 39275)
472077     280429  (13176, 21137, 47209)
707068     341238  (13176, 21137, 47209)
741969     356263  (13176, 27966, 47209)
817355     427405  (13176, 27966, 47209)
899486     430336  (13176, 21137, 47209)
1054423    545696  (13176, 21137, 39275)
1054433    545696  (13176, 21137, 47209)
1077561    555738  (13176, 21903, 27966)
1181211    626027  (13176, 21137, 47209)
1298963    690200  (13176, 21137, 47209)
1498352    913574  (13176, 21137, 47209)
1498561    913574  (13176, 27966, 47209)
1774125   1051870  (13176, 21903, 27966)
2081002   1348435  (13176, 21137, 39275)
2138279   1355077  (13176, 21137, 39275)
2379803   1465173  (13176, 21137, 39275)
2508130   1496982  (13176, 27966, 47209)
2574692   1570487  (13176, 21137, 39275)
2574733   1570487  (13176, 21903, 27966)
2595681   161

# Algorisme Apriori

Ara, enlloc de generar totes les possibles combinacions de cop, el que s'haurà de fer és generar les noves a partir de les anteriors (ja filtrades per suport). Per tant, cal fer una funció que donat totes les combinacions de tamany $n-1$ generi les de tamany $n$.

In [10]:
def gene(previ,n):
    """
    Donades les combinacions de tamany $n-1$ genera les de tamany $n$ que son viables segons el parametre
    d'entrada.
    
    :param previous: llista de tuples
    :param n: tamany de les combinacions a fer
    :return: llista de tuples de tamany n viables
    """
        
    final = []
    prod_possibles  = ()
    #creem una llista ordenada i sense repeticions dels elements que componen les tuples de previ
    for t in previ:
        prod_possibles = prod_possibles +t
    prod_possibles  = list(set(prod_possibles ))
    prod_possibles .sort()
    
    #generem una llista de les tuples de n possibles amb els productes que tenim
    tp = it.combinations(prod_possibles ,n)
    for t in tp:
        #per cada tupla possible, generem les tuples de n-1 necessaries per formarla
        tup_nece = list(it.combinations(t,n-1))
        #comprobem si estan en previ, en cas afirmatiu la posem a la llista final que
        #son els resultats possibles
        if all(a in previ for a in tup_nece):
            final.append(t)
    #retornem les tuples viables
    return final

In [11]:
def generate_next(previous, n_prev):
    """
    Donades les combinacions de tamany $n-1$ genera les de tamany $n$. Ho fa
    seguint les regles d'Apriori (ie. si anteriorment en l'ordre 1 i tamany 2 teníem solament 
    (1,2),(1,4),(4,5) i ara volem generar les de tamany 3, la combinació (1,4,5) no és vàlida,
    doncs no teníem originalment la (1,5)!
    
    :param previous: DataFrame de combinacions del tamany previ, amb `order_id` i `products`
    :param n_prev: Tamany previ de les combinacions present en el DataFrame `previous`
    :return: DataFrame de combinacions de tamany $n$, amb `order_id` i `products`
    """
    #per a n = 1 el all_n_sets ens va perfecte
    if n_prev == 1:
        a = get_all_n_sets(previous,2)
        return a
    else:
        order_id = []
        products =[]
        #agrupem per ordres, i per a cada ordre cridem a la funcio que retorna les tuples valides
        groups = previous.groupby('order_id')
        for order,group in groups:
            for combination in gene(list(group.products.values),n_prev+1):
                #recorrem les tuples valides i les afegimm a la llista generadora especificant
                #la ordre de la qual provenen
                order_id.append(order)
                products.append(combination)
            
        #generem el dataframe per retornar amb n=n_prev+1
        return ( pd.DataFrame({'order_id':order_id,'products':products}))
        pass
    

In [12]:
def apriori(df, target_n, min_support):
    """
    L'algorisme ha de generar de forma iterativa, començant per 1 i fins a $n$ (inclosa)
    les combinacions de forma successiva, és a dir generant-les a partir de les anteriors.
    La primera de totes, de tamany 1, la podeu generar directament amb les funcions
    programades per l'algorisme Naive.
    
    :param df: DataFrame de dades
    :param target_n: $n$ objectiu
    :param min_support: Suport mínim
    :return: DataFrame amb cominacions de tamany $n$ i filtrat pel suport mínim, amb
        `order_id` i `products`
    """
    
    comb_n = []
    #fem n voltes per tal de generar el df que volem a partir dels seus previs filtrats
    for n in range(1,target_n+1):
        #si n == 1 no entrem en cap algoritme complicat i cridem a filter directament
        if n == 1:
            elements = df[['order_id','product_id']].sort_values(['order_id','product_id'])
            elements.columns = ['order_id','products']
            comb_n = filter_by_support(df,elements,min_support) 
            comb_n.columns=['order_id','product_id']
        else:
            #generar seguent
            # a comb_n anirem guardant els df de la n que toqui ja fets
            comb_n = generate_next(comb_n, n-1)
            comb_n = filter_by_support(df,comb_n,min_support)
            
    #tornem el df que ens queda despres de les n iteracions
    return comb_n

In [13]:
if __name__ == '__main__':
    orders_size = df_original.groupby('order_id').size()
    df = df_original[df_original['order_id'].isin(orders_size[orders_size > 50].index)]
    %time print(apriori(df, 3,10))

     order_id               products
6        7793  (13176, 21137, 47209)
9        7793  (13176, 21903, 27966)
16       7793  (13176, 27966, 47209)
44      68260  (13176, 21137, 39275)
58     280429  (13176, 21137, 47209)
74     341238  (13176, 21137, 47209)
90     356263  (13176, 27966, 47209)
109    427405  (13176, 27966, 47209)
120    430336  (13176, 21137, 47209)
126    545696  (13176, 21137, 39275)
127    545696  (13176, 21137, 47209)
131    555738  (13176, 21903, 27966)
135    626027  (13176, 21137, 47209)
161    690200  (13176, 21137, 47209)
215    913574  (13176, 21137, 47209)
216    913574  (13176, 27966, 47209)
228   1051870  (13176, 21903, 27966)
252   1348435  (13176, 21137, 39275)
253   1355077  (13176, 21137, 39275)
272   1465173  (13176, 21137, 39275)
287   1496982  (13176, 27966, 47209)
291   1570487  (13176, 21137, 39275)
293   1570487  (13176, 21903, 27966)
315   1610411  (13176, 21903, 27966)
321   1610411  (13176, 27966, 47209)
330   1722326  (13176, 21137, 39275)
3

# Comparativa

In [14]:
N = 2
SUP = 10

In [15]:
if __name__ == '__main__':
    if N > 3:
        print("n massa gran, el temps d'execució serà molt llarg!")
    else:
        %timeit naive(df, N, SUP)

543 ms ± 22.2 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


In [16]:
if __name__ == '__main__':
    %timeit apriori(df, N, SUP)

95.5 ms ± 2.7 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [17]:
if __name__ == '__main__':
    if N > 3:
        print("n massa gran, el temps d'execució serà molt llarg!")
    else:
        print(naive(df, N, SUP))

        order_id        products
1918        7793  (13176, 21137)
1919        7793  (13176, 21903)
1927        7793  (13176, 24964)
1930        7793  (13176, 26209)
1931        7793  (13176, 26604)
1936        7793  (13176, 27966)
1939        7793  (13176, 31717)
1955        7793  (13176, 47209)
1956        7793  (13176, 47626)
2042        7793  (21137, 21903)
2050        7793  (21137, 24964)
2053        7793  (21137, 26209)
2054        7793  (21137, 26604)
2059        7793  (21137, 27966)
2062        7793  (21137, 31717)
2078        7793  (21137, 47209)
2079        7793  (21137, 47626)
2092        7793  (21903, 26209)
2098        7793  (21903, 27966)
2117        7793  (21903, 47209)
2374        7793  (24964, 27966)
2377        7793  (24964, 31717)
2393        7793  (24964, 47209)
2480        7793  (26209, 47209)
2481        7793  (26209, 47626)
2582        7793  (27156, 47209)
2627        7793  (27966, 47209)
2687        7793  (31717, 47209)
3272       45138   (5876, 13176)
3289      

In [18]:
if __name__ == '__main__':
    print(apriori(df, N, SUP))

      order_id        products
16        7793  (13176, 21137)
17        7793  (13176, 21903)
20        7793  (13176, 24964)
21        7793  (13176, 26209)
22        7793  (13176, 26604)
24        7793  (13176, 27966)
25        7793  (13176, 31717)
27        7793  (13176, 47209)
28        7793  (13176, 47626)
30        7793  (21137, 21903)
33        7793  (21137, 24964)
34        7793  (21137, 26209)
35        7793  (21137, 26604)
37        7793  (21137, 27966)
38        7793  (21137, 31717)
40        7793  (21137, 47209)
41        7793  (21137, 47626)
46        7793  (21903, 26209)
49        7793  (21903, 27966)
52        7793  (21903, 47209)
79        7793  (24964, 27966)
80        7793  (24964, 31717)
82        7793  (24964, 47209)
90        7793  (26209, 47209)
91        7793  (26209, 47626)
103       7793  (27156, 47209)
108       7793  (27966, 47209)
112       7793  (31717, 47209)
122      45138   (5876, 13176)
127      45138   (5876, 24964)
...        ...             ...
6893   3

# Quins aventatges proporciona Apriori respecte la implementació Naive?
---

Partint de la teoria, __Apriori__ és un algoritme que està pensat per a buscar associacions en una base de dades, com podrien ser productes que freqüentment es compren conjuntament. Mentre que __Naive__ és una extensió d'una tècnica
de classificació probabilística ideada per Naive Bayes. 

A nivell d'implementació, __Naive és molt menys eficient que Apriori__. Això és degut a que __Apriori està pensat per a la búsqueda d'associacions entre elements de la base de dades__, podrem seguir considerant agrupacions de elements sempre i quan hi hagi prous ocurrències en aquesta. A l'hora de fer cada iteració per a agrupar elements(productes de la compra en el nostre cas) es busca agrupar productes que estiguin relacionats (com per exemple, si en una compra hi ha els conjunts (1,2)(2,3)(4,5) no tenim suficient informació per a relacionar cap conjunt de productes, però si la compra fos (1,2)(1,3)(2,3) podem agrupar aquests 3 conjunts en un sol conjunt de 3 (1,2,3)).

En poques paraules, **Naive fa combinacions i les filtra pel suport**(nombre d'aparicions d'un mateix element en la base de dades), i **Apriori**, en canvi, **busca combinacions que estiguin relacionades, alhora que les filtra** de la mateixa forma que ho fa Naive. A més, __utilitza els resultats de la iteració anterior__, de manera que la quantitat d'elements amb la que es treballa es redueix dràsticament, augmentant-ne l'eficiencia.


En les probes que hem realitzat en la nostra implementació, s'hi pot observar una gran diferència en eficiència:

| Valors            | Naive         | Apriori   |
| :---------------- |:-------------:| :--------:|
| **N=2, SUP=10**       | 535ms         | 94,9ms    |
| **N=3, SUP=10**       | 9,73s         |   122ms   |

A més com més gran és la n, Naive necessita molt més temps d'execució(es fan les combinacions per "força bruta"), mentre que Apriori sempre podrà funcionar bé, ja que treballa amb la informació de les iteracions anteriors.
***
