# Apriori

En aquesta primera pràctica es programarà l'algorisme **Apriori**, que computa el nombre de subconjunts d'un tamany determinat que es troben freqüenment en un conjunt més gran. Per exemple, ens pot servir per trobar productes que es compren freqüentment en una mateixa compra.

Per tal de comprovar perque es fa servir Apriori, s'implementarà també l'algorisme Naive, que calcula totes les possibles combinacions i, després, les filtra per quedar-se solament amb les més comuns.



## Funcionament

L'algormisme d'apriori, tal i com s'explica a teoria, evita crear totes les possibles combinacions d'un tamany $n$ i per tant reporta un estalvi comptutacional i de memòria considerable.

Supossem que volem totes les combinacions de tamany $n=3$, Apriori faria:

```python
conjunt_1 = productes_per_compra()
filtrat_1 = filtrar(conjunt_1, suport_minim)

conjunt_2 = generar(filtrat_1, 2)
filtrat_2 = filtrar(conjunt_2, suport_minim)

conjunt_3 = generar(filtrat_2, 3)
filtrat_3 = filtrar(conjunt_3, suport_minim)
```

Seguint l'exemple de teoria, supossem que inicialment tenim el següent `DataFrame` de compres i volem un suport mínim de 2 i conjunts de 3.

<div style="text-align: center; margin: 20px;">
    <table style="display: inline-block;">
        <tr><th>order_id</th><th>products</th></tr>
        <tr><td>1</td><td>1, 2, 5</td></tr>
        <tr><td>2</td><td>2, 4</td></tr>
        <tr><td>3</td><td>2, 3</td></tr>
        <tr><td>4</td><td>1, 2, 4</td></tr>
        <tr><td>5</td><td>1, 3</td></tr>
        <tr><td>6</td><td>2, 3</td></tr>
        <tr><td>7</td><td>1, 3</td></tr>
        <tr><td>8</td><td>1, 2, 3, 5</td></tr>
        <tr><td>9</td><td>1, 2, 3</td></tr>
    </table>
</div>

Després de la primera crida a `productes_per_compra` obtindríem el següent dataframe, composat per totes les possibles combinacions d'1 (és a dir una llista amb únicament el producte) i la respectiva compra:

<div style="text-align: center; margin: 20px;">
    <table style="display: inline-block;">
        <tr><th>order_id</th><th>products</th></tr>
        <tr><td>1</td><td>(1,)</td></tr>
        <tr><td>1</td><td>(2,)</td></tr>
        <tr><td>1</td><td>(5,)</td></tr>
        <tr><td>2</td><td>(2,)</td></tr>
        <tr><td>2</td><td>(4,)</td></tr>
        <tr><td>3</td><td>(2,)</td></tr>
        <tr><td>3</td><td>(3,)</td></tr>
        <tr><td>4</td><td>(1,)</td></tr>
        <tr><td>4</td><td>(2,)</td></tr>
        <tr><td>4</td><td>(4,)</td></tr>
        <tr><td>5</td><td>(1,)</td></tr>
        <tr><td>5</td><td>(3,)</td></tr>
    </table>
    <span style="display: inline-block; margin: 10px; font-size: 50px;">...</span>
    <table style="display: inline-block;">
        <tr><th>order_id</th><th>products</th></tr>
        <tr><td>6</td><td>(2,)</td></tr>
        <tr><td>6</td><td>(3,)</td></tr>
        <tr><td>7</td><td>(1,)</td></tr>
        <tr><td>7</td><td>(3,)</td></tr>
        <tr><td>8</td><td>(1,)</td></tr>
        <tr><td>8</td><td>(2,)</td></tr>
        <tr><td>8</td><td>(3,)</td></tr>
        <tr><td>8</td><td>(5,)</td></tr>
        <tr><td>9</td><td>(1,)</td></tr>
        <tr><td>9</td><td>(2,)</td></tr>
        <tr><td>9</td><td>(3,)</td></tr>
    </table>
</div>

Ara, cridant `filtrar` amb el conjunt anterior i suport 2, obtindríem (fent un pas intermig per calcular el suport):


<div style="text-align: center; margin: 20px;">
    <table style="display: inline-block;">
        <tr><th>order_id</th><th>products</th><th>suport</th></tr>
        <tr><td>1</td><td>(1,)</td><td>6</td></tr>
        <tr><td>1</td><td>(2,)</td><td>7</td></tr>
        <tr><td>1</td><td>(5,)</td><td>2</td></tr>
        <tr><td>2</td><td>(2,)</td><td>7</td></tr>
        <tr><td>2</td><td>(4,)</td><td>2</td></tr>
        <tr><td>3</td><td>(2,)</td><td>7</td></tr>
        <tr><td>3</td><td>(3,)</td><td>6</td></tr>
        <tr><td>4</td><td>(1,)</td><td>6</td></tr>
        <tr><td>4</td><td>(2,)</td><td>7</td></tr>
        <tr><td>4</td><td>(4,)</td><td>2</td></tr>
        <tr><td>5</td><td>(1,)</td><td>6</td></tr>
        <tr><td>5</td><td>(3,)</td><td>6</td></tr>
    </table>
    <span style="display: inline-block; margin: 10px; font-size: 50px;">...</span>
    <table style="display: inline-block;">
        <tr><th>order_id</th><th>products</th><th>suport</th></tr>
        <tr><td>6</td><td>(2,)</td><td>7</td></tr>
        <tr><td>6</td><td>(3,)</td><td>6</td></tr>
        <tr><td>7</td><td>(1,)</td><td>6</td></tr>
        <tr><td>7</td><td>(3,)</td><td>6</td></tr>
        <tr><td>8</td><td>(1,)</td><td>6</td></tr>
        <tr><td>8</td><td>(2,)</td><td>7</td></tr>
        <tr><td>8</td><td>(3,)</td><td>6</td></tr>
        <tr><td>8</td><td>(5,)</td><td>2</td></tr>
        <tr><td>9</td><td>(1,)</td><td>6</td></tr>
        <tr><td>9</td><td>(2,)</td><td>7</td></tr>
        <tr><td>9</td><td>(3,)</td><td>6</td></tr>
    </table>
</div>

Obtenim:

<div style="text-align: center; margin: 20px;">
    <table style="display: inline-block;">
        <tr><th>order_id</th><th>products</th></tr>
        <tr><td>1</td><td>(1,)</td></tr>
        <tr><td>1</td><td>(2,)</td></tr>
        <tr><td>1</td><td>(5,)</td></tr>
        <tr><td>2</td><td>(2,)</td></tr>
        <tr><td>2</td><td>(4,)</td></tr>
        <tr><td>3</td><td>(2,)</td></tr>
        <tr><td>3</td><td>(3,)</td></tr>
        <tr><td>4</td><td>(1,)</td></tr>
        <tr><td>4</td><td>(2,)</td></tr>
        <tr><td>4</td><td>(4,)</td></tr>
        <tr><td>5</td><td>(1,)</td></tr>
        <tr><td>5</td><td>(3,)</td></tr>
    </table>
    <span style="display: inline-block; margin: 10px; font-size: 50px;">...</span>
    <table style="display: inline-block;">
        <tr><th>order_id</th><th>products</th></tr>
        <tr><td>6</td><td>(2,)</td></tr>
        <tr><td>6</td><td>(3,)</td></tr>
        <tr><td>7</td><td>(1,)</td></tr>
        <tr><td>7</td><td>(3,)</td></tr>
        <tr><td>8</td><td>(1,)</td></tr>
        <tr><td>8</td><td>(2,)</td></tr>
        <tr><td>8</td><td>(3,)</td></tr>
        <tr><td>8</td><td>(5,)</td></tr>
        <tr><td>9</td><td>(1,)</td></tr>
        <tr><td>9</td><td>(2,)</td></tr>
        <tr><td>9</td><td>(3,)</td></tr>
    </table>
</div>

Per generar el següent conjunt, faríem totes les possibles parelles d'entre les anteriors. Molt important, solament considerem productes d'una mateixa ordre! Mai podem fer combinacions que involucrin més d'una compra, sinó ja no estaríem considerant compres freqüentment juntes.

<div style="text-align: center; margin: 20px;">
    <table style="display: inline-block;">
        <tr><th>order_id</th><th>products</th></tr>
        <tr><td>1</td><td>(1,2)</td></tr>
        <tr><td>1</td><td>(1,5)</td></tr>
        <tr><td>1</td><td>(2,5)</td></tr>
        <tr><td>2</td><td>(2,4)</td></tr>
        <tr><td>3</td><td>(2,3)</td></tr>
        <tr><td>4</td><td>(1,2)</td></tr>
        <tr><td>4</td><td>(1,4)</td></tr>
        <tr><td>4</td><td>(2,4)</td></tr>
        <tr><td>5</td><td>(1,3)</td></tr>
        <tr><td>6</td><td>(2,3)</td></tr>
    </table>
    <span style="display: inline-block; margin: 10px; font-size: 50px;">...</span>
    <table style="display: inline-block;">
        <tr><th>order_id</th><th>products</th></tr>
        <tr><td>7</td><td>(1,3)</td></tr>
        <tr><td>8</td><td>(1,2)</td></tr>
        <tr><td>8</td><td>(1,3)</td></tr>
        <tr><td>8</td><td>(1,5)</td></tr>
        <tr><td>8</td><td>(2,3)</td></tr>
        <tr><td>8</td><td>(2,5)</td></tr>
        <tr><td>8</td><td>(3,5)</td></tr>
        <tr><td>9</td><td>(1,2)</td></tr>
        <tr><td>9</td><td>(1,3)</td></tr>
        <tr><td>9</td><td>(2,3)</td></tr>
    </table>
</div>

De nou filtrem fent un pas intermig per calcular el suport:

<div style="text-align: center; margin: 20px;">
    <table style="display: inline-block;">
        <tr><th>order_id</th><th>products</th><th>suport</th></tr>
        <tr><td>1</td><td>(1,2)</td><td>4</td></tr>
        <tr><td>1</td><td>(1,5)</td><td>2</td></tr>
        <tr><td>1</td><td>(2,5)</td><td>2</td></tr>
        <tr><td>2</td><td>(2,4)</td><td>2</td></tr>
        <tr><td>3</td><td>(2,3)</td><td>4</td></tr>
        <tr><td>4</td><td>(1,2)</td><td>4</td></tr>
        <tr><td>4</td><td>(1,4)</td><td>1</td></tr>
        <tr><td>4</td><td>(2,4)</td><td>2</td></tr>
        <tr><td>5</td><td>(1,3)</td><td>4</td></tr>
        <tr><td>6</td><td>(2,3)</td><td>4</td></tr>
    </table>
    <span style="display: inline-block; margin: 10px; font-size: 50px;">...</span>
    <table style="display: inline-block;">
        <tr><th>order_id</th><th>products</th><th>suport</th></tr>
        <tr><td>7</td><td>(1,3)</td><td>4</td></tr>
        <tr><td>8</td><td>(1,2)</td><td>4</td></tr>
        <tr><td>8</td><td>(1,3)</td><td>4</td></tr>
        <tr><td>8</td><td>(1,5)</td><td>2</td></tr>
        <tr><td>8</td><td>(2,3)</td><td>4</td></tr>
        <tr><td>8</td><td>(2,5)</td><td>2</td></tr>
        <tr><td>8</td><td>(3,5)</td><td>1</td></tr>
        <tr><td>9</td><td>(1,2)</td><td>4</td></tr>
        <tr><td>9</td><td>(1,3)</td><td>4</td></tr>
        <tr><td>9</td><td>(2,3)</td><td>4</td></tr>
    </table>
</div>

Quedant:

<div style="text-align: center; margin: 20px;">
    <table style="display: inline-block;">
        <tr><th>order_id</th><th>products</th></tr>
        <tr><td>1</td><td>(1,2)</td></tr>
        <tr><td>1</td><td>(1,5)</td></tr>
        <tr><td>1</td><td>(2,5)</td></tr>
        <tr><td>2</td><td>(2,4)</td></tr>
        <tr><td>3</td><td>(2,3)</td></tr>
        <tr><td>4</td><td>(1,2)</td></tr>
        <tr><td>4</td><td>(2,4)</td></tr>
        <tr><td>5</td><td>(1,3)</td></tr>
        <tr><td>6</td><td>(2,3)</td></tr>
    </table>
    <span style="display: inline-block; margin: 10px; font-size: 50px;">...</span>
    <table style="display: inline-block;">
        <tr><th>order_id</th><th>products</th></tr>
        <tr><td>7</td><td>(1,3)</td></tr>
        <tr><td>8</td><td>(1,2)</td></tr>
        <tr><td>8</td><td>(1,3)</td></tr>
        <tr><td>8</td><td>(1,5)</td></tr>
        <tr><td>8</td><td>(2,3)</td></tr>
        <tr><td>8</td><td>(2,5)</td></tr>
        <tr><td>9</td><td>(1,2)</td></tr>
        <tr><td>9</td><td>(1,3)</td></tr>
        <tr><td>9</td><td>(2,3)</td></tr>
    </table>
</div>

I finalment, com abans, fem totes les combinacions de 3 dins d'una mateixa compra a partir de les anterior:

<div style="text-align: center; margin: 20px;">
    <table style="display: inline-block;">
        <tr><th>order_id</th><th>products</th></tr>
        <tr><td>1</td><td>(1,2,5)</td></tr>
        <tr><td>8</td><td>(1,2,3)</td></tr>
        <tr><td>8</td><td>(1,2,5)</td></tr>
        <tr><td>9</td><td>(1,2,3)</td></tr>
    </table>
</div>

Totes tenen suport 2, i per tant, després de filtrar obtindríem el mateix.

## Abans de començar

**\+ Després de fer la pràctica, caldrà que respongueu les següents preguntes**:

* Quin(s) aventatge(s) proporciona Apriori respecte la implementació Naive?

**\+ Durant la pràctica, solament es podran fer servir les següents llibreries**:

`Pandas, Numpy, Itertools`

*Nota: A més de les que ja es troben presents en la 1a cel·la*

**\+ No es poden modificar les definicions de les funcions donades, ni canviar els noms de les variables i paràmetres ja donats**

Això no implica però que els hagueu de fer servir. És a dir, que la funció tingui un paràmetre anomenat `df` no implica que l'hagueu de fer servir, si no ho trobeu convenient.

**\+ En les funcions, s'especifica que serà i de quin tipus cada un dels paràmetres, cal respectar-ho**

Per exemple (ho posarà en el pydoc de la funció), `df` sempre serà indicatiu del `Pandas.DataFrame` de les dades. Durant els testos, els paràmetres (i especificament `df`) no contindran les mateixes dades que en aquest notebook, si bé si seran del mateix tipus! Per tant, no refieu de que tinguin, per exemple, el mateix nombre de files.

## Testos automàtics

Com ja sabeu, les pràctiques es fan a través de Github Classroom. Podeu treballar-hi lliurement i es recomana que feu commits sovint, per tal de que els canvis quedin reflectits de forma estructurada i modular.

Normalment traballareu a la branca `master`, però podeu fer fins a 3 cops al dia un `commit` (o `merge` de `master`) a la branca `tests`. Això provocarà que es llencin un seguit de proves sobre el vostre codi, en podreu veure el resultat a la següent web: http://52.59.217.167:8080

Penseu que aquests testos són un subconjunt, petit, dels que realment farem servir per evaluar. Per tant, us recomenem que aprofiteu al màxim els 3 intents diaris, que us serviran per comprovar que els formats d'entrada i sortida siguin correctes, a més d'alguns testos bàsics de correcte funcionament.

# Preparar les dades

### **En aquestes cel·la no feu cap modificació**

Descomprimeix el zip en la carpeta "data" automàticament. La funció locate serveix per trobar la ruta relativa a la carpeta on s'està executant aquest python/ipython.

In [5]:
import zipfile
from os.path import join, dirname

def locate(*path):
    base = globals().get('__file__', '.')
    return join(dirname(base), *path)

zip_ref = zipfile.ZipFile(locate('order_products__train.csv.zip'), 'r')
zip_ref.extractall(locate('data'))
zip_ref.close()

FileNotFoundError: [Errno 2] No such file or directory: 'order_products__train.csv.zip'

# Data loading

### **En aquestes cel·la no feu cap modificació**

Carrega les dades en un DataFrame Pandas y realitza dos operacions bàsiques:

* Número total d'operacions, entenent com a operació l'acció d'afegir un producte individual en una compra
* Número total d'ordres, és a dir de "cistelles" comprades

In [None]:
import pandas as pd

df_original = pd.read_csv(locate('data', 'order_products__train.csv'))
num_samples = len(df_original.index)

df_orders = df_original.groupby('order_id')
num_orders = len(df_orders)

Si voleu comprobar el resulta d'una funció en aquest notebook, i/o mostrar alguna sortida, és **obligatori** que ho feu dins d'un bloc `if __name__ == '__main__'`, doncs és necessari per poder realitzar els testos automàtics en un temps raonable.

In [None]:
if __name__ == '__main__':
    print(num_samples)
    print(num_orders)

# Les dades

En aquest i futur notebooks farem servir dades reals corresponents a compres, concretament les utilitzades en el Kaggle Instacart Market Basket Analysis:
https://www.kaggle.com/c/instacart-market-basket-analysis

Tot i que aquí solament farem servir un dels 4 conjunts de dades disponibles, s'expliquen tots en vista a futures pràctiques.

* **Order Products**: És el de major interés, doncs conté la relació de productes comprats (`product_id`) per a cada conjunt de compra diferent (`order_id`). A aquests conjunts de compres ens hi referifem com a `ordres`, seguint la nomenclatura de les dades. A més, tot i que no ho farem servir, podríem arribar a saber en quin ordre s'han comprat els productes (`add_to_cart_order`) i inclús si ja s'havia comprat en alguna ordre anterior (`reordered`).

* **Orders**: Aquest dataset ens permet relacionar una compra en concret (`order_id`) amb l'usuari que l'ha feta (`user_id`)

* **Products**: Donat un `product_id` ens permet obtenir-ne més informació, com ara el nom (`product_name`), la secció en la que es troba (`aisle_id`) o al departament al que pertany (`department_id`). Aquests dos últims es complementen amb els conjunts **Aisles** i **Departments**.

Tal i com veuràs si executes el codi de les cel·les anteriors, tenim **1384617 productes** comprats, en un total de **131209 ordres** diferents.

# Algorisme Naive

En la primera part d'aquesta pràctica heu de programar un algorisme Naive que generi totes les possibles combinacions per una $n$ objectiu donada, i després les filtri segons el suport mínim.

Recordeu, seguiu els pydoc i compliu amb el que diuen!

In [None]:
import itertools

def get_order(df, order_id):
    """
    Donat un `order_id`, aquesta funció retorna una sèrie que conté solament
    totes les comandes de l'ordre en concret
    
    :param df: DataFrame de dades
    :param ord_id: Identificador de l'ordre a retornar
    :return: Una Serie consistent solament dels productes de l'ordre demanada
    """
    #grouped_orders = df.groupby('order_id')
    #aux = grouped_orders.get_group(order_id)
    #aux = aux[aux.columns[[0, 1]]]
    aux = df.groupby('order_id').get_group(order_id)
    return aux[aux.columns[[0,1]]]

def get_n_sets(df, order_id, n):
    """
    Retorna totes les possibles combinacions de tamany $n$ d'entre els
    productes d'una ordre en concret
    
    :param df: DataFrame de dades
    :param order_id: Identificador de l'ordre a retornar
    :return: Les combinacions de tamany $n$ d'aquesta ordre, com a llista, tupla o generador
    """
    #print(ordered)
    return list(itertools.combinations(get_order(df,order_id)['product_id'],n))
    

def get_all_n_sets(df, n):
    """
    Retorna, per totes les ordres de forma independent, totes les possibles 
    combinacions de tamany $n$. Ho fa en un DataFrame com els de l'exemple superior,
    una columna anomenada `order_id` que indica a quina comanda pertany la combinació
    i una altre `products` que conté la combinació en si mateixa
    
    :param df: DataFrame de dades
    :param n: Tamany de les combinacions
    :return: Un DataFrame de dues columnes, `order_id` i`products`
    """
    #orders = [[(index,i) for i in get_n_sets(df,index,n)] for index in df.groupby('order_id').groups.keys()]
    #orders = [(index,i) for index in df['order_id'].unique() for i in get_n_sets(df,index,n)]
    return pd.DataFrame([(index,i) for index in df['order_id'].unique() for i in get_n_sets(df,index,n)], columns=['order_id', 'products'])

In [None]:
if __name__ == '__main__':
    # Fem un subsampling del dataset original per evitar tardar massa temps en els
    # càlculs
    orders_size = df_original.groupby('order_id').size()
    df = df_original[df_original['order_id'].isin(orders_size[orders_size > 50].index)]
    iterable = get_n_sets(df_original,1,2)
    #print(df_original['order_id'])
    t = get_all_n_sets(df,2)
    #print(df.groupby('order_id').size())
    #print(get_n_sets(df,6842,2))
    #print(get_order(df_orders,order_id))
    
    # Possibles proves que vulgueu fer
    
    pass

In [None]:
def get_support(df, prod_set, all_sets):
    """
    Retorna el suport d'una combinació en concret d'entre
    totes les combinacions
    
    :param df: DataFrame de dades
    :param prod_set: Una tupla que conté la combinació de productes
    :param all_sets: DataFrame de combinacions, consistent de `order_id` i `products`
    :return: Enter que indica el suport del producte
    """
    #return get_all_n_sets(df,2)['products'].value_counts().get(prod_set)
    
    
    return all_sets[all_sets['products']==prod_set].count()['order_id']

if __name__ == '__main__':
    print(get_support(df,(13176, 21137),get_all_n_sets(df,2)))

In [None]:
def filter_by_support(df, all_sets, min_support):
    """
    Donades totes les combinacions i el suport mínim, retorna un altre
    DataFrame amb solament aquelles combinacions que tenen un suport
    major al mínim
    
    :param df: DataFrame de dades
    :param all_sets: DataFrame de combinacions, amb `order_id` i `products`
    :param min_support: Suport mínim de les combinacions
    :return: DataFrame amb estructura igual que `all_sets` però filtrat segons el
        suport mínim
    """
    
    '''
    fdf = [('pepe',i) for i in all_sets['products'].unique() if (get_support(df,i , 0) > min_support)]
    print(pd.DataFrame(fdf, columns=['order_id', 'products']))
    '''
    
    orders_size = all_sets.groupby('products').size()
    kf = all_sets[all_sets['products'].isin(orders_size[orders_size > min_support].index)]
    
    
    return kf

In [None]:
if __name__ == '__main__':
    A = [[ 6842 ,(2421, 17766)],[ 6842 ,(22421, 177646)],[ 6842 ,(24121, 17766)],[324123,(13176, 212137)],[ 6842 ,(242231, 17766)],[3414341, (14634, 40490)],[324123,(13176, 21137)],[324123,(1312176, 21137) ]]#little
    B = get_all_n_sets(df,2) #large
    test = pd.DataFrame(A, columns=['order_id', 'products'])
    #print(len(df[df.columns[1]].tolist()))
    #print(len(df[df.columns[1]].unique().tolist()))
    #b = B.groupby('products').count()['order_id']
    #print(b.get_group((13176, 21137)))
    #print(b[b>15])
    #sida = B.groupby("products").filter(lambda x: len(x) > 5)
    #gp = B[B.groupby('products').filter(eleven)>2]
    #print(len(B[B.columns[1]]))
    #print(len(list(itertools.combinations(df[df.columns[1]].unique(),2))))
    #print(len(filter_by_support(df,test, 3)))
    #4991997
    print(filter_by_support(df,get_all_n_sets(df,2),5))

In [3]:
def naive(df, target_n, min_support):
    """
    Donat el conjunt original, la $n$ objectiu i el suport mínim,
    calcula aquelles combinacions freqüents de forma Naive, utilitzant
    les funcions programades adalt.
    
    :param df: DataFrame de dades
    :param target_n: $n$ objectiu
    :param min_support: Suport mínim de les combinacions
    :return: DataFrame de combinacions, amb `order_id` i `products`, amb
        combinacions de tamany $n$ i filtrat pel suport mínim
    """
    dfNaive = get_all_n_sets(df, target_n)
    
    return filter_by_support(df, dfNaive, min_support)

# Algorisme Apriori

Ara, enlloc de generar totes les possibles combinacions de cop, el que s'haurà de fer és generar les noves a partir de les anteriors (ja filtrades per suport). Per tant, cal fer una funció que donat totes les combinacions de tamany $n-1$ generi les de tamany $n$.

In [4]:
def generate_next(previous, n_prev):
    """
    Donades les combinacions de tamany $n-1$ genera les de tamany $n$. Ho fa
    seguint les regles d'Apriori (ie. si anteriorment en l'ordre 1 i tamany 2 teníem solament 
    (1,2),(1,4),(4,5) i ara volem generar les de tamany 3, la combinació (1,4,5) no és vàlida,
    doncs no teníem originalment la (1,5)!
    
    :param previous: DataFrame de combinacions del tamany previ, amb `order_id` i `products`
    :param n_prev: Tamany previ de les combinacions present en el DataFrame `previous`
    :return: DataFrame de combinacions de tamany $n$, amb `order_id` i `products`
    """
    
    listf = []
    for i in previous[previous.columns[0]].unique().tolist():
        listProv = list((get_order(previous, i))['products'].unique())
        for prov in list(itertools.combinations(listProv,n_prev+1)):
            k =set(sum(prov,()))
            print(k)
            if len(k) == (n_prev+1):
                listf.append([i, k])
                
    return pd.DataFrame(listf, columns=['order_id', 'products'])
    


A = [[ 1 ,(1,2)],[ 1 ,(1,4)],[ 1 ,(4,5)], [ 1 ,(2,4)],[ 1 ,(1,2)] ]#little
test = pd.DataFrame(A, columns=['order_id', 'products'])

generate_next(test, 2)

NameError: name 'pd' is not defined

In [None]:
def apriori(df, target_n, min_support):
    """
    L'algorisme ha de generar de forma iterativa, començant per 1 i fins a $n$ (inclosa)
    les combinacions de forma successiva, és a dir generant-les a partir de les anteriors.
    La primera de totes, de tamany 1, la podeu generar directament amb les funcions
    programades per l'algorisme Naive.
    
    :param df: DataFrame de dades
    :param target_n: $n$ objectiu
    :param min_support: Suport mínim
    :return: DataFrame amb cominacions de tamany $n$ i filtrat pel suport mínim, amb
        `order_id` i `products`
    """
    
    
    pass

In [None]:
if __name__ == '__main__':
    print(apriori(df, 3, 10))

# Comparativa

In [None]:
if __name__ == '__main__':
    print(naive(df, 3, 10))

In [None]:
if __name__ == '__main__':
    print(apriori(df, 3, 10))