# Apriori

En aquesta primera pràctica es programarà l'algorisme **Apriori**, que computa el nombre de subconjunts d'una mida determinada que es troben freqüentment en un conjunt més gran. Per exemple, ens pot fer servir per trobar productes que es compren freqüentment en una mateixa compra.

Per tal de comprovar perquè es fa servir Apriori, s'implementarà també l'algorisme Naive, que calcula totes les possibles combinacions i, després, les filtra per quedar-se solament amb les més comunes.



## Funcionament

L'algorisme d'apriori, tal com s'explica a teoria, evita crear totes les possibles combinacions d'una mida $n$ i per tant reporta un estalvi computacional i de memòria considerable.

Suposem que volem totes les combinacions de mida $n=3$, Apriori faria:

```python
conjunt_1 = productes_per_compra()
filtrat_1 = filtrar(conjunt_1, suport_minim)

conjunt_2 = generar(filtrat_1, 2)
filtrat_2 = filtrar(conjunt_2, suport_minim)

conjunt_3 = generar(filtrat_2, 3)
filtrat_3 = filtrar(conjunt_3, suport_minim)
```

Seguint l'exemple de teoria, suposem que inicialment tenim el següent `DataFrame` de compres i volem un suport mínim de 2 i conjunts de 3.

<div style="text-align: center; margin: 20px;">
    <table style="display: inline-block;">
        <tr><th>order_id</th><th>products</th></tr>
        <tr><td>1</td><td>1, 2, 5</td></tr>
        <tr><td>2</td><td>2, 4</td></tr>
        <tr><td>3</td><td>2, 3</td></tr>
        <tr><td>4</td><td>1, 2, 4</td></tr>
        <tr><td>5</td><td>1, 3</td></tr>
        <tr><td>6</td><td>2, 3</td></tr>
        <tr><td>7</td><td>1, 3</td></tr>
        <tr><td>8</td><td>1, 2, 3, 5</td></tr>
        <tr><td>9</td><td>1, 2, 3</td></tr>
    </table>
</div>

Després de la primera crida a `productes_per_compra` obtindríem el següent dataframe, compost per totes les possibles combinacions d'1 (és a dir una llista amb únicament el producte) i la respectiva compra:

<div style="text-align: center; margin: 20px;">
    <table style="display: inline-block;">
        <tr><th>order_id</th><th>products</th></tr>
        <tr><td>1</td><td>(1,)</td></tr>
        <tr><td>1</td><td>(2,)</td></tr>
        <tr><td>1</td><td>(5,)</td></tr>
        <tr><td>2</td><td>(2,)</td></tr>
        <tr><td>2</td><td>(4,)</td></tr>
        <tr><td>3</td><td>(2,)</td></tr>
        <tr><td>3</td><td>(3,)</td></tr>
        <tr><td>4</td><td>(1,)</td></tr>
        <tr><td>4</td><td>(2,)</td></tr>
        <tr><td>4</td><td>(4,)</td></tr>
        <tr><td>5</td><td>(1,)</td></tr>
        <tr><td>5</td><td>(3,)</td></tr>
    </table>
    <span style="display: inline-block; margin: 10px; font-size: 50px;">...</span>
    <table style="display: inline-block;">
        <tr><th>order_id</th><th>products</th></tr>
        <tr><td>6</td><td>(2,)</td></tr>
        <tr><td>6</td><td>(3,)</td></tr>
        <tr><td>7</td><td>(1,)</td></tr>
        <tr><td>7</td><td>(3,)</td></tr>
        <tr><td>8</td><td>(1,)</td></tr>
        <tr><td>8</td><td>(2,)</td></tr>
        <tr><td>8</td><td>(3,)</td></tr>
        <tr><td>8</td><td>(5,)</td></tr>
        <tr><td>9</td><td>(1,)</td></tr>
        <tr><td>9</td><td>(2,)</td></tr>
        <tr><td>9</td><td>(3,)</td></tr>
    </table>
</div>

Ara, cridant `filtrar` amb el conjunt anterior i suport 2, obtindríem (fent un pas intermedi per calcular el suport):


<div style="text-align: center; margin: 20px;">
    <table style="display: inline-block;">
        <tr><th>order_id</th><th>products</th><th>suport</th></tr>
        <tr><td>1</td><td>(1,)</td><td>6</td></tr>
        <tr><td>1</td><td>(2,)</td><td>7</td></tr>
        <tr><td>1</td><td>(5,)</td><td>2</td></tr>
        <tr><td>2</td><td>(2,)</td><td>7</td></tr>
        <tr><td>2</td><td>(4,)</td><td>2</td></tr>
        <tr><td>3</td><td>(2,)</td><td>7</td></tr>
        <tr><td>3</td><td>(3,)</td><td>6</td></tr>
        <tr><td>4</td><td>(1,)</td><td>6</td></tr>
        <tr><td>4</td><td>(2,)</td><td>7</td></tr>
        <tr><td>4</td><td>(4,)</td><td>2</td></tr>
        <tr><td>5</td><td>(1,)</td><td>6</td></tr>
        <tr><td>5</td><td>(3,)</td><td>6</td></tr>
    </table>
    <span style="display: inline-block; margin: 10px; font-size: 50px;">...</span>
    <table style="display: inline-block;">
        <tr><th>order_id</th><th>products</th><th>suport</th></tr>
        <tr><td>6</td><td>(2,)</td><td>7</td></tr>
        <tr><td>6</td><td>(3,)</td><td>6</td></tr>
        <tr><td>7</td><td>(1,)</td><td>6</td></tr>
        <tr><td>7</td><td>(3,)</td><td>6</td></tr>
        <tr><td>8</td><td>(1,)</td><td>6</td></tr>
        <tr><td>8</td><td>(2,)</td><td>7</td></tr>
        <tr><td>8</td><td>(3,)</td><td>6</td></tr>
        <tr><td>8</td><td>(5,)</td><td>2</td></tr>
        <tr><td>9</td><td>(1,)</td><td>6</td></tr>
        <tr><td>9</td><td>(2,)</td><td>7</td></tr>
        <tr><td>9</td><td>(3,)</td><td>6</td></tr>
    </table>
</div>

Obtenim:

<div style="text-align: center; margin: 20px;">
    <table style="display: inline-block;">
        <tr><th>order_id</th><th>products</th></tr>
        <tr><td>1</td><td>(1,)</td></tr>
        <tr><td>1</td><td>(2,)</td></tr>
        <tr><td>1</td><td>(5,)</td></tr>
        <tr><td>2</td><td>(2,)</td></tr>
        <tr><td>2</td><td>(4,)</td></tr>
        <tr><td>3</td><td>(2,)</td></tr>
        <tr><td>3</td><td>(3,)</td></tr>
        <tr><td>4</td><td>(1,)</td></tr>
        <tr><td>4</td><td>(2,)</td></tr>
        <tr><td>4</td><td>(4,)</td></tr>
        <tr><td>5</td><td>(1,)</td></tr>
        <tr><td>5</td><td>(3,)</td></tr>
    </table>
    <span style="display: inline-block; margin: 10px; font-size: 50px;">...</span>
    <table style="display: inline-block;">
        <tr><th>order_id</th><th>products</th></tr>
        <tr><td>6</td><td>(2,)</td></tr>
        <tr><td>6</td><td>(3,)</td></tr>
        <tr><td>7</td><td>(1,)</td></tr>
        <tr><td>7</td><td>(3,)</td></tr>
        <tr><td>8</td><td>(1,)</td></tr>
        <tr><td>8</td><td>(2,)</td></tr>
        <tr><td>8</td><td>(3,)</td></tr>
        <tr><td>8</td><td>(5,)</td></tr>
        <tr><td>9</td><td>(1,)</td></tr>
        <tr><td>9</td><td>(2,)</td></tr>
        <tr><td>9</td><td>(3,)</td></tr>
    </table>
</div>

Per generar el següent conjunt, faríem totes les possibles parelles d'entre les anteriors. Molt important, solament considerem productes d'un mateix ordre! Mai podem fer combinacions que involucrin més d'una compra, sinó ja no estaríem considerant compres freqüentment juntes.

<div style="text-align: center; margin: 20px;">
    <table style="display: inline-block;">
        <tr><th>order_id</th><th>products</th></tr>
        <tr><td>1</td><td>(1,2)</td></tr>
        <tr><td>1</td><td>(1,5)</td></tr>
        <tr><td>1</td><td>(2,5)</td></tr>
        <tr><td>2</td><td>(2,4)</td></tr>
        <tr><td>3</td><td>(2,3)</td></tr>
        <tr><td>4</td><td>(1,2)</td></tr>
        <tr><td>4</td><td>(1,4)</td></tr>
        <tr><td>4</td><td>(2,4)</td></tr>
        <tr><td>5</td><td>(1,3)</td></tr>
        <tr><td>6</td><td>(2,3)</td></tr>
    </table>
    <span style="display: inline-block; margin: 10px; font-size: 50px;">...</span>
    <table style="display: inline-block;">
        <tr><th>order_id</th><th>products</th></tr>
        <tr><td>7</td><td>(1,3)</td></tr>
        <tr><td>8</td><td>(1,2)</td></tr>
        <tr><td>8</td><td>(1,3)</td></tr>
        <tr><td>8</td><td>(1,5)</td></tr>
        <tr><td>8</td><td>(2,3)</td></tr>
        <tr><td>8</td><td>(2,5)</td></tr>
        <tr><td>8</td><td>(3,5)</td></tr>
        <tr><td>9</td><td>(1,2)</td></tr>
        <tr><td>9</td><td>(1,3)</td></tr>
        <tr><td>9</td><td>(2,3)</td></tr>
    </table>
</div>

De nou filtrem fent un pas intermedi per calcular el suport:

<div style="text-align: center; margin: 20px;">
    <table style="display: inline-block;">
        <tr><th>order_id</th><th>products</th><th>suport</th></tr>
        <tr><td>1</td><td>(1,2)</td><td>4</td></tr>
        <tr><td>1</td><td>(1,5)</td><td>2</td></tr>
        <tr><td>1</td><td>(2,5)</td><td>2</td></tr>
        <tr><td>2</td><td>(2,4)</td><td>2</td></tr>
        <tr><td>3</td><td>(2,3)</td><td>4</td></tr>
        <tr><td>4</td><td>(1,2)</td><td>4</td></tr>
        <tr><td>4</td><td>(1,4)</td><td>1</td></tr>
        <tr><td>4</td><td>(2,4)</td><td>2</td></tr>
        <tr><td>5</td><td>(1,3)</td><td>4</td></tr>
        <tr><td>6</td><td>(2,3)</td><td>4</td></tr>
    </table>
    <span style="display: inline-block; margin: 10px; font-size: 50px;">...</span>
    <table style="display: inline-block;">
        <tr><th>order_id</th><th>products</th><th>suport</th></tr>
        <tr><td>7</td><td>(1,3)</td><td>4</td></tr>
        <tr><td>8</td><td>(1,2)</td><td>4</td></tr>
        <tr><td>8</td><td>(1,3)</td><td>4</td></tr>
        <tr><td>8</td><td>(1,5)</td><td>2</td></tr>
        <tr><td>8</td><td>(2,3)</td><td>4</td></tr>
        <tr><td>8</td><td>(2,5)</td><td>2</td></tr>
        <tr><td>8</td><td>(3,5)</td><td>1</td></tr>
        <tr><td>9</td><td>(1,2)</td><td>4</td></tr>
        <tr><td>9</td><td>(1,3)</td><td>4</td></tr>
        <tr><td>9</td><td>(2,3)</td><td>4</td></tr>
    </table>
</div>

Quedant:

<div style="text-align: center; margin: 20px;">
    <table style="display: inline-block;">
        <tr><th>order_id</th><th>products</th></tr>
        <tr><td>1</td><td>(1,2)</td></tr>
        <tr><td>1</td><td>(1,5)</td></tr>
        <tr><td>1</td><td>(2,5)</td></tr>
        <tr><td>2</td><td>(2,4)</td></tr>
        <tr><td>3</td><td>(2,3)</td></tr>
        <tr><td>4</td><td>(1,2)</td></tr>
        <tr><td>4</td><td>(2,4)</td></tr>
        <tr><td>5</td><td>(1,3)</td></tr>
        <tr><td>6</td><td>(2,3)</td></tr>
    </table>
    <span style="display: inline-block; margin: 10px; font-size: 50px;">...</span>
    <table style="display: inline-block;">
        <tr><th>order_id</th><th>products</th></tr>
        <tr><td>7</td><td>(1,3)</td></tr>
        <tr><td>8</td><td>(1,2)</td></tr>
        <tr><td>8</td><td>(1,3)</td></tr>
        <tr><td>8</td><td>(1,5)</td></tr>
        <tr><td>8</td><td>(2,3)</td></tr>
        <tr><td>8</td><td>(2,5)</td></tr>
        <tr><td>9</td><td>(1,2)</td></tr>
        <tr><td>9</td><td>(1,3)</td></tr>
        <tr><td>9</td><td>(2,3)</td></tr>
    </table>
</div>

I finalment, com abans, fem totes les combinacions de 3 dins d'una mateixa compra a partir de les anteriors:

<div style="text-align: center; margin: 20px;">
    <table style="display: inline-block;">
        <tr><th>order_id</th><th>products</th></tr>
        <tr><td>1</td><td>(1,2,5)</td></tr>
        <tr><td>8</td><td>(1,2,3)</td></tr>
        <tr><td>8</td><td>(1,2,5)</td></tr>
        <tr><td>9</td><td>(1,2,3)</td></tr>
    </table>
</div>

Totes tenen suport 2, i per tant, després de filtrar obtindríem el mateix.

## Abans de començar


**\+ Durant la pràctica, solament es podran fer servir les següents llibreries**:

`Pandas, Numpy, Itertools`

*Nota: A més de les que ja es troben presents en la 1a cel·la i funcions natives de Python*

**\+ No es poden modificar les definicions de les funcions donades, ni canviar els noms de les variables i paràmetres ja donats**

Això no implica però que els hàgiu de fer servir. És a dir, que la funció tingui un paràmetre anomenat `df` no implica que l'hàgiu de fer servir, si no ho trobeu convenient.

**\+ En les funcions, s'especifica que serà i de quin tipus cada un dels paràmetres, cal respectar-ho**

Per exemple (ho posarà en el pydoc de la funció), `df` sempre serà indicatiu del `Pandas.DataFrame` de les dades. Durant els testos, els paràmetres (i específicament `df`) no contindran les mateixes dades que en aquest notebook, si bé si seran del mateix tipus! Per tant, no us refieu de què tinguin, per exemple, el mateix nombre de files.

## Testos automàtics

Com ja sabeu, les pràctiques es fan a través de Github Classroom. Podeu treballar-hi lliurement i es recomana que feu commits sovint, per tal que els canvis quedin reflectits de forma estructurada i modular.

Normalment treballareu a la branca `master`, però podeu fer fins a 3 cops al dia un `commit` (o `merge` de `master`) a la branca `tests`. Això provocarà que es llencin un seguit de proves sobre el vostre codi, en podreu veure el resultat a la següent web: http://grade-me.education

Penseu que aquests testos són un subconjunt, petit, dels que realment farem servir per avaluar. Per tant, us recomanem que aprofiteu al màxim els 3 intents diaris, que us serviran per comprovar que els formats d'entrada i sortida siguin correctes, a més d'alguns testos bàsics de correcte funcionament.

# Preparar les dades

### **En aquesta cel·la no féu cap modificació**

Descomprimeix el zip en la carpeta "data" automàticament. La funció locate serveix per trobar la ruta relativa a la carpeta on s'està executant aquest python/ipython.

In [1]:
import zipfile
from os.path import join, dirname

try:
    from IPython.core.display import HTML

    def pprint(df):
        with pd.option_context('display.max_rows', None, 'display.max_columns', None):
            display(HTML(pd.DataFrame(df).to_html()))
except:
    def pprint(df):
        pass
        
def locate(*path):
    base = globals().get('__file__', '.')
    return join(dirname(base), *path)

zip_ref = zipfile.ZipFile(locate('order_products__train.csv.zip'), 'r')
zip_ref.extractall(locate('data'))
zip_ref.close()

# Data loading

### **En aquestes cel·les no feu cap modificació**

Carrega les dades en un DataFrame Pandas i realitza dues operacions bàsiques:

* Nombre total d'operacions, entenent com a operació l'acció d'afegir un producte individual en una compra
* Nombre total d'ordres, és a dir de "cistelles" comprades

In [2]:
import pandas as pd
import numpy as np

df_original = pd.read_csv(locate('data', 'order_products__train.csv'))
num_samples = len(df_original.index)

df_orders = df_original.groupby('order_id')
num_orders = len(df_orders)

Si voleu comprovar el resultat d'una funció en aquest notebook, i/o mostrar alguna sortida, és **obligatori** que ho feu dins d'un bloc `if __name__ == '__main__'`, doncs és necessari per poder realitzar els testos automàtics en un temps raonable.

In [3]:
if __name__ == '__main__':
    print(num_samples)
    print(num_orders)

1384617
131209


# Les dades

En aquest i futur notebooks farem servir dades reals corresponents a compres, concretament les utilitzades en el Kaggle Instacart Market Basket Analysis:
https://www.kaggle.com/c/instacart-market-basket-analysis

Tot i que aquí únicament farem servir un dels 4 conjunts de dades disponibles, s'expliquen tots en vista a futures pràctiques.

* **Order Products**: És el de major interès, conté la relació de productes comprats (`product_id`) per a cada conjunt de compra diferent (`order_id`). A aquests conjunts de compres ens hi referirem com a `ordres`, seguint la nomenclatura de les dades. A més, tot i que no ho farem servir, podríem arribar a saber en quin ordre s'han comprat els productes (`add_to_cart_order`) i inclús si ja s'havia comprat en alguna ordre anterior (`reordered`).

* **Orders**: Aquest dataset ens permet relacionar una compra en concret (`order_id`) amb l'usuari que l'ha feta (`user_id`)

* **Products**: Donat un `product_id` ens permet obtenir-ne més informació, com ara el nom (`product_name`), la secció en la qual es troba (`aisle_id`) o al departament al qual pertany (`department_id`). Aquests dos últims es complementen amb els conjunts **Aisles** i **Departments**.

Tal com veuràs si executes el codi de les cel·les anteriors, tenim **1384617 productes** comprats, en un total de **131209 ordres** diferents.

# Implementació

Recordeu, seguiu els pydoc i compliu amb el que diuen!

Nota: Tingues en compte que en Python `[1, 2, 3] != [2, 1, 3]`, però per Apriori la combinació `[1, 2, 3]` i `[2, 1, 3]` són exactament la mateixa. Pensa com solucionar-ho.

In [4]:
import itertools

def get_order(df, order_id):
    """
    Donat un `order_id`, aquesta funció retorna una sèrie que conté únicament
    totes les comandes de l'ordre en concret
    
    :param df: DataFrame de dades
    :param ord_id: Identificador de l'ordre a retornar
    :return: Una Serie consistent únicament dels productes de l'ordre demanada
    """
    # df['order_id'] coge la columna
    # Si queremos en funcion de fila tamb entonces df.loc
    orders = df['order_id'] == order_id
    products = df.loc[orders, 'product_id'].values
    products.sort()
    return pd.Series(products)

def get_n_sets(df, order_id, n):
    """
    Retorna totes les possibles combinacions de mida $n$ d'entre els
    productes d'una ordre en concret
    
    :param df: DataFrame de dades
    :param order_id: Identificador de l'ordre a retornar
    :return: Les combinacions de tamany $n$ d'aquesta ordre, com a llista, tupla o generador
    """
    products = get_order(df, order_id)
    combinations = itertools.combinations(products, n)
    return combinations

def get_all_n_sets(df, n):
    """
    Retorna, per totes les ordres de forma independent, totes les possibles 
    combinacions de mida $n$. Ho fa en un DataFrame com els de l'exemple superior,
    una columna anomenada `order_id` que indica a quina comanda pertany la combinació,
    una altra `products` que conté la combinació en si mateixa i una última
    anomenada `previous` amb una llista o tupla o set buit
    
    :param df: DataFrame de dades
    :param n: Tamany de les combinacions
    :return: Un DataFrame de tres columnes, `order_id`, `previous` i `products`
    """
    
    # We need to iterate first over each order_id (Only 1):
    # Then we have to get_n_sets of it
    # l = []
    
    # for order in df['order_id'].unique(): # With unique we make sure to iterate only once:
    #   for combination in get_n_sets(df, order, n):
    #       l.append((order, set(), combination))
    
    
    lista = [(order, (),comb) for order in df['order_id'].unique() for comb in get_n_sets(df, order, n)]
    
    return pd.DataFrame(lista, columns=['order_id', 'previous', 'products'])

<div class="alert alert-info">
   <p>
   En la tercera funció, és cert que no feu servir `append`, però de totes formes esteu ocupant memòria inecessàriament degut a la list-comprehension. Amb un canvi mínim, fent servir `()` enlloc de `[]`, utiltizarieu un generation-expression, que com el nom indica crea un generador.
   </p>
</div>
<div class="alert alert-warning">
   <span style="font-weight: bold;">2.5/3</span>
</div>

In [5]:
if __name__ == '__main__':
    # Fem un subsampling del dataset original per evitar trigar massa temps en els
    # càlculs
    orders_size = df_original.groupby('order_id').size()
    df = df_original[df_original['order_id'].isin(orders_size[orders_size > 50].index)]
    # Productes d'un order en concret
    #df = df_original
    test = get_order(df,6842)
    
    #Possibles proves que vulgueu fer
    data = list(get_n_sets(df, 6842, 2))
    
    all_sets = get_all_n_sets(df, 1)
    pprint(all_sets.head())

Unnamed: 0,order_id,previous,products
0,6842,(),"(206,)"
1,6842,(),"(1240,)"
2,6842,(),"(1981,)"
3,6842,(),"(2421,)"
4,6842,(),"(2979,)"


## Filtrar els conjunts

Caldrà implementar obligatòriament les següents funcions:
* `get_support`
* `filter_by_support`
* `filter_by_duplicates`

Opcionalment, i en vistes d'obtenir una millor puntuació al Kaggle, es pot implementar

* `get_confidence`
* `filter_by_confidence`

In [6]:
def get_support(df, all_sets):
    """
    Retorna el suport de tots els productes del dataset com a una Sèrie de Pandas.
    La funció ha de tenir en compte que poden haver-hi repetits, i no els ha de comptar.
    Per exemple, si a l'`order_id=0` tenim dos cops el producte `1`, això únicament
    comptaria com 1 de suport (per definició d'aquest).
    L'índex de la sèrie serà el producte i el valor el seu suport.
    
    :param df: DataFrame de dades
    :param all_sets: DataFrame de combinacions, consistent de `order_id` i `products` 
        com a mínim
    :return: Series que indica el suport de cada producte
    """
    #Posibles repetits
    all_sets = all_sets.drop_duplicates(subset=['order_id', 'products'], keep='first')
    
    group = all_sets.groupby('products').count()
    supports = group['order_id'].values
    
    serie = pd.Series(supports, index= group.index.values, name= 'support')
    serie.index.name= 'products'
    return serie

def filter_by_support(df, all_sets, min_support):
    """
    Donades totes les combinacions i el suport mínim, retorna un altre
    DataFrame amb únicament aquelles combinacions que tenen un suport
    major al mínim
    
    :param df: DataFrame de dades
    :param all_sets: DataFrame de combinacions, amb `order_id` i `products`
    :param min_support: Suport mínim de les combinacions
    :return: DataFrame amb estructura igual que `all_sets` però filtrat segons el
        suport mínim
    """
    counts = all_sets['products']
    sup = get_support(df, all_sets)
    filtered_sup = sup[sup < min_support]
    g_products = list(filtered_sup.index)
    filtered_all_sets = all_sets['products'].isin(g_products)
    return all_sets[~filtered_all_sets]


<div class="alert alert-info">
   <p>
   Heu sobrecomplicat una mica el primer, doncs supports ja és una sèrie i ja conté exactament el que voleu i com ho voleu. Fora d'això, està tot bé.
   </p>
</div>
<div class="alert alert-warning">
   <span style="font-weight: bold;">2/2</span>
</div>

In [7]:
if __name__ == '__main__':
    t = get_support(df, all_sets)
    pprint(t.head())
    
    n2_filtered = filter_by_support(df, all_sets, 2)
    pprint(n2_filtered.head())

Unnamed: 0_level_0,support
products,Unnamed: 1_level_1
"(25,)",4
"(37,)",1
"(45,)",3
"(54,)",1
"(63,)",1


Unnamed: 0,order_id,previous,products
3,6842,(),"(2421,)"
4,6842,(),"(2979,)"
5,6842,(),"(5479,)"
7,6842,(),"(7076,)"
10,6842,(),"(7898,)"


In [8]:
def filter_by_duplicates(df, all_sets):
    """
    Donades totes les combinacions, retorna un altre
    DataFrame amb únicament aquelles files de `all_sets` on el parell
    de columnes (`order_id`, `products`) no estan repetides.
    
    Per exemple, donat
    order_id, previous, products
    0         (2, 3),   (2, 3, 5)
    0         (2, 5),   (2, 3, 5)
    0         (2, 3),   (1, 2, 3)
    1         (1, 3),   (2, 3, 5)
    
    (2,3) (1,3) = > (1, 2, 3)
    
    La funció retornarà
    order_id, previous, products
    0       (2, 3),     (2, 3, 5)     // Nota, (2, 3) podria ser (2, 5)
    0       (2, 3),     (1, 2, 3)
    1       (1, 3),     (2, 3, 5)
    
    Ha eliminat la repetició "order_id=0, products=(2, 3, 5)".
    
    :param df: DataFrame de dades
    :param all_sets: DataFrame de combinacions, amb `order_id` i `products` com a mínim
    :return: DataFrame amb estructura igual que `all_sets` però sense duplicats
    """
    
    return all_sets.drop_duplicates(subset=['order_id', 'products'], keep='first')

<div class="alert alert-info">
   <p>
   Bé
   </p>
</div>
<div class="alert alert-warning">
   <span style="font-weight: bold;">1/1</span>
</div>

In [9]:
if __name__ == '__main__':
    pprint(filter_by_duplicates(df, all_sets).head())

Unnamed: 0,order_id,previous,products
0,6842,(),"(206,)"
1,6842,(),"(1240,)"
2,6842,(),"(1981,)"
3,6842,(),"(2421,)"
4,6842,(),"(2979,)"


Opcionalment, implementa `get_confidence` i `filter_by_confidence`. Aquestes funcions poden ser útils de cara a la competició a Kaggle.

La confiança d'una tupla $\{i_1, i_2, ..., i_k\}$ on s'hi afegeix un element més $\{j\}$ ve donada per:

$$\frac{Suport \{i_1, i_2, ..., i_k\}\cup\{j\}}{Suport \{i_1, i_2, ..., i_k\}}$$

És a dir, com a la divisió del suport de la tupla amb el nou element per la de la tupla abans d'afegir l'element. Si `previous=(1, 2)` i `products=(1, 2, 3)`, `confidence=suport((1,2,3)) / suport((1,2))`.

Recorda la definició de suport, és l'aparició d'una mateixa tupla de productes **en diferents usuaris**. Per exemple, si tenim

<table>
    <thead><tr><td>order_id</td><td>previous</td><td>products</td></tr></thead>
    <tbody>
        <tr><td>0</td><td>(1, 2)</td><td>(1, 2, 3)</td></tr>
        <tr><td>0</td><td>(1, 3)</td><td>(1, 2, 3)</td></tr>
        <tr><td>0</td><td>(1, 2)</td><td>(1, 2, 5)</td></tr>
        <tr><td>1</td><td>(1, 2)</td><td>(1, 2, 3)</td></tr>
    </tbody>
</table>

Mirant els suports de les tuples abans d'afegir elements, `previous`, tenim:
- Suport $\{1, 2\}=2$, doncs si comptem en quantes `order_id` apareixen, apareix en la 0 i la 1 (per més que en la 0 ho faci dos cops).
- Suport $\{1, 3\}=1$

I mirant les noves tuples a `products`:
- Suport $\{1, 2, 3\}=2$
- Suport $\{1, 2, 5\}=1$

In [10]:
def get_previous_support(df, all_sets):
    """
    Calcula el support de la columna previous 
    
    :param df: DataFrame de dades
    :param all_sets: DataFrame de combinacions, consistent de `order_id`, `prevous` 
        i `products` com a mínim
    :return: Series que indica el suport de cada producte de la columna previous
    """
    prev_supp = all_sets.drop_duplicates(subset=['order_id', 'previous'], keep='first')['previous'].value_counts()
    return prev_supp

def calculate_confidence(dataframe, prev_supp, current_supp):
    """
    Calcula la confiança
    
    :param df: DataFrame de dades
    :param prev_supp: Series de previous support
    :param current_supp: Series de current support
    :return: confiança calculada
    """
    prev_supp_value = prev_supp.get(dataframe['previous'])
    current_supp_value = current_supp.get(dataframe['products'])
    return current_supp_value / prev_supp_value

In [11]:
def get_confidence(df, all_sets):
    """
    Calcula la confiança de tots els productes del dataset i crea una nova
    columna `confidence` en aquest mateix dataset, on hi guarda el valor.
    
    Tingues en compte els possibles repetits!
    
    :param df: DataFrame de dades
    :param all_sets: DataFrame de combinacions, consistent de `order_id`, `prevous` 
        i `products` com a mínim
    :return: El mateix DataFrame `all_sets` rebut per paràmetre però amb una nova
        columna, `confidence` amb la confiança
    """
    
    prev_supp = get_previous_support(df, all_sets)
    current_supp = get_support(df, all_sets)
    # Apply function for each row with axis = 1
    all_sets['confidence'] = all_sets.apply(lambda x: calculate_confidence(x, prev_supp, current_supp), axis=1)
    return all_sets


def filter_by_confidence(df, all_sets, min_conf):
    """
    Donades totes les combinacions, retorna un altre
    DataFrame amb únicament aquelles files de `all_sets` on la confiança
    dels productes és superior o igual al mínim
    
    :param df: DataFrame de dades
    :param all_sets: DataFrame de combinacions, amb `order_id` i `products` com a mínim
    :param min_conf: Float amb la confiança mínima
    :return: DataFrame amb estructura igual que `all_sets` però filtrat
    """
    all_sets = get_confidence(df, all_sets)
    return all_sets[all_sets['confidence'] >= min_conf]

In [12]:
if __name__ == '__main__':
    pprint(all_sets.head())
    all_sets = get_confidence(df, all_sets)
    pprint(all_sets.head())
    
    pprint(filter_by_confidence(df, all_sets, 0.2).head())

Unnamed: 0,order_id,previous,products
0,6842,(),"(206,)"
1,6842,(),"(1240,)"
2,6842,(),"(1981,)"
3,6842,(),"(2421,)"
4,6842,(),"(2979,)"


Unnamed: 0,order_id,previous,products,confidence
0,6842,(),"(206,)",0.006173
1,6842,(),"(1240,)",0.006173
2,6842,(),"(1981,)",0.006173
3,6842,(),"(2421,)",0.012346
4,6842,(),"(2979,)",0.030864


Unnamed: 0,order_id,previous,products,confidence
29,6842,(),"(24852,)",0.320988
64,7793,(),"(13176,)",0.320988
67,7793,(),"(21137,)",0.296296
79,7793,(),"(26209,)",0.209877
85,7793,(),"(27966,)",0.265432


# Algorisme Apriori

Ara, en lloc de generar totes les possibles combinacions de cop, el que s'haurà de fer és generar les noves a partir de les anteriors (ja filtrades per suport). Per tant, cal fer una funció que donat totes les combinacions de mida $n-1$ generi les de mida $n$.

In [13]:
def generate_next(previous, n_prev):
    """
    Donades les combinacions de mida $n-1$ (n_prev) genera les de mida $n$. Ho fa
    seguint les regles d'Apriori (ie. si anteriorment en l'ordre 1 i mida 2 teníem únicament 
    (1,2),(1,4),(4,5) i ara volem generar les de mida 3, la combinació (1,4,5) no és vàlida,
    doncs no teníem originalment la (1,5)!
    
    Nota: Per la columna `previous`, i per simplificar, podeu posar qualsevol dels productes
        que conformen la nova tupla. Per exemple, si estem combinant (1, 2) i (1, 3),
        pots considerar qualsevol de:
            `previous=(1, 2), products=(1, 2, 3)`
            `previous=(1, 3), products=(1, 2, 3)`
        Però *no* `previous=(2, 3)`, ja que en aquest moment no forma part dels productes
        que estem combinant (per més que hagin d'estar en les tuples existents per tal de
        complir les regles d'apriori).
        
    
    :param previous: DataFrame de combinacions del mida previ, amb `order_id`, 
        `previous` i `products` com a mínim
    :param n_prev: Tamany previ de les combinacions present en el DataFrame `previous`
    :return: DataFrame de combinacions de tamany $n$, amb `order_id`, `previous` i 
        `products` com a mínim
    """
    def next_generator():
        n = n_prev + 1;
        products_col = set(previous['products'])

        for order in previous['order_id'].unique():
            #if n == 3:
            #    print("Check ", order)
            orders = previous['order_id'] == order
            products = previous.loc[orders, 'products'].values
            for comb in itertools.combinations(products, n):
                # This basically combines tuples with no duplicates
                res = tuple(sorted(set(itertools.chain.from_iterable(comb))))
                # Check order length
                if(len(res) == n):
                    prev_comb = sorted(set(itertools.combinations(res, n_prev)))
                    if set(prev_comb).issubset(products_col):
                        yield (order,prev_comb[0],res)

    return pd.DataFrame(next_generator(),columns=['order_id', 'previous', 'products'])
                    

<div class="alert alert-info">
   <p>
   Perfecte, un codi molt net i eficient!
   </p>
</div>
<div class="alert alert-warning">
   <span style="font-weight: bold;">3/3</span>
</div>

In [14]:
if __name__ == '__main__':
    all_sets = get_all_n_sets(df, 1)
    all_sets = generate_next(all_sets, 1)
    pprint(all_sets.head())

Unnamed: 0,order_id,previous,products
0,6842,"(206,)","(206, 1240)"
1,6842,"(206,)","(206, 1981)"
2,6842,"(206,)","(206, 2421)"
3,6842,"(206,)","(206, 2979)"
4,6842,"(206,)","(206, 5479)"


In [None]:
#a = [(1,2),(1,3),(1,4)]
#print(a)
#x = list(itertools.combinations(a,2)) # ((1, 2), (1, 3)) ---> (1,2,3)
#print(x)

#a = [(1,),(3,),(4,)]
#x = list(itertools.combinations(a,2))
#print(x)

#for e in a:
#    print(e[0])
    
#ak = [e[0] for e in a]
#r = [a[0] for j in a]
#print(r)
#x2 = list(itertools.combinations(ak,2))
#print(x2)


#ar = ((1,),(2,),(1,))
#ar = tuple(sum(x) for x in ar)
#ar = tuple(set(itertools.chain.from_iterable(ar)))
#print(ar)

#t = [(1,2), (1,3), (2,3)]
#t2 = [(1,2), (1,3), (2,3), (4,5), (1,7)]

#set(t).issubset(t2)

In [15]:
def apriori(df, target_n, min_support, min_conf, use_confidence=False):
    """
    L'algorisme ha de generar de forma iterativa, començant per 1 i fins a $n$ (inclosa)
    les combinacions de forma successiva, és a dir generant-les a partir de les anteriors.
    La primera de totes, de mida 1, la podeu generar directament amb la funció
    get_all_n_sets.
    
    Nota: Recordeu que cal generar -> filtrar -> generar ... fins que arribeu a la mida
        de la tupla demanada. L'ordre dels filtratges ha de ser:
        * filter_by_support
        * filter_by_confidence
        * filter_by_duplicates
        
    Si el paràmetre *use_confidence* està a False, no filtreu per confiança.
    
    Si en algun pas el DataFrame queda buit, retorneu un DataFrame buit però amb les
    columnes pertinents. La funció no hauria de donar error
    
    :param df: DataFrame de dades
    :param target_n: $n$ objectiu
    :param min_support: Suport mínim
    :param support_only: Filtrar per suport i duplicats (False) o per suport, duplicats
        i confiança (True)
    :return: DataFrame amb combinacions de mida $n$ i filtrat pel suport mínim, amb
        `order_id` i `products`
    """
    
    n = 1
    generated = get_all_n_sets(df, n)
    generated = filter_by_support(df, generated, min_support)
    generated = filter_by_duplicates(df, generated)
    while n < target_n:
        generated = generate_next(generated, n)
        generated = filter_by_support(df, generated, min_support)
        if use_confidence and n != 1:
            generated = filter_by_confidence(df, generated, min_conf)
        generated = filter_by_duplicates(df, generated)
        n += 1
        
    return generated
    

<div class="alert alert-info">
   <p>
   Bé!
   </p>
</div>
<div class="alert alert-warning">
   <span style="font-weight: bold;">1/1</span>
</div>

In [16]:
import time

if __name__ == '__main__':
    t0 = time.time()
    res = apriori(df, 3, 10, 0.6, False)
    pprint(res.head())
    print("Shape: ", res.shape)
    print("Took ", time.time() - t0, " seconds")
    

Unnamed: 0,order_id,previous,products
6,7793,"(13176, 21137)","(13176, 21137, 47209)"
9,7793,"(13176, 21903)","(13176, 21903, 27966)"
16,7793,"(13176, 27966)","(13176, 27966, 47209)"
44,68260,"(13176, 21137)","(13176, 21137, 39275)"
58,280429,"(13176, 21137)","(13176, 21137, 47209)"


Shape:  (45, 3)
Took  0.2932157516479492  seconds


In [None]:
#res.to_csv('bigger30s7.csv')

In [None]:
#import csv
#w = csv.writer(open("recomends30s7.csv", "w"))
#for key, val in recomendations.items():
#    w.writerow([key, val])

<div class="alert alert-success">
   <span style="font-weight: bold;">9.5/10</span>
</div>

# Kaggle

Per als usuaris que tens a continuació, quins productes els hi recomanaries (**fins a un màxim de 5**) que compressin segons el que ja han comprat?

És possible que per algun usuari no trobeu productes a recomanar-li, no passa res!

In [None]:
if __name__ == '__main__':
    df_test = pd.read_csv(locate('order_products__test.csv'))
    pprint(df_test.head())
    print(df_test.shape)

In [None]:

def get_recommended_product(s, idx):
    prod = list(set(res['products'].values))
    section = prod[idx]
    for value in section:
        if value not in s:
            return value

def find_recomendations():
    recomendations = dict()
    res2 = get_all_n_sets(df_test, 2)
    #pprint(res2.head())
    prod = list(set(res['products'].values))
    prev_prod = [sorted(set(itertools.combinations(p, 2))) for p in prod]
    for order in res2['order_id'].unique():
        orders = res2['order_id'] == order
        compra = res2.loc[orders, 'products'].values
        recomendations[order] = []
        for producto in compra:
            for k in range(len(prev_prod)):
                if producto in prev_prod[k]:
                    r = get_recommended_product(producto, k)
                    if order in recomendations:
                        recomendations[order].append(r)
                    else:
                        recomendations[order] = [r]
        
    return recomendations
                  


In [None]:
from operator import itemgetter
def sort_by_support(r):
    all_sets = get_all_n_sets(df, 1)
    t = get_support(df, all_sets)
    pprint(t.head())
    for key, value in r.items():
        if len(value) > 5:
            value = list(set(value))
            #print(value)
            l = []
            for i in range(len(value)):
                v = (value[i],)
                support = t.get(v)
                l.append((value[i],support))
            l2 = sorted(l,key=itemgetter(1), reverse= True)
            l3 = [val[0] for val in l2]
            print(l3)
            r[key] = l3
    print(r)
    return r

        

In [None]:
#recomendations = find_recomendations()
#print(recomendations)
#recomendations = sort_by_support(recomendations)


Cal generar un `csv` amb dues columnes, `order_id` i `products_list`. Per cada `order_id` es farà una fila on `products_list` contindrà una `string` amb tots els productes que recomanem, separats per espais.

Per exemple:
```python
df_submission = pd.DataFrame(columns=['order_id', 'products_list'])
df_submission = df_submission.append({
    'order_id': 0,
    'products_list': " ".join(map(str, [1, 2, 3, 4]))
})

# On [1, 2, 3, 4] son els productes que recomanaria a l'usuari "0"
```

Un cop creat tot el dataframe, tindríem quelcom tipus
<table>
    <thead>
        <tr><td>**order_id**</td><td>**products_list**</td></tr>
    </thead>
    <tbody>
        <tr><td>0</td><td>1 2 3 4</td></tr>
        <tr><td>1</td><td></td></tr>
        <tr><td>2</td><td>123 43 1233</td></tr>
        <tr><td colspan=2 style="text-align: center">...</td></tr>
    </tbody>
</table>

Ho guardem en format CSV:
```python
if __name__ == '__main__':
    df_submission.to_csv('./susbmission.csv', index=None)
```

I es puja a Kaggle aquest arxiu `submission.csv`:

**https://www.kaggle.com/t/26efe666f4a34a51a80ac75afbecc0e8**

In [None]:
if __name__ == '__main__':
    recomendations = find_recomendations()
    df_submission = pd.DataFrame(columns=['order_id', 'products_list'])
    for key, value in recomendations.items():
        df_submission = df_submission.append({
            'order_id': key,
            'products_list': " ".join(map(str, list(set(value[:5])) ))
        },ignore_index=True)

    df_submission.to_csv('./susbmission.csv', index=None)

### Petita guia

Heu fet l'algorisme d'apriori i disposeu de moltes dades (`df` i/o `df_original`) per intentar trobar ítems que es compren freqüentment junts.

Suposem que volem recomanar a partir de parelles d'ítems comprats, quin nou ítem podria afegir l'usuari de test (`df_test`). Fem totes les possibles parelles d'aquest usuari, i generem amb apriori tot el conjunt de tuples de 3 ítems a partir de les dades d'entrenament.

Ara és qüestió de trobar quines tuples de 2 estan contingudes en les tuples de 3, l'element que falta per anar de 2 a 3 serà el que li recomanarem a l'usuari.


**TL;DR** 

Inicialment:
- Sobre les dades d'entrenament (`df` o `df_original`), generar les tuples de 3 amb apriori.

Per cada usuari de test:
- Generar totes les parelles d'ítems directament.
- Per cada parella, mirar si està continguda en una tripleta (de les generades amb apriori). Si ho està, aquest ítem és candidat a ser recomanat.
- Afegir al dataframe `df_submission` l'usuari, tal com a les indicacions de dalt.

**Possibles millores**

- Fer servir `df_original` tindrà (possiblement) resultats més fiables, però trigarà molt més que amb la versió reduida `df`. Pots canviar el `threshold` de 50 que s'utilitza per reduir les dades per trobar punts intermitjos.
- Canviar els paràmetres `min_support` i `min_conf` podria generar més parelles i ajudar amb aquells usuaris que no obtenim cap resultat. Més parelles, però, implica més temps d'execució.
- Si tenim més de 5 possibles recomanacions, podem quedar-nos les 5 amb més suport i/o confiança, o una combinació dels dos.

In [None]:
if __name__ == '__main__':
    # Creem un dataframe buit
    df_submission = pd.DataFrame(columns=['order_id', 'products_list'])
    
    # CODI PER GENERAR ELS RESULTATS
    # Per a cada usuari de test:
    df_submission = df_submission.append(
        {
            'order_id': "<ORDER_ID>",
            'products_list': "<PRODUCTES SEPARATS PER ESPAI>"
        }, 
        ignore_index=True)
    
    # Guardem sense indexos, únicament amb noms de columnes
    df_submission.to_csv('./susbmission.csv', index=None)