# Analiza koszykowa i rekomendacja produktów
Celem notebooka jest zaprezentowanie jak analiza koszykowa umożliwia rekomendację produktów w celu wsparcia sprzedaży.

In [None]:
# importujemy potrzebne biblioteki
from os.path import pardir, join

import pandas as pd
import numpy as np 
import seaborn as sns
import matplotlib.pyplot as plt
from mlxtend.frequent_patterns import apriori, association_rules
from IPython.display import display

sns.set_palette("Blues")
apriori_dict = {
    'antecedents': 'poprzednicy',
    'consequents': 'następnicy',
    'antecedent support': 'wsparcie poprzedników',
    'consequent support': 'wsparcie następników',
    'support': 'wsparcie',
    'confidence': 'pewność',
    'lift': 'przyrost',
    'leverage': 'dźwignia',
    'conviction': 'przekonanie'
}

-------
### Instrukcja uzupełniania
Miejsca gdzie należy napisać/uzupełnić kod znajdują się bezpośrednio **pod** komentarzami z tagiem `todo`.

Przykład:
```python
a = some_function()
# todo: stwórz nową zmienną z napisem 'zmienna'
b = ...
# todo: wypisz zmienną b
```

Rozwiązanie:
```python
a = some_function()
# todo: stwórz nową zmienną z napisem 'zmienna'
b = 'zmienna'
# todo: wypisz zmienną b
print(b)
```

Jeśli wymagane jest odpowiednie nazewnictwo zmiennych będą one zadeklarowane z przypisanym operatorem ```...``` (tak jak jest to pokazane powyżej).

Jeśli nie uda Ci się wykonać zadań opisanych w `todo`, na samym dole notebooka znajduje się ściąga pozwalająca uzupełnić brakujące linijki i kontynuować wasztat. Korzystamy z nich dopiero w ostateczności :)

---------
### Cheat Sheet:
1. Ładowanie danych do  tabeli DataFrame z pliku *.csv*:
```python
df = pd.read_csv('ścieżka_do_pliku.csv')
```
2. Wyświetl `n` pierwszych wierszy tabeli DataFrame (`n` domyślnie równe 5):
    - jeśli to ostatnia komenda w komórce:
```python
df.head(n)
```
    - jeśli tak nie jest:
```python
display(df.head(n))
```
3. Obrót tabeli DataFrame (tzw. *pivot*) sumujący wartości z ```kolumna_do_zliczenia``` we wszystkich kombinacjach ```kolumna_x``` z ```kolumna_y```.
```python
df = pd.pivot_table(df, values='kolumna_do_zliczania', index='kolumna_x', columns='kolumna_y', aggfunc=np.sum)
```
4. Podmiana wszystkich wartości ```NaN``` (*Not a Number*) na wybraną wartość:
```python 
df = df.fillna(wartość_do_podmiany)
```
5. Sortowanie malejące wierszy w tabeli DataFrame według wartości w kolumnie/kolumnach:
 - dla jednej kolumny
```python
df = df.sort_values('kolumna', ascending=False)
```
 - dla wielu kolumn
```python
df = df.sort_values(['kolumna_1', 'kolumna_2'], ascending=False)
```
6. Usuwanie duplikatów wierszy na podstawie wartości w kolumnie:
```python
df = df.drop_duplicates('nazwa_kolumny', keep='first')
```

-------
### Część I  - Wyznaczenie reguł
#### Ładowanie i wizualizacja danych

In [None]:
# wyznaczamy ścieżkę do pliku z danymi
data_dir = join(pardir, 'data')
filepath = join(data_dir, 'dane_analiza_koszykowa.csv')

### 1) todo:
- Załaduj plik z danymi do tabeli DataFrame (ścieżka w zmiennej `filepath`)
- Wyświetl kilka pierwszych wierszy tabeli

In [None]:
# todo: wczytaj dane do zmiennej df
df = ...
# todo: wyświetl kilka pierwszych wierszy tabeli

In [None]:
def show_countplot(df, variable_name, description=None):
    """Pokazuje top 10 najlepiej sprzedających się produktów/kategorii."""
    assert variable_name in df.columns, "Kolumna nie zawiera się w tabeli, wybierz inną kolumnę."
    sns.countplot(x=variable_name, data=df, order=df[variable_name].value_counts().iloc[:10].index)
    plt.xticks(rotation=90)
    if description:
        plt.title(description)
    plt.show()

### 2) todo:
- Używając funkcji ```show_countplot``` wyświetl najlepiej sprzedające się:
    - produkty (kolumna`product_name`)
    - podkategorie produktów (kolumna `product_subcategory`)
    - kategorie produtów (kolumna `product_category`)

In [None]:
# todo: zapełnij tuple modelling_columns nazwami kolumn odpowiadających za poszczególne poziomy grupowania 
# produktów: (produkty, podkategorie, kategorie)
modelling_columns = (...)
for column_name in modelling_columns:
    print(f'Najlepiej sprzedające się produkty na poziomie {column_name}:')
    # todo: wyświetl wykres

#### Wyznaczanie reguł asocjacyjnych
Aby znaleźć grupy produktów czesto kupowanych razem oraz reguły asocjacyjne (np.: *jeśli kupię chleb to kupię też masło z pewnością 70%*) potrzebujemy specjalnie przygotowanej tabeli.

Aby ją przygotować należy przekształcić dotychczasową tabelę przy pomocy funkcji ```pd.pivot_table```. Wyjściowa macierz będzie miałą poszczególne paragony (koszyki) jako indeksy (oś Y), poszczególne produkty jako kolumny (oś X), a jej wartości będą reprezentować liczbę kolejnych rodzajów produktów w kolejnych koszykach.

Przykładowa tabela wejściowa:

| Paragon   | Produkt   | Liczba |
|-----------|-----------|--------|
| Paragon_1 | Produkt_1 | 1      |
| Paragon_2 | Produkt_2 | 2      |
| Paragon_2 | Produkt_3 | 1      |
| Paragon_3 | Produkt_1 | 2      |
| Paragon_3 | Produkt_2 | 5      |

Po wywołaniu na niej funkcji
```python
pd.pivot_table(tabela, values='Liczba', index='Paragon', columns='Produkt', aggfunc=np.sum)
```
będzie wyglądać następująco:

|          | Produkt_1 | Produkt_2 | Produkt_3 |
|-----------|-----------|-----------|-----------|
| Paragon_1 | 1         | Nan       | Nan       |
| Paragon_2 | NaN       | 2         | 1         |
| Paragon_3 | 2         | 5         | Nan       |

### 3) todo 
- Przekształć tabelę przy pomocy ```pd.pivot_table``` na podstawie powyższego przykładu:
    - chcemy zliczyć występowania produktów (`quantity`)
    - w poszczególnych koszykach (`receipt_id`)
    - pogrupowane według rodzajów produktów (kolumna odpowiadająca wybranemu poziomowi modelowania, zmienna `modelling_variable`)
- W przekształconej tabeli zapełnij pola ```NaN``` zerami

In [None]:
# wypiszmy kolumny, które odpowiadają kolejnym poziomom modelowania
print(f'Istnieją {len(modelling_columns)} kolumny odpowiadające kolejnym poziomom modelowania:')
for colname in modelling_columns:
    print(f'- {colname}')

In [None]:
# todo: wybierz zmienną określającą poziom modelowania (jedna z wylistowanych powyżej)
modelling_variable = ...
# sprawdźmy czy dana zmienna istnieje w tabeli 
assert modelling_variable in df.columns, "Kolumna nie zawiera się w tabeli, wybierz inną kolumnę."

In [None]:
# todo: obróć tabelę przy pomocy pd.pivot_table
# hint: jako wartość parametru columns ustaw zmienną modelling_variable
basket = ...
# todo: wyświetl kilka pierwszych wierszy z tabeli basket
basket.head()

In [None]:
# todo: zapełnij pola NaN tabeli basket zerami
basket = ...
# zmieniamy wartości w tabeli zliczeniowej na binarne:
#  - 1 oznacza, że produkt występował w danym koszyku
#  - 0 oznacza,że nie występował
basket_sets = basket.applymap(lambda x: 1 if x >= 1 else 0)
basket_sets.head()

In [None]:
# wyznaczamy często występujące grupy produktów (występujące w przynamniej 1% koszyków)
frequent_itemsets = apriori(basket_sets, min_support=0.01, use_colnames=True)
# na podstawie grup wyznaczamy reguły asocjacyjne
rules = association_rules(frequent_itemsets, metric="lift", min_threshold=1.0).rename(columns=apriori_dict)
print('Tabela z regułami zawiera następujące kolumny:')
for colname in rules.columns:
    print(f'- {colname}')
rules.head()

In [None]:
# todo: posortuj zbiór według pewności reguły
rules = ...
# todo: wyświetl kilka pierwszych reguł z tabeli rules

### 4) todo:
Wróć do punktu **3) todo** i sprawdź jakie reguły generowane są dla innych poziomów modelowania (kolumny: `product_name`, `product_subcategory`, `product_category`). Oceń przydatność biznesową reguł i wybierz kolumnę będącą "*złotym środekiem*", czyli kompromisem pomiędzy szczegółowością a pewnością.

Po wyborze odpowiedniej zmiennej (odpowiadającej poziomowi modelowania) ponownie uruchom komórki od sekcji **3) todo**. W ten sposób zmienna `rules` zawierać będzie odpowiednie reugły.

----------
### Część II  - Rekomendacja produktów
Sprawdźmy jakie produkty można zarekomendować klientowi o identyfikatorze paragonu ```2```

In [None]:
# wybierzmy część tabeli odpowiadającej koszykowi o id 229822
basket_id = 229822
receipt = df[df['receipt_id'] == basket_id]
# utwórzmy zbiór zawierający produkty z koszyka o id 2
basket_items = set(receipt[modelling_variable].values)
print(f'Koszyk o id: {basket_id} zawiera następujące produkty: {basket_items}')

#### Filtrowanie reguł
Nie wszystkie reguły, które wygenerowaliśmy przydadzą nam się w rekomendacji. Potrzebujemy reguł, które spełniają następujące warunki:
1. zbiór *poprzedników* reguły posiada produkty wspólne ze zbiorem produktów koszyka
2. zbiór *następników* reguły nie ma produktów wspólnych ze zbiorem produktów koszyka

Aby odfiltrować nieprzydatne reguły potrzebujemy funkcji:
1. wyznaczającej podobieństwo poszczególnych *poprzedników* reguł do zawartości koszyka,
2. odfiltrowjącej reguły, których *następnicy* znajdują się w koszyku.

Z racji, iż koszyk reprezentowany jest jako zbiór produktów, do obliczania podobieństwa użyjemy indeksu Jaccarda. Jest to miara podobieństwa zbiorów w zakresie [0, 1]:
![alt text](../data/jaccard.PNG)
 źródło: https://en.wikipedia.org/wiki/Jaccard_index

In [None]:
# do spełnienia warunku 1. użyjemy funkcji obliczającej podobieństwa Jaccarda
# umożliwi nam ona sortowanie reguł według podobieństwa ich poprzedników do koszyka
def jaccard_similarity(x, y):
    x, y = set(x), set(y)
    return len(x.intersection(y)) / len(x.union(y))

# do spełnienia warunku 2. użyjemy funkcji sprawdzającej wielkość części wspólnej
# następników i koszyka
def intersects_with_basket(x, y):
    x = set(x['następnicy'])
    return len(x.intersection(y)) == 0

### 5) todo:
- Dodaj do tabeli reguł ```rules``` nową kolumnę zawierającą wartość podobieństwa Jaccarda pomiędzy zbiorem produktów (zmienna ```basket_items```) w przykładowym koszyku, a poszczególnymi *poprzednikami* dla każdej z reguł.

Aby dodać do tabeli nową kolumnę, która liczona jest na podstawie innej użyjemy kombinacji funkcji `apply` i `lambda`. Aby obliczyć podobieństwo nalezy:
- użyć kolumny `poprzednicy` jako bazy do obliczeń
- funkcji `jaccard_similarity` jako funkcji (zastępuje `moja_funkcja`)
- jako argumentów funkcji `jaccard_similarity` użyć:
    - wartości z kolumny `poprzednicy`
    - zbioru elementów koszyka `basket_items`


```python
# przykład użycia apply + lambda
rules['nowa_kolumna'] = rules['kolumna_X'].apply(lambda element_kolumny_X: moja_funkcja(element_kolumny_X))

# przykład tworzący nową kolumnę z długością zbioru poprzednich
rules['nowa_kolumna'] = rules['poprzednicy'].apply(lambda x: len(x))
```

In [None]:
# todo: dodaj kolumnę zawierającą podobieństwo poprzedników reguły do koszyka
rules['podobieństwo'] = ...
# usuń reguły o następnikach występujących już w koszyku
rules = rules[rules.apply(lambda x: intersects_with_basket(x, basket_items), axis=1)]

### 6) todo:
- Odfiltruj wiersze z  zerowym podobieństwem (```rules[reguła]``` czyli np. ```rules[rules['wybrana_kolumna'] > 5]```)
- Posortuj wartości malejąco używając do tego kolumn odpowiadających:
    1. podobieństwu Jaccarda *poprzedników* reguły do zawartości analizowanego koszyka 
    2. pewności reguły
- Odrzuć wszystkie kolumny oprócz kolumn: ```następnicy``` i ```pewność```
- Usuń duplikaty tak aby dla każdego następnika zachować regułę o najwyższej pewności


In [None]:
# todo: odfiltruj reguły o zerowym podobieństwie do koszyka
recommendations = ...
# todo: wyświetl kilka pierwszych wierszy tabeli

In [None]:
# todo: posortuj reguły malejąco według podobieństwa i pewności
recommendations = ...
# todo: wyświetl kilka pierwszych wierszy tabeli

In [None]:
# todo: odrzuć wszystkie kolumny oprócz następników, pewności i przyrostu
columns_to_keep = [...]
recommendations = recommendations[columns_to_keep]
# todo: wyświetl kilka pierwszych wierszy tabeli
recommendations.head()

In [None]:
# todo: usuń duplikaty zachowując reguły o największej pewności
recommendations = ...
# todo: wyświetl kilka pierwszych wierszy tabeli
recommendations.head()

In [None]:
recommendations_display = pd.DataFrame()
recommendations_display['Rekomendowane produkty'] = recommendations['następnicy'].apply(lambda x: ', '.join([x for x in iter(x)]))
recommendations_display['Pewność rekomendacji (%)'] = recommendations['pewność'].apply(lambda x: str(round(100 * x, 2)) + '%')
recommendations_display['Przyrost'] = recommendations['przyrost']
print(f"Wiedząc, że klient kupił {', '.join(list(basket_items))}")
recommendations_display.reset_index().drop(columns=['index']).head(10)

### Rozwiązanie:

1.
```python
# todo: wczytaj dane do zmiennej df
df = pd.read_csv(filepath)
# todo: wyświetl kilka pierwszych wierszy tabeli
df.head()
```

2.
```python
modelling_columns = ('product_name', 'product_subcategory', 'product_category')
for column_name in modelling_columns:
    print(f'Najlepiej sprzedające się produkty na poziomie {column_name}:')
    # todo: wyświetl wykres
    show_countplot(df, column_name)
```

3.
```python
# todo: obróć tabelę przy pomocy pd.pivot_table
basket = pd.pivot_table(df, values='quantity', index='receipt_id', columns=modelling_variable, aggfunc=np.sum)
# todo: wyświetl kilka pierwszych wierszy z tabeli basket
basket.head()

# todo: zapełnij pola NaN tabeli basket zerami
basket = basket.fillna(0)
# zmieniamy wartości w tabeli zliczeniowej na binarne:
#  - 1 oznacza, że produkt występował w danym koszyku
#  - 0 oznacza,że nie występował
basket_sets = basket.applymap(lambda x: 1 if x >= 1 else 0)
basket_sets.head()

# todo: posortuj zbiór według pewności reguły
rules = rules.sort_values('pewność', ascending=False)
# todo: wyświetl kilka pierwszych reguł z tabeli rules
rules.head()

```

4.
Pod sekcją **3) todo** należy przypisać do zmiennej `modelling_variable` jedną z trzech możliwych wartości:
- ```python
modelling_variable = 'product_name'
```

- ```python
# ta zmienna zapewnia wspomniany "złoty środek"
modelling_variable = 'product_subcategory'
```

- ```python
modelling_variable = 'product_category'
```

 Następnie należy uruchomić komórki z kodem aż do **5) todo**.


5.
```python
rules['podobieństwo'] = rules['poprzednicy'].apply(lambda x: jaccard_similarity(x, basket_items))

```
6.
```python
# todo: odfiltruj reguły o zerowym podobieństwie do koszyka
recommendations = rules[rules['podobieństwo'] > 0]
# todo: wyświetl kilka pierwszych wierszy tabeli
recommendations.head()

# todo: posortuj reguły malejąco według podobieństwa i pewności
recommendations = recommendations.sort_values(['podobieństwo', 'pewność'], ascending=False)
# todo: wyświetl kilka pierwszych wierszy tabeli
recommendations.head()

# todo: odrzuć wszystkie kolumny oprócz następników, pewności i przyrostu
columns_to_keep = ['następnicy', 'pewność', 'przyrost']
recommendations = recommendations[columns_to_keep]
# todo: wyświetl kilka pierwszych wierszy tabeli
recommendations.head()

# todo: usuń duplikaty zachowując reguły o największej pewności
recommendations = recommendations.drop_duplicates('następnicy', keep='first')
# todo: wyświetl kilka pierwszych wierszy tabeli
recommendations.head()
```
