# Úkol č. 3 - Segmentace zákazníků e-shopu
**Deadline úkolu je uveden na [course pages](https://courses.fit.cvut.cz/BI-VZD/homeworks/index.html).**

Jednou z důležitých aplikací shlukování je **segmentace zákazníků** (angl. **customer segmentation**). 

Předpokládejme, že máme následující obchodní údaje o prodejích (resp. nákupech z pohledu zákazníků):
TransactionID - ID nákupu,
CustomerID - ID zákazníka, 
Date - datum nákupu, 
Total - celková cena nákupu.

Chceme najít segmenty zákazníků, kteří se chovají podobně. K tomu je dobré informace z jednotlivých nákupů pro individuální zákazníky agregovat. Tj. získat pro každého zákazníka jeden řádek.

Populárním přístupem je **RFM**, což znamená:

- **R**ecency: Počet dnů od posledního nákupu (poslední datum v datasetu pro daného zákazníka).
- **F**requency: Počet nákupů. Občas se vynechávají zákazníci s jediným nákupem. Pro jednoduchost je zde ale necháme.
- **M**onetary: Celková suma, kterou daný zákazník utratil.

## Zdroj dat
Budeme pracovat s daty z jednoho (skoro) vymyšleného eshopu, která jsou v přiloženém souboru `eshop.csv`.

## Pokyny k vypracování

Ve všech bodech zadání uvažujte aktuální datum jako datum poslední transakce (19. 12. 2015), nikoliv dnešek. Tváříme se, že jde o aktuální data.

**Základní body zadání**, za jejichž (poctivé) vypracování získáte **8 bodů**:
- Vytvořte `rfm` data frame, kde každý řádek odpovídá jednomu zákazníkovi a sloupce (příznaky) jsou uvedené výše.
- Pomocí algoritmu `K-means` proveďte shlukování. Nějakým způsobem také odhadněte nejlepší počet shluků (podrobně vysvětlete).
- Zabývejte se vlivem přeškálování dat (standardizace příznaků). Tj. určete, zda je přeškálování vhodné, a proveďte ho.
- Interpretujte jednotlivé shluky. Použijte získané shluky k odlišení "superstar" zákazníků (vysoká monetary, vysoká frequency a nízká recency) od nezajímavých  zákazníků (vysoká recency, nízká frequency, nízká monetary).

**Další body zadání** za případné další body  (můžete si vybrat, maximum bodů za úkol je každopádně 12 bodů):
- (až +4 body) Proveďte analýzu vytvořených shluků pomocí metody silhouette (https://en.wikipedia.org/wiki/Silhouette_(clustering)).
- (až +4 body) Zkuste provést to samé s modifikovanou verzí **RFM**, kde Recency = "maximum počtu měsíců od posledního nákupu a čísla 1", Frequency = "maximum počtu nákupů daného zákazníka v posledních 12 měsících a čísla 1", Monetary = "Nejvyšší hodnota nákupu daného zákazníka". Porovnejte s původním přístupem.

## Poznámky k odevzdání

  * Řiďte se pokyny ze stránky https://courses.fit.cvut.cz/BI-VZD/homeworks/index.html.
  * Odevzdejte Jupyter Notebook.
  * Opravující Vám může umožnit úkol dodělat či opravit a získat tak další body. První verze je ale důležitá a bude-li odbytá, budete za to penalizováni.

In [1]:
import math
import pandas as pd
import numpy as np
import seaborn as sns
from scipy import stats


In [19]:
data = pd.read_csv("eshop.csv")

In [5]:
display(data.info())
display(data.head())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 22408 entries, 0 to 22407
Data columns (total 4 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   Customer ID  22408 non-null  int64  
 1   Date         22408 non-null  object 
 2   Subtotal     22408 non-null  float64
 3   Country      22405 non-null  object 
dtypes: float64(1), int64(1), object(2)
memory usage: 700.4+ KB


None

Unnamed: 0,Customer ID,Date,Subtotal,Country
0,34,6/21/2007,86.0,Czech Republic
1,38,6/27/2007,38.4,Czech Republic
2,47,7/2/2007,53.5,Slovakia
3,61,7/14/2007,7.0,Czech Republic
4,78,7/21/2007,55.5,Czech Republic


In [45]:
#create rfm -> počet dnů od posledního nákupu,počet nákupů, celková suma
data["recent"] = data["Date"].apply(lambda x: x.split("/"))
data["recent"] = data["recent"].apply(lambda x:  
                    (np.datetime64('2015-12-19') - np.datetime64(f'{x[2]}-{int(x[0]) :02d}-{int(x[1]) :02d}')).astype(int))

r = data[["Customer ID", "recent"]].groupby(['Customer ID']).min()
f = data[["Customer ID", "recent"]].groupby(['Customer ID']).count()
m = data[["Customer ID", "Subtotal"]].groupby(['Customer ID']).sum()
display(r.head(-10))
display(f.head(-10))
display(m.head(-10))

Unnamed: 0_level_0,recent
Customer ID,Unnamed: 1_level_1
7,311
9,3050
30,3025
34,3103
38,3097
...,...
15345,2
15346,2
15347,2
15348,2


Unnamed: 0_level_0,recent
Customer ID,Unnamed: 1_level_1
7,3
9,1
30,1
34,1
38,1
...,...
15345,1
15346,1
15347,1
15348,1


Unnamed: 0_level_0,Subtotal
Customer ID,Unnamed: 1_level_1
7,15.54
9,13.20
30,36.20
34,86.00
38,38.40
...,...
15345,93.28
15346,46.95
15347,55.20
15348,182.44


21392.379999999997
