# <center> Сегментация клиентов онлайн магазина подарков

## Постановка задачи


<center> <img src=https://salesupnow.ru/storage/app/media/pipeople.png align="right" width="300"/> </center>

Маркетинг — неотъемлемая часть любого бизнеса. Для повышения прибыли компании важно понимать своего клиента, его пожелания и предпочтения. С появлением электронной коммерции, или онлайн-продаж, стало намного проще собирать данные о клиентах, анализировать их, находить закономерности и реализовывать маркетинговые кампании.

Большинство интернет-магазинов используют инструменты веб-аналитики, чтобы отслеживать просмотры страниц, количество и поведение посетителей и коэффициент отказов. Но отчёта из Google Analytics или аналогичной системы может быть недостаточно для полного понимания того, как клиенты взаимодействуют с сайтом. Компаниям важно иметь возможность быстро и точно реагировать на перемены в поведении клиентов, создавая инструменты, которые обнаруживают эти изменения практически в режиме реального времени.

Машинное обучение помогает поисковой системе анализировать огромное количество данных о посетителях платформы, узнавать модели поведения профессиональных покупателей, определять категорию клиентов (например, лояльные/перспективные/новички/спящие/ушедшие) и выбирать правильную стратегию взаимодействия с ними.

Стоит также отметить, что компании, использующие машинное обучение на своих платформах электронной коммерции, могут постоянно повышать эффективность бизнес-процессов: настраивать товарную выборку персонально для каждого покупателя и предлагать выгодную цену в соответствии с бюджетом клиента и т. д. Эта задача относится к категории построения рекомендательных систем, речь о которых пойдёт в следующем разделе нашего курса.

> Как правило, наборы данных для электронной коммерции являются частной собственностью и, следовательно, их трудно найти среди общедоступных данных. Однако [The UCI Machine Learning Repository](http://archive.ics.uci.edu/ml/index.php)  создал набор данных, содержащий фактические транзакции за 2010 и 2011 годы. С ним нам как раз и предлагается поработать в этом кейсе. 

> В нашем распоряжении будет набор данных, который содержит все транзакции, произошедшие в период с 01/12/2010 по 09/12/2011 для базирующейся в Великобритании компании, занимающейся онлайн-розничной торговлей. Компания в основном продает уникальные подарки на все случаи жизни. Многие клиенты компании являются оптовиками.


**Бизнес-задача:** произвести сегментацию существующих клиентов, проинтерпретировать эти сегменты и определить стратегию взаимодействия с ними.

**Техническая задача для вас как для специалиста в Data Science:** построить модель кластеризации клиентов на основе их покупательской способности, частоты заказов и срока давности последней покупки, определить профиль каждого из кластеров.

**Основные цели проекта:**
1. Произвести предобработку исходного набора данных о транзакциях.
2. Провести разведывательный анализ данных и выявить основные закономерности.
3. Сформировать набор данных о характеристиках каждого из уникальных клиентов.
4. Построить несколько моделей машинного обучения, решающих задачу кластеризации клиентов, определить количество кластеров и проинтерпретировать их.
5. Спроектировать процесс предсказания категории интересов клиента и протестировать вашу модель на новых клиентах.




## Данные и их описание

Данные представляют собой таблицу в формате CSV, в каждой строке которой содержится информация об уникальной транзакции.

Признаки, описывающие каждую транзакцию:

* InvoiceNo — номер счёта-фактуры (уникальный номинальный шестизначный номер, присваиваемый каждой транзакции; буква "C" в начале кода указывает на отмену транзакции);
* StockCode — код товара (уникальное пятизначное целое число, присваиваемое каждому отдельному товару);
* Description — название товара;
* Quantity — количество каждого товара за транзакцию;
* InvoiceDate — дата и время выставления счёта/проведения транзакции;
* UnitPrice — цена за единицу товара в фунтах стерлингов;
* CustomerID — идентификатор клиента (уникальный пятизначный номер, однозначно присваиваемый каждому клиенту);
* Country — название страны, в которой проживает клиент.



In [177]:
# !pip install "gensim==3.8.1"
# !pip install config
# !pip install texthero

Импорт базовых библиотек:

In [178]:
import pandas as pd
import numpy as np

import plotly.graph_objs as go
import plotly.express as px
from plotly.subplots import make_subplots

import warnings 
from IPython.display import display, HTML

warnings.filterwarnings("ignore")

from sklearn.preprocessing import RobustScaler, MinMaxScaler, StandardScaler, OneHotEncoder
from sklearn.cluster import AgglomerativeClustering, KMeans, DBSCAN
from sklearn.metrics import silhouette_score
from sklearn.mixture import GaussianMixture
from sklearn.compose import make_column_transformer
from sklearn.decomposition import PCA, TruncatedSVD
from sklearn.manifold import TSNE
from countryinfo import CountryInfo
from geopy.distance import geodesic as GD
from category_encoders import BinaryEncoder
import collections.abc

# # 👇️ add attributes to `collections` module
# # before you import the package that causes the issue
# collections.Mapping = collections.abc.Mapping
# collections.MutableMapping = collections.abc.MutableMapping
# collections.Iterable = collections.abc.Iterable
# collections.MutableSet = collections.abc.MutableSet
# collections.Callable = collections.abc.Callable
# import texthero as hero

## 1. Знакомство со структурой данных

Первым делом необходимо понять, с какими данными предстоит работать, и произвести базовую предобработку данных — перевести признаки в необходимые для дальнейшей работы форматы.

Познакомьтесь с исходными данными поближе:

* Проведите статистический анализ исходных данных, посмотрев на основные диапазоны исходных признаков.
* Узнайте, сколько уникальных клиентов совершали транзакции в указанный период.
* Узнайте, из каких стран совершались транзакции.
* Исследуйте данные на наличие пропусков и дубликатов.
* Переведите столбцы в корректные форматы (например, даты в формат datetime).

In [179]:
data = pd.read_csv(
    "./data/data.csv", 
    encoding="ISO-8859-1", 
    dtype={'CustomerID': str,'InvoiceID': str}
)
print('Data shape: {}'.format(data.shape))
data.head()

Data shape: (541909, 8)


Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country
0,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,6,12/1/2010 8:26,2.55,17850,United Kingdom
1,536365,71053,WHITE METAL LANTERN,6,12/1/2010 8:26,3.39,17850,United Kingdom
2,536365,84406B,CREAM CUPID HEARTS COAT HANGER,8,12/1/2010 8:26,2.75,17850,United Kingdom
3,536365,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,6,12/1/2010 8:26,3.39,17850,United Kingdom
4,536365,84029E,RED WOOLLY HOTTIE WHITE HEART.,6,12/1/2010 8:26,3.39,17850,United Kingdom


Посмотрим, с каким количеством уникальных клиентов мы имеем дело:

In [180]:
data['CustomerID'].nunique()

4372

А также на страны, из которых были оформлены заказы:

In [181]:
data['Country'].value_counts().nlargest(15)

Country
United Kingdom     495478
Germany              9495
France               8557
EIRE                 8196
Spain                2533
Netherlands          2371
Belgium              2069
Switzerland          2002
Portugal             1519
Australia            1259
Norway               1086
Italy                 803
Channel Islands       758
Finland               695
Cyprus                622
Name: count, dtype: int64

Мы видим, что перечень стран , из которых совершались транзакции, достаточно разнообразен  и представлен всеми континентами. Однако основная масса покупок совершена британцами.

Выясним период времени, за который были совершены транзакции:

In [182]:
data['InvoiceDate'] = pd.to_datetime(data['InvoiceDate'])
print('Date interval {} to {}'.format(data['InvoiceDate'].dt.date.min(), data['InvoiceDate'].dt.date.max()))

Date interval 2010-12-01 to 2011-12-09


## 2. Преобразование, очистка и анализ данных

### 2.1. Преобразование и очистка данных о транзакциях

#### 2.1.1 Пропуски

Пропуски в столбце с идентификатором клиента (CustomerID) и описанием товара свидетельствуют о некорректных/незавершённых транзакциях. Удалите их из данных.

**Примечание.** Если посмотреть на распределение пропусков в столбцах Description и CustomerID, то можно заметить, что достаточно удалить строки, содержащие пропуски в столбце CustomerID, тогда пропуски в столбце Description удаляются автоматически.


In [183]:
data = data.dropna()

#### 2.1.2. Дубликаты

Проверьте данные на наличие дубликатов. Удалите их из данных.


In [184]:
data = data.drop_duplicates()
print(f'Количество дубликатов в данных: {data.duplicated().sum()}')

Количество дубликатов в данных: 0


#### 2.1.3. Транзакции с отрицательным количеством товара

Из приведённых выше инсайтов о данных мы узнали все особенности отмены заказов. Когда мы будем сегментировать клиентов, мы будем определять их покупательскую способность. При расчёте покупательской способности нам будет очень важно учесть возвраты этого клиента.

Чтобы подсчитать количество возвратов, для начала нам надо определить, сколько уникальных товаров указано в транзакции (корзине) для каждой уникальной пары «клиент — заказ»:


In [185]:
temp = data.groupby(by=['CustomerID', 'InvoiceNo'], as_index=False)['InvoiceDate'].count()
nb_products_per_basket = temp.rename(columns = {'InvoiceDate':'Number of products'})
nb_products_per_basket.head()

Unnamed: 0,CustomerID,InvoiceNo,Number of products
0,12346,541431,1
1,12346,C541433,1
2,12347,537626,31
3,12347,542237,29
4,12347,549222,24


**Примечание.** Более 16 % уникальных заказов являются возвратами. Интересный факт: если мы подсчитали количество транзакций, содержащих признак возврата, в изначальной таблице, где на каждый уникальный товар заведена отдельная строка, то мы получили бы, что количество возвратов менее 1 %. Однако это число было бы некорректным.

Создайте в ваших данных о транзакциях признак `QuantityCanceled`. Этот признак будет указывать на количество отменённого впоследствии товара для каждой транзакции, на которую найдётся противоположная ей транзакция с возвратом. Для транзакций, для которых не было возвратов, признак будет равен 0. Для транзакций, для которых указано отрицательное количество товара, но в данных отсутствует контрагент, признак будет пустым.

В качестве вспомогательного инструмента мы подготовили для вас функцию `get_quantity_canceled()`. Эта функция принимает на вход таблицу с транзакциями и возвращает объект `Series` — столбец, в котором указано количество отменённого впоследствии товара для каждой транзакции. Если транзакция не имеет контрагента, этот признак помечается как `NaN`.

Отметим, что эта функция не учитывает сложный случай, когда количество отменённого товара в транзакции-возврате больше, чем количество товара, которое указано в любой из отдельных транзакций на покупку (это случай, когда клиент сделал несколько заказов одного и того же товара, а потом оформил возврат на все товары разом). При желании вы можете самостоятельно модифицировать функцию для предобработки, чтобы учесть этот пограничный случай.

*Осторожно! Поиск отменённых транзакций занимает много времени из-за большого количества строк в таблице. Выполнение следующего кода может занять до 20 минут в зависимости от мощности компьютера.*

In [186]:
def get_quantity_canceled(data):
    """Функция для создания признака количества отменённых заказов. 
    Функция принимает на вход таблицу и возвращает столбец, в котором указано количество отменённого впоследствии товара для кажой транзакции.
    Если транзакция с отрицательным количеством товара не имеет контрагента, данный признак помечается как NaN.

    Args:
        data (DataFrame): таблица с транзакциями

    Returns:
        Series: столбец с количеством отменённого товара
    """
    # Инициализируем нулями Series той же длины, что и столбцы таблицы.
    quantity_canceled = pd.Series(np.zeros(data.shape[0]), index=data.index)    
    negative_quantity = data[(data['Quantity'] < 0)].copy()
    for index, col in negative_quantity.iterrows():
        # Создаём DataFrame из всех контрагентов
        df_test = data[(data['CustomerID'] == col['CustomerID']) &
                       (data['StockCode']  == col['StockCode']) & 
                       (data['InvoiceDate'] < col['InvoiceDate']) & 
                       (data['Quantity'] > 0)].copy()
        # Транзация-возврат не имеет контрагента — ничего не делаем
        if (df_test.shape[0] == 0): 
            # Помечаем столбец как пропуск
            quantity_canceled.loc[index] = np.nan
        # Транзакция-возврат имеет ровно одного контрагента
        # Добавляем количество отменённого товара в столбец QuantityCanceled 
        elif (df_test.shape[0] == 1): 
            index_order = df_test.index[0]
            quantity_canceled.loc[index_order] = -col['Quantity']       
        # Транзакция-возврат имеет несколько контрагентов
        # Задаём количество отменённого товара в столбец QuantityCanceled для той транзакции на покупку,
        # в которой количество товара больше количества товаров в транзакции-возврате.
        elif (df_test.shape[0] > 1): 
            df_test.sort_index(axis=0 ,ascending=False, inplace = True)        
            for ind, val in df_test.iterrows():
                if val['Quantity'] < -col['Quantity']: 
                    quantity_canceled.loc[ind] = 'x' # отлавливаем пограничный случай , при котором количество 
                                                     # отменённого товара в транзакции-возврате больше, чем количество товара,
                                                     # которое указано в любой из отдельных транзакций на покупку
                quantity_canceled.loc[ind] = -col['Quantity']
                break    
    return quantity_canceled

data['QuantityCanceled'] = get_quantity_canceled(data)

print(f'Количество пограничных случаев: {data[data["QuantityCanceled"] == "x"].shape[0]}')


Количество пограничных случаев: 0


Узнайте, сколько транзакций в данных не имеют контрагентов, и, если их количество невелико, удалите их из данных.

Когда вы разобрались с возвратами, удалите транзакции с отрицательным количеством товара — они нам больше не нужны.

In [187]:
num_emty_canceled = data[data['QuantityCanceled'].isna()].shape[0]
print(f'Количество возвратных транзакций, не имеющих контрагентов: {num_emty_canceled}')

# количество таких транзакций невелико, поэтому удаляем их из наших данных
data = data.dropna()
# удаляем данные с отрицательным количеством товара
data = data[data['Quantity'] >= 0]

Количество возвратных транзакций, не имеющих контрагентов: 1303


#### 2.1.4. Специализированные транзакции

Следующая задача — обработать специальные виды транзакций, которые обозначаются латинскими буквами.

В данных присутствует шесть специальных видов транзакций. С помощью регулярных выражений найдите такие коды товаров (StockCode), которые начинаются с латинских букв (при этом коды могут содержать цифры).

**Подсказка.** В качестве шаблона для поиска используйте строку '^[a-zA-Z]+'.

Чтобы понять, что означают эти коды, можно заглянуть в столбец с описанием (Description), например POST означает почтовые расходы, C2 — расходы на транспортировку, BANK CHARGES — банковские расходы.

Специальные операции не характеризуют покупательскую способность клиентов, так как не относятся напрямую к их покупкам, поэтому такие записи нам не нужны. Удалите все специальные транзакции из таблицы.

In [188]:

data = data[data['StockCode'].str.match(r'^[a-zA-Z]+') == False]

#### 2.1.5. Транзакции с товарами без стоимости

При просмотре описательных статистик можно заметить, что на некоторые товары установлена цена в 0 фунтов стерлингов. Таких транзакций оказывается менее 1 % — можно удалить их.

In [189]:
data = data[data['UnitPrice'] > 0]
data = data.reset_index(drop=True)

In [190]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 391150 entries, 0 to 391149
Data columns (total 9 columns):
 #   Column            Non-Null Count   Dtype         
---  ------            --------------   -----         
 0   InvoiceNo         391150 non-null  object        
 1   StockCode         391150 non-null  object        
 2   Description       391150 non-null  object        
 3   Quantity          391150 non-null  int64         
 4   InvoiceDate       391150 non-null  datetime64[ns]
 5   UnitPrice         391150 non-null  float64       
 6   CustomerID        391150 non-null  object        
 7   Country           391150 non-null  object        
 8   QuantityCanceled  391150 non-null  object        
dtypes: datetime64[ns](1), float64(1), int64(1), object(6)
memory usage: 26.9+ MB


#### 2.1.6. Общая стоимость товаров в транзакции

Добавьте в ваш датасет общую цену заказа (TotalPrice). Она рассчитывается как:
 
 **общая цена = цена за единицу товара * (количество товаров в заказе - количество возвращённых товаров).**

Этот признак впоследствии поможет вам рассчитать покупательскую способность каждого из клиентов.

In [191]:
data['TotalPrice'] = data['UnitPrice'] * (data['Quantity'] - data['QuantityCanceled'])

data['TotalPrice'] = data['TotalPrice'].astype('float')
data['QuantityCanceled'] = data['QuantityCanceled'].astype('int')

Помимо рекомендованных преобразований, вы также можете придумать собственные и применить их к исходным данным.
После завершения предобработки сохраните результат очищения данных в отдельный файл, чтобы впоследствии вам не приходилось повторять эти действия.


In [192]:
# извлекаем новые признаки из дыты оформления заказа
data['week_day'] = data['InvoiceDate'].dt.day_of_week
data['month'] = data['InvoiceDate'].dt.month
data['hour'] = data['InvoiceDate'].dt.hour
data['day_in_month'] = data['InvoiceDate'].dt.day
data['date'] = data['InvoiceDate'].dt.date
data['quarter'] = data['InvoiceDate'].dt.quarter

# также извлекаем новые признаки из страны, из которой был оформлен заказ

# прежде всего избавимся от клиентов с неопределенной геолокацией
mask1 = data['Country'] != 'Unspecified'
mask2 = data['Country'] != 'European Community'
data = data[mask1 & mask2]
data = data.reset_index(drop=True)

country_list = list(data['Country'].value_counts().index) # список всех стран в датасете
country_list.remove('Channel Islands') # удаляем те страны, которые не знает countryinfo, данные позже найдем вручную
country_list.remove('EIRE') 

country_dict = dict()         # словарь для геоданных
for country in country_list:  # заполняем словарь в цикле по списку стран
    country_info = CountryInfo(country).info()
    country_dict[country] = [country_info['capital_latlng'], # координаты столицы
                             country_info['subregion'],      # регион
                             country_info['languages'][0],   # основной язык
                             country_info['population']]               # население
    
country_dict['Channel Islands'] = [[49.185833, -2.11], 'Northern Europe', 'en', 163857] # заполняем "руками"
country_dict['EIRE'] = [[53.349764, -6.260273], 'Northern Europe', 'ga', 5123536]

capital_dist = dict()  # словарь расстояний между столицей государства и столицей Великобритании
for country in country_dict.keys():
    capital_dist[country] = round(GD(country_dict[country][0], country_dict['United Kingdom'][0]).km)


n_uniq_cust = data['CustomerID'].nunique() # число уникальных клиентов в датасете
# находим число уникальных клиентов для каждой страны
count_uniq_cust = data.groupby(by='Country')['CustomerID'].nunique().sort_values(ascending=False) 

# новые признаки
data['n_uniq_cust_country'] = data['Country'].apply(lambda x: count_uniq_cust.loc[x]) # число уникальных клиентов 
# процент уникальных клиентов в стране по отношению к общему числу уникальных клиентов 
data['uniq_custID_ratio'] = data['n_uniq_cust_country'] / n_uniq_cust * 100           
data['country_dist'] = data['Country'].apply(lambda x: capital_dist[x])      # расстояние от столицы государства до Лондона
data['region'] = data['Country'].apply(lambda x: country_dict[x][1])     # регион на карте мира
data['language'] = data['Country'].apply(lambda x: country_dict[x][2])   # основной язык населения страны
data['population'] = data['Country'].apply(lambda x: country_dict[x][3]) # население


In [193]:
# сохраняем результаты предобработки
# data.to_csv('data/new_data.csv', index= False)

In [194]:
# data_2 = pd.read_csv('data/new_data.csv')
# data_2['InvoiceDate'] = pd.to_datetime(data_2['InvoiceDate'])
# data = data_2

### 2.2. Разведывательный анализ

После предобработки исходных данных произведите разведывательный анализ и исследуйте транзакции, ответив на следующие вопросы:

* Клиенты из каких стран покупают больше и чаще?
* Какие страны приносят наибольшую сезонную выручку?
* Присутствует ли в продажах сезонность (когда покупают чаще)?
* Сгруппируйте данные по датам и часам совершения транзакции и найдите количество заказов на каждый день-час. Затем найдите среднее количество ежедневно поступающих заказов в каждый из часов.
* Каково распределение среднего количества ежедневно поступающих заказов по времени суток (часу совершения транзакции)? 

**Примечание.** Вы можете сформулировать и другие вопросы. Главная цель — извлечь максимум понятной информации из исходных данных.

Свои рассуждения сопроводите графиками и диаграммами.



In [195]:
# построим графики, отражающие зависимость общего количества заказов и 
# суммарной выручки в разрезе временных характеристик
dt_features = ['week_day', 'month', 'hour', 'day_in_month']

for i, feature in enumerate(dt_features):
    
    group = data.groupby(by=feature)[['TotalPrice', 'InvoiceDate']].agg({'TotalPrice' : 'sum',
                                                                         'InvoiceDate' : 'count'})
    fig = make_subplots( rows=2, cols=1 )
    fig.add_trace(go.Bar(x=group.index,
                     y=group['TotalPrice'],
                     name='Суммарная стоимость заказов'),
                     row=1, col=1)
                     
    fig.add_trace(go.Bar(x=group.index,
                     y=group['InvoiceDate'],
                     name='Общее количество заказов'),
                     row=2, col=1, )
    fig.update_layout(width=800, xaxis_title=feature,
                  title_text=f'Суммарная стоимость и общее кол-во заказов  в разрезе признака {feature}')
    # fig.write_html(f'plotly/bar_{i}.html')
    fig.show()

Исходя из построенных графиков можно сделать следующие выводы:
* суммарная стоимость заказов и их общее количество коррелируют между собой в разрезе любого признака
* исследуемые показатели достигают максимальных значений в следующие временные промежутки: час- 12, день недели - четверг, месяц - ноябрь, квартал - 4
* по субботтам , а так же с 21 вечера до 6 утра в остальные дни заказы не принимаются

In [196]:
# посмотрим на распределение количества заказов по часам 
date_hour_pivot = data.pivot_table(values='InvoiceDate',index='date', columns='hour', aggfunc='count', fill_value=0)
date_hour_mean = date_hour_pivot.mean()

fig = px.histogram(date_hour_mean, 
                   x=date_hour_mean.index,
                   y=date_hour_mean.values, 
                   nbins=24, 
                   width=800,
                   labels={'y': 'Среднее количество заказов'},
                   title='Распределение среднего количества ежедневно поступающих заказов по часам')
# fig.write_html('plotly/hist_1.html')
fig.show()

Распределение среднего количества ежедневно поступающих заказов по часам близко к нормальному. Максимальное количество заказов оформляется с 12 до 13

In [197]:
# сводная таблица суммарной стоимости заказов по странам по кварталам (без Британии)
quarter_country_pivot = pd.pivot_table(data=data[data['Country'] != 'United Kingdom'], 
                                       index='quarter', 
                                       columns='Country', 
                                       values='TotalPrice', 
                                       aggfunc='sum', 
                                       fill_value=0)

fig = px.imshow(quarter_country_pivot,
                title='Тепловая карта сезонной выручки по странам (без Британии)')
fig.update_xaxes(tickangle=45)
# fig.write_html('plotly/heatmap_1.html')
fig.show()

После Великобритании в лидерах как по общей суммарной, так и по сезонной суммарной выручке пять стран : Нидерланды, Германия, Франция, Ирландия и Австралия

### 2.3. Построение RFM-таблицы и поиск RFM-выбросов

Мы добрались до самой интересной части нашей задачи. Нам предстоит сформировать признаки, на основе которых мы будем производить сегментацию клиентов.

Для этого давайте познакомимся с очень популярным методом для анализа потребительской ценности под названием RFM. 

<center> <img src=https://miro.medium.com/max/1400/1*uYQjy9SUjW7iWHc2gGanQQ.png align="right" width="400"/> </center>

Метод заключается в группировке клиентов на основе следующих параметров:
* Recency (Давность) — давность последней покупки клиента;
* Frequency (Частота) — общее количество покупок клиента;
* Monetary Value (Денежная ценность) — сколько денег потратил клиент.


Суть RFM-анализа состоит в том, что мы разделяем всех клиентов на группы в зависимости от того, как давно они сделали последнюю покупку, как часто покупали и насколько большой была сумма их заказов. 

Например, вот так может выглядеть интерпретация кластеров для случая RF-сегментации (анализа на основе давности и частоты заказов клиента):

<img src=https://retailrocket.ru/wp-content/uploads/2017/06/rfm-1.png>

Задача маркетологов — вести клиента в зону лояльных.

Мы можем рассчитать RFM-характеристики для каждого из клиентов в нашем датасете и на их основе с помощью методов кластеризации построить подобные сегменты клиентов, привязанные к нашим данным.

Чтобы получить RFM-таблицу, нам необходимо сгруппировать данные по идентификаторам клиента и рассчитать следующие  агрегированные характеристики:

* Recency для i-го клиента рассчитывается как разница между датой и временем последнего заказа и точкой отсчёта, переведённая в дни:
    $$t_0-max(t_{i1}, t_{i2},..., t_{iM})$$

    где $t_{ij}$ — дата и время совершения i-ым клиентом своей j-ой покупки.

    В качестве точки отсчёта $t_0$ берём дату на один день «старше», чем все наши данные. Это будет 10 декабря 2011 года (в формате datetime — '2011-12-10 00:00:00').

* Frequency рассчитывается как общее количество уникальных заказов, которые совершил i-ый клиент.
* Monetary Value рассчитывается как общая сумма денег, которую i-ый клиент потратил на наши товары (с учётом возвратов).

Когда вы рассчитаете все характеристики, не забудьте дать столбцам результирующей таблицы соответствующие названия.

In [198]:
day_d = pd.to_datetime('2011-12-10 00:00:00') # временная метка для расчета срока давности заказов

rfm_table = data.groupby(by='CustomerID')[['InvoiceDate', 
                                            'InvoiceNo', 
                                            'TotalPrice']].agg({'InvoiceDate' : 'max',
                                                                'InvoiceNo' : 'nunique',
                                                                'TotalPrice' : 'sum' })
                                                        
rfm_table['Recency'] = (day_d - rfm_table['InvoiceDate']).dt.days  
rfm_table.rename(columns={'InvoiceNo' : 'Frequency', 'TotalPrice' : 'Monetary'}, inplace=True) 
rfm_table.drop('InvoiceDate', axis=1, inplace=True)   
rfm_table.info()                                                  

<class 'pandas.core.frame.DataFrame'>
Index: 4329 entries, 12346 to 18287
Data columns (total 3 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   Frequency  4329 non-null   int64  
 1   Monetary   4329 non-null   float64
 2   Recency    4329 non-null   int64  
dtypes: float64(1), int64(2)
memory usage: 135.3+ KB


После того как вы подготовите RFM-таблицу, визуализируйте каждую из трёх компонент, например, в виде коробчатых диаграмм (boxplot). Вы получите примерно следующие результаты (графики могут отличаться в зависимости от того, как вы выполните предобработку данных):

In [199]:
boxes = [px.box(rfm_table, x=column) for column in rfm_table.columns]
fig = make_subplots(rows=1,
                    cols=3, 
                    subplot_titles=("Frequency", "Monetary", "Recency"))

for i, box in enumerate(boxes):
    fig.add_trace(boxes[i]['data'][0], row=1, col=i+1)

fig.update_layout(showlegend=True, title='Коробчатые диаграммы признаков RFM-таблицы')
# fig.write_html('plotly/boxplot_1.html')
fig.show()

Что интересного здесь можно увидеть? Есть клиенты с аномально большим количеством сделанных заказов (более 100 штук), а также клиенты, общая стоимость заказов которых превышает 190 тысяч фунтов стерлингов.

Чем это плохо? Выбросы могут отрицательно сказаться на результатах работы методов кластеризации, неустойчивых к ним, например алгоритма KMeans, поэтому хотелось бы от них избавиться. Однако терять много ценных данных о клиентах тоже не хочется, поэтому ограничимся верхней границей соответствующей квантили уровня 0.95. Таким образом, мы удалим данные тех клиентов, для которых значение параметра Frequency или параметра Monetary выше, чем у 95 % клиентов.


In [200]:
q_freq = rfm_table['Frequency'].quantile(0.95)
q_monet = rfm_table['Monetary'].quantile(0.95)

mask_1 = rfm_table['Frequency'] < q_freq
mask_2 = rfm_table['Monetary'] < q_monet
rfm_table = rfm_table[mask_1 & mask_2]

# подготовим данные для обучения
ct = make_column_transformer((MinMaxScaler(), ['Frequency', 'Monetary', 'Recency']))
rfm_table_scale = ct.fit_transform(rfm_table)

rfm_table.info()

<class 'pandas.core.frame.DataFrame'>
Index: 4020 entries, 12346 to 18287
Data columns (total 3 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   Frequency  4020 non-null   int64  
 1   Monetary   4020 non-null   float64
 2   Recency    4020 non-null   int64  
dtypes: float64(1), int64(2)
memory usage: 125.6+ KB


## 3. Моделирование и оценка качества моделей

### 3.1. Кластеризация на основе RFM-характеристик

Чтобы результаты кластеризации было удобнее интерпретировать, вы можете уменьшить размерность исходных признаков до двух компонент.

**Подсказка.** Чтобы методы понижения размерности работали стабильно, данные необходимо стандартизировать/нормализовать. Для удобства оберните эти шаги по предобработке данных в pipeline.

Произведите предобработку исходных данных. На основе RFM-признаков кластеризуйте клиентов онлайн-магазина подарков с помощью известных вам методов (используйте минимум три метода).

Подберите оптимальное количество кластеров для выбранных методов с помощью коэффициента силуэта, перебирая возможные значения от 3 до 10 включительно (большее или меньшее количество кластеров будет нерелеватно для маркетинга). 

Выберите алгоритм с наибольшим коэффициентом силуэта, сделайте предсказание меток кластеров.


In [201]:
# создаем вспомогательные функции
def get_silhouette_agg(cluster_num, X):
    """Функция для расчета коэффициента силуэта результатов кластеризации,
    полученных с помощью AgglomerativeClustering библиотеки sklearn

    Args:
        cluster_num (int): количество кластеров
        X (dataframe): данные для обучения модели кластеризации

    Returns:
        float: найденное значение коэффициента для заданного количества кластеров
    """
    agg =  AgglomerativeClustering(n_clusters=cluster_num, linkage='average', metric='l2')
    agg.fit(X)
    silhouette_agg = silhouette_score(X, agg.labels_)
    return silhouette_agg


def get_silhouette_km(cluster_num, X):
    """Функция для расчета коэффициента силуэта результатов кластеризации,
    полученных с помощью KMeans библиотеки sklearn

    Args:
        cluster_num (int): количество кластеров
        X (dataframe): данные для обучения модели кластеризации

    Returns:
        float: найденное значение коэффициента для заданного количества кластеров
    """
    k_means =  KMeans(n_clusters=cluster_num, random_state=42, init='random')
    k_means.fit(X)
    silhouette_km = silhouette_score(X, k_means.labels_)
    return silhouette_km


def get_silhouette_gm(cluster_num, X):
    """Функция для расчета коэффициента силуэта результатов кластеризации,
    полученных с помощью GaussianMixture библиотеки sklearn

    Args:
        cluster_num (int): количество кластеров
        X (dataframe): данные для обучения модели кластеризации

    Returns:
        float: найденное значение коэффициента для заданного количества кластеров
    """
    gm =  GaussianMixture(n_components=cluster_num, random_state=42)
    silhouette_gm = silhouette_score(X, gm.fit_predict(X))
    return silhouette_gm


def get_reduction(scaler, enc_array, index_data, p, n):
    """Функция получает на вход массив , размерность которого необходимо понизить
    тремя способами: PCA, SVD и t-NSE, предварительно применив к нему стандартизацию/нормализацию
    Args:
        scaler (class): способ преобразования данных данных
        enc_array (array): данные для преобразования
        index_data (dataframe): берем из этого датафрейма индексы 
        p (float): параметр perplexity TNSE
        n (int): для нумерации сохраняемых изображений
      

    Returns:
        list: список,  состоящий из стандартизованного/нормализованного массива,
        и словаря с данными пониженной размерности
    """
    
    scale_array = scaler.fit_transform(enc_array) # преобразовываем данные
    # понижаем их размерность тремя способами
    tsne = TSNE(n_components=2, perplexity=p, n_iter=251, random_state=42)
    data_tsne = tsne.fit_transform(scale_array)

    pca = PCA(n_components=2, random_state=42)
    data_pca = pca.fit_transform(scale_array)

    svd = TruncatedSVD(n_components=2, n_iter=500, random_state=42)
    data_svd = svd.fit_transform(scale_array)

    data_tsne = pd.DataFrame(data_tsne, columns=['component_1', 'component_2'], index=index_data.index)
    data_pca = pd.DataFrame(data_pca, columns=['component_1', 'component_2'], index=index_data.index)
    data_svd = pd.DataFrame(data_svd, columns=['component_1', 'component_2'], index=index_data.index)
    
    # визуализируем данные после понижения размерности
    scatters = [px.scatter(data_tsne, x='component_1', y='component_2'), 
                px.scatter(data_pca, x='component_1', y='component_2'),
                px.scatter(data_svd, x='component_1', y='component_2')]
    fig = make_subplots(rows=1, cols=3, 
                        subplot_titles=("t-SNE", "PCA", "SVD"))

    for i, box in enumerate(scatters):
        fig.add_trace(scatters[i]['data'][0], row=1, col=i+1)
    fig.update_layout(showlegend=True, 
                title=f'Диаграммы рассеяния данных, полученных различными методами понижения размерности', 
                yaxis_title='component_2')
    fig.update_xaxes(title='component_1', col=1, row=1)
    fig.update_xaxes(title='component_1', col=2, row=1)
    fig.update_xaxes(title='component_1', col=3, row=1)
    # fig.write_html(f'plotly/scatter_{n}.html')
    fig.show()
    
    reduction_dict = {'tsne' : data_tsne, # словарь с данными с пониженной размерностью
                      'pca' : data_pca, 
                      'svd' : data_svd} 
    data_list = [reduction_dict, scale_array]
    
    return data_list


def get_best_model(data_dict):
    """Функция получает на вход словарь с данными пониженной размерности.  
    К каждому варианту данных применяется три варианта кластеризации 
    с количеством кластеров от 3 до 7 включительно. Для каждого сочетания
    данные-количество кластеров-метод кластеризации вычисляется коэффициент силуэта. 

    Args:
        data_dict (dict): словарь, ключами которого являются названия метода понижения размерности, 
        а значениями - данные, полученные этими методами

    Returns:
        dataframe: отсортированная по величине коэффициента силуэта таблица результатов перебора
    """
    
    model_dict = {'agg' : get_silhouette_agg, # словарь с функциями 
                  'km': get_silhouette_km, 
                  'gm' : get_silhouette_gm} 

    res_sil = {"reduction" : [], # словарь для сохранения результатов перебора
               "model" : [],
               "silhouette": [], 
               "cluster": []} 

 
    for data_key in data_dict.keys(): # перебираем в цикле данные
        for model_key in model_dict.keys(): # перебираем в цикле функции
            for cluster_num in range(3, 8): # перебираем в цикле количество кластеров
                res_sil['silhouette'].append(model_dict[model_key](cluster_num, data_dict[data_key]))
                res_sil["cluster"].append(cluster_num)
                res_sil['reduction'].append(data_key)
                res_sil['model'].append(model_key)

    res_sil_df = pd.DataFrame(res_sil)
    res_sil_df.sort_values(by='silhouette', ascending=False, inplace=True)
    
    return res_sil_df


def get_silhouette_db(X, e, ms):
    """Функция для расчета коэффициента силуэта результатов кластеризации,
    полученных с помощью метода  на основе плотности DBSCAN библиотеки sklearn

    Args:
        X (dataframe): данные для обучения модели кластеризации
        e (float): параметр eps, максимальное расстояние между двумя точками, 
                   при котором точки относятся к одному кластеру
        ms (int): параметр min_samples, количество точек в окрестности точки, 
                  которая будет считаться базовой точкой
    Returns:
        list: список, состоящий из значения коэффициента силуэта и количества кластеров
    """
    db =  DBSCAN(eps=e, min_samples=ms, n_jobs=-1)
    db.fit(X)
    silhouette_db = silhouette_score(X, db.labels_)
    return [silhouette_db, len(np.unique(db.labels_)) -1]



def get_clust_db(X, min_e=0.1, max_e=1, step_e=0.1,  min_ms=1, max_ms=6):
    """Функция для подбора гиперпараметров модели кластеризации DBSCAN

    Args:
        X (array): данные
        min_e (float): минимальное значение параметра eps
        max_e (float): максимальное значение параметра eps
        step_e (float): шаг поиска eps
        min_ms (int): минимальное значение параметра min_samples
        max_ms (int): максимальное значение параметра min_samples

    Returns:
        dataframe: отсортированные по величине коэффициента 
        силуэта результататы пподбора значений гиперпараметров 
    """

    res_sil = {"silhouette": [], # словарь для сохранеия результатов перебора параметров
               "cluster": [], 
               'eps' : [], 
               'ms' : []} 

    for e in np.arange(min_e, max_e, step_e): # перебираем в цикле значения параметра eps
        for ms in np.arange(min_ms, max_ms, 1): # перебираем в цикле значение параметра min_samples 
            res_sil['silhouette'].append(get_silhouette_db( X, e, ms)[0])
            res_sil["cluster"].append(get_silhouette_db(X, e, ms)[1])
            res_sil['eps'].append(e)
            res_sil['ms'].append(ms)
            
    res_sil_df = pd.DataFrame(res_sil)
    res_sil_df = res_sil_df[res_sil_df['cluster'] >=3].sort_values(by='silhouette', ascending=False)
    
    print(res_sil_df.head(15))

    return res_sil_df

In [202]:
# применяем к rfm_table_scale различные способы понижения размерности и визуализируем результаты
rfm_res_list = get_reduction(scaler=StandardScaler(),enc_array=rfm_table, index_data=rfm_table ,p=12, n=1)

In [203]:
# создаем датафрейм для последующей трехмерной визуализации кластеров
rfm_table_scale = rfm_res_list[1]
rfm_table_scale_df = pd.DataFrame(rfm_table_scale, columns=rfm_table.columns, index=rfm_table.index)

# реализуем поиск лучшего сочетания данные-модель-количество кластеров
print('Результаты подбора метода кластеризации клиентов по rfm-признакам ')
print(get_best_model(rfm_res_list[0]).head(10))

Результаты подбора метода кластеризации клиентов по rfm-признакам 
   reduction model  silhouette  cluster
35       svd    km    0.523895        3
20       pca    km    0.523895        3
21       pca    km    0.488307        4
36       svd    km    0.488307        4
5       tsne    km    0.467874        3
10      tsne    gm    0.466474        3
0       tsne   agg    0.463303        3
30       svd   agg    0.459158        3
15       pca   agg    0.459158        3
37       svd    km    0.452993        5


In [204]:
# получаем метки кластеров с помощью модели, показавшей наибольший коэффициент силуэта
km =  KMeans(n_clusters=3, init='random', random_state=42)
km.fit(rfm_res_list[0]['svd'])
rfm_table['simple_label'] = km.labels_

### 3.2. Интерпретация результатов кластеризации

Перейдём к интерпретации полученных кластеров.

#### 3.2.1. Визуализация кластеров

Визуализируйте результаты в виде 3D-диаграммы с осями Recency, Frequency и Monetary. Проанализируйте полученную диаграмму и попробуйте понять, какие кластеры у вас получились.

In [205]:
# посмотрим на получчившиеся кластеры
rfm_table_scale_df['simple_label'] = km.labels_.astype(str)

fig = px.scatter_3d(rfm_table_scale_df, 
                 x='Frequency', 
                 y='Monetary',
                 z='Recency', 
                 color='simple_label',
                 title='Диаграмма рассеяния кластеров клиентов',
                 height=700)
fig.update_traces(marker_size = 3)
# fig.write_html('plotly/3dscatter_1.html')
fig.show()

#### 3.2.2. Построение профиля кластеров

Далее составьте так называемый профиль кластеров. Для этого вам необходимо вернуться от декомпозированных данных (если вы производили понижение размерности) к RFM-таблице (очищенной от выбросов).

Сгруппируйте RFM-таблицу по полученным кластерам и рассчитайте среднее по каждому из признаков.

Чтобы результаты было проще интерпретировать, давайте познакомимся с одним из способов визуализации профиля кластеров — **Radar Chart** (полярная диаграмма, или диаграмма паутины). Это графическое представление значений нескольких эквивалентных категорий в форме паутины.

Radar Chart часто используется при определении профиля кластеров. На концах паутины откладываются оси, соответствующие признакам, описывающим объекты. На каждой из осей для каждого кластера откладываются средние значения соответствующих характеристик. Соединив точки по осям, мы получаем многоугольник. 

Пример полярной диаграммы для задачи кластеризации учеников по интересам:

<img src=https://www.datanovia.com/en/wp-content/uploads/2020/12/radar-chart-in-r-customized-fmstb-radar-chart-1.png width=500>

На этой диаграмме мы видим визуализацию признаков для одного из кластеров. Видно, что ученики, принадлежащие этому кластеру, в большей степени увлекаются музыкой (Music), а в меньшей — программированием (Programm).

В модуле `graph_objects` библиотеки `plotly` есть встроенная функция `Scatterpolar`, которая позволяет построить полярную диаграмму. На основе этой функции мы подготовили для вас функцию `plot_cluster_profile()`, которая позволяет визуализировать профиль каждого из кластеров в виде полярной диаграммы. У неё есть два параметра: `grouped_data` — сгруппированные по кластерам характеристики объектов (клиентов), `n_clusters` — количество кластеров.

Главное условие использования полярной диаграммы — все признаки должны быть приведены к единому масштабу с помощью нормализации, где 1 будет означать максимум, а 0 — минимум. Шаг с нормализацией мы также добавили в функцию `plot_cluster_profile()`.


In [206]:
def plot_cluster_profile(grouped_data, n_clusters, m):
    """Функция для визуализации профиля кластеров в виде полярной диаграммы.

    Args:
        grouped_data (DataFrame): таблица, сгруппированная по номерам кластеров с агрегированными характеристиками объектов.
        n_clusters (int): количество кластеров
        title (str): Название диаграммы
        m (int): для нумерации изображений
    """
    # Нормализуем сгруппированные данные, приводя их к масштабу 0-1.
    scaler = MinMaxScaler()
    grouped_data = pd.DataFrame(scaler.fit_transform(grouped_data), columns=grouped_data.columns)
    # Создаём список признаков
    features = grouped_data.columns
    # Создаём пустую фигуру
    fig = go.Figure()
    # В цикле визуализируем полярную диаграмму для каждого кластера
    for i in range(n_clusters):
        # Создаём полярную диаграмму и добавляем её на общий график
        fig.add_trace(go.Scatterpolar(
            r=grouped_data.iloc[i].values, # радиусы
            theta=features, # название засечек
            fill='toself', # заливка многоугольника цветом
            name=f'Cluster {i}', # название — номер кластера
        ))
    # Обновляем параметры фигуры
    fig.update_layout(
        title = 'Полярная диаграмма кластеров',
        showlegend=True, # отображение легенды
        autosize=False, # устаналиваем свои размеры графика
        width=600, # ширина (в пикселях)
        height=600, # высота (в пикселях)
    )
    # fig.write_html(f'plotly/scatterpolar_{m}.html')
    fig.show()

Теперь у вас есть удобный инструмент для анализа профиля кластеров. Воспользуйтесь им, чтобы проинтерпретировать результаты, полученные на предыдущем шаге.

In [207]:
group_rfm = rfm_table.groupby(by='simple_label')[['Frequency', 'Monetary', 'Recency']].mean()
print('Количество клиентов в кластерах:')
print(rfm_table['simple_label'].value_counts())
plot_cluster_profile(group_rfm, 3, m=1)

Количество клиентов в кластерах:
simple_label
2    2221
0     997
1     802
Name: count, dtype: int64


Попытаемся охарактеризовать полученные кластеры, опираясь на диаграмму рассеяния и профили кластеров :
* кластер 1 - самый малочисленный, кластер лояльных клиентов, покупающих часто и приносящих максимальную выручку
* кластер 2 - самый многочисленный, разовые покупки с небольшой суммой выручки, совершенные в недавнее время. Скорее всего именно на этот кластер иммеет смысл обратить внимание маркетологам с целью перехода как можно большего количества клиентов из этого кластера в кластер лояльных
* кластер 0 - кластер клиентов "в зоне потери", совершают покупки редко, приносят малую прибыль, давность совершения последней покупки - максимальная


### 3.3. Кластеризация на основе RFM-характеристик и дополнительных признаков

 Попробуем улучшить качество кластеризации, объеденив  RFM-признаки с признаками, полученными ранее на этапе разведывательного анализа, например с "геопризнаками". При этом мы увеличим размерность данных и рискуем сделать результаты кластеризации неинтерпретируемыми. Чтобы избежать этого попытаемся кластеризовать сами "геоданные", получив в итоге новый признак, указывающий на принадлежность клиента к определенному кластеру стран.

In [208]:
# удаляем из данных выбросы, выявленные при построении коробчатых диаграмм rfm-признаков
data['nan_id'] = data['CustomerID'].apply(lambda x: x if x in list(rfm_table.index) else np.nan)
data_cleaned = data.dropna()

# выделяем интересующие нас признаки в отдельный датафрейм
country_data = data_cleaned[['Country', 'region', 'language', 'country_dist', 'uniq_custID_ratio', 'population']]
country_data = country_data.drop_duplicates().reset_index().drop('index', axis=1).set_index('Country')
country_data.head()

Unnamed: 0_level_0,region,language,country_dist,uniq_custID_ratio,population
Country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
United Kingdom,Northern Europe,en,0,90.45969,64105654
Netherlands,Western Europe,nl,358,0.2079,16881000
Germany,Western Europe,de,933,2.171402,80783000
France,Western Europe,fr,344,2.009702,66078000
Switzerland,Western Europe,de,749,0.4851,8183800


In [209]:
# подготовим данные для обучения
ct = make_column_transformer((OneHotEncoder(), ['region']),
                             (BinaryEncoder(), ['language']),
                             (MinMaxScaler(), ['country_dist', 'uniq_custID_ratio', 'population']))

enc_country_data = ct.fit_transform(country_data)

# понижаем размерность данных и строим диаграммы рассеяния полученных данных
reduction_country = get_reduction(scaler=StandardScaler(), enc_array=enc_country_data, index_data=country_data, p=5, n=2)

In [210]:
# подбираем способ кластеризации
print('Результаты подбора метода кластеризации стран')
print(get_best_model(reduction_country[0]).head(20))

Результаты подбора метода кластеризации стран
   reduction model  silhouette  cluster
20       pca    km    0.625019        3
35       svd    km    0.625019        3
40       svd    gm    0.625019        3
25       pca    gm    0.625019        3
15       pca   agg    0.601363        3
30       svd   agg    0.601363        3
16       pca   agg    0.571247        4
31       svd   agg    0.571247        4
22       pca    km    0.499791        5
37       svd    km    0.499791        5
39       svd    km    0.494638        7
24       pca    km    0.494638        7
17       pca   agg    0.492020        5
32       svd   agg    0.492020        5
18       pca   agg    0.488701        6
33       svd   agg    0.488701        6
21       pca    km    0.482976        4
36       svd    km    0.482976        4
41       svd    gm    0.478416        4
26       pca    gm    0.478416        4


In [211]:
# получаем метки кластеров с помощью моделей, показавших наибольшее значение коэффициета силуэта
# для трех, четырех и пяти кластеров
gm_3 = GaussianMixture(n_components=3, random_state=42)
country_data['cluster_3'] = gm_3.fit_predict(reduction_country[0]['svd'])

agg_4 = AgglomerativeClustering(4, linkage='average', metric='l2')
agg_4.fit(reduction_country[0]['pca'])
country_data['cluster_4'] = agg_4.labels_

agg_5 = AgglomerativeClustering(5, linkage='average', metric='l2')
agg_5.fit(reduction_country[0]['tsne'])
country_data['cluster_5'] = agg_5.labels_

country_data.head() # итоговый датасет с тремя вариантами кластеризации стран

Unnamed: 0_level_0,region,language,country_dist,uniq_custID_ratio,population,cluster_3,cluster_4,cluster_5
Country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
United Kingdom,Northern Europe,en,0,90.45969,64105654,2,1,0
Netherlands,Western Europe,nl,358,0.2079,16881000,2,1,4
Germany,Western Europe,de,933,2.171402,80783000,2,1,0
France,Western Europe,fr,344,2.009702,66078000,2,1,0
Switzerland,Western Europe,de,749,0.4851,8183800,2,1,0


In [212]:
# создаем словари для всех вариантов кластеризации (для 3, 4 и 5 кластеров)

country_3_clust_dict = dict()
for i  in range(3):
    country_3_clust_dict[i] = list(country_data[country_data['cluster_3'] == i].index)

country_4_clust_dict = dict()
for i  in range(4):
    country_4_clust_dict[i] = list(country_data[country_data['cluster_4'] == i].index)

country_5_clust_dict = dict()
for i  in range(5):
    country_5_clust_dict[i] = list(country_data[country_data['cluster_5'] == i].index)    

Посмотрим на получившиеся кластеры стран

In [213]:
country_3_clust_ser = pd.Series(country_3_clust_dict)
country_4_clust_ser = pd.Series(country_4_clust_dict)
country_5_clust_ser = pd.Series(country_5_clust_dict)
print('Состав кластеров при разделении на три кластера:')
print(country_3_clust_ser)
print()
print('Состав кластеров при разделении на четыре кластера:')
print(country_4_clust_ser)
print()
print('Состав кластеров при разделении на пять кластеров:')
print(country_5_clust_ser)

Состав кластеров при разделении на три кластера:
0              [Japan, Australia, Canada, Brazil, USA]
1    [Lebanon, United Arab Emirates, Israel, Saudi ...
2    [United Kingdom, Netherlands, Germany, France,...
dtype: object

Состав кластеров при разделении на четыре кластера:
0                 [Japan, Australia, Canada, USA, RSA]
1    [United Kingdom, Netherlands, Germany, France,...
2    [Lebanon, United Arab Emirates, Israel, Saudi ...
3                                             [Brazil]
dtype: object

Состав кластеров при разделении на пять кластеров:
0    [United Kingdom, Germany, France, Switzerland,...
1                  [Italy, EIRE, United Arab Emirates]
2                          [Poland, Portugal, Denmark]
3                          [Israel, Saudi Arabia, RSA]
4                        [Netherlands, Cyprus, Norway]
dtype: object


Разделение стран на три кластера, лучше всего поддается интерпретации. В дальнейшей работе будем использовать именно его

In [214]:
def get_country_label(x, country_clust_dict, n):
    
    """Функция возвращает метку кластера по названию страны
       
    Args:
        x (str): страна клиента
        country_clust_dict (dict): словарь с парами кластер-список стран
        n (int): число кластеров

    Returns:
        int: метка кластера
    """
    for i in range(n):
        if x in country_clust_dict[i]:
            return i

# размечаем клиентов        
data_cleaned['country_cluster_3'] = data_cleaned['Country'].apply(lambda x: get_country_label(x, country_3_clust_dict, n=3))        

Теперь сгруппирем данные по клиентам.

In [215]:
def get_group_rfm_country(data_for_group, feature):
    """функция группирует данные по клиентам, создавая rfm-признаки, 
    а также признак, указывающий на кластер страны клиента

    Args:
        data_for_group (dataframe): данные для группировки
        feature (str): название дополнительного признака

    Returns:
        dataframe: сгруппированные по клиентам данные
    """
    group_data = data_for_group.groupby(by='CustomerID')[['InvoiceDate', 
                                                          'InvoiceNo', 
                                                          'TotalPrice', 
                                                           feature]].agg({'InvoiceDate' : 'max',
                                                                          'InvoiceNo' : 'nunique',
                                                                          'TotalPrice' : 'sum',
                                                                           feature : pd.Series.mode})
                                                        
    group_data['Recency'] = (day_d - group_data['InvoiceDate']).dt.days  
    group_data.rename(columns={'InvoiceNo' : 'Frequency', 
                               'TotalPrice' : 'Monetary'}, inplace=True) 
    group_data.drop('InvoiceDate', axis=1, inplace=True) 
    
    return group_data

rfm_country_table = get_group_rfm_country(data_cleaned, 'country_cluster_3')
rfm_table['country_label'] = rfm_country_table['country_cluster_3']
rfm_country_table.head()

Unnamed: 0_level_0,Frequency,Monetary,country_cluster_3,Recency
CustomerID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
12346,1,0.0,2,325
12347,7,4310.0,2,2
12348,4,1437.24,2,75
12349,1,1457.55,2,18
12350,1,294.4,2,310


In [216]:
# подготовим данные для обучения
ct = make_column_transformer((OneHotEncoder(), ['country_cluster_3']),
                             (MinMaxScaler(), ['Frequency', 'Monetary', 'Recency']))
enc_rfm_country_table = ct.fit_transform(rfm_country_table)

# понижаем размерность строим диаграммы рассеяния
reduction_country_rfm = get_reduction(enc_array=enc_rfm_country_table, 
                                      index_data=rfm_country_table, 
                                      scaler=StandardScaler(), 
                                      p=15, n=3)

Мы видим, что на диаграмме рассеяния данных, полученных метотодом cтохастического вложения соседей с t-распределением, кластеры имеют очень сложную форму, выделить их достаточно проблематично. Кластеры, полученные методом главных компанент  и сингулярнвм разложением, имеют простую вытянутую форму. Для их выделения  будем использовать DBSCAN.

In [217]:
# организуем подбор гиперпараметров модели кластеризации
res_rfm_country_pca = get_clust_db(reduction_country_rfm[0]['pca'], min_e=0.3, max_e=0.4, step_e=0.01, max_ms=6)

    silhouette  cluster   eps  ms
43    0.901544        3  0.38   4
38    0.901544        3  0.37   4
47    0.901544        3  0.39   3
44    0.901544        3  0.38   5
36    0.901544        3  0.37   2
37    0.901544        3  0.37   3
48    0.901544        3  0.39   4
49    0.901544        3  0.39   5
39    0.901544        3  0.37   5
41    0.901544        3  0.38   2
42    0.901544        3  0.38   3
46    0.901544        3  0.39   2
34    0.901204        3  0.36   5
33    0.901204        3  0.36   4
32    0.901204        3  0.36   3


In [218]:
# получаем метки кластеров клиентов 
db =  DBSCAN(eps=0.37, min_samples=5, n_jobs=-1)
db.fit(reduction_country_rfm[0]['pca'])
country_rfm_pca = reduction_country_rfm[0]['pca']
country_rfm_pca['db_labels'] = db.labels_
country_rfm_pca['db_labels'] = country_rfm_pca['db_labels'].astype(str)

# визуализируем кластеры
fig = px.scatter(country_rfm_pca, 
                 x='component_1', 
                 y='component_2', 
                 color='db_labels',
                 title='Кластеры клиентов, полученные на основе rfm-признаков и метки' 
                'кластера страны.<br>Кластеризация DBSCAN.<br>Понижение размерности PCA')
# fig.write_html('plotly/scatter_db_1.html')
fig.show()

DBSCAN прекрасно справился с поставленной задачей, выделив три кластера и две шумовые точки.

Добавив к rfm-признакам метку кластера страны мы смогли повысить качество кластеризации клиентов.

Так как размерность  rfm_country_3_table больше трех, мы не можем создать интерпретируемую диаграмму рассеяния. Однако нам доступна визуализация профилей полученных кластеров с помощью полярных диаграмм.

In [219]:
rfm_country_table['label'] = db.labels_
# выясним, какие клиенты идентифицированы как шум
rfm_country_table[rfm_country_table['label'] == -1]

Unnamed: 0_level_0,Frequency,Monetary,country_cluster_3,Recency,label
CustomerID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
12388,6,2780.66,0,15,-1
12688,1,4873.81,1,113,-1


К шуму в данных отнесены клиенты, принесшие  максимальную выручку.

In [220]:
# визуализируем профили полученных кластеров
rfm_country_table_clean = rfm_country_table[rfm_country_table['label'] != -1]
group_rfm_country = rfm_country_table_clean.groupby(by='label')[['Frequency', 
                                                           'Monetary', 
                                                           'Recency',  
                                                           'country_cluster_3']].agg({'Frequency' : 'mean',
                                                                                      'Monetary' : 'mean',
                                                                                      'Recency' : 'mean',
                                                                                      'country_cluster_3' : 'mean'}) 
print(group_rfm_country)
print('Количество клиентов в кластерах:')
print(rfm_country_table['label'].value_counts())
plot_cluster_profile(group_rfm_country, 3,m=2)

       Frequency     Monetary     Recency  country_cluster_3
label                                                       
0       2.972675   959.983525   97.396089           2.000000
1       1.157895   484.918421  180.736842           0.368421
2       2.700000  1622.817000  130.300000           0.100000
Количество клиентов в кластерах:
label
 0    3989
 1      19
 2      10
-1       2
Name: count, dtype: int64


Охарактеризуем полученные кластеры:
* кластер 1: малочисленный кластер (19 клиентов), преимущественно состоящий из клиентов из дальних стран (Япония, Бразилия, США, Автстралия, Канада) и стран ближневосточного региона,  редкие покупки, малая выручка, максимальная давность совершения последней покупки, "в зоне потери"
* кластер 0: самый многочисленный кластер (3989 клиентов) европейцев, выручка - ниже среднего показателя по кластерам , однако высокая частота оформления заказов, срок давности последней совершенной покупки минимальный
* кластер 2: малочисленный кластер (10) клиентов из группы "дальних стран" , с максимальным показателем выручки и частотой покупок выше среднего, срок давности последней покупки ниже среднего

---

Теперь попробуем разделить клиентов, основываясь  помимо rfm-характеристик на количестве каждой позиции товара в заказе.

In [221]:
data_cleaned['Quantity_total'] = data_cleaned['Quantity'] - data_cleaned['QuantityCanceled'] # количество товара
# находим среднее количество товара каждой позиции заказа по клиентам
group_Invoice = data_cleaned.groupby(by=['CustomerID','InvoiceNo'])['Quantity_total'].mean()
# находим среднее количество товаров по клиентам
group_Invoice = group_Invoice.groupby('CustomerID').mean()
# объединяем  с rfm-признаками, удалив информацию, полученную на предыдущем этапе
rfmq_table = pd.merge(rfm_country_table, group_Invoice, left_index=True, right_index=True )
rfmq_table= rfmq_table.drop(['label', 'country_cluster_3'], axis=1)
rfm_table['quantity'] = rfmq_table['Quantity_total']
rfmq_table.head()


Unnamed: 0_level_0,Frequency,Monetary,Recency,Quantity_total
CustomerID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
12346,1,0.0,325,0.0
12347,7,4310.0,2,13.799245
12348,4,1437.24,75,93.25
12349,1,1457.55,18,8.75
12350,1,294.4,310,12.25


In [222]:
# подгатавливаем данные для обучения
ct = make_column_transformer((MinMaxScaler(), ['Frequency', 'Monetary', 'Recency', 'Quantity_total']))
scale_rfmq_table = ct.fit_transform(rfmq_table)

# понижаем размерность и визуализируем
reduction_rfmq_cluster = get_reduction(enc_array=scale_rfmq_table, 
                                                           index_data=rfmq_table, 
                                                           scaler=RobustScaler(), 
                                                           p=15, 
                                                           n=4)

In [223]:
# подбираем способ кластеризации
print('Результаты подбора метода кластеризации клиентов')
print(get_best_model(reduction_rfmq_cluster[0]).head(15))

Результаты подбора метода кластеризации клиентов
   reduction model  silhouette  cluster
15       pca   agg    0.982909        3
30       svd   agg    0.980329        3
16       pca   agg    0.979111        4
31       svd   agg    0.975360        4
32       svd   agg    0.967672        5
33       svd   agg    0.967267        6
35       svd    km    0.966286        3
20       pca    km    0.966047        3
17       pca   agg    0.955287        5
18       pca   agg    0.954882        6
19       pca   agg    0.947847        7
36       svd    km    0.937060        4
21       pca    km    0.936541        4
34       svd   agg    0.931576        7
37       svd    km    0.804110        5


In [224]:
# получаем метку кластера для каждого клиента с помощью модели  с максимальным значение коэффициента силуэта
scale_rfmq_table = pd.DataFrame(scale_rfmq_table, index=rfmq_table.index, columns=rfmq_table.columns)
agg_3 = AgglomerativeClustering(3, linkage='average', metric='l2')
agg_3.fit(reduction_rfmq_cluster[0]['pca'])
scale_rfmq_table['label_rfmq'] = agg_3.labels_
print('Количество клиентов в кластерах: ')
scale_rfmq_table['label_rfmq'].value_counts()

Количество клиентов в кластерах: 


label_rfmq
2    4012
0       6
1       2
Name: count, dtype: int64

In [225]:
rfmq_pca = reduction_rfmq_cluster[0]['pca']
rfmq_pca['agg_labels'] = agg_3.labels_
rfmq_pca['agg_labels'] = rfmq_pca['agg_labels'].astype(str)



# визуализируем кластеры на диаграмме рассеяния
fig = px.scatter(rfmq_pca, 
                 x='component_1', 
                 y='component_2', 
                 color='agg_labels',
                 title='Кластеры клиентов, полученные на основе rfmq-признаков.' 
                '<br>Кластеризация AgglomerativeClustering.<br>Понижение размерности PCA')
# fig.write_html('plotly/scatter_agg_1.html')
fig.show()

In [226]:
# находим среднее по каждому показателю для каждого кластера и визуализируем профили кластеров
group_rfmq = scale_rfmq_table.groupby(by='label_rfmq')[['Frequency', 'Monetary', 'Recency', 'Quantity_total']].mean()
plot_cluster_profile(group_rfmq, 3, m=3)

* Кластер 1 состоит из двух крупных оптовых клиентов. Эти клиенты оформили значительное время назад единичные заказы с максимальным количеством товара по каждой позиции, максимальна  выручка с одного заказа.
* Кластер 0 состоит из шести средних оптовых клиентов. В заказах этих клиентов среднее количество товаров по каждой позиции  меньше аналогочного показателя крупных оптовиков. Однако заказы оформлены относительно недавно и более многочислены.
* Кластер 2 самый многочисленный. Включает в себя всех остальных мелкооптовых и розничных покупателей, совершающих частые недорогие покупки с малым количеством единиц каждой позиции товара.

---

Теперь попробуем повлиять на кластеризацию клиентов, добавив информацию о количестве оформленных заказов за квартал. Так как временной промежуток, который охватывают исходные данные, практически равен одному году, сравнение различных характеристик в разрезе кварталов будет корректным.

In [227]:
# выделяем нужные нам признаки в отдельный датафрейм
data_time = data_cleaned[[ 'quarter', 'CustomerID', 'InvoiceNo' ]]
data_time.reset_index(drop=True, inplace=True)

# по каждому клиенту находим количество заказов за квартал
time_pivot = pd.pivot_table(data_time, index='CustomerID', columns='quarter', values='InvoiceNo', aggfunc=pd.Series.nunique, fill_value=0)

# находим общее количество заказов
time_pivot['n_InvoiceNo'] = time_pivot[1] + time_pivot[2] + time_pivot[3] + time_pivot[4]

# находим для каждого клиента долю покупок, совершенных  за квартал, 
# от всех покупок клиента
time_pivot['ratio_1'] = time_pivot[1] / time_pivot['n_InvoiceNo']
time_pivot['ratio_2'] = time_pivot[2] / time_pivot['n_InvoiceNo']
time_pivot['ratio_3'] = time_pivot[3] / time_pivot['n_InvoiceNo']
time_pivot['ratio_4'] = time_pivot[4] / time_pivot['n_InvoiceNo']

# далее нас интересуют только доли
time_pivot = time_pivot[['ratio_1', 'ratio_2', 'ratio_3', 'ratio_4']]

print('Доли в кварталах от общего количества заказов:')
print(time_pivot.head())

Доли в кварталах от общего количества заказов:
quarter      ratio_1   ratio_2   ratio_3   ratio_4
CustomerID                                        
12346       1.000000  0.000000  0.000000  0.000000
12347       0.142857  0.285714  0.142857  0.428571
12348       0.250000  0.250000  0.250000  0.250000
12349       0.000000  0.000000  0.000000  1.000000
12350       1.000000  0.000000  0.000000  0.000000


In [228]:
# новый признак, указывающий на характер сезонности покупок клиента
time_pivot['season'] = np.nan

for i, row in time_pivot.iterrows():
    if max(row.values) == 1:           # покупки совершены только в одном квартале
        time_pivot['season'].loc[i] = 2
    else:
        if (max(row.values) / min(row.values)) > 1: # покупки совершены в нескольких кварталах,  
            time_pivot['season'].loc[i] = 1         # в одном из кварталов количество покупок больше 
        else:
            time_pivot['season'].loc[i] = 0   # количество покупок в каждом квартале одинаковое
  

rfm_table_scale_df['season'] = time_pivot['season']
rfm_table_scale_df.drop('simple_label', axis=1, inplace=True)

rfm_table['season'] = time_pivot['season']

rfm_season_scale_enc_df = pd.get_dummies(rfm_table_scale_df, columns=['season'])
print(rfm_season_scale_enc_df.head())

            Frequency  Monetary   Recency  season_0.0  season_1.0  season_2.0
CustomerID                                                                   
12346       -0.801060 -0.959841  2.242783       False       False        True
12347        1.646568  3.345795 -0.946456       False        True       False
12348        0.422754  0.475944 -0.225668        True       False       False
12349       -0.801060  0.496233 -0.788475       False       False        True
12350       -0.801060 -0.665739  2.094676       False       False        True


In [229]:
# понижаем размерность и визуализируем
reduction_rfm_season_cluster = get_reduction(enc_array=rfm_season_scale_enc_df, 
                                                           index_data=rfm_season_scale_enc_df, 
                                                           scaler=StandardScaler(), 
                                                           p=15, 
                                                           n=5)

In [230]:
# будем работать с данными, полученными методом главных компонент
# организуем подбор гиперпараметров модели кластеризации
res_rfm_country_pca = get_clust_db(reduction_rfm_season_cluster[0]['pca'], min_e=0.4, max_e=0.6, step_e=0.01, max_ms=11)

     silhouette  cluster   eps  ms
78     0.730793        3  0.47   9
97     0.730793        3  0.49   8
87     0.730793        3  0.48   8
77     0.730793        3  0.47   8
57     0.730793        3  0.45   8
68     0.730793        3  0.46   9
88     0.730793        3  0.48   9
58     0.730793        3  0.45   9
67     0.730793        3  0.46   8
98     0.730793        3  0.49   9
17     0.730740        3  0.41   8
7      0.730740        3  0.40   8
148    0.730643        3  0.54   9
169    0.730643        3  0.56  10
159    0.730643        3  0.55  10


In [231]:
# получаем метки кластеров с помощью модели с оптимальными гиперпараметрами
season_pca = reduction_rfm_season_cluster[0]['pca']
db = DBSCAN(eps=0.47, min_samples=9, n_jobs=-1)
db.fit(season_pca)
season_pca['season_label'] = db.labels_
season_pca['season_label'] = season_pca['season_label'].astype(str)
rfm_table_scale_df['season_label'] = db.labels_


fig = px.scatter(season_pca,
                 x='component_1',
                 y='component_2',
                 color='season_label', 
                 title='Кластеры клиентов, полученные на основе данных о характере сезонности покупок клиентов.' 
                '<br>Кластеризация DBSCAN.<br>Понижение размерности PCA.')
# fig.write_html('plotly/scatter_db_2.html')
fig.show()


In [232]:
# строим полярные диаграммы профилей кластеров
mask_noise = rfm_table_scale_df['season_label'] != -1

season_group = rfm_table_scale_df[mask_noise].groupby(by='season_label')[['Frequency', 
                                                               'Monetary',	
                                                               'Recency', 
                                                               'season']].agg({'Frequency' : 'mean', 
                                                                               'Monetary' : 'mean', 
                                                                               'Recency' : 'mean', 
                                                                               'season' : pd.Series.mode})

print('Количество клиентов в кластерах:')
print(rfm_table_scale_df['season_label'].value_counts())                                                               
plot_cluster_profile(season_group, 3, m=4)

Количество клиентов в кластерах:
season_label
 1    2046
 0    1915
 2      55
-1       4
Name: count, dtype: int64


* Кластер 0 - приблизительно половина от всех клиентов магазина, ярко выраженная сезонность единичных покупок (все совершены в одном квартале), максимальный срок давности последней покупки, минимальная выручка от оформленного заказа
* Кластер 1 - чуть более 50 % от всех клиентов, заказы оформлены в нескольких кварталах (количество заказов по кварталам отличается), совершают покупки часто, выручка с одного заказа выше - среднего, срок давности оформления последнего заказа - незначительный.
* Кластер 2 - небольшой кластер (55) клиентов, у которых количество оформленных заказов не зависит от квартала, максимальная выручка с одного заказа, максимальная частота оформления заказов, минимальный срок давности последней покупки

## 5. Выводы и оформление работы

Напишите заключение о проделанной работе и полученных результатах. Отметьте, какие сегменты клиентов вам удалось найти в данных.

После завершения проекта создайте в своём репозитории файл README.md и кратко опишите содержимое проекта по принципу, который мы приводили ранее.

Выложите свой проект на GitHub и оформите удалённый репозиторий, добавив в него описание и теги репозитория (теги придумайте самостоятельно в зависимости от того, какую задачу вы решали).

В данном проекте было представлено три варианта кластеризации клиентов, основанные на сочетании базовых rfm-признаков с дополнительными характеристиками:
* кластер страны, из которой был оформлен заказ
* среднее количество товара в заказе
* характер сезонности оформления заказов.
Все три варианта позволили увеличить значение метрики качества кластеризации по сравнению с базовой моделью, обученной на rfm-признаках, а также получить интерпретируемые кластеры клиентов.

Применительно к исходному датасету наиболее эффективно при понижении размерности данных показали себя метод сингулярного разложения и метод главных компонент. Данные, полученные этими методами, во многом схожи. Кластеры, полученные на основе этих данных, легче выделить. Результаты кластеризации сильно зависят, как от параметров понижения размерности, так и от параметров методов кластеризации.   При принятии решения о применениии того или иного метода кластеризации следует опираться помимо мер качества на здравый смысл и задачи,поставленные маркетологами.