## КЛАСТЕРИЗАЦИЯ

Исходный датасет: https://www.kaggle.com/datasets/imakash3011/customer-personality-analysis?select=marketing_campaign.csv

Модели для обучения: 
* K-средних (K-means)
* Агломеративная кластеризация
* Спектральная кластеризация
* DBSCAN
* Метод распространения близости (Affinity Propagation)

Значения признаков (столбцы):

1. Люди

* ID: Уникальный идентификатор клиента
* Year_Birth: год рождения Клиента
* Education: уровень образования Клиента
* Marital_Status: семейное положение Клиента
* Доход: годовой доход семьи клиента
* Kidhome: Количество детей в семье клиента
* Teenhome: Количество подростков в семье клиента
* Dt_Customer: Дата регистрации клиента в компании
* Recency: Количество дней, прошедших с момента последней покупки клиента
* Complain: 1, если клиент жаловался в течение последних 2 лет, 0 в противном случае

2. Продукты

* MntWines: Сумма, потраченная на вино за последние 2 года
* MntFruits: Сумма, потраченная на фрукты за последние 2 года
* MntMeatProducts: Количество, потраченное на мясо за последние 2 года
* MntFishProducts: Количество, потраченное на рыбу за последние 2 года
* MntSweetProducts: Количество, потраченное на сладости за последние 2 года
* MntGoldProds: Сумма, потраченная на золото за последние 2 года

3. Продвижение

* NumDealsPurchases: Количество покупок, совершенных со скидкой
* AcceptedCmp1: 1, если клиент принял предложение в рамках первой кампании, 0 в противном случае
* AcceptedCmp2: 1, если клиент принял предложение во 2-й кампании, в противном случае 0
* AcceptedCmp3: 1, если клиент принял предложение в 3-й кампании, в противном случае 0
* AcceptedCmp4: 1, если клиент принял предложение в 4-й кампании, в противном случае 0
* AcceptedCmp5: 1, если клиент принял предложение в 5-й кампании, в противном случае 0
* Response: 1, если клиент принял предложение в последней кампании, в противном случае 0

4. Место

* NumWebPurchases: Количество покупок, совершенных через веб-сайт компании
* NumCatalogPurchases: Количество покупок, совершенных с использованием каталога
* NumStorePurchases: Количество покупок, совершенных непосредственно в магазинах
* NumWebVisitsMonth: Количество посещений веб-сайта компании за последний месяц

### 1. Предобработка данных

https://habr.com/ru/articles/800973/

Проверка данных включает выявление:

* дубликатов, противоречий, ошибок;

* аномальных наблюдений;

* пропусков.


Очистка данных содержит:

* устранение дубликатов, противоречий и ошибок;

* обработку аномальных наблюдений;

* обработку пропусков.


Трансформация данных включает:

* переименование признаков;

* сортировка, группировка данных;

* кодирование переменных;

* нормировка данных.


Дополнение данных:

* создание новых признаков;

* агрегирование признаков


Оптимизация данных включает:

* снижение размерности;

* выявление и исключение незначительных признаков.

In [27]:
import pandas as pd
import numpy as np

In [29]:
pd.set_option('display.max_columns', None)

In [30]:
url = r'C:\pet projects\pet-projects\customer personality\data\marketing_campaign.csv'

In [31]:
customer_data  = pd.read_csv(url, sep='\t')
customer_data.head(3)

Unnamed: 0,ID,Year_Birth,Education,Marital_Status,Income,Kidhome,Teenhome,Dt_Customer,Recency,MntWines,MntFruits,MntMeatProducts,MntFishProducts,MntSweetProducts,MntGoldProds,NumDealsPurchases,NumWebPurchases,NumCatalogPurchases,NumStorePurchases,NumWebVisitsMonth,AcceptedCmp3,AcceptedCmp4,AcceptedCmp5,AcceptedCmp1,AcceptedCmp2,Complain,Z_CostContact,Z_Revenue,Response
0,5524,1957,Graduation,Single,58138.0,0,0,04-09-2012,58,635,88,546,172,88,88,3,8,10,4,7,0,0,0,0,0,0,3,11,1
1,2174,1954,Graduation,Single,46344.0,1,1,08-03-2014,38,11,1,6,2,1,6,2,1,1,2,5,0,0,0,0,0,0,3,11,0
2,4141,1965,Graduation,Together,71613.0,0,0,21-08-2013,26,426,49,127,111,21,42,1,8,2,10,4,0,0,0,0,0,0,3,11,0


In [32]:
customer_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2240 entries, 0 to 2239
Data columns (total 29 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   ID                   2240 non-null   int64  
 1   Year_Birth           2240 non-null   int64  
 2   Education            2240 non-null   object 
 3   Marital_Status       2240 non-null   object 
 4   Income               2216 non-null   float64
 5   Kidhome              2240 non-null   int64  
 6   Teenhome             2240 non-null   int64  
 7   Dt_Customer          2240 non-null   object 
 8   Recency              2240 non-null   int64  
 9   MntWines             2240 non-null   int64  
 10  MntFruits            2240 non-null   int64  
 11  MntMeatProducts      2240 non-null   int64  
 12  MntFishProducts      2240 non-null   int64  
 13  MntSweetProducts     2240 non-null   int64  
 14  MntGoldProds         2240 non-null   int64  
 15  NumDealsPurchases    2240 non-null   i

In [33]:
customer_data.describe()

Unnamed: 0,ID,Year_Birth,Income,Kidhome,Teenhome,Recency,MntWines,MntFruits,MntMeatProducts,MntFishProducts,MntSweetProducts,MntGoldProds,NumDealsPurchases,NumWebPurchases,NumCatalogPurchases,NumStorePurchases,NumWebVisitsMonth,AcceptedCmp3,AcceptedCmp4,AcceptedCmp5,AcceptedCmp1,AcceptedCmp2,Complain,Z_CostContact,Z_Revenue,Response
count,2240.0,2240.0,2216.0,2240.0,2240.0,2240.0,2240.0,2240.0,2240.0,2240.0,2240.0,2240.0,2240.0,2240.0,2240.0,2240.0,2240.0,2240.0,2240.0,2240.0,2240.0,2240.0,2240.0,2240.0,2240.0,2240.0
mean,5592.159821,1968.805804,52247.251354,0.444196,0.50625,49.109375,303.935714,26.302232,166.95,37.525446,27.062946,44.021875,2.325,4.084821,2.662054,5.790179,5.316518,0.072768,0.074554,0.072768,0.064286,0.013393,0.009375,3.0,11.0,0.149107
std,3246.662198,11.984069,25173.076661,0.538398,0.544538,28.962453,336.597393,39.773434,225.715373,54.628979,41.280498,52.167439,1.932238,2.778714,2.923101,3.250958,2.426645,0.259813,0.262728,0.259813,0.245316,0.114976,0.096391,0.0,0.0,0.356274
min,0.0,1893.0,1730.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,3.0,11.0,0.0
25%,2828.25,1959.0,35303.0,0.0,0.0,24.0,23.75,1.0,16.0,3.0,1.0,9.0,1.0,2.0,0.0,3.0,3.0,0.0,0.0,0.0,0.0,0.0,0.0,3.0,11.0,0.0
50%,5458.5,1970.0,51381.5,0.0,0.0,49.0,173.5,8.0,67.0,12.0,8.0,24.0,2.0,4.0,2.0,5.0,6.0,0.0,0.0,0.0,0.0,0.0,0.0,3.0,11.0,0.0
75%,8427.75,1977.0,68522.0,1.0,1.0,74.0,504.25,33.0,232.0,50.0,33.0,56.0,3.0,6.0,4.0,8.0,7.0,0.0,0.0,0.0,0.0,0.0,0.0,3.0,11.0,0.0
max,11191.0,1996.0,666666.0,2.0,2.0,99.0,1493.0,199.0,1725.0,259.0,263.0,362.0,15.0,27.0,28.0,13.0,20.0,1.0,1.0,1.0,1.0,1.0,1.0,3.0,11.0,1.0


In [23]:
customer_data.isnull().sum()

ID                      0
Year_Birth              0
Education               0
Marital_Status          0
Income                 24
Kidhome                 0
Teenhome                0
Dt_Customer             0
Recency                 0
MntWines                0
MntFruits               0
MntMeatProducts         0
MntFishProducts         0
MntSweetProducts        0
MntGoldProds            0
NumDealsPurchases       0
NumWebPurchases         0
NumCatalogPurchases     0
NumStorePurchases       0
NumWebVisitsMonth       0
AcceptedCmp3            0
AcceptedCmp4            0
AcceptedCmp5            0
AcceptedCmp1            0
AcceptedCmp2            0
Complain                0
Z_CostContact           0
Z_Revenue               0
Response                0
dtype: int64

In [34]:
customer_data.replace(np.nan, 0, inplace=True)

### 2. Обучение моделей 

##### 2.1 K-means

In [39]:
from sklearn.cluster import KMeans

##### 2.2 Агломеративная кластеризация

##### 2.3 Спектральная кластеризация

##### 2.4 DBSCAN

##### 2.5 Метод распространения близости (Affinity Propagation)

### 3. Кластеризация тестовых данных  