##  Этап 4. Визуализационная часть презентации
*   Добавьте минимум 2 визуализации, показывающие:
*      ключевые инсайты из анализа (например, топ-товары, сезонность);
*      результаты ML-модели (распределение по кластерам, график ошибок).
*   Для презентации сохраните графики в папку results/:
*      cluster_plot.png
*      revenue_by_month.png
*      top_products.png

##  Презентация

###  Цель проекта

Проанализировать данные интернет-магазина и построить простую ML-модель, чтобы:
1) сегментировать клиентов по поведению (кластеризация)
2) предсказать их будущую выручку (регрессия).

###  Датасет

Online Retail Dataset — данные о покупках интернет-магазина (InvoiceNo, Description, Quantity, Price, CustomerID, Country, InvoiceDate).

Источник: [UCI / Kaggle Open Data](https://www.kaggle.com/datasets/mashlyn/online-retail-ii-uci/data)

Этот набор данных Online Retail II содержит все транзакции, совершенные в зарегистрированной в Великобритании интернет-торговле в период с 01.12.2009 по 09.12.2011. Компания в основном продает уникальные подарки на все случаи жизни. Многие клиенты компании являются оптовиками.

###  Содержание
Информация об атрибутах:

*   InvoiceNo: Номер счета. Номинальный. 6-значный целочисленный номер, однозначно присваиваемый каждой транзакции. Если этот код начинается с буквы «c», это указывает на отмену.
*   StockCode: Код товара (товара). Номинальный. 5-значный интегральный номер, однозначно присваиваемый каждому отдельному продукту.
*   Description: Наименование товара (товара). Номинальный.
*   Количество: количество каждого продукта (товара) за одну транзакцию. Числовой.
*   InvoiceDate: дата и время подачи заявки. Числовой. День и время генерации транзакции.
*   Price: Цена за единицу. Числовой. Цена продукта за единицу в фунтах стерлингов (В£).
*   CustomerID: Номер клиента. Номинальный. 5-значный интегральный номер, однозначно присваиваемый каждому клиенту.
*   Country: Название страны. Номинальный. Название страны, в которой проживает клиент.

###   Структура проекта

project-retail/ 

│ 

  ├── README.md 

  ├── data/ 

│ └── online_retail_II.csv 

├── notebooks/ 

│ ├── 01_data_cleaning.ipynb 

│ ├── 02_ml_model.ipynb 

│ └── 03_presentation.ipynb 

 ├── results/ 

│ ├── cluster_plot.png 

│ ├── revenue_by_month.png 

│ ├── scatterplot.png 

│ ├── top_products.png 

│ └── metrics.txt 

└── requirements.txt

###  Шаги анализа

#### Шаг 1. Анализ и очистка данных (Pandas)
#### 1. Предварительный анализ
*    Загрузка датасета.
*    Определение размера таблицы и типов данных.
*    Проверка количества уникальных значений в основных колонках.
*    Нахождение количества пропусков и процента пропущенных значений в каждом столбце.
*    Удаление строки с отсутствующими значениями.
*    Удаление дубликатов.

#### 2. Обогащение данных
*    Создание нового столбца TotalPrice = Quantity * Price.
*    Создание нового столбца InvoiceMonth = месяц из InvoiceDate.
*    Создание нового столбца IsReturn = 1, если Quantity < 0 (возврат товара), иначе 0.
*    Нахождение клиентов с наибольшей долей возвратов.

####  3. Исследование продаж
Нахождение:
*   топ-10 популярных товаров.
*   топ-5 стран по количеству покупок и по выручке.
*   среднего чека по странам.
*   среднего количества товаров на заказ.
*   дней недели с максимальной и минимальной выручкой.
*   средней выручки по каждому месяцу.

####  4. Визуализация (Matplotlib / Seaborn / Plotly)
*   Построение гистограммы распределения Price и TotalPrice.
*   Построение boxplot для выручки (TotalPrice) по странам.
*   Построение scatter для топ-10 товаров по количеству продаж.
*   Визуализация выручки по месяцам с помощью histplot.
*   Построение heatmap для корреляции между числовыми признаками.
*   Построение pie chart для распределения заказов по странам.
*   Построение scatterplot зависимости Quantity и TotalPrice.

#### Шаг 2. ML
#### A. Кластеризация клиентов (KMeans)
*   Группировка данных (общая выручка, количество покупок, средний чек) по клиентам.
*   Стандартизация данных (StandardScaler).
*   Обучение KMeans(n_clusters=3) и добавление колонки Cluster.
*   Визуализация кластеров (pairplot).
*   Характеристика каждого кластера.
#### В. Регрессия (LinearRegression)
*   Цель: предсказать TotalRevenue клиента.
*   Фичи: средний чек, количество покупок, количество возвратов, среднее количество товаров в заказе.
*   Разделение данных на train/test (80/20).
*   Обучение LinearRegression.
*   Расчет метрик MAE, RMSE, R².
*   Построение графика "фактические vs предсказанные значения".

###  ML-модель по KMeans показала:
3 явно различающиеся группы, каждая со своим покупательским поведением, учитывая их выручку, количество покупок и средний чек:
*  Кластер 0 (5927 человек): низкая выручка, мало покупок, средний чек невысокий = “Мелкие покупатели”.
*  Кластер 1 (14 человек): высокая выручка, много покупок, хороший средний чек = “Крупные, B2B-клиенты”.
*  Кластер 2 (1 человек): покупок мало, средний чек очень высокий = “Редкие клиенты”.

*график cluster_plot.png в папке results/

### ML- модель LinearRegression показала:
1. Модель почти не объясняет поведение данных

R² = 0.096 означает, что модель объясняет только 9.6% вариации выручки, то есть почти ничего не предсказывает. Оставшиеся ~90% меняются случайно или зависят от факторов, которых нет в данных. Это очень низкое качество модели.

2. Ошибки предсказания слишком высокие

MAE = 1998.75, означает, что в среднем модель ошибается на 1999 единиц дохода.

RMSE ≈ 17 208.76, означает, что ошибка для крупных клиентов увеличивается до десятков тысяч, следовательно, модель вообще не улавливает поведение крупных клиентов.

Модель линейной регрессии оказалась неэффективной: она объясняет менее 10% вариации выручки и допускает большие ошибки, следовательно, текущие признаки не позволяют надежно предсказывать доход клиента. Необходимо очистить данные от выбросов, добавить больше поведенческих признаков.

*график scatterplot.png в папке results/

###  Ключевые инсайты из анализа:

### 1. Инсайты по графику "Топ-10 товаров по количеству продаж"

Топ-10 StockCode товаров по количеству продаж:
*  85123A (5156 штук)
*  22423 (3678 штук)
*  85099B (3380 штук)
*  84879 (2709 штук)
*  20725 (2686 штук)
*  21212 (2582 штук)
*  21232 (2122 штук)
*  47566 (2121 штук)
*  20727 (2089 штук)
*  22383 (2070 штук)

Основной объем продаж формируется товаром 85123A, который более чем на 40% опережает ближайших конкурентов, это говорит о высокой популярности и стабильном спросе. 

Остальные позиции из топ-10 имеют стабильный, но умеренный спрос. 

Структура продаж подтверждает правило Парето (80/20), где 1–3 товара формируют значимую часть выручки. 

Стоит расширить ассортимент, аналогичный товару 85123A, проанализировать сезонность и частоту повторных покупок по лидирующим товарам.
сезонность.

*график top_products.png в папке results/

### 2. Инсайты по графику "Распределение выручки по месяцам"
С 9 месяца наблюдается сильный рост выручки, пик приходится на 11 месяц, что может быть связано с крупными сезонными событиями (Черная пятница, Рождество, Новый год) и активные маркетинговые кампании, затем ожидаемое снижение в декабре.

В начале года наблюдается низкая выручка, что может говорить о низкой покупательной активности в начале года и отсутствия маркетинговых кампаний.

В середине года все стабильно, без значимого роста.

Все это свидетельствует о сезонности спроса - пользователи активнее покупают в конце года. 

Выраженная сезонность указывает на необходимость усиления маркетинга в начале года и максимального использования возможностей ноября.

*график revenue_by_month.png в папке results/