# Online Retail Dataset — Обзор датасета

Цель ноутбука:
- первично изучить датасет онлайн-продаж,
- понять структуру данных,
- выявить пропуски, аномалии и потенциальные проблемы качества данных,
- сформировать гипотезы для дальнейшего анализа.


InvoiceNo: номер счета-фактуры. 6-значный номер, однозначно присваиваемый каждой транзакции. Если этот код начинается с буквы "c", это указывает на отмену. 
StockCode: Код продукта (номенклатуры). Номинал - 5-значное целое число, однозначно присваиваемое каждому отдельному продукту. Description: Название продукта (позиции). Номинальный.
Quantity: количество каждого продукта (номенклатуры) в каждой транзакции. Числовой.
InvoiceDate: Дата и время выставления счета. Числовой - день и время, когда была произведена каждая транзакция.
UnitPrice - цена за единицу продукции. Числовой - цена продукта за единицу в фунтах стерлингов. 
CustomerID - номер клиента. Номинальный - 5-значное целое число, однозначно присваиваемое каждому клиенту.
Country - Название страны. Номинал - название страны, в которой проживает каждый клиент.


In [48]:
import pandas as pd
import numpy as np

In [49]:
df = pd.read_csv(
    "../data/online_retail.csv",
    encoding="ISO-8859-1"
)

df.head()

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country
0,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,6,2010-12-01 08:26:00,2.55,17850.0,United Kingdom
1,536365,71053,WHITE METAL LANTERN,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom
2,536365,84406B,CREAM CUPID HEARTS COAT HANGER,8,2010-12-01 08:26:00,2.75,17850.0,United Kingdom
3,536365,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom
4,536365,84029E,RED WOOLLY HOTTIE WHITE HEART.,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom


In [50]:
print(f"Количество строк: {df.shape[0]}")
print(f"Количество столбцов: {df.shape[1]}")
df.info()

Количество строк: 541909
Количество столбцов: 8
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 541909 entries, 0 to 541908
Data columns (total 8 columns):
 #   Column       Non-Null Count   Dtype  
---  ------       --------------   -----  
 0   InvoiceNo    541909 non-null  object 
 1   StockCode    541909 non-null  object 
 2   Description  540455 non-null  object 
 3   Quantity     541909 non-null  int64  
 4   InvoiceDate  541909 non-null  object 
 5   UnitPrice    541909 non-null  float64
 6   CustomerID   406829 non-null  float64
 7   Country      541909 non-null  object 
dtypes: float64(2), int64(1), object(5)
memory usage: 33.1+ MB


Описание числовых признаков

In [51]:
df.describe()

Unnamed: 0,Quantity,UnitPrice,CustomerID
count,541909.0,541909.0,406829.0
mean,9.55225,4.611114,15287.69057
std,218.081158,96.759853,1713.600303
min,-80995.0,-11062.06,12346.0
25%,1.0,1.25,13953.0
50%,3.0,2.08,15152.0
75%,10.0,4.13,16791.0
max,80995.0,38970.0,18287.0


Проверка пропусков

In [52]:
missing = df.isna().sum().sort_values(ascending=False)
missing

CustomerID     135080
Description      1454
StockCode           0
InvoiceNo           0
Quantity            0
InvoiceDate         0
UnitPrice           0
Country             0
dtype: int64

относительное число пропусков

In [53]:
(missing / len(df) * 100).round(2)

CustomerID     24.93
Description     0.27
StockCode       0.00
InvoiceNo       0.00
Quantity        0.00
InvoiceDate     0.00
UnitPrice       0.00
Country         0.00
dtype: float64

Дубли

In [54]:
df.duplicated().sum()

np.int64(5268)

Быстрый осмотр категориальных признаков

In [55]:
df['Country'].nunique()

38

In [56]:
df['Country'].value_counts().head(10)

Country
United Kingdom    495478
Germany             9495
France              8557
EIRE                8196
Spain               2533
Netherlands         2371
Belgium             2069
Switzerland         2002
Portugal            1519
Australia           1259
Name: count, dtype: int64

In [57]:
df['InvoiceNo'].nunique()

25900

## Первичные наблюдения и гипотезы

- В данных присутствуют пропуски в `CustomerID`
- Обнаружены отрицательные значения `Quantity`, вероятно связанные с возвратами.
- Большая часть выручки может приходиться на ограниченное число стран (точнее одну - United Kingdom)
- Данные требуют очистки перед расчётом бизнес-метрик.
