In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from mpl_toolkits.mplot3d import Axes3D

import plotly.graph_objs as go
import plotly.express as px
from plotly.subplots import make_subplots

import warnings 

from IPython.display import display, HTML

warnings.filterwarnings("ignore")

plt.rcParams["patch.force_edgecolor"] = True

## 1. Структура данных

In [2]:
data = pd.read_csv(
    "./data/data.csv", 
    encoding="ISO-8859-1", 
    dtype={'CustomerID': str,'InvoiceID': str}
)
print('Data shape: {}'.format(data.shape))
data.head(5)

Data shape: (541909, 8)


Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country
0,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,6,12/1/2010 8:26,2.55,17850,United Kingdom
1,536365,71053,WHITE METAL LANTERN,6,12/1/2010 8:26,3.39,17850,United Kingdom
2,536365,84406B,CREAM CUPID HEARTS COAT HANGER,8,12/1/2010 8:26,2.75,17850,United Kingdom
3,536365,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,6,12/1/2010 8:26,3.39,17850,United Kingdom
4,536365,84029E,RED WOOLLY HOTTIE WHITE HEART.,6,12/1/2010 8:26,3.39,17850,United Kingdom


In [None]:
#Анализ номеров счетов (InvoiceNo)
print('Уникальные префиксы в InvoiceNo:')
invoice_prefixes = data['InvoiceNo'].str.extract(r'^(\D+)', expand=False).dropna().unique()
print(f'Найдены префиксы: {invoice_prefixes}')
#Разделение на обычные транзакции и возвраты
data['Is_Cancellation'] = data['InvoiceNo'].str.startswith('C')
data['Is_Discount'] = data['StockCode'].str.contains('D|POST|M', case=False, na=False)
print(f'\nКоличество транзакций с возвратами: {data["Is_Cancellation"].sum()}')
print(f'Количество транзакций со скидками: {data["Is_Discount"].sum()}')

Уникальные префиксы в InvoiceNo:
Найдены префиксы: ['C' 'A']

Количество транзакций с возвратами: 9288
Количество транзакций со скидками: 6957


In [4]:
#Анализ Quantity с разделением на покупки и возвраты
print('Анализ Quantity:')
print('Все транзакции:')
print(f'  Диапазон: [{data["Quantity"].min()} - {data["Quantity"].max()}]')
print(f'  Среднее: {data["Quantity"].mean():.2f}')
print(f'  Медиана: {data["Quantity"].median()}')
print('\nТолько покупки (Quantity > 0):')
purchases = data[data['Quantity'] > 0]
print(f'  Диапазон: [{purchases["Quantity"].min()} - {purchases["Quantity"].max()}]')
print(f'  Среднее: {purchases["Quantity"].mean():.2f}')
print(f'  Медиана: {purchases["Quantity"].median()}')
print('\nТолько возвраты (Quantity < 0):')
returns = data[data['Quantity'] < 0]
print(f'  Диапазон: [{returns["Quantity"].min()} - {returns["Quantity"].max()}]')
print(f'  Среднее: {returns["Quantity"].mean():.2f}')
print(f'  Медиана: {returns["Quantity"].median()}')

Анализ Quantity:
Все транзакции:
  Диапазон: [-80995 - 80995]
  Среднее: 9.55
  Медиана: 3.0

Только покупки (Quantity > 0):
  Диапазон: [1 - 80995]
  Среднее: 10.66
  Медиана: 3.0

Только возвраты (Quantity < 0):
  Диапазон: [-80995 - -1]
  Среднее: -45.61
  Медиана: -2.0


In [5]:
#Анализ UnitPrice
print('\nАнализ UnitPrice:')
print(f'Диапазон: [{data["UnitPrice"].min():.2f} - {data["UnitPrice"].max():.2f}] ₤')
print(f'Среднее: {data["UnitPrice"].mean():.2f} ₤')
print(f'Медиана: {data["UnitPrice"].median():.2f} ₤')
print(f'Количество бесплатных товаров (UnitPrice = 0): {(data["UnitPrice"] == 0).sum()}')


Анализ UnitPrice:
Диапазон: [-11062.06 - 38970.00] ₤
Среднее: 4.61 ₤
Медиана: 2.08 ₤
Количество бесплатных товаров (UnitPrice = 0): 2515
