In [1]:
import pandas as pd

In [3]:
path = 'retails.zip'

In [6]:
retail = pd.read_csv(path, encoding='ISO-8859-1', compression='zip')
retail.head()

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country
0,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,6,12/1/2010 8:26,2.55,17850.0,United Kingdom
1,536365,71053,WHITE METAL LANTERN,6,12/1/2010 8:26,3.39,17850.0,United Kingdom
2,536365,84406B,CREAM CUPID HEARTS COAT HANGER,8,12/1/2010 8:26,2.75,17850.0,United Kingdom
3,536365,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,6,12/1/2010 8:26,3.39,17850.0,United Kingdom
4,536365,84029E,RED WOOLLY HOTTIE WHITE HEART.,6,12/1/2010 8:26,3.39,17850.0,United Kingdom


In [7]:
retail.loc[retail.duplicated()] #проверяем наличие дубликатов и их количество
retail = retail.drop_duplicates() #удаляем дубликаты из датафрейма

In [11]:
#выводим все транзакции, в начале InvoiceNo которых стоит буква С - отмененные транзакции. Всего пользователи отменили 9251 транзакцию

canceled_invoice = retail.loc[retail.InvoiceNo.str.startswith('C')]
canceled_invoice.shape

(9251, 8)

In [27]:
#считаем пользователей из Германии, которые совершили количество покупок больше чем 80 перцентиль 
germany_retail = retail.query('Country == "Germany"') \
    .groupby('CustomerID', as_index=False) \
    .agg({'InvoiceNo':'nunique'}) \
    .rename(columns={'InvoiceNo':'new_count'})
pers_q = germany_retail.quantile(q=0.8).new_count
germany_top = germany_retail.query('new_count > @pers_q').CustomerID

germany_top.count()

18

In [30]:
#Посмотрим на транзакции 18 пользователей из Германии, количество транзакций которых превышает 80 процентиль
top_retail_germany = retail.loc[retail['CustomerID'].isin(germany_top)]
top_retail_germany

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country
1109,536527,22809,SET OF 6 T-LIGHTS SANTA,6,12/1/2010 13:04,2.95,12662.0,Germany
1110,536527,84347,ROTATING SILVER ANGELS T-LIGHT HLDR,6,12/1/2010 13:04,2.55,12662.0,Germany
1111,536527,84945,MULTI COLOUR SILVER T-LIGHT HOLDER,12,12/1/2010 13:04,0.85,12662.0,Germany
1112,536527,22242,5 HOOK HANGER MAGIC TOADSTOOL,12,12/1/2010 13:04,1.65,12662.0,Germany
1113,536527,22244,3 HOOK HANGER MAGIC GARDEN,12,12/1/2010 13:04,1.95,12662.0,Germany
...,...,...,...,...,...,...,...,...
541726,581570,22139,RETROSPOT TEA SET CERAMIC 11 PC,3,12/9/2011 11:59,4.95,12662.0,Germany
541727,581570,23077,DOUGHNUT LIP GLOSS,20,12/9/2011 11:59,1.25,12662.0,Germany
541728,581570,20750,RED RETROSPOT MINI CASES,2,12/9/2011 11:59,7.95,12662.0,Germany
541729,581570,22505,MEMO BOARD COTTAGE DESIGN,4,12/9/2011 11:59,4.95,12662.0,Germany


In [32]:
#Проверим, какие продукты пользователи из топа в Германии добавляли в корзину (топ-5 продуктов)
new_germany_df = top_retail_germany.groupby('StockCode', as_index=False) \
    .agg({'InvoiceNo':'count'}) \
    .rename(columns={'InvoiceNo':'orders'}) \
    .sort_values('orders', ascending = False)
new_germany_df.head(5)

Unnamed: 0,StockCode,orders
1167,POST,219
409,22326,62
452,22423,55
411,22328,45
474,22467,37


In [33]:
#Добавим в первичный датасет информацию о сумме покупки
retail = retail.assign(Revenue = retail.Quantity * retail.UnitPrice)
retail.head()

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country,Revenue
0,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,6,12/1/2010 8:26,2.55,17850.0,United Kingdom,15.3
1,536365,71053,WHITE METAL LANTERN,6,12/1/2010 8:26,3.39,17850.0,United Kingdom,20.34
2,536365,84406B,CREAM CUPID HEARTS COAT HANGER,8,12/1/2010 8:26,2.75,17850.0,United Kingdom,22.0
3,536365,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,6,12/1/2010 8:26,3.39,17850.0,United Kingdom,20.34
4,536365,84029E,RED WOOLLY HOTTIE WHITE HEART.,6,12/1/2010 8:26,3.39,17850.0,United Kingdom,20.34


In [37]:
#Посчитаем финальную сумму заказа по каждой транзакции
final_retail = retail.groupby('InvoiceNo', as_index=False) \
    .agg({'Revenue':'sum'}) \
    .rename(columns={'Revenue':'TotalRevenue'}) \
    .sort_values('TotalRevenue', ascending=False)
final_retail.head()

Unnamed: 0,InvoiceNo,TotalRevenue
22025,581483,168469.6
2303,541431,77183.6
18776,574941,52940.94
19468,576365,50653.91
9741,556444,38970.0


In [40]:
#Общая выручка
totality_revenue = final_retail.TotalRevenue.sum()
round(totality_revenue,2)

9726006.95