# Итоговый проект по блоку "Работа аналитика в компании"

In [1]:
%config IPCompleter.greedy = True
import pandas as pd
import numpy as np
pd.options.display.max_rows = 999

In [2]:
import matplotlib.pyplot as plt
%matplotlib inline
import seaborn as sns
plt.style.use('ggplot')
plt.rcParams['figure.figsize'] = (12,8)

In [3]:
df = pd.read_excel('data_sample.xlsx', index_col = 'InvoiceDate')
df.head()

Unnamed: 0_level_0,InvoiceNo,StockCode,Description,Quantity,UnitPrice,CustomerID,Country
InvoiceDate,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
2010-12-01 08:26:00,536365,84029E,RED WOOLLY HOTTIE WHITE HEART.,6,3.39,17850.0,United Kingdom
2010-12-01 08:34:00,536367,84879,ASSORTED COLOUR BIRD ORNAMENT,32,1.69,13047.0,United Kingdom
2010-12-01 08:34:00,536367,21755,LOVE BUILDING BLOCK WORD,3,5.95,13047.0,United Kingdom
2010-12-01 08:34:00,536368,22914,BLUE COAT RACK PARIS FASHION,3,4.95,13047.0,United Kingdom
2010-12-01 09:02:00,536373,84406B,CREAM CUPID HEARTS COAT HANGER,8,2.75,17850.0,United Kingdom


#### Краткое описание таблицы:
- InvoiceDate - дата заказа
- InvoiceNo - номер заказа
- StockCode - код товара
- Description - описание товара
- Quantity - количество товара
- UnitPrice - цена за единицу товара
- CustomerID - id клиента
- Country - страна

#### Первый взгляд на данные

In [4]:
df.shape

(54214, 7)

In [5]:
df.describe()

Unnamed: 0,Quantity,UnitPrice,CustomerID
count,54214.0,54214.0,40643.0
mean,9.610802,4.307341,15283.422803
std,57.358422,47.834496,1707.982278
min,-9600.0,0.0,12347.0
25%,1.0,1.25,13969.0
50%,3.0,2.08,15152.0
75%,10.0,4.13,16775.0
max,2400.0,6930.0,18287.0


In [6]:
df.dtypes

InvoiceNo       object
StockCode       object
Description     object
Quantity         int64
UnitPrice      float64
CustomerID     float64
Country         object
dtype: object

In [7]:
df.isnull().sum()

InvoiceNo          0
StockCode          0
Description      134
Quantity           0
UnitPrice          0
CustomerID     13571
Country            0
dtype: int64

In [8]:
df.duplicated().sum()

50

In [9]:
df[df.duplicated() == True]

Unnamed: 0_level_0,InvoiceNo,StockCode,Description,Quantity,UnitPrice,CustomerID,Country
InvoiceDate,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
2010-12-05 13:55:00,537196,22640,SET OF 4 NAPKIN CHARMS 3 KEYS,1,2.55,15426.0,United Kingdom
2010-12-06 11:26:00,537265,22960,JAM MAKING SET WITH JARS,1,4.25,15919.0,United Kingdom
2010-12-06 12:41:00,537369,47471,RAINBOW PEGS PHOTO CLIP STRING,1,0.65,17860.0,United Kingdom
2010-12-06 14:31:00,537399,22815,CARD PSYCHEDELIC APPLES,12,0.42,13030.0,United Kingdom
2010-12-07 15:39:00,537646,22189,CREAM HEART CARD HOLDER,1,3.95,17591.0,United Kingdom
2010-12-07 15:39:00,537646,21484,CHICK GREY HOT WATER BOTTLE,1,3.45,17591.0,United Kingdom
2010-12-07 15:54:00,537653,22107,PIZZA PLATE IN BOX,1,3.75,17897.0,United Kingdom
2010-12-08 12:46:00,537781,21625,VINTAGE UNION JACK APRON,1,6.95,17341.0,United Kingdom
2010-12-08 12:46:00,537781,72799E,IVORY PILLAR CANDLE SILVER FLOCK,1,2.95,17341.0,United Kingdom
2010-12-12 14:27:00,538514,21756,BATH BUILDING BLOCK WORD,1,5.95,15044.0,United Kingdom


In [10]:
df.info()

<class 'pandas.core.frame.DataFrame'>
DatetimeIndex: 54214 entries, 2010-12-01 08:26:00 to 2011-12-09 12:50:00
Data columns (total 7 columns):
InvoiceNo      54214 non-null object
StockCode      54214 non-null object
Description    54080 non-null object
Quantity       54214 non-null int64
UnitPrice      54214 non-null float64
CustomerID     40643 non-null float64
Country        54214 non-null object
dtypes: float64(2), int64(1), object(4)
memory usage: 3.3+ MB


In [11]:
df.sort_values(by='Quantity').head(50)

Unnamed: 0_level_0,InvoiceNo,StockCode,Description,Quantity,UnitPrice,CustomerID,Country
InvoiceDate,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
2011-06-14 10:37:00,556691,23005,printing smudges/thrown away,-9600,0.0,,United Kingdom
2011-10-11 11:10:00,C570556,20971,PINK BLUE FELT CRAFT TRINKET BOX,-1296,1.06,16029.0,United Kingdom
2011-10-31 15:18:00,573598,79342B,"Unsaleable, destroyed.",-1128,0.0,,United Kingdom
2011-10-31 15:18:00,573597,79341,"Unsaleable, destroyed.",-905,0.0,,United Kingdom
2011-09-21 09:16:00,C567527,23113,PANTRY CHOPPING BOARD,-756,5.06,17450.0,United Kingdom
2010-12-09 14:48:00,538090,20956,?,-723,0.0,,United Kingdom
2011-09-14 12:04:00,566712,22030,??,-635,0.0,,United Kingdom
2011-01-31 12:36:00,C542693,15036,ASSORTED COLOURS SILK FAN,-600,0.65,12908.0,United Kingdom
2011-10-11 11:10:00,C570556,22149,FELTCRAFT 6 FLOWER FRIENDS,-600,1.85,16029.0,United Kingdom
2011-03-08 17:23:00,546018,85172,wrongly sold as sets,-600,0.0,,United Kingdom


In [12]:
df[df.Country == 'Unspecified']

Unnamed: 0_level_0,InvoiceNo,StockCode,Description,Quantity,UnitPrice,CustomerID,Country
InvoiceDate,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
2011-04-11 13:29:00,549687,20685,DOORMAT RED RETROSPOT,2,7.95,12363.0,Unspecified
2011-04-11 13:29:00,549687,21212,PACK OF 72 RETROSPOT CAKE CASES,24,0.55,12363.0,Unspecified
2011-05-10 15:31:00,552695,22619,SET OF 6 SOLDIER SKITTLES,4,3.75,16320.0,Unspecified
2011-05-10 15:31:00,552695,23127,FELTCRAFT GIRL NICOLE KIT,4,4.95,16320.0,Unspecified
2011-05-10 15:31:00,552695,22585,PACK OF 6 BIRDY GIFT TAGS,12,1.25,16320.0,Unspecified
2011-05-10 15:31:00,552695,22993,SET OF 4 PANTRY JELLY MOULDS,12,1.25,16320.0,Unspecified
2011-05-10 15:31:00,552695,22485,SET OF 2 WOODEN MARKET CRATES,2,12.75,16320.0,Unspecified
2011-05-10 15:31:00,552695,82482,WOODEN PICTURE FRAME WHITE FINISH,6,2.55,16320.0,Unspecified
2011-07-08 16:26:00,559521,21634,ASSORTED MINI MADRAS NOTEBOOK,24,0.39,,Unspecified
2011-07-08 16:26:00,559521,22317,FIVE CATS HANGING DECORATION,1,2.95,,Unspecified


In [13]:
df[df.StockCode == 'D']

Unnamed: 0_level_0,InvoiceNo,StockCode,Description,Quantity,UnitPrice,CustomerID,Country
InvoiceDate,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
2010-12-08 16:00:00,C537857,D,Discount,-1,267.12,17340.0,United Kingdom
2011-02-11 17:10:00,C543789,D,Discount,-1,84.8,17450.0,United Kingdom
2011-03-03 11:05:00,C545476,D,Discount,-1,30.38,14527.0,United Kingdom
2011-05-10 12:06:00,C552569,D,Discount,-240,0.03,12901.0,United Kingdom
2011-08-09 14:27:00,C562796,D,Discount,-1,64.0,13694.0,United Kingdom
2011-08-18 06:13:00,C563593,D,Discount,-1,206.4,14646.0,Netherlands
2011-08-31 12:29:00,C564909,D,Discount,-1,33.75,15498.0,United Kingdom
2011-08-31 17:25:00,C565075,D,Discount,-1,36.3,13408.0,United Kingdom
2011-09-13 17:17:00,C566613,D,Discount,-1,15.0,16029.0,United Kingdom
2011-11-03 12:39:00,C574238,D,Discount,-1,11.84,13408.0,United Kingdom


In [14]:
df[df['Quantity'] < 0].count().Quantity

1083

In [15]:
df[(df['UnitPrice'] < 0) & (df['Quantity'] < 0)]

Unnamed: 0_level_0,InvoiceNo,StockCode,Description,Quantity,UnitPrice,CustomerID,Country
InvoiceDate,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1


##### В таблице обнаружены отрицательные и неизвестные значения, дубликаты.
- От дубликатов лучше всего избавиться.
- Имеется StockCode 'D', отвечающий за скидку. Поскольку изначально значения неизвестны, считать отрицательным его количество не будем, чтобы значения не добавлялись к остальным, где были факты упущенной выгоды
- Отрицательные цены и количество товаров, судя по описанию некоторых товаров, отражают потерянные, списанные товары
- К сожалению, не во всех местах, где количество товаров отрицательное, указана цена, чтобы оценить экономический масштаб потерь
- К сожалению, в некоторых местах неизвестна страна, однако мы допустим, что товар был доставлен, а выручка получена
- Также много пустых значений id клиента - мы их оставим и представим, что они просто неизвестны, а прочие манипуляции были выполнены

In [16]:
df['CustomerID'] = df.CustomerID.fillna(-1).astype(int)
df.loc[df['CustomerID'] == -1, 'CustomerID'] = 'Unknown'

In [17]:
df.drop_duplicates(inplace=True)
df.shape

(54164, 7)

In [18]:
df.loc[df.StockCode == 'D', 'Quantity'] = 0

#### Вычленяем информацию из данных

In [19]:
df['TotalPrice'] = df['UnitPrice'] * df['Quantity']

In [20]:
df['Weekday'] = df.index.weekday.map({0: 'Monday', 1: 'Tuesday', 2: 'Wednesday', 3: 'Thursday', 4: 'Friday', 5: 'Saturday', 6: 'Sunday'})

In [21]:
df['Month'] =df.index.month

In [22]:
df['Year'] = df.index.year

In [23]:
df['Day'] = df.index.day

In [24]:
df.Country.value_counts()

United Kingdom          49553
Germany                   950
France                    881
EIRE                      787
Spain                     253
Netherlands               234
Belgium                   211
Switzerland               189
Portugal                  152
Australia                 130
Norway                    105
Channel Islands            81
Italy                      77
Finland                    72
Cyprus                     61
Sweden                     50
Austria                    48
Poland                     44
Unspecified                36
Denmark                    35
Japan                      33
Hong Kong                  29
Israel                     27
Singapore                  25
USA                        23
Iceland                    15
Greece                     14
Canada                     13
Malta                       9
Lithuania                   6
European Community          5
United Arab Emirates        5
RSA                         4
Brazil    

#### Что мы можем сказать на данный момент?
- Это некая компания, которая, по всей видимости, базируется в Великобритании.
- Основная нагрузка лежит также на Великобританию, однако небольшая часть товаров все же отправляется за границу.

#### Посмотрим, на какую сумму компания понесла убытки

In [25]:
df[df['Country'] == 'European Community']

Unnamed: 0_level_0,InvoiceNo,StockCode,Description,Quantity,UnitPrice,CustomerID,Country,TotalPrice,Weekday,Month,Year,Day
InvoiceDate,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
2011-04-26 10:54:00,551013,22841,ROUND CAKE TIN VINTAGE GREEN,2,7.95,15108,European Community,15.9,Tuesday,4,2011,26
2011-07-21 10:24:00,560783,22449,SILK PURSE BABUSHKA PINK,6,3.35,15108,European Community,20.1,Thursday,7,2011,21
2011-07-21 10:24:00,560783,23020,GLASS SONGBIRD STORAGE JAR,1,12.5,15108,European Community,12.5,Thursday,7,2011,21
2011-07-21 10:24:00,560783,23268,SET OF 2 CERAMIC CHRISTMAS REINDEER,12,1.45,15108,European Community,17.4,Thursday,7,2011,21
2011-07-21 10:24:00,560783,21098,CHRISTMAS TOILET ROLL,12,1.25,15108,European Community,15.0,Thursday,7,2011,21


In [26]:
lost_revenue = abs(df[df['TotalPrice'] < 0].groupby('Country')['Quantity', 'TotalPrice'].sum()).reset_index()
lost_revenue.style.bar()

Unnamed: 0,Country,Quantity,TotalPrice
0,Australia,36,83.63
1,Belgium,7,34.6
2,Cyprus,1,320.69
3,EIRE,460,1565.47
4,France,319,338.49
5,Germany,225,1186.96
6,Hong Kong,1,2583.76
7,Italy,3,36.85
8,Japan,60,162.6
9,Malta,4,5.8


In [27]:
df.astype(str).sort_values(by='InvoiceNo', ascending=False).reset_index().head(200)

Unnamed: 0,InvoiceDate,InvoiceNo,StockCode,Description,Quantity,UnitPrice,CustomerID,Country,TotalPrice,Weekday,Month,Year,Day
0,2011-12-08 18:59:00,C581465,22171,3 HOOK PHOTO SHELF ANTIQUE WHITE,-1,8.5,15755,United Kingdom,-8.5,Thursday,12,2011,8
1,2011-12-08 11:57:00,C581330,22959,WRAP CHRISTMAS VILLAGE,-25,0.42,15877,United Kingdom,-10.5,Thursday,12,2011,8
2,2011-12-08 11:51:00,C581322,22666,RECIPE BOX PANTRY YELLOW DESIGN,-1,2.95,18223,United Kingdom,-2.95,Thursday,12,2011,8
3,2011-12-08 10:14:00,C581229,21507,ELEPHANT BIRTHDAY CARD,-12,0.42,12558,USA,-5.04,Thursday,12,2011,8
4,2011-12-08 10:14:00,C581229,79191C,RETRO PLASTIC ELEPHANT TRAY,-24,0.85,12558,USA,-20.4,Thursday,12,2011,8
5,2011-12-08 10:06:00,C581228,22781,GUMBALL MAGAZINE RACK,-24,6.75,16019,United Kingdom,-162.0,Thursday,12,2011,8
6,2011-12-07 15:39:00,C581178,23079,TOADSTOOL BEDSIDE LIGHT,-1,8.95,15525,United Kingdom,-8.95,Wednesday,12,2011,7
7,2011-12-07 13:48:00,C581145,23250,VINTAGE RED TRIM ENAMEL BOWL,-38,1.04,17490,United Kingdom,-39.52,Wednesday,12,2011,7
8,2011-12-07 12:24:00,C581117,22988,SOLDIERS EGG CUP,-1,1.25,16393,United Kingdom,-1.25,Wednesday,12,2011,7
9,2011-12-06 14:57:00,C580968,23526,WALL ART DOG LICENCE,-4,5.95,15622,United Kingdom,-23.8,Tuesday,12,2011,6


In [28]:
df[df.UnitPrice == 0]

Unnamed: 0_level_0,InvoiceNo,StockCode,Description,Quantity,UnitPrice,CustomerID,Country,TotalPrice,Weekday,Month,Year,Day
InvoiceDate,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
2010-12-01 14:35:00,536553,37461,,3,0.0,Unknown,United Kingdom,0.0,Wednesday,12,2010,1
2010-12-03 15:29:00,536995,35951,,57,0.0,Unknown,United Kingdom,0.0,Friday,12,2010,3
2010-12-03 15:30:00,536998,85067,,-6,0.0,Unknown,United Kingdom,-0.0,Friday,12,2010,3
2010-12-03 15:35:00,537005,21692,,-70,0.0,Unknown,United Kingdom,-0.0,Friday,12,2010,3
2010-12-03 15:38:00,537009,84534B,,-80,0.0,Unknown,United Kingdom,-0.0,Friday,12,2010,3
2010-12-03 15:42:00,537018,84562A,,-3,0.0,Unknown,United Kingdom,-0.0,Friday,12,2010,3
2010-12-07 11:48:00,537534,85064,CREAM SWEETHEART LETTER RACK,1,0.0,Unknown,United Kingdom,0.0,Tuesday,12,2010,7
2010-12-07 11:48:00,537534,22681,FRENCH BLUE METAL DOOR SIGN 6,2,0.0,Unknown,United Kingdom,0.0,Tuesday,12,2010,7
2010-12-07 11:48:00,537534,22520,CHILDS GARDEN TROWEL BLUE,1,0.0,Unknown,United Kingdom,0.0,Tuesday,12,2010,7
2010-12-07 11:48:00,537534,22371,AIRLINE BAG VINTAGE TOKYO 78,5,0.0,Unknown,United Kingdom,0.0,Tuesday,12,2010,7


In [29]:
df[(df.UnitPrice > 0) & df.CustomerID == 'Unknown']

  result = method(y)


Unnamed: 0_level_0,InvoiceNo,StockCode,Description,Quantity,UnitPrice,CustomerID,Country,TotalPrice,Weekday,Month,Year,Day
InvoiceDate,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1


In [30]:
print('Как минимум компания не продала товара на {:.1f} у.е.'.format(abs(lost_revenue.TotalPrice.sum())))
print('В количестве это:', abs(lost_revenue.Quantity.sum()), 'штук')

Как минимум компания не продала товара на 55179.6 у.е.
В количестве это: 13452.0 штук


In [31]:
a = abs(df[df['TotalPrice'] < 0].sum().TotalPrice / df[df['TotalPrice'] > 0].sum().TotalPrice)
print('Это составляет {:.1f} % от всего дохода с продаж'.format(a *100))

Это составляет 5.2 % от всего дохода с продаж


#### Теперь посмотрим на доход компании

In [32]:
revenue = df[df['Quantity'] > 0].groupby('Country')['TotalPrice','Quantity'].sum().reset_index()[:-1]\
        .sort_values(by=['TotalPrice'], ascending=False)
revenue

Unnamed: 0,Country,TotalPrice,Quantity
35,United Kingdom,892000.541,460266
10,EIRE,29008.61,14305
24,Netherlands,26489.18,20930
14,Germany,23689.66,12208
13,France,19811.48,11423
0,Australia,17156.59,10009
32,Switzerland,6215.9,3541
30,Spain,5971.22,2936
31,Sweden,4936.52,4440
3,Belgium,4066.66,2399


In [33]:
print('Доля дохода от экспорта за границу по отношению ко всему доходу {:.1f} %'.format(revenue.TotalPrice[1:].sum() / revenue.TotalPrice.sum() * 100))
print('По отношению в количестве это:', round(revenue.Quantity[1:].sum() / revenue.Quantity.sum() * 100, 1), '%')

Доля дохода от экспорта за границу по отношению ко всему доходу 15.5 %
По отношению в количестве это: 17.2 %


In [34]:
print('Суммарный доход равен: {:.0f} у.е.'.format(df.TotalPrice.sum()))

Суммарный доход равен: 1000750 у.е.


In [35]:
sales_by_month = df.groupby(['Year', 'Month'])['Quantity', 'TotalPrice'].sum()
sales_by_month.style.bar()

Unnamed: 0_level_0,Unnamed: 1_level_0,Quantity,TotalPrice
Year,Month,Unnamed: 2_level_1,Unnamed: 3_level_1
2010,12,32741,76662.8
2011,1,30535,64112.7
2011,2,29635,47844.1
2011,3,36588,73482.0
2011,4,27810,49826.9
2011,5,36920,68858.8
2011,6,30304,76027.0
2011,7,39450,73620.0
2011,8,43285,66184.6
2011,9,54658,95648.5


In [36]:
df['weekday_index'] = df.index.weekday
sales_by_weekday = df.groupby(['weekday_index', 'Weekday'])['Quantity', 'TotalPrice'].sum()
#df.drop('weekday_index', axis=1, inplace=True)
sales_by_weekday.style.bar()

Unnamed: 0_level_0,Unnamed: 1_level_0,Quantity,TotalPrice
weekday_index,Weekday,Unnamed: 2_level_1,Unnamed: 3_level_1
0,Monday,81485,169945.0
1,Tuesday,85407,184588.0
2,Wednesday,104235,180206.0
3,Thursday,121068,224103.0
4,Friday,82130,160706.0
6,Sunday,46829,81203.1


In [37]:
df[df['Country'] != 'United Kingdom'].groupby(['weekday_index', 'Weekday'])['Quantity', 'TotalPrice'].sum().style.bar()

Unnamed: 0_level_0,Unnamed: 1_level_0,Quantity,TotalPrice
weekday_index,Weekday,Unnamed: 2_level_1,Unnamed: 3_level_1
0,Monday,13437,21725.0
1,Tuesday,14464,21231.3
2,Wednesday,18602,29336.0
3,Thursday,25964,42930.6
4,Friday,16534,31079.0
6,Sunday,5041,9167.08


In [38]:
df[df['Country'] == 'United Kingdom'].groupby(['weekday_index', 'Weekday'])['Quantity', 'TotalPrice'].sum().style.bar()

Unnamed: 0_level_0,Unnamed: 1_level_0,Quantity,TotalPrice
weekday_index,Weekday,Unnamed: 2_level_1,Unnamed: 3_level_1
0,Monday,68048,148220
1,Tuesday,70943,163357
2,Wednesday,85633,150870
3,Thursday,95104,181172
4,Friday,65596,129627
6,Sunday,41788,72036


In [39]:
df[df['Country'] != 'United Kingdom'].groupby(['Year', 'Month'])['Quantity', 'TotalPrice'].sum().style.bar()

Unnamed: 0_level_0,Unnamed: 1_level_0,Quantity,TotalPrice
Year,Month,Unnamed: 2_level_1,Unnamed: 3_level_1
2010,12,4287,6069.08
2011,1,8063,16471.7
2011,2,4151,7020.31
2011,3,7145,12050.2
2011,4,2814,4770.32
2011,5,7917,14107.2
2011,6,9870,14173.4
2011,7,6252,10240.6
2011,8,8662,12910.2
2011,9,9156,15572.7


In [40]:
np.where(df.groupby(['Year', 'Month', 'Day']).count()['InvoiceNo'] > 250)[0]

array([  0,   3,   4,   5,   6,   7,   8,  14,  31,  86, 109, 217, 236,
       237, 242, 247, 249, 250, 252, 258, 259, 264, 269, 270, 272, 274,
       275, 277, 278, 279, 280, 281, 282, 283, 284, 285, 286, 287, 288,
       289, 290, 291, 292, 294, 295, 296, 297, 298, 300, 301, 303],
      dtype=int64)

In [45]:
df.to_excel('AIC_final.xlsx')

### Более подробное описание компании:
- Судя по названиям товаров, это онлайн-магазин подарков, который базируется в Великобритании.



###### Описание значений
- товар имеет цену 0 - товар утерян, не туда отправлен, сломан и т.д.
- количество товара отрицательное - возврат товара (кодировка C в начале)
- возможно, там, где неизвестен id клиента, строки использовались как пометки и изменения для конкретного товара в базе

###### Информация по доходам
- Примерный доход за год оказался 1 миллион у.е.
- При этом 15% дохода от продажи оказалось от экспорта

###### Информация по убыткам
- более 5% по отношению ко всему доходу (как минимум!) было утеряно, списано, отправлено не туда, возвращено

###### Сезонность
- по месяцам прослеживается сезонность: больше заказов становится непосредственно перед праздниками. Самые глобальные - новогодние праздники. Повышение продаж начинается месяца за полтора-два до них с расчетом на доставку.
- анализ продаж по дням недели показывает, что продаж вообще нет в субботу. Возможно, заказы отражаются, когда их принимают работники, а суббота - выходной день. Видимое преимущество перед другими днями имеет четверг и следом соседние дни.

###### Прочее
- К сожалению, данные у нас предоставлены только за год, поэтому проследить закономерность по отношению к прочим годам мы не можем

- Предположительное название магазина - Rex London (https://www.rexlondon.com), ранее назывался DotComGiftShop