План работы 

1. Вычислить какие были тенденции продаж в течение нескольких месяцев

2. Определить какие товары покупают чаще всего

3. Вычислить сколько продуктов покупает клиент в каждой транзакции

4. Определить клиентов из какой страны наиболее прибыльны

5. Основываясь на анализе, порекомендовать стратегию онлайн-бизнесу, чтобы получить больше прибыли

## Импорт библиотек 

In [28]:
import pandas as pd
import numpy as np
from matplotlib import pyplot as plt
import seaborn as sns
from plotly import __version__
import cufflinks as cf
from plotly.offline import download_plotlyjs, init_notebook_mode, plot, iplot
df = pd.DataFrame
from selenium.webdriver.common.by import By

init_notebook_mode(connected=True)
cf.go_offline()
cf.set_config_file(theme='space', sharing='public', offline=True)

## Загрузка и предварительная обработка данных 

In [29]:
df = pd.read_csv('C:\Sales Transaction v.4a.csv')
df.head()

Unnamed: 0,TransactionNo,Date,ProductNo,ProductName,Price,Quantity,CustomerNo,Country
0,581482,12/9/2019,22485,Set Of 2 Wooden Market Crates,21.47,12,17490.0,United Kingdom
1,581475,12/9/2019,22596,Christmas Star Wish List Chalkboard,10.65,36,13069.0,United Kingdom
2,581475,12/9/2019,23235,Storage Tin Vintage Leaf,11.53,12,13069.0,United Kingdom
3,581475,12/9/2019,23272,Tree T-Light Holder Willie Winkie,10.65,12,13069.0,United Kingdom
4,581475,12/9/2019,23239,Set Of 4 Knick Knack Tins Poppies,11.94,6,13069.0,United Kingdom


In [30]:
df.tail()

Unnamed: 0,TransactionNo,Date,ProductNo,ProductName,Price,Quantity,CustomerNo,Country
536345,C536548,12/1/2018,22168,Organiser Wood Antique White,18.96,-2,12472.0,Germany
536346,C536548,12/1/2018,21218,Red Spotty Biscuit Tin,14.09,-3,12472.0,Germany
536347,C536548,12/1/2018,20957,Porcelain Hanging Bell Small,11.74,-1,12472.0,Germany
536348,C536548,12/1/2018,22580,Advent Calendar Gingham Sack,16.35,-4,12472.0,Germany
536349,C536548,12/1/2018,22767,Triple Photo Frame Cornice,20.45,-2,12472.0,Germany


In [31]:
df.shape

(536350, 8)

In [32]:
# Проверкка типов данных столбцов
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 536350 entries, 0 to 536349
Data columns (total 8 columns):
 #   Column         Non-Null Count   Dtype  
---  ------         --------------   -----  
 0   TransactionNo  536350 non-null  object 
 1   Date           536350 non-null  object 
 2   ProductNo      536350 non-null  object 
 3   ProductName    536350 non-null  object 
 4   Price          536350 non-null  float64
 5   Quantity       536350 non-null  int64  
 6   CustomerNo     536295 non-null  float64
 7   Country        536350 non-null  object 
dtypes: float64(2), int64(1), object(5)
memory usage: 32.7+ MB


Дополнительная иформация для колонок:

1. TransactionNo (категориальный тип данных): шестизначный уникальный номер, определяющий каждую транзакцию. Буква «С» в коде означает отмену.

2. Date (числовой тип данных): дата создания каждой транзакции.

3. ProductNo (категориальный тип данных): пяти- или шестизначный уникальный символ, используемый для идентификации конкретного продукта.

4. Product (категориальный тип данных): название продукта/товара.

5. Price (числовой тип данных): цена каждого продукта за единицу в фунтах стерлингов (£).

6. Quantity (числовой тип данных): количество каждого продукта за транзакцию. Отрицательные значения относятся к отмененным транзакциям.

7. CustomerNo (категориальный тип данных): пятизначный уникальный номер, определяющий каждого клиента.

8. Country (категориальный тип данных): название страны, в которой проживает клиент.





In [33]:
# Преобразование типа данных даты в дату и время
df['Date'] = pd.to_datetime(df['Date'])

In [34]:
df.head()

Unnamed: 0,TransactionNo,Date,ProductNo,ProductName,Price,Quantity,CustomerNo,Country
0,581482,2019-12-09,22485,Set Of 2 Wooden Market Crates,21.47,12,17490.0,United Kingdom
1,581475,2019-12-09,22596,Christmas Star Wish List Chalkboard,10.65,36,13069.0,United Kingdom
2,581475,2019-12-09,23235,Storage Tin Vintage Leaf,11.53,12,13069.0,United Kingdom
3,581475,2019-12-09,23272,Tree T-Light Holder Willie Winkie,10.65,12,13069.0,United Kingdom
4,581475,2019-12-09,23239,Set Of 4 Knick Knack Tins Poppies,11.94,6,13069.0,United Kingdom


In [35]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 536350 entries, 0 to 536349
Data columns (total 8 columns):
 #   Column         Non-Null Count   Dtype         
---  ------         --------------   -----         
 0   TransactionNo  536350 non-null  object        
 1   Date           536350 non-null  datetime64[ns]
 2   ProductNo      536350 non-null  object        
 3   ProductName    536350 non-null  object        
 4   Price          536350 non-null  float64       
 5   Quantity       536350 non-null  int64         
 6   CustomerNo     536295 non-null  float64       
 7   Country        536350 non-null  object        
dtypes: datetime64[ns](1), float64(2), int64(1), object(4)
memory usage: 32.7+ MB


In [36]:
df.describe()

Unnamed: 0,Price,Quantity,CustomerNo
count,536350.0,536350.0,536295.0
mean,12.662182,9.919347,15227.893178
std,8.49045,216.6623,1716.582932
min,5.13,-80995.0,12004.0
25%,10.99,1.0,13807.0
50%,11.94,3.0,15152.0
75%,14.09,10.0,16729.0
max,660.62,80995.0,18287.0


In [37]:
# Проверка нулевого значения
df.isnull().sum() 


TransactionNo     0
Date              0
ProductNo         0
ProductName       0
Price             0
Quantity          0
CustomerNo       55
Country           0
dtype: int64

In [38]:
df[df['CustomerNo'].isnull()]

Unnamed: 0,TransactionNo,Date,ProductNo,ProductName,Price,Quantity,CustomerNo,Country
6511,C581406,2019-12-08,46000M,Polyester Filler Pad 45x45cm,6.19,-240,,United Kingdom
6512,C581406,2019-12-08,46000S,Polyester Filler Pad 40x40cm,6.19,-300,,United Kingdom
90098,C575153,2019-11-08,22947,Wooden Advent Calendar Red,44.25,-1,,United Kingdom
102671,C574288,2019-11-03,22178,Victorian Glass Hanging T-Light,25.37,-1,,United Kingdom
117263,C573180,2019-10-28,23048,Set Of 10 Lanterns Fairy Light Star,14.5,-1,,United Kingdom
163160,C569495,2019-10-04,21843,Red Retrospot Cake Stand,21.47,-1,,United Kingdom
190598,C567518,2019-09-20,22846,Bread Bin Diner Style Red,27.62,-1,,United Kingdom
192284,C567518,2019-09-20,21871,Save The Planet Mug,11.94,-12,,United Kingdom
242406,C563015,2019-08-11,46000M,Polyester Filler Pad 45x45cm,10.25,-160,,United Kingdom
242407,C563015,2019-08-11,46000S,Polyester Filler Pad 40x40cm,10.25,-220,,United Kingdom


#### Все нулевые значения в CustomerNo имеют одну и ту же страну и отрицательное количество (за исключением одного, номер транзакции которого не начинается с буквы «C» и не имеет отрицательного количества).

In [39]:
# отбросим все нулевые и повторяющиеся значения
df.dropna(inplace=True)
df.isnull().sum()

TransactionNo    0
Date             0
ProductNo        0
ProductName      0
Price            0
Quantity         0
CustomerNo       0
Country          0
dtype: int64

In [40]:
df.duplicated().sum()

5200

In [41]:
df.drop_duplicates(inplace=True)
df.duplicated().sum()

0

In [42]:
df['CustomerNo'] = df['CustomerNo'].map(int)
df['CustomerNo'] = df['CustomerNo'].map(str)

# Анализ данных 

### 1. Какие были тенденции продаж в течение нескольких месяцев?

In [43]:
df['Total'] = df['Quantity'] * df['Price']
df['Month_Year'] = pd.to_datetime(df['Date']).dt.to_period('M')
df.head()

Unnamed: 0,TransactionNo,Date,ProductNo,ProductName,Price,Quantity,CustomerNo,Country,Total,Month_Year
0,581482,2019-12-09,22485,Set Of 2 Wooden Market Crates,21.47,12,17490,United Kingdom,257.64,2019-12
1,581475,2019-12-09,22596,Christmas Star Wish List Chalkboard,10.65,36,13069,United Kingdom,383.4,2019-12
2,581475,2019-12-09,23235,Storage Tin Vintage Leaf,11.53,12,13069,United Kingdom,138.36,2019-12
3,581475,2019-12-09,23272,Tree T-Light Holder Willie Winkie,10.65,12,13069,United Kingdom,127.8,2019-12
4,581475,2019-12-09,23239,Set Of 4 Knick Knack Tins Poppies,11.94,6,13069,United Kingdom,71.64,2019-12


In [44]:
total_month = df.groupby(['Month_Year'], as_index=False)['Total'].sum()
total_month.columns = ['Date', 'Total']
total_month.head()

Unnamed: 0,Date,Total
0,2018-12,4217281.53
1,2019-01,3638948.12
2,2019-02,3292324.69
3,2019-03,4340035.6
4,2019-04,3406002.17


In [45]:
total_month.iplot(x = 'Date', y = 'Total', title = 'Тенденция продаж по месяцам', 
                  yTitle = 'Всего денег', xTitle = 'Месяц', mode="lines+markers", size = 6)

In [46]:
df_no_return = df[df['Quantity']> 0]
number_of_sales = df_no_return.groupby(by='Month_Year', as_index=False)['Total'].count()
number_of_sales.columns = ['Date', 'Sum of sales']
number_of_sales.iplot(x = 'Date', y = 'Sum of sales', title = 'Количество продаж каждый месяц', 
                  yTitle = 'Количество продаж', xTitle = 'Месяц', mode="lines+markers", size = 6)

In [47]:
df.sort_values('Date', ascending = False).head(5)

Unnamed: 0,TransactionNo,Date,ProductNo,ProductName,Price,Quantity,CustomerNo,Country,Total,Month_Year
0,581482,2019-12-09,22485,Set Of 2 Wooden Market Crates,21.47,12,17490,United Kingdom,257.64,2019-12
1076,581498,2019-12-09,21930,Jumbo Storage Bag Skulls,6.19,2,14498,United Kingdom,12.38,2019-12
1086,581498,2019-12-09,22041,"Record Frame 7"" Single Size",6.19,2,14498,United Kingdom,12.38,2019-12
1085,581498,2019-12-09,21989,Pack Of 20 Skull Paper Napkins,6.19,1,14498,United Kingdom,6.19,2019-12
1084,581498,2019-12-09,21987,Pack Of 6 Skull Paper Cups,6.19,2,14498,United Kingdom,12.38,2019-12


#### Ответ

Мы видим, что с декабря 2018 года по август 2019 года не произошло больших изменений в общем доходе или количестве продаж. Но дальше ситуация меняется, возможно, из-за Рождества мы можем увидеть тенденцию к росту на наших графиках. Декабрь 2019 года стал худшим месяцем по продажам и доходам, однако мы можем заметить, что это связано с недостатком данных. Набор данных охватывает только 9 декабря, тогда как по всем остальным месяцам имеются полные данные. Есть только информация до 9 декабря 2019, но данные о прадажах больше половины данных в декабре 2018 года. 

### 2. Какие товары покупают чаще всего?

In [48]:
popular_products = df.groupby(by='ProductName', as_index = False)['Quantity'].sum()
popular_products.sort_values('Quantity', ascending = False).head(10).iplot(kind = 'bar', x = 'ProductName', y = 'Quantity', title = '10 наиболее часто покупаемых товаров')

### 3. Сколько продуктов покупает клиент в каждой транзакции?

In [49]:
top_quantity = df.sort_values('Quantity', ascending = False)[['Quantity', 'TransactionNo']].head(10).reset_index(drop = True)
top_quantity.iplot(kind = 'bar', title = 'Топ 10 товаров по количеству', x = 'TransactionNo', xTitle = 'Номер транзакции')

Вычисляем среднее значение положительных величин, и это будет ответом на вопрос.

In [50]:
round(df_no_return['Quantity'].mean())

11

#### Ответ
Среднее количество товаров, купленных за одну транзакцию, составляет 11.

### 4. Клиенты из какой страны наиболее прибыльны?

In [51]:
most_profitable_countries = df.groupby(by='Country', as_index = False)['Total'].sum().sort_values('Total', ascending = False).head(10)
least_profitable_countries = df.groupby(by='Country', as_index = False)['Total'].sum().sort_values('Total').head(10)

In [52]:
most_profitable_countries.iplot(kind = 'bar', x = 'Country', y = 'Total', title = 'Самые прибыльные страны', yTitle = 'Доход', colors = 'Green')
least_profitable_countries.iplot(kind = 'bar', x = 'Country', y = 'Total', title = 'Наименее прибыльные страны', yTitle = 'Доход', colors = 'Red')

Самые популярные товары в Великобритании

In [53]:
popular_UK = df_no_return[df_no_return['Country'] == 'United Kingdom']
popular_UK.groupby(by='ProductName', as_index = False)['Total'].count().head().sort_values('Total', ascending = False).iplot(kind = 'pie', labels = 'ProductName', values = 'Total', hole = .4, title = 'Самые популярные товары в Великобритании')
popular_UK.groupby(by='ProductName', as_index = False)['Total'].sum().head().sort_values('Total', ascending = False).iplot(kind = 'pie', labels = 'ProductName', values = 'Total', hole = .4, title = 'Лучшие продукты с высоким доходом в Великобритании')

какие продукты приносят самый высокий доход во всем мире

In [54]:
most_profitable_products = df.groupby(by='ProductName', as_index = False)['Total'].sum().sort_values('Total', ascending = False).head(10)
most_profitable_products.iplot(kind = 'bar', x =  'ProductName', title = '10 лучших продуктов с высоким доходом в мире', yTitle = 'Доход', colors = '#FF9898')

In [55]:
df.groupby(by='CustomerNo', as_index = False)['Total'].sum().sort_values('Total', ascending = False).head(10).iplot(kind = 'bar', x =  'CustomerNo', title = 'Топ-10 самых прибыльных клиентов', yTitle = 'Общая прибыль', xTitle = 'Номер клиента', colors = '#CC3363')

#### Ответ

Наиболее прибыльные клиенты из Великобритании

### 5. Основываясь на анализе, порекомендавать стратегию онлайн-бизнесу, чтобы получить больше прибыли

In [56]:
df_negative_quantity = df[df['Quantity'] < 0]
df_negative_quantity['Quantity'] = abs(df_negative_quantity['Quantity'])
df_negative_quantity.groupby(by = 'ProductName', as_index = False)['Quantity'].sum().sort_values('Quantity', ascending = False).head(10).iplot(kind = 'bar', x = 'ProductName', y = 'Quantity',
                                                                                                                                              title = 'Топ отмененных продуктов', colors = '#FF5A5F')

In [57]:
df_negative_quantity.groupby(by = 'Country', as_index = False)['Quantity'].sum().sort_values('Quantity', ascending = False).head(10).iplot(kind = 'bar', x = 'Country', y = 'Quantity', title = 'Страны с наибольшим количеством отмененных транзакций', colors = '#A6808C')


#### Ответ

1. Компании необходимо улучшить доставку или рекламу в других странах, помимо Великобритании.

2. Я бы посоветовал проверить первые два продукта в разделе «Самые отмененные продукты». Компания потеряла 150 тысяч заказов из-за отмены на эти два продукта.

3. Реклама самых продаваемых продуктов в других странах, кроме Великобритании.

4. Увеличение рекламного бюджета за пару месяцев до Рождества будет хорошей идеей.