In [1]:
import pandas as pd
import numpy as np
import plotly.graph_objs as go
import chart_studio.plotly as py
import cufflinks
import plotly.express as px
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = 'all'

In [2]:
from plotly.offline import iplot
cufflinks.go_offline()
cufflinks.set_config_file(world_readable=True, theme='pearl')

# Анализ эффективности работы бизнеса по доставке суши в Гомеле.

Анализ выполнен с помощью следующих инструментов:
- jupyter notebook - среда разработки и визуализации;
- MySQL Workbench - работа с MySQL сервером и базой данных;
- Pandas library for Python  - преобразование результатов SQL-запросов в датафреймы, их преобразования и визуальный вывод;
- plotly (chart_studio) library for Python  и cufflinks - инструменты визуализации и построения интерактивных графиков с Pandas-датафреймами.
Для избежания проблем с отображением интерактивных графиков рекомендуется просматривать ноутбук через https://nbviewer.jupyter.org/

# I
### Для начала нашего анализа проанализируем клиентскую базу 
по ряду показателей и признаков. Это поможет лучше понять, кто наши клиенты, какие среди них отличия, и можно ли каким-то образом найти таргетированный подход к ним.

#### 1. 
Выведем результат SQL-запроса с выборкой клиентов по возрасту и возрастным группам. Учитываем только тех, кто возраст указал в своих данных.

In [3]:
cust_age = pd.read_csv("customers_by_age.csv", index_col='fullname')

In [4]:
cust_age

Unnamed: 0_level_0,customerID,age,age_category
fullname,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Rinah Walters,91,16,Young_people
Carolyn Carroll,41,18,Young_people
Madeline Daniel,57,18,Young_people
Kylee Wiley,56,18,Young_people
Quon Alexander,31,18,Young_people
...,...,...,...
Hermione Duke,8,77,Seniors
Dominique Snyder,12,79,Seniors
Colleen Santana,94,79,Seniors
Logan Gilliam,7,80,Seniors


  
  Визуализируем распределение клиентов по возрасту на двух простых гистограммах.  
  

In [5]:
cust_age['age_category'].iplot(kind='hist',
                               linecolor='black',
                               bins=3,
                               histnorm='percent',
                               bargap=0.5,
                               opacity=0.8,
                               barmode='group',
                               xTitle='Age groups',
                               yTitle='(%) in Age group',
                               title='Distribution of Customers by Age Group')

In [6]:
cust_age['age'].iplot(kind='hist',
                      linecolor='black',
                      bins=10,
                      histnorm='percent',
                      bargap=0.2,
                      opacity=0.8,
                      barmode='group',
                      xTitle='Age',
                      yTitle='(%)',
                      title='Distribution of Customers by Absolute Age')

Не видим существенных перекосов в распределении клиентов по трем возрастным группам (наблюдается небольшое превалирование группы старшего поколения со значением в 36% (старше 60 лет).  
При более мелком дроблении на группы по возрасту отмечаются наибольшие скопления значений в промежутках 30-39 лет (24%) и 70-79 лет (19.4%). Информацию о распределении клиентов по возрасту следует учитывать при формировании рекламных стратегий, проводимых акций.

#### 2. 
Подгрузим результат SQL-запроса, выбирающего информацию о клиентах, имеющих больше и меньше всех выполненных заказов, а именно - больше 13-ти заказов и меньше 5-ти.

In [7]:
cust_ord = pd.read_csv("customers_orders.csv", index_col='ordersgroup')

In [8]:
cust_ord

Unnamed: 0_level_0,ordersgroup,customerID,email,phone,total_orders_fulfilled
fullname,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Dominique Snyder,more than 13 orders,12,vestibulum.Mauris.magna@risusvarius.net,379617413350,20
Carolyn Hutchinson,more than 13 orders,48,fermentum.fermentum.arcu@vehicula.com,126661276915,19
Iona Flynn,more than 13 orders,58,ipsum.Curabitur.consequat@cursusa.org,784998070081,18
Isabelle Summers,more than 13 orders,84,quam@euplacerateget.edu,498022387306,18
Castor Ramsey,more than 13 orders,21,ullamcorper@blanditat.org,595842607835,16
Keane Wilcox,more than 13 orders,13,dui.Cras@fermentum.ca,375098102057,14
Jane ==Lastname Not Provided==,more than 13 orders,15,augue.malesuada.malesuada@in.com,755678525721,14
Cairo Tucker,more than 13 orders,16,commodo.hendrerit.Donec@eget.net,963941903271,14
Cailin Flores,more than 13 orders,18,non@interdum.com,276869650245,14
Sara Sanchez,more than 13 orders,27,pede.nec.ante@nonante.net,611366959253,14


  
  Мы получили информацию о таких наших клиентах - имя, email, номер телефона и количество выполненных заказов. 
Приведем датафрейм в более подходящий для построения графика вид и создадим его в виде столбчатой диаграммы с возможностью отдельного просмотра каждой из групп клиентов.  


In [9]:
cust_ord2 =cust_ord[['ordersgroup', 'total_orders_fulfilled']].pivot(columns='ordersgroup').droplevel(0, axis=1).\
sort_values(['more than 13 orders', 'less than 5 orders'], ascending=False)

In [10]:
cust_ord2

ordersgroup,less than 5 orders,more than 13 orders
fullname,Unnamed: 1_level_1,Unnamed: 2_level_1
Dominique Snyder,,20.0
Carolyn Hutchinson,,19.0
Iona Flynn,,18.0
Isabelle Summers,,18.0
Castor Ramsey,,16.0
Amos Casey,,14.0
Cailin Flores,,14.0
Cairo Tucker,,14.0
Colleen Santana,,14.0
Gretchen ==Lastname Not Provided==,,14.0


In [11]:
print(f"Количество клиентов с более, чем 13 заказами - {cust_ord2['more than 13 orders'].count()}")
print(f"Количество клиентов с менее, чем 5 заказами - {cust_ord2['less than 5 orders'].count()}")

Количество клиентов с более, чем 13 заказами - 15
Количество клиентов с менее, чем 5 заказами - 6


In [12]:
cust_ord2.iplot(kind='bar',
                xTitle='Customers',
                yTitle='Number of orders',
                title='The Most and the Less Active Customers')

Теперь, имея данную информацию, мы можем целенаправленно отправить, к примеру, адресную рекламу самым активным клиентам - вроде подарочного купона, сертификата на скидку с благодарностью за лояльность и т.д.  
И, напротив, - наименее активным сделать адресные предложения (те же скидки, купоны, сертификаты), которые, возможно, мотивируют их заказывать чаще, повысив привлекательность заказов.

#### 3. 
Порой при доставке чего бы то ни было возникают сложности и неудобства, если клиент по какой-то причине не может оплатить заказ тем способом, который указал при заказе (недостаточно средств на карте, поврежденная, утерянная карта, севший телефон и т.д.). Попробуем найти среди наших клиентов тех, у кого такие случаи происходят чащу других. В качестве фильтра SQL-запроса возьмем 3 и более случая несоответствия типа платежа.

In [13]:
cust_misspay = pd.read_csv("customers_misspay.csv", index_col='fullname')

In [14]:
cust_misspay

Unnamed: 0_level_0,customerID,phone,payment_mismatches
fullname,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Carolyn Hutchinson,48,126661276915,4
Brianna ==Lastname Not Provided==,76,617126203525,4
Flavia Morales,11,665644839488,3
Kylee Wiley,56,626741952363,3
Isabelle Summers,84,498022387306,3
Rinah Walters,91,563168738972,3


In [15]:
cust_misspay['payment_mismatches'].iplot(kind='bar',
                                         bargap=0.5,
                                         xTitle='Customers',
                                         yTitle='Times misspayed',
                                         title='Customers Payment Method Missmatch')

Таких клиентов у нас нашлось 6-ро. Для снижения неудобства как для клиента, так и для курьера, такую информацию может использовать софт курьера, присылая ему перед тем, как он заберет заказ на доставку, напоминание, что при визите к такому-то клиенту нужно иметь на всякий случай сдачу с наличных.

#### 4. 
"Немного несерьезности".  
Важным критерием оценки является наличие у клиента такого зверя как хаски. Этот зверь изменяет жизнь жизнь человека до неузноваемости раз и навсегда - возможно, он влияет и на предпочтения хозяев в суши? Попробуем выяснить это, ведь наша база данных хранит такую информацию.
Сперва подгрузим результат SQL-запроса, выбирающего из клиентов счастливых хасководов (по крайней мере, тех, кто указал это в своем профиле) и относящего их к определенной возрастной группе, основываясь на дате рождения.

In [16]:
cust_husky_owners = pd.read_csv("customers_husky_owners.csv", index_col='fullname_of_husky_owner')

In [17]:
cust_husky_owners

Unnamed: 0_level_0,customerID,email,phone,age_category
fullname_of_husky_owner,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Ursa Barron,70,luctus@aliquameros.net,534894088267,Young_husky_owner
Medge Good,98,scelerisque.mollis.Phasellus@risus.org,662582603825,Young_husky_owner
Castor Ramsey,21,ullamcorper@blanditat.org,595842607835,Young_husky_owner
Cairo Tucker,16,commodo.hendrerit.Donec@eget.net,963941903271,Mature_husky_owner
Sara Sanchez,27,pede.nec.ante@nonante.net,611366959253,Mature_husky_owner
Cheyenne Salazar,88,eleifend@ligulaeuenim.edu,542859486408,Mature_husky_owner
Keane Wilcox,13,dui.Cras@fermentum.ca,375098102057,Senior_husky_owner
Carolyn Hutchinson,48,fermentum.fermentum.arcu@vehicula.com,126661276915,Senior_husky_owner
Colleen Santana,94,lobortis@penatibuset.com,291217755240,Senior_husky_owner
Dominique Snyder,12,vestibulum.Mauris.magna@risusvarius.net,379617413350,Senior_husky_owner


In [18]:
print(f"Количество клиентов-хасководов - {cust_husky_owners['customerID'].count()}")

Количество клиентов-хасководов - 10


  
  Выяснили, что среди наших клиентов 10 являются хасководами и получили их контактные данные, а также возрастную группу. Визуализируем распределение этих клиентов по возрастным группам на простой гистограмме.  
  

In [19]:
cust_husky_owners.age_category.iplot(kind='hist',
                                     bins=3,
                                     bargap=0.5,
                                     xTitle='Age group',
                                     yTitle='Number of customer-husky-owners',
                                     title='Age groups of customers-husky-owners')

  
  Видим примерно равное распределение владельцев хаски по возрастам с незначительным преобладанием старшего поколения, что укладывается в общую картину возрастных групп клиентов.

#### 5. 
Выведем результаты SQL-запроса, показывающего популярность отдельных позиций ассортимента среди хасководов.

In [20]:
pop_goods_husky = pd.read_csv("popular_goods_husky_owners.csv", index_col='Item')

In [21]:
pop_goods_husky

Unnamed: 0_level_0,ordered_times
Item,Unnamed: 1_level_1
CaliforniaRoll,101
PhiladelphiaRoll,95
ClassicSalmonRoll,80
BostonRoll,79
CucumberRoll,75


In [22]:
pop_goods_husky.iplot(
    kind='bar',
    bargap=0.5,
    xTitle='Goods',
    yTitle='Times ordered',
    title='Popularity of Goods Ordered by Customers-Husky-Owners')

Увидим, что самыми популярными являются CaliforniaRoll и PhiladelphiaRoll - количество их заказов находится вблизи 100, что на 20% больше остальных позиций ассортимента.

#### 6. 
Попробуем сравнить клиентов-владельцев хаски с таковыми не являющимися по количественным параметрам заказов. Для этого выведем результаты SQL-запроса, показывающего общее число, суммарную стоимость всех заказов, их среднюю стоимость и массу, разбитые по группам на основании наличия хася.

In [23]:
husky_vs_nonhusky = pd.read_csv("husky_vs_non_husky.csv", index_col='husky_ownership')

In [24]:
husky_vs_nonhusky['total_orders_price*10E-01'] = husky_vs_nonhusky['total_orders_price'] / 10

In [25]:
husky_vs_nonhusky

Unnamed: 0_level_0,total_orders_price,number_of_orders,avg_weight_per_order,avg_price_per_order,total_orders_price*10E-01
husky_ownership,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Husky_owners,2659.84,137,1069.3,19.41,265.984
Not_husky_owners,7436.96,496,741.4,14.99,743.696


In [26]:
ratio_orders = (husky_vs_nonhusky.loc['Not_husky_owners', 'number_of_orders'] / 
                husky_vs_nonhusky.loc['Husky_owners', 'number_of_orders'])
ratio_total_price = (husky_vs_nonhusky.loc['Not_husky_owners', 'total_orders_price'] /
                     husky_vs_nonhusky.loc['Husky_owners', 'total_orders_price'])
print(f"Соотношение общего количества заказов и общей стоимости заказов \
хасятников и нехасятников - {round(ratio_orders, 1)} и {round(ratio_total_price, 1)}, соответственно")

Соотношение общего количества заказов и общей стоимости заказов хасятников и нехасятников - 3.6 и 2.8, соответственно


  
  Для удобства визуализации по 2-м осям на столбчатой диаграмме разделим суммарную стоимость заказов на 10, как величину, сильно выбивающуюся из 2-х других масштабов.  
  

In [27]:
husky_vs_nonhusky[['number_of_orders', 'total_orders_price*10E-01', 
                   'avg_price_per_order', 'avg_weight_per_order']].\
                    iplot(kind='bar',
                          y='avg_price_per_order',
                          secondary_y=['total_orders_price*10E-01', 'number_of_orders', 'avg_weight_per_order'],
                          xTitle='Husky Ownership',
                          yTitle='Avg order price',
                          secondary_y_title='Number of orders, Total orders price*10Е-01, Avg order weight',
                          title='Comparison of orders made by customers w/without huskies',
                          bargap=0.4,
                          legend=dict(yanchor="top", y=1.1, xanchor="left",x=0.6))

Анализируя таблицу и диаграмму, можно сделать следующие выводы. Общее количество заказов, сделанных нехасятниками, превышает таковое у хасководов в 3.6 раза. Разница в общей стоимости заказов, однако, составляет уже 2.8 раз, что говорит о более высокой удельной стоимости заказов у хасководов. И действительно, средняя стоимость заказа у них выше и составляет 19.41 р против 14.99.   
Ответ на вопрос, почему, предположительно, состоит в том, что средняя масса заказа у хасковода составляет ~1070 грамм при таковой у нехасковода ~740 грамм, или почти в 1.5 раза больше. Вероятно, мохнатные злодеи объедают своих хозяев, вынуждая тех заказывать больше.

Как видим, клиенты-хасководы являются очень интересной и перспективной группой клиентов. Несмотря на то, что в общей массе они составляют всего 10% клиентской базы, индивидуально они перспективнее клиентов, у которых хаски нет - они тратят больше. Опираясь на выясненные выше данные об их предпочтениях в ассортименте и о возрасте, можно повысить их лояльность нашим ресторанчикам с помощью таргетированной рекламы и интересных предложений, соответствующих возрастным группам, их интересам и иным данным (интересные сеты продуктов, акции к дням рождения людей и питомцев и тд).  
Также было бы желательно привлечь больше клиентов-владельцев хаски, для чего можно запустить что-то вроде акции "пригласи друга-хасятника" или иногда устраивать ивенты на природе. Участие в рекламе собак и хаски, в частности, также может помочь.

# II
### Определяем различную статистику по районам города.

#### 1. 
Сперва определим количественное распределение всех заказов по районам города и выведем результаты на круговой диаграмме.

In [28]:
orders_distr = pd.read_csv("orders_districts.csv")

In [29]:
orders_distr

Unnamed: 0,district,total_orders
0,Volotova,276
1,Fest,243
2,Central,220
3,RW,218


In [30]:
orders_distr.iplot(kind='pie', 
                   labels='district', 
                   values='total_orders', 
                   title='Percentage of Orders by District')

Как видно, в целом распределение заказов по всем 4-рем районам города достаточно равномерное, порядка четверти в каждом. Тем не менее,небольшой перевес в этом показателе все же имеет Волотовской район.
Значит, все 4 района примерно одинаково охвачены рекламой без значительных перекосов в сторону той или иной части города.

#### 2. 
Далее попытаемся выяснить, какие товары наиболее (наименее) популярны в различных частях города, для чего воспользуемся результатом соответствующего SQL-запроса и отобразим результаты на столбчатой диаграмме.

In [31]:
goods_districts = pd.read_csv("goods_districts.csv", index_col='item')

In [32]:
goods_districts2 = goods_districts.pivot(columns='district').droplevel(0, axis=1)

In [33]:
goods_districts2

district,Central,Fest,RW,Volotova
item,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
AlaskaRoll,83,87,84,114
BostonRoll,97,105,90,128
CaliforniaRoll,103,100,125,129
ClassicCrabRoll,73,90,93,97
ClassicSalmonRoll,14,22,20,24
CucumberRoll,93,95,81,122
DragonRoll,79,87,68,100
KingCrabRoll,77,79,92,97
PhiladelphiaRoll,20,21,27,27


In [34]:
goods_districts2.iplot(kind='bar',
                       xTitle='Goods',
                       yTitle='Times ordered',
                       title='Popularity of Goods in Different City Districts')

Из диаграммы, переключаясь для большей наглядности между районами, увидим, что 
- в Центральном районе наиболее популярен CaliforniaRoll; 
- в Фестивальном - BostonRoll; 
- в Железнодорожном - вновь CaliforniaRoll, но с более серьезным отрывом от других позиций ассортимента;
- в Волотовском - лидерство держат CaliforniaRoll и BostonRoll.
Наименее популярны (причем с очень большим отставанием) во всех районах ClassicSalmonRoll и PhiladelphiaRoll. При этом вспомним, что оба они входят в топ-3 товаров, популярных у хасководов, поэтому нужно более детально разобрать этот факт: почему эти позиции так популярны у хасятников, но при этом нелюбимы всеми остальными. Как предположение - дело может быть опять же в их бОльших порциях при более скромных вкусовых качествах. Если это предположение верно, манипуляция параметром массы порций может послужить дополнительным средством привлечения новых и удержания текущих интересных клиентов-хасятников.

#### 3. 
Теперь выведем общую и среднюю стоимости заказов по районам города, подгрузив результаты SQL-выборки из БД на этот счет.

In [35]:
money_distr = pd.read_csv("money_districts.csv", index_col='district')

In [36]:
money_distr

Unnamed: 0_level_0,total_district_orders_cost,avg_district_orders_cost
district,Unnamed: 1_level_1,Unnamed: 2_level_1
Volotova,4157.38,15.81
RW,3451.92,16.6
Fest,3385.61,14.66
Central,3168.69,14.95


In [37]:
xaxis = money_distr.index
fig = go.Figure(
    data=[
        go.Bar(name='avg_district_orders_cost', 
               x=xaxis, y=money_distr['avg_district_orders_cost'], yaxis='y', offsetgroup=1),
        go.Bar(name='total_district_orders_cost', 
               x=xaxis, y=money_distr['total_district_orders_cost'], yaxis='y2', offsetgroup=2)
    ],
    layout={
        'yaxis': {'title': 'Avg orders cost'},
        'yaxis2': {'title': 'Total orders cost', 'overlaying': 'y', 'side': 'right'}
    },
)

fig.update_layout(title='Orders Сost in Different City Districts',
                  legend=dict(yanchor="top", y=1.2, xanchor="left", x=0.6))

По данной столбчатой диаграмме видим определенное лидерство Волотовского района по суммарной стоимости всех заказов (как и по количеству, согласно круговой диаграмме ранее), при этом Железнодорожный район несколько выделяется на фоне остальных более дорогими в среднем заказами.

Выясненные в данном разделе предпочтения клиентов в различных районах города может помочь более адресно проводить рекламные акции в них, развивая популярность местных "хитов" и подтягивая ее для позиций менее желанных в том или ином районе.

# III
### Анализ динамики количества заказов в разные временные промежутки.

#### 1. 
Проанализируем изменение количества заказов в течение года. Выведем в виде таблицы и графиков результаты SQL-запроса, агрегирующего общее количество заказов по месяцам.

In [38]:
month_dyn = pd.read_csv("month_dyn.csv")

In [39]:
month_dyn

Unnamed: 0,month_num,month,number_of_orders
0,1,January,66
1,2,February,75
2,3,March,61
3,4,April,76
4,5,May,95
5,6,June,134
6,7,July,99
7,8,August,104
8,9,September,59
9,10,October,28


In [40]:
month_dyn.iplot(x='month',
                y='number_of_orders',
                mode='markers+lines',
                hline=[dict(y=i, color='red', dash='dash', width=1) for i in [month_dyn['number_of_orders'].quantile(0.05),
                                                                              month_dyn['number_of_orders'].quantile(0.5),
                                                                              month_dyn['number_of_orders'].quantile(0.95)]],
                opacity=0.8,
                size=8,
                symbol=1,
                xTitle='Months',
                yTitle='Oders number',
                title='Number of Orders Over the Year w Quantiles')

In [41]:
px.scatter(month_dyn,
           x='month_num', 
           y='number_of_orders', 
           trendline='lowess', 
           labels={'month_num':'Months', 'number_of_orders':'Number of orders'},
           title='Number of Orders Over the Year w Trendline')

На графиках совершенно явно виден значительный (2-хкратный и более) рост количества заказов в летние месяцы с абсолютным пиком в июне со значением в 134 заказа. Осенью количество заказов резко снижается с абсолютным минимумом в октябре (28), вновь увеличиваясь на зиму до среднего уровня. Эти 2 значения лежат за пределами интервала значений 5-95%, остальные находятся внутри.
Тенденция, в целом, достаточно необычная - логика подсказывает, что в летние месяцы, в пору отпусков и всяческих активностей вне стен жилища количество заказов должно, наоборот, снижаться в сравнении с осенью и зимой, когда люди больше времени проводят дома. Возможно, такой тренд является отличительной особенностью 2020 года.

#### 2. 
Построим изменение количества заказов по дням недели. Результат SQL-запроса выводит воскресенье как первый день недели, поэтому проведем небольшую доработку датафрейма для более привычной визуализации.

In [42]:
week_dyn = pd.read_csv("week_dyn.csv", index_col='day_of_week')

In [43]:
week_dyn = week_dyn.append(week_dyn.loc['Sunday']).reset_index().drop(0).set_index('day_of_week')

In [44]:
week_dyn

Unnamed: 0_level_0,number_of_orders
day_of_week,Unnamed: 1_level_1
Monday,89
Tuesday,126
Wednesday,104
Thursday,88
Friday,125
Saturday,230
Sunday,195


In [45]:
week_dyn.iplot(
    mode='lines+markers',
    opacity=0.8,
    size=8,
    symbol=1,
    hline=dict(y=week_dyn['number_of_orders'].median(), color='red', dash='dash', width=1),
    xTitle='Weekdays',
    yTitle='Total orders number',
    title='Number of Orders Over Weekdays w Median Line')

По графику четко видно почти 2-хкратное в сравнении с медианным значением (125) увеличение количества заказов в выходные дни (до 230 в субботу), что является вполне логичным и ожидаемым поведением кривой. Аномалий не отмечено. 

# IV
### Обзор и анализ имеющихся способов заказа и оплаты

#### 1. 
Выведем в датафрейм и отобразим на круговой диаграмме результаты SQL-запроса, отражающего популярность различных способов размещения заказа, доступных клиентам наших ресторанчиков.

In [46]:
order_meth = pd.read_csv("order_methods.csv")

In [47]:
order_meth

Unnamed: 0,order_method,total_orders
0,App,553
1,Website,266
2,Phone,181


In [48]:
order_meth.iplot(kind='pie', 
                labels='order_method', 
                values='total_orders', 
                title='Percentage of Orders by Ordering Method', 
                pull=0.03)

Видим, что абсолютное большинство клиентов предпочитают делать заказы через мобильное приложение. Что ж, это вполне логичное и ожидаемое поведение сегодня. Также это косвенно свидетельствует о достаточно хорошо проработанном и удобном для пользователей интерфейсе приложения.  
Самую малую долю в заказах (менее 20%) составляют таковые, оставленные по телефону. Это также является общей тенденцией. Возможно, следует пересмотреть штат телефонных операторов, перераспределив часть людей на иные задачи.  
Следует, однако, отметить неожиданно малую долю заказов через веб-сайт (26%, близко к таковой у телефона и в 2 раза меньше, чем у приложения). Такая разница между приложением и веб-сайтом довольно нетипична, ее причины следует рассмотреть подробнее.  
Возможно, дело просто в том, что приложение на телефоне (при должной его реализации) по определению значительно удобнее работы через сайт. Также возможно, однако, что наш веб-сайт недостаточно удобен и дружелюбен к посетителям. Может быть, следует провести какой-либо опрос среди клиентов на эту тему.

#### 2. 
Аналогичным образом отобразим популярность среди клиентов различных способов оплаты заказов.

In [49]:
pay_meth = pd.read_csv("pay_methods.csv")

In [50]:
pay_meth

Unnamed: 0,pay_method,total_orders
0,Cash,426
1,Online,268
2,Card,263


In [51]:
pay_meth.iplot(kind='pie',
               labels='pay_method',
               values='total_orders',
               title='Percentage of Orders by Payment Method',
               pull=0.03,
               colors=['blue', 'green', 'red'])

А вот здесь мы видим совершенно нетипичную в современном мире ситуацию - почти половина заказов оплачивается наличными, а безналичные методы (банковская карта и онлайн-оплата) поровну делят вторую половину. Возможно, это связано с большим количеством более консервативных клиентов старшего поколения, однако, скорее всего, это нашло бы отражение и в статистике по способам заказов (было бы больше телефонных заказов, т.к. старшее поколение менее охотно использует интернет и приложения).  
Необходимо более близко разобраться с возможными причинами (к примеру, это могут быть частые сбои терминалов и, как следствие, невозможность заказа клиентом оплаты картой, сбои системы онлайн-платежей и т.д.) и устранить их, т.к. в 2020 году в качестве основного метода оплаты использовать наличные несерьезно и неудобно ни бизнесу, ни людям.

# V
### Обзор и анализ работы курьеров и эффективности отдельных компонентов логистической системы сервиса доставки.

#### 1. 
Начнем с отображения информации, кто из курьеров по итогам года сколько доставил заказов и отработал больше других смен. В SQL-запросе смены мы учитываем все (в т.ч. "пустые", без заказов), заказы только выполненные.

In [52]:
cour_shift = pd.read_csv("courier_shifts.csv", index_col='courier_fullname')

In [53]:
cour_shift

Unnamed: 0_level_0,courier_id,total_shifts_worked,total_orders_delivered
courier_fullname,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Alla Shemlei,3,58,187
Kirill Panin,2,50,164
Oleg Trufanov,1,43,158
Maxim Valenkov,6,51,157
Sergei Mironenko,4,50,157
Andrei Kazak,5,48,134


In [54]:
cour_shift.drop('courier_id', axis=1).iplot(kind='bar',
                                            xTitle='Couriers',
                                            yTitle='Shifts and orders delivered',
                                            title='Couriers Productivity')

По графику мы видим, что лидером, так сказать, "курьером года" является Алла Шемлей, выполнившая 187 доставок и отработавшая суммарно 58 смен. Это заслуживает поощрения в виде, к примеру, премии.

#### 2. 
Проанализируем информацию о том, кто из курьеров сколько заказов выполнил в каждом районе города, получив ее с помощью соответствующего SQL-запроса.

In [55]:
cour_distr_orders = pd.read_csv("courier_districts_orders.csv", index_col='couriers_fullname')

In [56]:
cour_distr_orders2 = cour_distr_orders.drop('id', axis=1).pivot(columns='CityDistrict').droplevel(0, axis=1)

In [57]:
cour_distr_orders2

CityDistrict,Central,Fest,RW,Volotova
couriers_fullname,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Alla Shemlei,41,49,43,54
Andrei Kazak,35,31,26,42
Kirill Panin,46,38,43,37
Maxim Valenkov,28,39,38,52
Oleg Trufanov,37,43,38,40
Sergei Mironenko,33,43,30,51


In [58]:
cour_distr_orders2.iplot(kind='bar',
                         xTitle='Couriers',
                         yTitle='Orders delivered in districts',
                         title='Delivered Orders by Couriers and City Districts')

Из диаграммы видно, что каждый из курьеров работает по всем 4-м районам города. Возможно, было бы более эффективно перераспределить зоны доставки между курьерами, однако это, скорее, будет целесообразно при значительном увеличении количества заказов в будущем.

#### 3. 
В нашей системе работает 2 ресторанчика, обслуживающих заказы со всего города. Проанализируем, сколько заказов в каждом районе города обработал каждый из ресторанов по итогам года.

In [59]:
rest_distr = pd.read_csv("resta_distr.csv", index_col='delivery_district')

In [60]:
rest_distr2 = rest_distr.pivot(columns='Restaurant_and_its_district').droplevel(0, axis=1)

In [61]:
rest_distr2

Restaurant_and_its_district,Kirova 42 Central district,Sviridova 14 Volotova district
delivery_district,Unnamed: 1_level_1,Unnamed: 2_level_1
Central,62,158
Fest,62,181
RW,48,170
Volotova,72,204


In [62]:
rest_distr2.iplot(kind='bar',
                  xTitle='City Districts',
                  yTitle='Orders',
                  title='Districts Covered by Restaurants')

Мы видим, что в каждом районе города тотально больше (от 2.5 до 3-х раз) заказов обрабатывает ресторан, расположенный в Волотовском районе на улице Свиридова. В том числе и в Центральном районе, в котором есть свой собственный ресторанчик! Возможно, это следствие того, что ресторан на Свиридова появился раньше и ранее принимал на себя все заказы. Но, конечно, при наличии 2-х ресторанов такое распределение не очень эффективно, учитвая, что начале анализа мы выяснили, что разные районы заказывают с близкой активностью. Ведь это провоцирует лишние километры и время доставки из Волотовского ресторанчика в более отдаленные районы. Следует по возможности поскорее более равномерно перераспределить нагрузку между обоими ресторанами.

#### 4. 
Посмотрим на количество отмененных заказов и их долю в общем количестве заказов.

In [63]:
cancel_rate = pd.read_csv("canceled_rate.csv")

In [64]:
cancel_rate2 = cancel_rate.T.reset_index()
cancel_rate2.columns = ['label', 'orders']
cancel_rate2

Unnamed: 0,label,orders
0,total_orders_fulfilled,957
1,total_orders_canceled,43


In [65]:
cancel_rate2.iplot(kind='pie', 
                labels='label', 
                values='orders', 
                title='Percentage of Orders by Payment Method', 
                pull=0.07,
                colors=['green', 'red'])

Видим, что общее количество отмененных заказов - 43, а их доля лишь чуть больше 4%. Это является неплохим показателем, однако и его наверняка можно улучшить, разобравшись в причинах отмены клиентами заказов.

#### 5. 
Попробуем поискать причины отмены заказов, выяснив время, прошедшее от размещения заказов до их отмены.

In [66]:
cancel_time = pd.read_csv("canceled_timing.csv", index_col='order_id')

In [67]:
cancel_time

Unnamed: 0_level_0,time_passed_before_cancelling
order_id,Unnamed: 1_level_1
464,02:10:00
103,01:56:00
699,01:56:00
922,01:49:00
989,01:42:00
7,01:35:00
135,01:35:00
579,01:35:00
539,01:28:00
243,01:28:00


Для лучшего восприятия на будущем графике переведем в часы.

In [68]:
cancel_time['time_passed_before_cancelling'] = pd.to_timedelta(cancel_time['time_passed_before_cancelling'])

In [69]:
cancel_time['time_passed_before_cancelling'] = cancel_time['time_passed_before_cancelling'].apply(lambda x: round(x.total_seconds() / 3600, 2))

In [70]:
cancel_time.dtypes

time_passed_before_cancelling    float64
dtype: object

Аналогичным образом поступим с выполненными заказами (используем их как фон для сравнения)после чего построим совместную гистограмму распределения времени до отмены заказа и времени доставки.

In [71]:
deliver_time = pd.read_csv("delivered_timing.csv", index_col='order_id')

In [72]:
deliver_time

Unnamed: 0_level_0,delivery_time
order_id,Unnamed: 1_level_1
9,02:10:00
12,02:10:00
34,02:10:00
42,02:10:00
45,02:10:00
...,...
960,00:25:00
971,00:25:00
977,00:25:00
981,00:25:00


In [73]:
deliver_time['delivery_time'] = pd.to_timedelta(deliver_time['delivery_time'])

In [74]:
deliver_time['delivery_time'] = deliver_time['delivery_time'].apply(lambda x: round(x.total_seconds() / 3600, 2))

In [75]:
deliver_time.dtypes

delivery_time    float64
dtype: object

In [76]:
all_orders_time = pd.concat([deliver_time, cancel_time], axis=1)

In [77]:
all_orders_time.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1000 entries, 1 to 1000
Data columns (total 2 columns):
 #   Column                         Non-Null Count  Dtype  
---  ------                         --------------  -----  
 0   delivery_time                  957 non-null    float64
 1   time_passed_before_cancelling  43 non-null     float64
dtypes: float64(2)
memory usage: 23.4 KB


In [78]:
all_orders_time.iplot(kind='hist',
                      linecolor='black',
                      bins=5,
                      histnorm='percent',
                      bargap=0.1,
                      opacity=0.8,
                      barmode='group',
                      xTitle='Time in hours',
                      yTitle='(%) of Timedeltas',
                      title='Distribution of Delivery Time and Time Before Cancelling Orders')

По гистограмме нельзя сделать однозначных выводов, что причина отмены заказов кроется в длительном их ожидании клиентами. Так, хоть мы и видим, что более 40% отмененных заказов были отменены в промежутке времени от часа до полутора после их размещения, также значительное количество отменяется в промежутке от получаса до часа (32.5%). Суммарно в этом временном интервале около 74% отмененных заказов.  
С другой стороны, около 80% доставленных заказов доставлены и не отменены в этом же временном интервале (от получаса до полутора часов.  
Таким образом, вероятно, основные причины отмены заказов не связаны с длительным их ожиданием.  Тем не менее, время доставки нужно сокращать, смещая пики гистограммы в интервал до часа. Ресурсы для этого есть (в частности, вспоминая неоптимальное покрытие города ресторанами).

#### 6. 
Для поиска "дыр" в эффективности логистической системы сделаем выборку неоптимальных с точки зрения логистики сессий доставки.

В качестве критерия выберем выполнение в рамках одной сессии доставки хотя бы одного из условий:

- пришлось посетить 3 и более разных районов города;
- суммарный пробег составил более 25 км; 
- длительность сессии составила более 1ч 50мин.

In [79]:
fail_sessions = pd.read_csv("fail_sessions.csv", index_col='session_id')

In [80]:
fail_sessions['StartTime'] = pd.to_datetime(fail_sessions['StartTime'])

In [81]:
fail_sessions['session_duration'] = pd.to_timedelta(fail_sessions['session_duration'])
fail_sessions['session_duration'] = fail_sessions['session_duration'].apply(lambda x: round(x.total_seconds() / 3600, 2))

In [82]:
fail_sessions.dtypes

StartTime                         datetime64[ns]
time_of_day                               object
session_duration                         float64
TotalDistance                              int64
number_of_districts_in_session             int64
dtype: object

In [83]:
fail_sessions

Unnamed: 0_level_0,StartTime,time_of_day,session_duration,TotalDistance,number_of_districts_in_session
session_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2,2020-05-28 06:40:00,Night,1.67,25,4
3,2020-11-28 08:40:00,Day,1.67,11,3
6,2020-09-18 17:30:00,Day,1.25,19,3
10,2020-05-11 09:30:00,Day,1.17,2,3
11,2020-08-22 11:50:00,Day,1.67,11,3
...,...,...,...,...,...
484,2020-06-13 03:30:00,Night,1.92,3,4
485,2020-10-28 11:40:00,Day,1.08,27,2
487,2020-02-05 18:00:00,Day,1.33,14,3
497,2020-06-05 02:10:00,Night,1.33,26,2


In [84]:
fail_sessions.iplot(kind='scatter3d', 
                    x='session_duration', 
                    y='TotalDistance', 
                    z='number_of_districts_in_session', 
                    xTitle='Duration', 
                    yTitle='Distance', 
                    zTitle='Districts', 
                    theme='pearl',
                    categories='time_of_day', 
                    title='3D Scatter Plot of Logistically Non-optimal Delivery Sessions')

Таких неоптимальных сессий нашлось 134, что составляет более 25% от общего количества сессий доставки. 
Причем, судя по 3d-графику, основная проблема - как раз рассеянность географии доставок в пределах сессий - 
большинство точек сконцентрировано в области 3-х из 4-х районов города. Также отметим, что большинство таких сессий 
приходится на дневное время, впрочем, это вполне соответствует пропорции деления на "ночь-день", принятой в выборке 
(день - между 7 утра и 22 вечера, т.е. 15ч).  
Наличие столь большого количества неоптимально скомпонованных логистически сессий доставки может свидетельствовать, например, 
о необходимости доработки бизнес-логики работы софта, компонующего отдельные заказы в сессии для курьеров. Также здесь вновь нельзя не вспомнить про "перекос" с покрытием ресторанами разных районов города, также наверняка вносящий свою лепту.

#### 7. 
В распоряжении ресторанов имеется 6 единиц транспорта - по 2 авто, скутера и велосипеда. Посмотрим на использование в доставке различных видов транспорта, а именно - на суммарный пробег за год и количество смен, в которых та или иная единица транспорта использовалась.

In [85]:
transp_use = pd.read_csv("transport_usage.csv", index_col='transport_id')

In [86]:
transp_use

Unnamed: 0_level_0,vehicle,total_shifts_used,total_kilometrage
transport_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
5,Bicycle with Reg/Inv # INV01,56,1387
4,Scooter with Reg/Inv # ET-4576,54,1299
3,Scooter with Reg/Inv # ET-1298,53,1296
1,Auto with Reg/Inv # ET-3456,51,1255
2,Auto with Reg/Inv # EB-8723,52,1228
6,Bicycle with Reg/Inv # INV02,34,661


In [87]:
xaxis = transp_use.vehicle
fig = go.Figure(
    data=[
        go.Bar(name='total_kilometrage', 
               x=xaxis, y=transp_use['total_kilometrage'], yaxis='y', offsetgroup=1),
        go.Bar(name='total_shifts_used', 
               x=xaxis, y=transp_use['total_shifts_used'], yaxis='y2', offsetgroup=2)
    ],
    layout={
        'yaxis': {'title': 'Total kilometrage'},
        'yaxis2': {'title': 'Shifts', 'overlaying': 'y', 'side': 'right'}
    },
)

fig.update_layout(title='Vehicles Total Kilometrage and Shifts',
                  legend=dict(yanchor="top", y=1.2, xanchor="left", x=0.6))

За исключением одного из велосипедов суммарный пробег распределен достаточно равномерно и находится в диапазоне 1200-1400 км, что необычно, учитывая столь разные види транспорта. Еще удивительней то, что наибольший пробег (практически 1400 км) - у второго велосипеда! Все же чаще львиная доля индивидуального пробега приходится на автомобили. Этот вопрос нужно изучить поближе - практически одинаково интенсивное использование автомобилей, скутеров и велосипедов может быть как следствием адаптации под условия города и правильным решением, так и одной из причин увеличения сроков доставки заказов.

# Выводы

В ходе анализа работы системы по доставке суши в городе отмечен ряд закономерностей и необычных моментов, сделаны первичные предположения и рекомендации. Среди прочего отметим:
1. В клиентской базе довольно значительна доля старшего поколения.
2. Среди клиентов не очень много хасятников, но они интересны как клиенты, с ними необходимо работать и привлекать новых.
3. Имеет место сильное увеличение количества заказов летом и в выходные.
4. Отмечена подозрительно низкая популярность веб-сайта как средства заказа и безналичных платежей для оплаты заказов.
5. Имеет место крайне неравномерное покрытие города заказами каждым из ресторанов.
6. Среднее время доставки достаточно велико для небольшого города, имеются предпосылки и ресурсы для его сокращения.
7. Более четверти доставочных сессий - неоптимальны с т.зр. логистики и вызваны, в первую очередь, необходимостью в рамках одной сессии посещать несколько разных районов города.
8. Отмечено практически одинаковое использование велосипедов и автомобилей в парке транспорта.