In [16]:
import pandas as pd
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots
from tabulate import tabulate

In [17]:
products = pd.read_csv('PRODUCT_LIST.CSV', encoding='cp1251', sep=';')
products.drop(columns=['Unnamed: 2', 'Unnamed: 3'], inplace=True)
products.rename(columns={'Product_code': 'product_code', 'Product_name': 'product_name'}, inplace=True)
products

Unnamed: 0,product_code,product_name
0,821001,Кофе ЭСПРЕССО 30 мл
1,821002,Кофе ДОППИО 60мл
2,821003,Кофе РИСТРЕТТО 20 мл
3,821004,Фильтр кофе Верньяно250мл
4,821005,Кофе ЛУНГО 50 мл
...,...,...
9781,894094,Тофи-тофу 160г
9782,894095,Япончики 90г
9783,894096,Мо Мо 120г
9784,894097,Салат грейпфрут-манго п/ф


In [18]:
sales = pd.read_csv('SALE_LIST.csv', encoding='cp1251', sep=';')
sales

Unnamed: 0,date,product_code,rest_code,product_count
0,06.01.2009,824021,Озерный,4
1,06.01.2009,824068,Озерный,1
2,06.01.2009,824070,Озерный,2
3,06.01.2009,824073,Озерный,1
4,06.01.2009,824074,Озерный,1
...,...,...,...,...
135915,26.05.2013,892545,Мечта,3
135916,27.05.2013,892545,Мечта,1
135917,28.05.2013,892545,Мечта,3
135918,29.05.2013,892545,Мечта,4


In [19]:
df = sales.set_index(keys='product_code').join(products.set_index(keys='product_code'), on='product_code').reset_index()
df['date'] = pd.to_datetime(df['date'])
df

Unnamed: 0,product_code,date,rest_code,product_count,product_name
0,824021,2009-06-01,Озерный,4,Чай красный фрукт 270мл
1,824068,2009-06-01,Озерный,1,Чай Дянь Хун 600мл
2,824070,2009-06-01,Озерный,2,Чай Жасм (пт/язычк) 500мл
3,824073,2009-06-01,Озерный,1,Чай мятный 500мл
4,824074,2009-06-01,Озерный,1,Чай имбирный 500мл
...,...,...,...,...,...
135915,892545,2013-05-26,Мечта,3,Десерт Манифик 100г
135916,892545,2013-05-27,Мечта,1,Десерт Манифик 100г
135917,892545,2013-05-28,Мечта,3,Десерт Манифик 100г
135918,892545,2013-05-29,Мечта,4,Десерт Манифик 100г


In [20]:
df.describe(include='all', datetime_is_numeric=True)

Unnamed: 0,product_code,date,rest_code,product_count,product_name
count,135920.0,135920,135920,135920.0,135920
unique,,,2,,110
top,,,Мечта,,Кофе Латте 300мл
freq,,,73690,,6666
mean,839804.895917,2011-06-06 11:35:15.079458304,,11.376663,
min,821001.0,2009-01-01 00:00:00,,-6.0,
25%,822006.0,2010-04-06 00:00:00,,2.0,
50%,824074.0,2011-06-10 00:00:00,,5.0,
75%,862094.0,2012-08-03 00:00:00,,12.0,
max,894098.0,2013-12-31 00:00:00,,239.0,


In [21]:
rest_sum = df.groupby('rest_code').sum()['product_count'].reset_index(name='sum').rename(columns={'index': 'rest_code'})
fig = px.bar(rest_sum, x='rest_code', y='sum', color='rest_code', labels={'rest_code': 'Ресторан', 'sum': 'Количество проданных продуктов'})
fig

Unsupported

In [22]:
timeline = df.groupby(by=['rest_code', 'date']).sum()['product_count'].reset_index()
fig = px.line(timeline, x='date', y='product_count', color='rest_code',
              labels={'date': 'Дата', 'product_count': 'Количество проданных продуктов', 'rest_code': 'Ресторан'})
fig.show()

Unsupported

In [23]:
fig = px.box(timeline, y='product_count', color='rest_code',
             labels={'product_count': 'Количество проданных продуктов', 'rest_code': 'Ресторан'})
fig.show()

Unsupported

In [24]:
fig = px.histogram(timeline, x='product_count', color='rest_code', histnorm='probability density', opacity=0.8,
                   barmode='overlay', labels={'product_count': 'Количество проданных продуктов', 'rest_code': 'Ресторан'})
fig.show()

Unsupported

In [25]:
def get_top_products_by_rest(df: pd.DataFrame, top: int = 10):
    product_freq = df.groupby(by=['rest_code', 'product_name']).sum()['product_count'].reset_index(name='count')

    dream_product_freq = product_freq[product_freq['rest_code'] == 'Мечта']
    dream_product_freq = dream_product_freq.sort_values(by='count', ascending=False)[:top]

    lake_product_freq = product_freq[product_freq['rest_code'] == 'Озерный']
    lake_product_freq = lake_product_freq.sort_values(by='count', ascending=False)[:top]

    return dream_product_freq, lake_product_freq

In [26]:

dream_product_freq, lake_product_freq = get_top_products_by_rest(df)

dream_product_list = []
dream_product_freq.apply(lambda row: dream_product_list.append(f'{row["product_name"]} ({row["count"]})'), axis=1)

lake_product_list = []
lake_product_freq.apply(lambda row: lake_product_list.append(f'{row["product_name"]} ({row["count"]})'), axis=1)

print(tabulate(zip(dream_product_list, lake_product_list), headers=['Мечта', 'Озерный'], showindex=True))

    Мечта                              Озерный
--  ---------------------------------  ---------------------------------
 0  Кофе Латте 300мл (143037)          Кофе КАПУЧИНО 150мл (38969)
 1  Кофе КАПУЧИНО 150мл (138546)       Кофе Латте 300мл (31278)
 2  Кофе АМЕРИКАНО 90мл (91865)        Кофе ЭСПРЕССО  30 мл (23792)
 3  Кофе ЭСПРЕССО  30 мл (91759)       Кофе АМЕРИКАНО 90мл (23787)
 4  Раф кофе 300мл (66077)             Раф кофе 300мл (11645)
 5  Раф кофе 350мл (48114)             Чай Ассам Нонаипара 500мл (11320)
 6  Эклер ванильный 60г (42745)        Раф кофе 350мл (10364)
 7  Чай Дардж Марг/Хоул 500мл (41582)  Чай Дардж Марг/Хоул 500мл (7631)
 8  Чай имбирный  500мл (36701)        Эклер ванильный 60г (7007)
 9  Облепиховый чай 500мл (36649)      Чай Жасм (пт/язычк) 500мл (6970)


In [27]:
categories = ['Чай', 'Кофе', 'Пирожное', 'Эклер', 'Круассан', 'Десерт']

def categorize_name(row):
    for category in categories:
        if category.lower() in row['product_name'].lower():
            row['product_name'] = category
    return row

categorized_df = df.apply(categorize_name, axis=1).reset_index().drop(columns='index')
categorized_df

Unnamed: 0,product_code,date,rest_code,product_count,product_name
0,824021,2009-06-01,Озерный,4,Чай
1,824068,2009-06-01,Озерный,1,Чай
2,824070,2009-06-01,Озерный,2,Чай
3,824073,2009-06-01,Озерный,1,Чай
4,824074,2009-06-01,Озерный,1,Чай
...,...,...,...,...,...
135915,892545,2013-05-26,Мечта,3,Десерт
135916,892545,2013-05-27,Мечта,1,Десерт
135917,892545,2013-05-28,Мечта,3,Десерт
135918,892545,2013-05-29,Мечта,4,Десерт


In [28]:
dream_product_freq, lake_product_freq = get_top_products_by_rest(categorized_df)

fig = make_subplots(rows=1, cols=2)

fig.add_bar(x=dream_product_freq['product_name'], y=dream_product_freq['count'], name='Мечта', col=1, row=1)
fig.add_bar(x=lake_product_freq['product_name'], y=lake_product_freq['count'], name='Озерный', col=2, row=1)
fig.update_xaxes(title='Категория продукта')
fig.update_yaxes(title='Количество продаж')
fig.update_layout(legend_title_text='Ресторан')

fig.show()

Unsupported

In [29]:
categorized_timeline = categorized_df.groupby(by=['rest_code', 'date', 'product_name']).sum()[
    'product_count'].reset_index()

dream_categorized_timeline = categorized_timeline[categorized_timeline['rest_code'] == 'Мечта']
lake_categorized_timeline = categorized_timeline[categorized_timeline['rest_code'] == 'Озерный']

fig = make_subplots(cols=2)

fig.add_box(x=dream_categorized_timeline['product_name'], y=dream_categorized_timeline['product_count'], name='Мечта',
            col=1, row=1)
fig.add_box(x=lake_categorized_timeline['product_name'], y=lake_categorized_timeline['product_count'], name='Озерный',
            col=2, row=1)

fig.update_xaxes(title='Категория продукта')
fig.update_yaxes(title='Количество продаж')
fig.update_layout(legend_title_text='Ресторан')

fig.show()

Unsupported