## Модуль plotly 3. Домашнее задание

### Цель задания

В этом задании вы закрепите и самостоятельно отработаете знания и навыки работы с Plotly, полученные в пройденном модуле.

### Советы и рекомендации

Вам может помочь:
- знание того, что plotly.express.scatter() и прочие подобные методы возвращают объект класса Figure, с атрибутами которого вы уже умеете работать;
- документация [по layout.xaxis](https://plotly.com/python/reference/layout/xaxis/), например, какие-то из параметров dtick, tick0, tickmode, tickvals, ticktext.

### Что оценивается

1. Наличие всех требуемых графиков и прогнозов.
2. Соответствие графиков требованиям, указанным в соответствующих пунктах.
3. Точность прогноза.
4. Обоснование применения сторонних алгоритмов или методов, не рассмотренных в модуле, если такие использованы. Их использование должно повышать точность прогнозирования в сравнении с базовым прогнозированием с помощью линейного тренда. В таком случае нужно выбрать метрики качества регрессии самостоятельно и обосновать их.
5. Правильность ответов в свободной форме в пункте 7.

### Как отправить задание на проверку

Результатом работы должен быть Jupyter Notebook с кодом, построенными графиками и комментариями к пунктам 4 (если вы используете методы или алгоритмы, которые мы не изучали в этом модуле), 6, 7 и 8.

Результатом выполнения пункта 8 должны быть как сами прогнозы, так и все дополнительные материалы и объяснения построения прогнозов.

Итоговый файл с расширением .ipynb загрузите в личный кабинет и отправьте на проверку.



0. Загрузите датасет из практического задания после первого урока hw_sales.csv.

In [1]:
import pandas as pd
import numpy as np
import plotly.graph_objects as go
import plotly.express as px

In [14]:
df = pd.read_csv('hw_sales.csv')
df.head()

Unnamed: 0,quarter number,sales amount,item
0,0,129.904198,pen
1,1,137.40185,pen
2,2,141.382504,pen
3,3,161.056964,pen
4,4,167.257382,pen


1. Постройте ряд для суммарного количества проданных ручек и карандашей (можно создать новый объект с данными или преобразовать существующий, добавив в него суммарные продажи).

In [20]:
summary = df.groupby('quarter number', as_index=False).agg({'sales amount':'sum'})
# summary = df.groupby('quarter number')['sales amount'].sum()
summary.head(2)

Unnamed: 0,quarter number,sales amount
0,0,326.610061
1,1,336.769007


2. Постройте график суммарного количества продаж вместе с линейным трендом.

In [34]:
fig1 = px.scatter(summary, x='quarter number', y='sales amount', trendline='ols', title='Summary sales by quarters'fig1)
fig1.show()

3. Настройте график так, чтобы все оси были подписаны (ось X — quarter number, ось Y — sales amount), а по оси X были значения от 1 до 20. Для получения результата можно как настраивать сам график, так и модифицировать датасет.

In [40]:
fig1.update_layout(xaxis = {'dtick':1})
fig1.show()

4. Спрогнозируйте суммарные продажи для кварталов 21, 22, 23 и 24 (можно делать это как с помощью линейного тренда, так и с помощью других доступных вам средств. Использование этих средств должно быть обосновано в комментариях к коду).

In [58]:
result = px.get_trendline_results(fig1)
result = result.at[0,'px_fit_results']
result.summary() #преобразовали линию тренда в данные
const_coef = 350.3007
x1_coef = 6.8942

results = [x1_coef * q + const_coef for q in [21,22,23,24]]
results

[495.0789, 501.9731, 508.8673, 515.7615000000001]

5. Добавьте на этот же график столбчатые диаграммы продаж ручек и карандашей.


In [90]:
fig1.data[1].name = 'Trendline'

In [95]:
fig1.data[1].showlegend = True

In [96]:
fig2 = go.Figure()
fig2.add_trace(fig1.data[0])
fig2.add_trace(fig1.data[1])

fig2.add_trace(go.Bar(
    x=df['quarter number'],
    y=df[df['item']=='pen']['sales amount'],
    name='Pen'
))
fig2.add_trace(go.Bar(
    x=df['quarter number'],
    y=df[df['item']=='pencil']['sales amount'],
    name='Pencil'
))

fig2.update_xaxes(title_text='Quarter number')
fig2.update_yaxes(title_text='Sales amount')
fig2.update_layout(title='Sales of pens and pencils by quarts')

6. Проконтролируйте наличие легенды к столбчатым диаграммам для ручек и карандашей, а также для точек суммарных продаж. Если каких-то из них нет, то поправьте. Посмотрите значение \<figure_variable_name>.data: что там не так и что нужно поправить?


In [97]:
fig2.data

(Scatter({
     'hovertemplate': 'quarter number=%{x}<br>sales amount=%{y}<extra></extra>',
     'legendgroup': '',
     'marker': {'color': '#636efa', 'symbol': 'circle'},
     'mode': 'markers',
     'name': '',
     'orientation': 'v',
     'showlegend': False,
     'x': array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16, 17,
                 18, 19]),
     'xaxis': 'x',
     'y': array([326.61006063, 336.7690073 , 364.02154782, 403.97614243, 404.23388126,
                 400.69527318, 390.15549426, 392.95489779, 395.92852204, 416.16787781,
                 416.437991  , 431.70414841, 443.69757433, 437.06543638, 432.06747994,
                 425.89515158, 430.02349179, 471.87223621, 491.9325728 , 503.70728235]),
     'yaxis': 'y'
 }),
 Scatter({
     'hovertemplate': ('<b>OLS trendline</b><br>sales ' ... ' <b>(trend)</b><extra></extra>'),
     'legendgroup': '',
     'marker': {'color': '#636efa', 'symbol': 'circle'},
     'mode': 'lines',
     'name': 'Tren

7. Проанализируйте изменения соотношения количества проданных ручек и карандашей. Что с ним происходит со временем? Какая тенденция? Напишите ответ в свободной форме и обоснуйте его с помощью графиков и комментариев к ним.

In [141]:
pen = df[df['item'] == 'pen']
pencil = df[df['item'] == 'pencil']
temp = pen.merge(pencil, on='quarter number')
temp = temp.rename(columns={'sales amount_x':'pen_sales', 'sales amount_y':'pencil_sales'})
del(temp['item_x'], temp['item_y'])
temp['corr'] = temp.pencil_sales / temp.pen_sales

In [110]:
fig3 = px.scatter(temp, x='quarter number', y='corr', trendline='ols')
fig3.show()

8. (по желанию) Спрогнозируйте количество проданных ручек и карандашей на кварталы 21, 22, 23 и 24 так, чтобы сумма их прогнозов была равна ранее построенному прогнозу суммарного количества продаж (если для прогноза используется график, его нужно нарисовать, но настраивать его оси и прочий внешний вид необязательно).

In [143]:
pencil = pencil.reset_index()
del(pencil['index'])

In [144]:
pen.head()

Unnamed: 0,quarter number,sales amount,item
0,0,129.904198,pen
1,1,137.40185,pen
2,2,141.382504,pen
3,3,161.056964,pen
4,4,167.257382,pen


In [149]:
fig_pen = px.scatter(pen, x='quarter number', y='sales amount', trendline='ols', title='pen')
fig_pencil = px.scatter(pencil, x='quarter number', y='sales amount', trendline='ols', title='pencil')

fig_pen.show()
fig_pencil.show()

In [157]:
pen_trend = px.get_trendline_results(fig_pen).at[0,'px_fit_results']
pencil_trend = px.get_trendline_results(fig_pencil).at[0,'px_fit_results']

pen_const = 137.8344
pen_x = 4.3068

# pencil_trend.summary()

pencil_x = 2.5874
pencil_const = 212.4663

pen_results = [pen_x * q + pen_const for q in [21,22,23,24]]
pencil_results = [pencil_x * q + pencil_const for q in [21,22,23,24]]

In [174]:
results2 = pd.DataFrame(pen_results, columns=['pen'])
results2['pencil'] = pencil_results
results2
summary = results2.pen + results2.pencil
summary, results

(0    495.0789
 1    501.9731
 2    508.8673
 3    515.7615
 dtype: float64,
 [495.0789, 501.9731, 508.8673, 515.7615000000001])