# Линии трендов

In [1]:
import pandas as pd
import numpy as np
import plotly.express as px

In [4]:
iris_df = px.data.iris()
iris_df.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species,species_id
0,5.1,3.5,1.4,0.2,setosa,1
1,4.9,3.0,1.4,0.2,setosa,1
2,4.7,3.2,1.3,0.2,setosa,1
3,4.6,3.1,1.5,0.2,setosa,1
4,5.0,3.6,1.4,0.2,setosa,1


In [140]:
# trendline='ols' - отрисовка линий тренда на графике ('ols' - для линейного тренда)
px.scatter(data_frame = iris_df, x = 'sepal_length', y = 'petal_length', color = 'species', trendline='ols')

In [14]:
sales_df = pd.read_csv('simple_sales.csv', index_col = 0)['sales amount']
sales_df.head()

quarter number
0    130.143154
1    133.618384
2    140.339108
3    149.498038
4    150.871549
Name: sales amount, dtype: float64

In [90]:
# При передачи pandas series, чтобы ось Y была корректно подписана, нужно указать явно y = 'Some_col_name'
# Явное указание так же убирает ненужнную легенду из 1 значения
# При наведении курсора на линию можно увидеть формулу 'ols' ('ols' - метод наименьших квадратов)

px.scatter(sales_df, y = 'sales amount', trendline = 'ols')

In [21]:
# Чтобы сделать прогноз по росту, нужно взять формулу из линии тренда (навести мышь на линию тренда), выписать коэффициенты
# и подставить в quarter_number (интересующий номер периода)
# 20 и 21 - интересующие нас номера периодов

k_est = 5.52
b_est = 129.5
k_est * 20 + b_est, k_est * 21 + b_est

(239.89999999999998, 245.42)

In [50]:
fig = px.scatter(sales_df, y = 'sales amount', trendline = 'ols')
# Возвращает df с колонкой px_fit_results лежит модель линейной регрессии, которая задает линейный тренд.
results = px.get_trendline_results(fig)
results

Unnamed: 0,px_fit_results
0,<statsmodels.regression.linear_model.Regressio...


In [52]:
# Чтобы посмотреть сводный отчет по модели, нужно вызвать метод summary. Обращаемся к модели px_fit_results
px_fit_results = results.at[0, 'px_fit_results']
px_fit_results.summary()

0,1,2,3
Dep. Variable:,y,R-squared:,0.989
Model:,OLS,Adj. R-squared:,0.988
Method:,Least Squares,F-statistic:,1601.0
Date:,"Sun, 19 Dec 2021",Prob (F-statistic):,4.85e-19
Time:,05:21:55,Log-Likelihood:,-52.716
No. Observations:,20,AIC:,109.4
Df Residuals:,18,BIC:,111.4
Df Model:,1,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
const,129.5358,1.534,84.452,0.000,126.313,132.758
x1,5.5221,0.138,40.009,0.000,5.232,5.812

0,1,2,3
Omnibus:,6.546,Durbin-Watson:,1.935
Prob(Omnibus):,0.038,Jarque-Bera (JB):,4.173
Skew:,-1.045,Prob(JB):,0.124
Kurtosis:,3.801,Cond. No.,21.5


In [53]:
# Чтобы получить параметры модели в явном виде вызываем params
# Первое значение модели - сдвиг по оси OY, второе - коэффициент наклона
px_fit_results.params

array([129.53584916,   5.5221231 ])

In [62]:
sales_df1 = pd.read_csv('hw_sales.csv', index_col = 0)
sales_df1.head(3)

Unnamed: 0_level_0,sales amount,item
quarter number,Unnamed: 1_level_1,Unnamed: 2_level_1
0,129.904198,pen
1,137.40185,pen
2,141.382504,pen


In [63]:
# facet_row - разделение на subplots 
fig1 = px.scatter(sales_df1, x = sales_df1.index, y = 'sales amount', facet_row = 'item', trendline = 'ols')
fig1.show()

In [68]:
# Получаем углы наклона линий тренда
trend_info = px.get_trendline_results(fig1).set_index('item')['px_fit_results'].map(lambda res: res.params[1])
trend_info

item
pen       4.306805
pencil    2.587411
Name: px_fit_results, dtype: float64

___________________

# Столбчатые диаграммы | Bar chart

In [71]:
df_invest_scopes = pd.read_csv('invest_scopes.csv', index_col = 0)
df_invest_scopes

Unnamed: 0_level_0,Millions$
scope,Unnamed: 1_level_1
agrotechnical industry,621.353015
medicine,457.311321
robotics,829.171269
green energy,550.008299
logistics,468.679021


In [73]:
px.bar(df_invest_scopes, y = 'Millions$')

In [82]:
df_invest_scopes_ext = pd.read_csv('invest_scopes_ext.csv', index_col = 0)
df_invest_scopes_ext.size

20

In [84]:
# orientation: 'h' / 'v' - горизонтальные / вертикальные столбцы
px.bar(df_invest_scopes_ext, x = 'Millions$', orientation = 'h')

In [92]:
invest_scopes_topn = pd.read_csv('invest_scopes_topn.csv')
invest_scopes_topn

Unnamed: 0,scope,total,top_1,top_2,top_3,rest
0,agrotechnical industry,621.353015,197.912796,141.737188,9.662287,272.040743
1,medicine,457.311321,197.264898,49.139097,46.511211,164.396115
2,robotics,829.171269,264.185844,102.160601,1.137007,461.687817
3,green energy,550.008299,222.875909,140.7811,75.94187,110.40942
4,logistics,468.679021,203.492507,180.52856,76.750472,7.907482


In [121]:
# По умолчанию X - это индекс df
# Из-за порядка указания y колонки будут строиться соответственно снизу вверх. т.е. нижнее (синие) - top_1, верхнее - rest
# изменить порядок столбцов можно (сверху top_1) передав [::-1] в конец списка переменной Y
# labels = {'variable': 'company'} - заголовок легенды, т.к. мы строим график по нескольким столбцам дефолтный - variable 
px.bar(invest_scopes_topn, y = ['top_1', 'top_2', 'top_3', 'rest'][::-1], labels = {'variable': 'company'})

In [117]:
invest_scopes_topn_narrow_df = invest_scopes_topn.copy()


invest_scopes_topn_narrow_df.set_index('scope', inplace = True)

invest_scopes_topn_narrow_df = (invest_scopes_topn_narrow_df.drop('total', axis=1).unstack()
                         .reset_index()
                         .rename(columns={'level_0': 'company', 0: 'millions of $'}))

invest_scopes_topn_narrow_df

Unnamed: 0,company,scope,millions of $
0,top_1,agrotechnical industry,197.912796
1,top_1,medicine,197.264898
2,top_1,robotics,264.185844
3,top_1,green energy,222.875909
4,top_1,logistics,203.492507
5,top_2,agrotechnical industry,141.737188
6,top_2,medicine,49.139097
7,top_2,robotics,102.160601
8,top_2,green energy,140.7811
9,top_2,logistics,180.52856


In [122]:
# category_orders - задает порядок построения столбцов (снизу вверх, за счет [::-1] инвертируем)
px.bar(invest_scopes_topn_narrow_df, x='scope', y='millions of $', color = 'company', 
      category_orders={'company': ['top_1', 'top_2', 'top_3', 'rest'][::-1]})

In [125]:
income_df = pd.read_csv('income.csv', index_col = 0, parse_dates = True)
income_df

Unnamed: 0_level_0,sales,rent,service
month,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2020-01-01,126.269604,52.612335,21.044934
2020-02-01,141.710464,59.57215,27.092345
2020-03-01,143.258175,60.743153,31.776682
2020-04-01,151.337572,64.635692,39.652148
2020-05-01,155.071431,66.717589,48.439364
2020-06-01,171.641897,74.148074,66.104156
2020-07-01,171.666431,74.68442,80.770898
2020-08-01,186.932166,81.571266,112.57405
2020-09-01,201.171557,88.030469,158.841423
2020-10-01,207.043269,91.003139,214.535668


In [127]:
# barmode = 'group' - группировка столбцов исходя из переданных аргументов в Y, 
# работает при условии, что в Y передается несколько аргументов
px.bar(income_df, y = ['sales', 'rent', 'service'], barmode = 'group')

In [129]:
stocks_df = px.data.stocks()
stocks_df

Unnamed: 0,date,GOOG,AAPL,AMZN,FB,NFLX,MSFT
0,2018-01-01,1.000000,1.000000,1.000000,1.000000,1.000000,1.000000
1,2018-01-08,1.018172,1.011943,1.061881,0.959968,1.053526,1.015988
2,2018-01-15,1.032008,1.019771,1.053240,0.970243,1.049860,1.020524
3,2018-01-22,1.066783,0.980057,1.140676,1.016858,1.307681,1.066561
4,2018-01-29,1.008773,0.917143,1.163374,1.018357,1.273537,1.040708
...,...,...,...,...,...,...,...
100,2019-12-02,1.216280,1.546914,1.425061,1.075997,1.463641,1.720717
101,2019-12-09,1.222821,1.572286,1.432660,1.038855,1.421496,1.752239
102,2019-12-16,1.224418,1.596800,1.453455,1.104094,1.604362,1.784896
103,2019-12-23,1.226504,1.656000,1.521226,1.113728,1.567170,1.802472


In [130]:
fig = go.Figure()
for col_name in stocks_df.columns[1:]:
    fig.add_trace(go.Scatter(x=stocks_df['date'], y=stocks_df[col_name], name=col_name))
fig.show()

In [138]:
# Можно получить тот же результат чуть быстрее и с меньшим количеством кода с помощью List Comprehension и 
# явного указания значения аргумента data

go.Figure(data=[go.Scatter(x=stocks_df['date'], y=stocks_df[col_name], name=col_name)
                for col_name in stocks_df.columns if col_name != 'date'])