# Установка библиотеки

In [9]:
# !pip install plotly  

# Импорт библиотек

In [10]:
import plotly.express as px
import pandas as pd

Документация `Plotly` содержит новые функции построения диаграмм и подробные описания параметров для диаграмм, которые мы сегодня рассмотрим.

# Scatter - точечная диаграмма

In [11]:
fig = px.scatter(x=[0, 1, 2, 3, 4], y=[0, 1, 4, 9, 16])
fig.show()

In [12]:
df = px.data.iris() # iris is a pandas DataFrame
display(df.sample(5))
fig = px.scatter(df, x="sepal_width", y="sepal_length")
fig.show()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species,species_id
140,6.7,3.1,5.6,2.4,virginica,3
24,4.8,3.4,1.9,0.2,setosa,1
99,5.7,2.8,4.1,1.3,versicolor,2
66,5.6,3.0,4.5,1.5,versicolor,2
74,6.4,2.9,4.3,1.3,versicolor,2


In [13]:
df = px.data.iris()
# size контролирует по какому параметру брать размер шарика, hover_data позволяет при наведении отобразить информацию по переданным столбцам

fig = px.scatter(df, x="sepal_width", y="sepal_length", color="species",
                 size='petal_length', hover_data=['petal_width']) 
fig.show()

In [14]:
df = px.data.iris()
# Параметр color изменяет цвет точек по определенному столбцу
fig = px.scatter(df, x="sepal_width", y="sepal_length", color='petal_length')
fig.show()

In [15]:
df = px.data.iris()
# Параметр symbol изменяет маркеры точек по определенному столбцу
fig = px.scatter(df, x="sepal_width", y="sepal_length", color="species", symbol="species")
fig.show()

In [16]:
df = px.data.tips()
display(df.sample(5))
# trendline отображает линию тренда проходящую между точек

fig = px.scatter(df, x="total_bill", y="tip", trendline="ols")
fig.show()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
119,24.08,2.92,Female,No,Thur,Lunch,4
124,12.48,2.52,Female,No,Thur,Lunch,2
39,31.27,5.0,Male,No,Sat,Dinner,3
44,30.4,5.6,Male,No,Sun,Dinner,4
25,17.81,2.34,Male,No,Sat,Dinner,4


ModuleNotFoundError: No module named 'statsmodels'

In [17]:
df = px.data.tips()
# facet_col и facet_row контролируют значения определенного столбца датафрейма по колонке и строке соответственно
fig = px.scatter(df, x="total_bill", y="tip", color="smoker", facet_col="sex", facet_row="time")
fig.show()

# Line plots - линейчатые диаграммы

In [18]:
df = px.data.gapminder().query("country=='Canada'")
display(df.sample(5))
fig = px.line(df, x="year", y="lifeExp", title='Life expectancy in Canada')
fig.show()

Unnamed: 0,country,continent,year,lifeExp,pop,gdpPercap,iso_alpha,iso_num
248,Canada,Americas,1992,77.95,28523502,26342.88426,CAN,124
240,Canada,Americas,1952,68.75,14785584,11367.16112,CAN,124
249,Canada,Americas,1997,78.61,30305843,28954.92589,CAN,124
241,Canada,Americas,1957,69.96,17010154,12489.95006,CAN,124
243,Canada,Americas,1967,72.13,20819767,16076.58803,CAN,124


In [19]:
df = px.data.gapminder().query("continent=='Oceania'")
fig = px.line(df, x="year", y="lifeExp", color='country')
fig.show()

In [20]:
df = pd.DataFrame(dict(
    x = [1, 3, 2, 4],
    y = [1, 2, 3, 4]
))
fig = px.line(df, x="x", y="y", title="Unsorted Input") 
fig.show()

df = df.sort_values(by=["x"])
fig = px.line(df, x="x", y="y", title="Sorted Input") 
fig.show()

In [21]:
df = px.data.gapminder().query("continent == 'Oceania'")
# markers = True , отображает маркеры на графике

fig = px.line(df, x='year', y='lifeExp', color='country', markers=True)
fig.show()

# Bar plots - столбчатые диаграммы

In [22]:
data_canada = px.data.gapminder().query("country == 'Canada'")
fig = px.bar(data_canada, x='year', y='pop')
fig.show()

In [23]:
long_df = px.data.medals_long()
display(long_df.sample(5))

fig = px.bar(long_df, x="nation", y="count", color="medal", title="Long-Form Input")
fig.show()

Unnamed: 0,nation,medal,count
7,China,bronze,8
4,China,silver,15
3,South Korea,silver,13
5,Canada,silver,12
6,South Korea,bronze,11


In [24]:
df = px.data.gapminder().query("country == 'Canada'")
# Параметр labels позволяет задать свои названия осей путём передачи внутрь словаря, параметр height контролирует высоту графика

fig = px.bar(df, x='year', y='pop',
             hover_data=['lifeExp', 'gdpPercap'], color='lifeExp',
             labels={'pop':'population of Canada'}, height=400)
fig.show()

In [25]:
df = px.data.gapminder().query("continent == 'Oceania'")
fig = px.bar(df, x='year', y='pop',
             hover_data=['lifeExp', 'gdpPercap'], color='country',
             labels={'pop':'population of Canada'}, height=400)
fig.show()

In [26]:
df = px.data.tips()
# Параметр barmode="group" позволяет не накладывать диаграммы друг на друга и разбить их по отдельности

fig = px.bar(df, x="sex", y="total_bill",
             color='smoker', barmode='group',
             height=400)
fig.show()

# Pie plots - диаграммы "Пирог" :)

In [27]:
df = px.data.gapminder().query("year == 2007 & continent == 'Europe'")
df.loc[df['pop'] < 2, 'country'] = 'Other countries' # Represent only large countries
display(df.sample(5))

fig = px.pie(df, values='pop', names='country', title='Population of European continent')
fig.show()

Unnamed: 0,country,continent,year,lifeExp,pop,gdpPercap,iso_alpha,iso_num
779,Italy,Europe,2007,80.546,58147733,28569.7197,ITA,380
83,Austria,Europe,2007,79.829,8199783,36126.4927,AUT,40
1427,Spain,Europe,2007,80.941,40448191,28821.0637,ESP,724
1583,Turkey,Europe,2007,71.777,71158647,8458.276384,TUR,792
527,Finland,Europe,2007,79.313,5238460,33207.0844,FIN,246


In [28]:
df = px.data.tips()
display(df.sample(5))
fig = px.pie(df, values='tip', names='day')
fig.show()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
153,24.55,2.0,Male,No,Sun,Dinner,4
236,12.6,1.0,Male,Yes,Sat,Dinner,2
5,25.29,4.71,Male,No,Sun,Dinner,4
235,10.07,1.25,Male,No,Sat,Dinner,2
6,8.77,2.0,Male,No,Sun,Dinner,2


In [29]:
df = px.data.tips()
# Параметр "color_discrete_sequence=px.colors.sequential.RdBu" задаёт палитру цветов. В документации они описаны более подробно, можете поискать там наиболее подходящую вам :)

fig = px.pie(df, values='tip', names='day', color_discrete_sequence=px.colors.sequential.RdBu)
fig.show()

In [30]:
fig = px.pie(df, values='tip', names='day', color='day',
             color_discrete_map={'Thur':'lightcyan',
                                 'Fri':'cyan',
                                 'Sat':'royalblue',
                                 'Sun':'darkblue'})
fig.show()

In [31]:
df = px.data.gapminder().query("year == 2007 & continent == 'Americas'")
fig = px.pie(df, values='pop', names='country',
             title='Population of American continent',
             hover_data=['lifeExp'], labels={'lifeExp':'life expectancy'})
# метод .update_traces позволяет нанести текст на вашу диаграмму
# в методе есть параметр "textposition" который указывает на то где должен распологаться текст, в данном случае "inside" - "внутри"
# в методе также есть параметр "textinfo" который указывает на то, что отображать на графике, в данном случае "проценты и название страны"

fig.update_traces(textposition='inside', textinfo='percent+label')
fig.show()

# Box plots - Боксплоты или ящики с усами

In [32]:
df = px.data.tips()
fig = px.box(df, y="total_bill")
fig.show()

In [None]:
fig = px.box(df, x="time", y="total_bill")
fig.show()

In [None]:
fig = px.box(df, x="time", y="total_bill", points="all")
fig.show()

In [None]:
fig = px.box(df, x="day", y="total_bill", color="smoker")
fig.show()

# Histogram plot - Гистограмма

In [None]:
df = px.data.tips()
fig = px.histogram(df, x="total_bill")
fig.show()

In [None]:
fig = px.histogram(df, x="day")
fig.show()

In [None]:
# nbins контролирует размер корзины (ширины одного столбца)
fig = px.histogram(df, x="total_bill", nbins=5)
fig.show()

In [None]:
df = px.data.stocks()
display(df.sample(5))
fig = px.histogram(df, x="date")
fig.update_layout(bargap=0.01) #bargap позволяет разъеденить столбцы друг от друга
fig.show()

In [None]:
df = px.data.tips()
fig = px.histogram(df, x="total_bill",
                   title='Histogram of bills',
                   labels={'total_bill':'total bill'}, # Изменяем название осей
                   opacity=0.8, # Контролирует степень прозрачности графика
                   color_discrete_sequence=['indianred'] # Изменяем цвет графика
                   )
fig.show()

In [None]:
fig = px.histogram(df, x="total_bill", color="sex")
fig.show()

In [None]:
fig = px.histogram(df, x="total_bill", y="tip", histfunc='avg')
fig.show()

In [None]:
fig = px.histogram(df, x="sex", y="total_bill", color="sex", pattern_shape="smoker")
fig.show()

In [None]:
fig = px.histogram(df, x="total_bill", color="sex", marginal="box", # marginal может быть `box`, `violin`
                         hover_data=df.columns)
fig.show()

In [None]:
fig = px.histogram(df, x="total_bill", y="tip", histfunc="avg", nbins=8, text_auto=True) # histfunc позволяет применить функцию к данным построенным по y и сгруппированным по x
fig.show()

# Distplot - Диаграмма распределения

In [None]:
df = px.data.tips()
fig = px.histogram(df, x="total_bill", y="tip", color="sex", marginal="rug", # marginal может быть `box`, `violin`
                   hover_data=df.columns)
fig.show()

In [None]:
import plotly.figure_factory as ff # Новый модуль для построения распределений в plotly
import numpy as np
np.random.seed(1) # Фиксируем "seed" для воспроизводимости значений

x = np.random.randn(1000) # Генерируем тысячу рандомных значений
hist_data = [x] # Записываем наш датасет(ы) в список
group_labels = ['distplot'] # Определяем название датасета(ов)

fig = ff.create_distplot(hist_data, group_labels)
fig.show()

In [None]:
x1 = np.random.randn(200) - 2
x2 = np.random.randn(200)
x3 = np.random.randn(200) + 2
x4 = np.random.randn(200) + 4

# Записываем наши датасеты в список
hist_data = [x1, x2, x3, x4]
# Записываем название датасетов в список
group_labels = ['Group 1', 'Group 2', 'Group 3', 'Group 4']

# Строим график
fig = ff.create_distplot(hist_data, group_labels, bin_size=.2) # Можно задать bin_size для графиков
fig.show()

In [None]:
x1 = np.random.randn(200)-2
x2 = np.random.randn(200)
x3 = np.random.randn(200)+2
x4 = np.random.randn(200)+4

hist_data = [x1, x2, x3, x4]
group_labels = ['Group 1', 'Group 2', 'Group 3', 'Group 4']

fig = ff.create_distplot(hist_data, group_labels, bin_size=[.1, .25, .5, 1]) # Можно задать bin_size для каждого графика
fig.show()

In [None]:
x1 = np.random.randn(200) - 1
x2 = np.random.randn(200)
x3 = np.random.randn(200) + 1

hist_data = [x1, x2, x3]

group_labels = ['Group 1', 'Group 2', 'Group 3']
colors = ['#333F44', '#37AA9C', '#94F3E4'] # Можно задать свои цвета в списке и передать их в параметр colors

# Create distplot with curve_type set to 'normal'
fig = ff.create_distplot(hist_data, group_labels, show_hist=False, colors=colors)

# Add title
fig.update_layout(title_text='Curve and Rug Plot')
fig.show()

# Heatmap - тепловая карта

In [None]:
df = px.data.tips()

fig = px.density_heatmap(df, x="total_bill", y="tip") # Применим метод density_heatmap
fig.show()

In [None]:
fig = px.density_heatmap(df, x="total_bill", y="tip", nbinsx=50, nbinsy=20, color_continuous_scale="Viridis")
fig.show()

In [None]:
fig = px.density_heatmap(df, x="total_bill", y="tip", marginal_x="histogram", marginal_y="histogram") # Параметры marginal_x и marginal_y выводят гистограммы обоих признаков соответственно
fig.show()

In [None]:
fig = px.density_heatmap(df, x="total_bill", y="tip", facet_row="sex", facet_col="smoker") # Параметры facet_row и facet_col могут принимать название столбцов по которым отобразить тепловую карту 
fig.show()

In [None]:
fig = px.density_heatmap(df, x="total_bill", y="tip", text_auto=True)
fig.show()

In [None]:
df = px.data.iris()

# Чтобы функция histfunc сработала необходимо передать в параметр z название столбца к которому эта функция будет применена
fig = px.density_heatmap(df, x="petal_length", y="petal_width", z="sepal_length", histfunc="avg")
fig.show()