познакомимся с библиотекой визуализации данных Plotly, которая позволяет делать интерактивные визуализации. Для этого она использует браузер и использует JS-библиотеку тоже Plotly, которая позволяет делать визуализацию, с которой вы можете взаимодействовать. Со стороны Python вам понадобится тоже библиотека Plotly, которую нужно установить и ее можно использовать в двух режимах. Один режим — это онлайн-режим, когда у вас используется сервер Plotly, вам нужно получить логин, пароль и это позволяет вам сохранять ваше изображение в облаке и иметь к нему доступ в любой момент с любого устройства. Второй способ — это оффлайн-режим, когда вы используете визуализацию и библиотеку визуализации, которая у вас есть локально на вашей машине и вы можете все визуализировать у себя в браузере и возможно потом сохранять в облако дополнительной кнопкой. Здесь показаны два способа импортирования plotly: первый — онлайн, второй — оффлайн

Мы импортируем plotly оффлайн и для создания визуализации импортируем все графы объекта, которые есть в библиотеке from plotly.graph_objs import* Графы объекта — это те объекты, которые вы используете, чтобы создавать визуализации

In [2]:
#import plotly.plotly as py
import plotly.offline as offline
from plotly.graph_objs import *

 метод init_notebook_mode. Что он делает? Он берет весь js и все css стили, которые нужны библиотеке для визуализации, и встраивает их в ваш IPython Notebook. У него еще есть параметр — connected, который может быть True или False. Но default — он False и означает, что используется JS-библиотека из plotly package Python, и поэтому вам не нужен вообще Интернет, чтобы работать. Во втором случае, если connected будет True, то ваш JPython Notebook будет меньше весить, и будет использоваться в real-time и скачиваться с сайта plotly вся JS-обвязка.

In [3]:
offline.init_notebook_mode(connected = True)

In [4]:
import pandas as pd
df = pd.read_csv('https://raw.githubusercontent.com/yankev/test/master/life-expectancy-per-GDP-2007.csv')
df.sort_values('gdp_percap', inplace=True)
df.head()

Unnamed: 0.1,Unnamed: 0,continent,country,gdp_percap,life_exp
12,12,Americas,Country: Haiti<br>Population: 8502814.0,1201.637154,60.916
16,16,Americas,Country: Nicaragua<br>Population: 5675356.0,2749.320965,72.899
13,13,Americas,Country: Honduras<br>Population: 7483763.0,3548.330846,70.198
1,1,Americas,Country: Bolivia<br>Population: 9119152.0,3822.137084,65.554
18,18,Americas,Country: Paraguay<br>Population: 6667147.0,4172.838464,71.752


Это dataset, который рассказывает нам о данных GDP, то есть о валовом продукте, и продолжительности жизни в разных странах, на разных континентах: в Америке и в Европе. Таким образом он выглядит. И мы его подготовим для дальнейшей визуализации, отсортировав dataset по GDP, по валовому продукту. Для создания визуализации в plotly используется такое понятие, как trace. Trace — это визуализация какого-то одного распределения данных. В нашем случае мы будем делать trace в виде scatter plot, то есть точек или линий. И для этого мы используем объект scatter. Мы говорим, что trace = Scatter, и передаем ему туда два параметра. Один — это x, то есть что у нас будет по x-оси. По x-оси у нас будет GDP. Plotly здесь может работать со списком, может работать с Series из датафрейма


Итак, мы передали два параметра. Что нам нужно сделать дальше? Дальше нам нужно создать объект data, который инкапсулирует в себе все те графики, которые мы хотим нарисовать. В данном случае у нас всего один график, один trace. Поэтому мы делаем массив из одного trace. И с этим объектом мы можем идти к plotly, в данном случае к оффлайн его версии, и сказать iplot что-то, а именно data. Отлично, мы получили такой график, где мы видим line chart, где по x у нас — GDP в количестве десятков тысяч долларов, а по y — средняя продолжительность жизни. Как мы видим, продолжительность в среднем растет с ростом GDP. И что классного, про plotly, как мы видим, — это интерактивный график. Мы наводим на конкретное значение, и даже если у нас всего пять засечек на полосе x, мы видим конкретные значения x и y, которые принимают наши данные. 

In [5]:
trace = Scatter(x=df.gdp_percap,
                y=df.life_exp)

data = Data([trace])
offline.iplot(data)


plotly.graph_objs.Data is deprecated.
Please replace it with a list or tuple of instances of the following types
  - plotly.graph_objs.Scatter
  - plotly.graph_objs.Bar
  - plotly.graph_objs.Area
  - plotly.graph_objs.Histogram
  - etc.




Давайте сделаем несколько графиков или несколько trace-ов. Для этого чуть обработаем наш датасет. Сделаем следующие вещи: сделаем новую колонку population, куда мы извлечем из строки country ее население. И сделаем колонку name, где мы запишем название страны. И также разобьем наш data frame на два. Один, который на континенте — Америка, второй, который на континенте — Европа. Отлично, у нас есть два data frame. Мы создаем два trace. Trace один и trace два. Trace один — это тот же scatter, но не на всем data frame, а на americas. Trace два — это то же самое, но на europe data frame. Получившиеся два trace мы передаем в массив и передаем в объект data, чтобы показать две визуализации. Запустим и видим два line chart разного цвета и с легендой. 


Объект scatter и сам trace отвечают за то, как выглядит конкретная одна визуализация

In [6]:
df['population'] = df.country.str.split(':').apply(lambda words: float(words[-1]))
df['name'] = df.country.str.split(':').apply(lambda words: words[1].split('<br>')[0])

americas = df[(df.continent=='Americas')]
europe = df[(df.continent=='Europe')]

In [7]:
trace1 = Scatter(
    x=americas.gdp_percap,
    y=americas.life_exp,
    name='Americas',
    #mode='markers',
    text=americas.name
)

trace2 = Scatter(
    x=europe.gdp_percap,
    y=europe.life_exp,
    name='Europe',
     #mode='markers',
    text=europe.name
)

data = Data([trace1, trace2])

offline.iplot(data)

режим markers и мы сделаем это у обоих графиков, у обоих trace-ов. Всего мы видим два набора точек. Но когда мы наводимся на одну из точек, мы не знаем, что это за страна, что не очень удобно, но мы можем это исправить, передав в параметр text список из названий, где названия будут названия наших стран, которые также хранятся в нашем data frame. В одном случае это americas_name. Во втором случае — это europe_name. Теперь мы знаем очень много. Мы наводим на конкретную точку, видим, сколько там GDP, какая там продолжительность ожидаемая жизни.

In [8]:
trace1 = Scatter(
    x=americas.gdp_percap,
    y=americas.life_exp,
    name='Americas',
    mode='markers',
    text=americas.name
)

trace2 = Scatter(
    x=europe.gdp_percap,
    y=europe.life_exp,
    name='Europe',
    mode='markers',
    text=europe.name
)

data = Data([trace1, trace2])

offline.iplot(data)

мы можем изменять размер точки в зависимости от какого-то параметра. Скажем, будем изменять его в зависимости от размера населения. Это поле хранится у нас в data frame, в ключе population. И для изменения этого размера нам нужно указать параметр marker. Мы делаем marker следующим образом. Мы говорим: marker — это словарь, у которого есть ключ size, и этот size будет такой же, как в population. Но если мы скажем просто population, то размеры будут миллионы, что заполонит нам весь график, поэтому мы нормализуем это на максимальное значение — население и умножаем, скажем, на 20, чтобы получить размер наших точек от нуля до 20. 

In [10]:
trace1 = Scatter(
    x=americas.gdp_percap,
    y=americas.life_exp,
    name='Americas',
    mode='markers',
    marker={'size': americas.population/americas.population.max()*20},
    text=americas.name
)

trace2 = Scatter(
    x=europe.gdp_percap,
    y=europe.life_exp,
    name='Europe',
    mode='markers',
    marker={'size': europe.population/europe.population.max()*20},
    text=europe.name
)

data = Data([trace1, trace2])

offline.iplot(data)

In [None]:
df.sort_values(by='gdp_percap', inplace=True)

In [None]:
trace = Scatter(x=df.gdp_percap,
                y=df.life_exp)

data = Data([trace])
offline.iplot(data)

In [None]:
df['population'] = df.country.str.split(':').apply(lambda words: float(words[-1]))
df['name'] = df.country.str.split(':').apply(lambda words: words[1].split('<br>')[0])
americas = df[(df.continent=='Americas')]
europe = df[(df.continent=='Europe')]

In [None]:
trace1 = Scatter(
    x=americas.gdp_percap,
    y=americas.life_exp,
)

trace2 = Scatter(
    x=europe.gdp_percap,
    y=europe.life_exp,
)

data = Data([trace1, trace2])

offline.iplot(data)

In [None]:
trace1 = Scatter(
    x=americas.gdp_percap,
    y=americas.life_exp,
    name='Americas',
    mode='markers',
    marker={'size': americas.population/americas.population.max()*40},
    text=americas.name
)

trace2 = Scatter(
    x=europe.gdp_percap,
    y=europe.life_exp,
    name='Europe'
)

data = Data([trace1, trace2])

layout = Layout(title='GDP vs Life Exp',
               xaxis={'title': 'GDP'})
figure = Figure({'data': data, 'layout': layout})
offline.iplot(figure)

In [None]:
layout = Layout(
    title= 'Stats for GDP',
    #6
   map
)
fig = Figure(data=data, layout=layout)
#5 
offline.iplot(fig)

In [9]:
trace1 = Scatter(
    #1
    x=americas.gdp_percap,
    y=americas.life_exp,
    name = 'Americas',
    #2
    mode = 'markers',
    #3
    marker=dict(size=americas.population/americas.population.max()*40,
                symbol='circle'),
    #4
    text=americas['name']
)

trace2 = Scatter(
    x=europe.gdp_percap,
    y=europe.life_exp,
)

data = Data([trace1, trace2])
# offline.iplot(data)

layout = Layout(
    title= 'Stats for GDP',
    #6
    xaxis= dict(
        title= 'GDP'
    ),
    #7
    yaxis=dict(
        title= 'Life expectancy',
    )
)
fig = Figure(data=data, layout=layout)
#5 
offline.iplot(fig)

In [None]:
Scattergl