In [None]:
!git clone https://github.com/stuniy/SPO_PGU.git

Cloning into 'SPO_PGU'...
remote: Enumerating objects: 147, done.[K
remote: Counting objects: 100% (78/78), done.[K
remote: Compressing objects: 100% (68/68), done.[K
remote: Total 147 (delta 19), reused 46 (delta 10), pack-reused 69[K
Receiving objects: 100% (147/147), 67.70 MiB | 9.71 MiB/s, done.
Resolving deltas: 100% (40/40), done.
Checking out files: 100% (49/49), done.


# Визуализация табличных данных


## Библиотека `plotly`
 Библиотека [`plotly`](https://plotly.com/python/) предназначена для построения *интерактивных* графиков. Поддерживает все основные типы графиков и работу со многими средствами вычислений:  Jupyter Notebook, Kaggle kernels, Azure Notebooks, Google Colab и др.

 Подключим библиотеку и необходимые инструменты из нее.

In [3]:
import pandas as pd
from plotly.offline import download_plotlyjs, plot, iplot
import plotly.graph_objs as go # графические объекты

Давайте посчитаем число вышедших игр и проданных копий по годам. Для этого:
* сгруппируем наши данные по 'country' с помощью `groupby()`, посчитав количество вин в каждой группе


In [4]:
df=pd.read_csv('/content/winemag-data-130k-v2.csv')

In [5]:
d = df.groupby('country', sort=True).size().sort_values(ascending = False)
#выводим первые 10
d=d.head(10)
d

Unnamed: 0_level_0,0
country,Unnamed: 1_level_1
US,54504
France,22093
Italy,19540
Spain,6645
Portugal,5691
Chile,4472
Argentina,3800
Austria,3345
Australia,2329
Germany,2165


Теперь создадим графический объект - линию для средней цены, с помощью команды `Scatter()` (именно с большой буквы).

Укажем
```
x=d.index, - значения для горизонтальной оси
y=d.values, - значения для вертикальной оси
name='Count' - название линии
```

Создаем полотно, объект `Figure`, которому указываем:
```
data = графические объекты, которые должны быть на этом полотне
layout = параметры графика
```
и визуализируем его командой `iplot()`

Получим интерактивный график.

In [6]:
# создаем линию для числа проданных копий
trace0 = go.Scatter(
    x=d.index,
    y=d.values,
    name='Count'
)

# объединяем графические объекты и задаем title графика в layout
data = [trace0]
layout = {'title': 'Statistics of country'}

# cоздаем объект Figure и визуализируем его
fig = go.Figure(data=data, layout=layout)
#fig.show()
iplot(fig, show_link=False) # не показывать ссылку на экспортирование полотна

Столбчатый график строится аналогично.

Создадим графические объекты столбчатого графика для обоих столбцов наших данных, команда `Bar()`, аргументы аналогичны.

Создадим полотно, отобразим его.

In [None]:
# создаем объект для визуализации
trace0 = go.Bar(
    x=d.index,
    y=d.values,
    name='Count'
)

# объединяем графические объекты и задаем title графика в layout
data = [trace0]
layout = {'title': 'Statistics of country', 'xaxis': {'title': 'platform'}}

# создаем объект Figure и визуализируем его
fig = go.Figure(data=data, layout=layout)
iplot(fig, show_link=False)

Нарисуем "ящик с усами" для распределения "points".

Если менять параметры полотна не надо, его можно не создавать отдельно и визуализировать объединенный массив графических объектов.

In [None]:
# создаем ящик с усами для каждого жанра из наших данных
fig = go.Figure()
fig.add_trace(go.Box(x=df['points'], boxpoints='all'))
fig.show()

Гистограммы

Простейшая гистограмма строится с помощью go.Histogram. В качестве единственного аргумента в x передаём список значений, которые участвуют в выборке (Plotly самостоятельно сгруппирует их в столбцы и вычислит высоту), в нашем случае это колонка с суммами.

In [None]:
fig = go.Figure(data=[go.Histogram(x=df['points'])])
fig.show()

Круговые диаграммы

Для полноты картины рассмотрим несколько других способов визуализации данных, кроме линейных графиков. Начнём с круговых диаграмм


In [None]:
#группируем по странам, подсчитываем количество вин и сортируем в порядке убывания
d = df.groupby('country', sort=True).size().sort_values(ascending = False)
#выводим первые 10
d=d.head(10)
fig = go.Figure()

fig.add_trace(go.Pie(values=d.values, labels=d.index))
fig.show()

## Домашнее задание

1. Загрузить выборку с сайта Kaggle.com.
2. Внимательно изучите документацию на matplotlib (https://matplotlib.org/3.1.1/index.html), узнайте про другие типы графиков, постройте некоторые из них, какие понравятся.
3. Построить гистограмму распределения по каждому показателю.
4. Построить Ящик с усами для выявления выбросов по показателю.
5. Построить Тепловую карту и сделать вывод о том какая зависимость между показателями
