# Визуализация данных
Что делать с миллионом пользователей?

## У нас есть:

* Пользователи – 10^6 штук


* вопрос
 * Как меняется количество друзей с возрастом?
 * Сколько в сети активных, обычных и неактивных пользователей.
 * И сколько постов в неделю они пишут?
 * Как меняется аудитория сети со временем?


* Пол часа времени


In [None]:
import pandas as pd
#загрузим уже известный вам датасет про титаник
df = pd.read_csv("titanic.csv")

In [None]:
df[:10]

## Что можно сделать?
* Посчитать аггрегации
  * Среднее, отклонения, квантили
  * И ещё много умных слов


![caption](images/salaries.png)

![caption](images/enscomb-table.png)

![caption](images/enscomb-charts.png)

## Давайте строить графики!
 * Понятна структура
 * Больше информации
 * Видны аномалии

In [None]:
#библиотека для графиков
import matplotlib.pyplot as plt
%matplotlib inline

# Line plot

* На графике изображены линии
 * зависимость y(x) заданная по точкам
 

* подходит для отображения временных рядов или порядка на данных

In [None]:

#по x - порядковый номер пассажира по возрастанию возраста
x = range(len(df))

# по y - сам возраст
y = sorted(df["Age"].values)

plt.plot( x, y )

### Построй аналогичный график для цены билета 
* `df["Fare"].values`

In [None]:
#по x - порядковый номер пассажира по возрастанию цены билета (Fare)
x = range(len(df))

#по y - сама цена билета
y = <массив из цен билетов в порядке их возрастания>

<функция построения графика>

In [None]:
# можно показывать несколько графиков 

#например, отдельные кривые для разных полов, портов и т.п.

#выделим в отдельные таблицы мужчин и женщин
df_male = df[df.Sex=="male"]
df_female = df[df.Sex=="female"]


#получаем массивы x и y
#дамы вперёд
x_female= range(len(df_female))
y_female= sorted(df_female.Age)


x_male= range(len(df_male))
y_male= sorted(df_male.Age)

In [None]:
#рисуем графики
plt.plot(x_female,y_female,label=u"Males")
plt.plot(x_male,y_male,label=u"Females")

#отобразить названия линий (label)
plt.legend()

#добавляем название графика
plt.title("Age curves")



# Scatter plot
 * График из точек по (x,y)
 
 * хорошо показывает структуру данных
 
 * плохо передаёт плотность
 
 * На подумать - можно ли отобразить больше 2 размерностей на плоском Scatter plot?
   * Как это сделать?
   * Какое наибольшее число размерностей можно уместить?

In [None]:
x = df.Age
y = df.Fare
plt.scatter(x,y)

#подпишем оси
plt.xlabel("Age")
plt.ylabel("Ticket cost")

##### Для более наглядного отображения плотностиможно использовать полупрозрачные точки

In [None]:
x = df.Age
y = df.Fare
plt.scatter(x,y, alpha = 0.1) #изменения только в этой строчке

#подпишем оси
plt.xlabel("Age")
plt.ylabel("Ticket cost")

##### Один из способов добавить третье измерение - цвет

In [None]:
#в качестве цвета укажем, выжил ли человек
color = df.Survived
plt.scatter(df.Age,df.Fare,alpha = 0.5, c = color)

In [None]:
#то же самое другим способом

survived = df.Survived == 1


plt.scatter(df[survived].Age,df[survived].Fare,alpha = 0.25, c = "blue")
plt.scatter(df[~survived].Age,df[~survived].Fare,alpha = 0.25, c = "red")

### Построй Scatter-plot зависимости числа родственников на корабле от возраста
 * Число росдтвенников - `df["SibSp"]`

In [None]:
x= возраст
y = число родственников на корабле

<функция построения графика>

# Гистограммы (Histograms)
 * данные делятся на интервалы (бины)
 * для каждого интервала считается, сколько точек попало в этот интервал
 * На графике показываются столбцы, соответствующие интервалам
  * высота столбца пропорциональна числу попавших в него точек
  
 * хорошо подходят для отображения плотности данных
 * требуют зафиксировать интервал
  * при слижком большом интервале становятся трудноинтерпретируемы
  * при слижком  малом - не демонстрируют низкоуровневую структуру данных

In [None]:
#гистограмма возрастов
plt.hist(df.Age.values)

In [None]:
#изменяем количество интервалов ("бинов")
_ = plt.hist(df.Age.values, bins=5)

plt.show() #завершить предыдущий график и начать новый

_ = plt.hist(df.Age.values, bins=50)

plt.show() #завершить предыдущий график и начать новый

_ = plt.hist(df.Age.values, bins=500)


### Построй гистограмму цен
 * Подбери оптимальное количество бинов
 * Попробуй построить отдельные гистограммы для мужчин и женщин

In [None]:
<построй гистограмму цен>

In [None]:
<построй две гистограммы цен для мужчин и женщин>

# интерактивные графики !

* Можно приближать, выделять, дёргать не меняя код,

* Способ компактно показать много информации,

* Главное – не перестараться (об этом чуть позже)




## Plotly
 * может практически всё
 * интерактивные графики, 3D графики
 * примеры - https://plot.ly/python/#basic-charts
 * строится "в облаке" и требует залогиниться
 * бесплатно даёт построить не более 50 графиков в день
 
 
 * Пример - тык https://plot.ly/python/3d-scatter-plots/
 
 
 
## Bokeh
 * может всё то же, что и Plotly кроме простого 3D
 * примеры - http://nbviewer.jupyter.org/github/bokeh/bokeh-notebooks/blob/master/index.ipynb
 * всё строится без участия внешних ресурсов


In [None]:
import interactive_examples

In [None]:
import plotly

import plotly.tools as tls 
tls.embed("https://plot.ly/~streaming-demos/4")