<a href="https://colab.research.google.com/github/AnnSenina/databases_stat_2023/blob/main/notebooks/Python_Vizualization.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#Matplotlib, seaborn и др.

In [2]:
# все библиотеки и импорты разом:
#!pip install matplotlib 
#!pip install seaborn

import pandas as pd
import matplotlib.pyplot as plt # традиционное сокращение
from matplotlib import cm
import seaborn as sns 

## Matplotlib

Matplotlib -- это одна из классических библиотек для визуализации данных в Python


Визуализации в MatPlotLib обычно делают с помощью `pyplot` 
— специального объекта, методы которого позволяют создавать и изменять графики. 

In [None]:
covid = pd.read_csv('https://raw.githubusercontent.com/AnnSenina/databases_stat_2023/main/cases_regions_2022-02-03.csv', sep=';')
covid

In [None]:
covid['Москва'][660:691] #январь

In [None]:
plt.plot(covid['Москва'][660:691]) #plot - линейный график
plt.show()

In [None]:
plt.plot(covid['Москва'][660:691]); # ; заменяет plt.show()

In [None]:
plt.plot(covid['Москва'][660:691]) #plot - линейный график
plt.savefig('my_covid_plot') # создаст png, которую можно скачать

Внимание! Вопрос: что на графике обозначают числа 660-690?

In [None]:
plt.plot(
    [f'{i}' for i in range(1, 32)], # сгенерируем подписи по оси x
    covid['Москва'][660:691] # ось Y
    )
plt.show()

Данные расположились по оси y

Добавим красивые подписи по оси х: отобразить подписи вертикально внутри .plot нельзя. Для этого есть отдельный метод под названием xticks:

In [None]:
plt.plot(
    [f'{i} янв' for i in range(1, 32)], # ось X с подписями
    covid['Москва'][660:691] # ось Y
    )
plt.xticks(rotation=90) # показать подписи вертикально = под углом 90 градусов
plt.show()

In [None]:
plt.plot(
    [f'{i} января' for i in range(1, 32)], # ось X
    covid['Москва'][660:691] # ось Y
    )
plt.xticks(rotation=45)
plt.show()

In [None]:
plt.plot(
    [f'{i} января' for i in range(1, 32)], # ось X
    covid['Москва'][660:691], # ось Y
    marker='o' # через запятую добавили маркеры - точки
    )
plt.xticks(rotation=90)
plt.show()

In [None]:
# подписи можно сократить и упростить

x = [f'{i} янв' for i in range(1, 32)]
y = covid['Москва'][660:691]

plt.plot(x, y, marker='o') # короткая форма
plt.xticks(rotation=90)
plt.show()

In [None]:
# сравним:
plt.plot(x, y, 'o') # точки, без линии
plt.xticks(rotation=90)
plt.show()

In [None]:
plt.plot(x, y, 'ro') # угадайте, что значит ro?
plt.xticks(rotation=90)
plt.show()

In [None]:
plt.plot(x, y, 'g^')
plt.xticks(rotation=90)
plt.show()

In [None]:
plt.plot(x, y, marker = 's', linestyle = ':', color = 'orange') 
plt.xticks(rotation=90)
plt.show()

In [None]:
import matplotlib.ticker as ticker

fig, ax = plt.subplots()
ax.plot([f'{i} янв' for i in range(1, 32)], covid['Москва'][660:691], color = 'r', linewidth = 3)
ax.xaxis.set_major_locator(ticker.MultipleLocator(3)) # Код для установки размера тиков (шагов)
plt.xticks(rotation=45)
plt.show()

Вот [здесь](https://matplotlib.org/api/_as_gen/matplotlib.pyplot.plot.html#matplotlib.pyplot.plot) описаны все варианты задания цветов, точек и формы штриха.

### Размер холста через pyplot

можно вызвать метод figure и задать размер через него:

In [None]:
plt.figure(figsize=(10, 5)) # указываем размер в дюймах
plt.plot(x, y, marker = 's', linestyle = ':', color = 'orange') 
plt.xticks(rotation=90)
#plt.show()
plt.savefig('my_covid_plot') # создаст png
# https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.figure.html

## Отобразим несколько показателей

In [None]:
x = [f'{i} янв' for i in range(1, 32)]

y1 = covid['Москва'][660:691]
y2 = covid['Санкт-Петербург'][660:691]
y3 = covid['Пермский край'][660:691]

plt.figure(figsize=(12,8))
plt.plot(x, y1, '.') # Москва
plt.plot(x, y2, '^') 
plt.plot(x, y3, 's') 
plt.xticks(rotation=90)
plt.show()

In [None]:
# можно использовать короткую запись
plt.figure(figsize=(12,8))
plt.plot(x, y1, '.', x, y2, '^', x, y3, 's')
plt.xticks(rotation=90)
plt.show()

In [None]:
# можно использовать короткую запись
plt.figure(figsize=(12,8))
plt.plot(x, y1, '.', x, y2, '^', x, y3, 's')
plt.xticks(rotation=90)
plt.grid() # задает сетку на графике
plt.show()

Добавим легенду

In [None]:
# можно использовать короткую запись
plt.figure(figsize=(12,8))
plt.plot(x, y1, '.', x, y2, '^', x, y3, 's')
plt.xticks(rotation=90)
plt.grid()
plt.legend(['Москва', 'Санкт-Петербург', 'Пермь']) # но создатели библиотеки рекомендуют другой способ
plt.show()

# можно почитать здесь https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.legend.html#matplotlib.pyplot.legend

In [None]:
plt.figure(figsize=(10,6))
plt.plot(x, y1, '.', label='Москва')
plt.plot(x, y2, '^', label='Санкт-Петербург') 
plt.plot(x, y3, 's', label='Пермь') 
plt.xticks(rotation=90)
plt.grid()
plt.legend() # legend сама добавит значения из label
plt.show()

In [None]:
plt.figure(figsize=(10,6))

# заголовок и его стили
plt.title('Статистика по ковиду для Москвы и Санкт-Петербурга и Перми', fontsize=16, color='green', fontstyle='italic', fontfamily='serif')

plt.plot(x, y1, '.', label='Москва')
plt.plot(x, y2, '^', label='Санкт-Петербург') 
plt.plot(x, y3, 's', label='Пермь') 

# подписи осей
plt.xticks(rotation=90, fontsize=16) # вертикально
plt.xlabel('Дни', fontsize=16)
plt.ylabel('Заражения в день', fontsize=16)

plt.legend(fontsize=16)
plt.grid()
plt.show()

Методы пайплота, которые отвечают за текст на графиках ([см.тут](https://matplotlib.org/stable/api/text_api.html#matplotlib.text.Text))

In [None]:
# если вы уже забыли, что у нас в x1, x2, x3 и y
x = [f'{i} янв' for i in range(1, 32)]

y1 = covid['Москва'][660:691]
y2 = covid['Санкт-Петербург'][660:691]
y3 = covid['Пермский край'][660:691] 

In [None]:
# построим финальный график, со всеми подписями и шагом для обеих осей

import matplotlib.ticker as ticker

fig, ax = plt.subplots(figsize=(10,6))
plt.title('Статистика по ковиду для Москвы и Санкт-Петербурга и Перми', fontsize=16, color='green', fontstyle='italic', fontfamily='serif')
plt.plot(x, y1, '.', x, y2, '^', x, y3, 's')
ax.plot([f'{i} янв' for i in range(1, 32)], covid['Москва'][660:691], '.', label='Москва')
ax.plot([f'{i} янв' for i in range(1, 32)], covid['Санкт-Петербург'][660:691], '^', label='Санкт-Петербург')
ax.plot([f'{i} янв' for i in range(1, 32)], covid['Пермский край'][660:691], 's', label='Пермский край')
ax.xaxis.set_major_locator(ticker.MultipleLocator(2)) # шаг на оси x - 2
ax.yaxis.set_major_locator(ticker.MultipleLocator(6000)) # шаг на оси x - 6000

# подписи осей
plt.xticks(rotation=90, fontsize=16) # вертикально
plt.yticks(fontsize=16)
plt.xlabel('Дни', fontsize=16)
plt.ylabel('Заражения в день', fontsize=16)

plt.legend(fontsize=16)

plt.grid() # задает сетку на графике (сетка привязана к интервалу на осях!)
# меняем шаг -> изменится и сетка
plt.show()

# https://matplotlib.org/stable/api/gridspec_api.html

## Другие типы графиков matplotlib

In [None]:
plt.bar(x, y1) # бар-чарт, столбики
plt.xticks(rotation=90)
plt.show()

In [None]:
# с текстом тоже может быть интересно!

from collections import Counter

text = 'системный блок искать смысл как сделать тематический моделирование корпус текст тематический моделирование легкий способ понимать смысловой состав большой коллекция текст который невозможно быстро прочитывать глаз пользоваться инструмент тематический моделирование мочь каждый а научиться можно в тьюториал здесь вы находить пошаговый руководство с решение основной технический трудность как работать тематический моделирование тематический моделирование topic modeling это способ научить машина выделять в текст содержательный тема например проанализировать массив новостной и публицистический текст о протестный митинг машина мочь выделить там тема топик полицейский насилие география москва требование и лозунг и др естественно компьютер не мочь понимать смысл статья напрямую но если быть большой коллекция текст с разный тема то вероятность совместный употребление слово позволять мы выделять отдельный тематический пласт примерно как химик разделять нефть на фракция бензин керосин солярка мазут асфальт'
freqs_list = Counter(text.split()).most_common(3) # подсчет частот, встроенный в пайтон
print(freqs_list)

values = [pair[1] for pair in freqs_list] # создаем список с частотами
labels = [pair[0] for pair in freqs_list] # создаем список слов в том же порядке

plt.bar(labels, values) # передаем данные в отрисовщик бар-чартов
plt.show()

In [None]:
plt.hist(covid['Москва'][660:691]) # гистограмма, ось x
plt.show() 
# y - частоты

In [None]:
plt.hist(covid['Москва'][660:691], bins=20) # количество столбцов (=диапазонов), можно задать bins = len(y1)
plt.show() 
# y - частоты

In [None]:
# pie - круговая диаграмма, на наших данных - полная ерунда
plt.pie(covid['Москва'][660:691], labels=[f'{i} янв' for i in range(1, 32)])
plt.show()

In [None]:
# другой пример
plt.pie([0.55, 0.20, 0.15, 0.05, 0.05], labels=['Chrome', 'Safari', 'Firefox', 'Edge', 'Other'])
plt.show()

Датавиз-сообщества считают, что pie-chart'ы устарели! :)

![мем.jpg](https://qph.cf2.quoracdn.net/main-qimg-6ade42a13909e5488b4474dc150c0701-lq)

За мем спасибо @Andre_Orlov!

Кстати, [веселое обсуждение](https://medium.com/@eolay13/визуализируем-кофе-молоко-и-сахар-68fc7079868c) в тему


А теперь давайте попробуем рисовать при помощи функции scatter, которая работает несколько медленнее, но обладает большей функциональностью ([см. здесь](https://matplotlib.org/api/_as_gen/matplotlib.pyplot.scatter.html#matplotlib.pyplot.scatter)).

Так как scatter по определению - это набор точек, которые не должны соединяться между собой, а просто бросаются на плоскость, то отрисовать линию с его помощью не получится.
Также в scatter нельзя передать сразу цвет и вид точки/штриха, поэтому используем параметры color и marker.

Параметр alpha можно применять почти везде. Он показывает степень прозрачности графика, легенды (0 = полностью прозрачен; 1 = абсолютно непрозрачен)

Помимо этого для каждой из точек можно задавать размер маркера (параметр s, size) и его цвет (параметр c, colour).

In [None]:
x = [f'{i} янв' for i in range(1, 32)]
y = covid['Москва'][660:691]

c = 'green'

s = [i * 0.1 for i in y] # 0.1 - просто чтобы красиво отобразить именно эти данные, у нас достаточно большие числа
#s = 100 # размер можно сделать статичным

plt.scatter(x, y, c = c, s = s, alpha = 0.3) # попробуйте поменять параметр alpha

plt.xticks(rotation=90)
plt.show()

Цвет графика можно задать при помощи цветовой карты. Для использования стандартных цветовых карт необходимо загрузить их из matplotlib:
from matplotlib import cm

Ту, что больше нравится, стоит присвоить в параметр cmap 

А здесь [ссылка с описанием и названиями цветовых карт](https://matplotlib.org/3.1.0/tutorials/colors/colormaps.html)

In [None]:
from matplotlib import cm

x = [f'{i} янв' for i in range(1, 32)]
y = covid['Москва'][660:691]

c = y # нужен список, чтобы для разных точек сгенерировать разные цвета!
s = [i * 0.1 for i in y]

plt.scatter(x, y, c = c, s = s, alpha=0.5, cmap=cm.magma)

plt.xticks(rotation=90)
plt.show()

In [None]:
# можно также строить облако точек для поиска зависимости между разными показателями
plt.scatter(x = covid['Москва'], y = covid['Санкт-Петербург'])
plt.show()
# для наших данных - не очень интересно, хотя смысл все же есть:
# заболеваемость в Москве и Петербурге связаны - общие волны ковида, очевидно, сильно прокатились по крупным городам

## А если наши данные - категориальные?

Иногда мы имеем дело с данными, которые выражены не числами.

Предположим, имя и возраст человека:

In [None]:
data = {'Paul' : 68, 'Jane' : 25, "Diana" : 102} 
names = list(data.keys())
values = list(data.values())

fig, axs = plt.subplots(1,3, figsize=(10, 3)) # subplots - позволяет строить несколько графиков рядом, в т.ч. графики разных типов

axs[0].plot(names, values, "b--")
axs[1].scatter(names, values, s = [i * 10 for i in values], alpha=0.5, color = "green")
axs[2].bar(names, values, color = "pink")

fig.suptitle('Categorical Plotting')
plt.show()

См.разные типы графиков [здесь](https://matplotlib.org/stable/plot_types/index.html)

Также от моих коллег - подборка разных ресурсов для вдохновения:

- https://www.data-to-viz.com/

- https://datavizproject.com/

- https://datavizcatalogue.com/RU/

# Seaborn

Простые графики можно строить в matplotlib (а еще он отлично интергрирован с pandas), но работать категориальными данными удобнее в seaborn

Seaborn — это более новая надстройка над matplotlib, которая заметно проще и "сразу делает красиво". Документация [здесь](https://seaborn.pydata.org)


In [15]:
city = covid[['Москва','Санкт-Петербург']] # возьмем все данные по ковиду в М и СПб
city

Unnamed: 0,Москва,Санкт-Петербург
0,21,1
1,5,3
2,9,1
3,0,0
4,18,3
...,...,...
688,26488,14939
689,24030,17833
690,23417,15802
691,21533,13619


In [None]:
sns.lineplot(data = city)
plt.show()

В seaborn есть несколько датасетов от создателей библиотеки. Можно скачать [отсюда](https://github.com/mwaskom/seaborn-data), если не откроются через load_dataset(), встроенный в библиотеку

In [18]:
tips = sns.load_dataset("tips")

In [None]:
tips.head()

Давайте визуализируем распределения общего счета по дням недели. Для визуализации потребуется метод .catplot() Заголовки соответвующих ячеек присвоим аргументам x и y.

Тип отображения (параметр kind)тоже можно менять (попробуйте "point", "bar", "strip", "swarm", "box", "violin" или "boxen")

In [None]:
sns.catplot(x = "day", y = "total_bill", kind= "strip", data = tips)
plt.show()

Можно достаточно легко и быстро отобразить на графике несколько показателей:

Ниже - распределение значений итогового счета(ось y) в зависимости от пола (ось x). Дополнительно цветом (параметр hue) можно закодировать еще одно значение с помощью цвета. Например,является ли посетитель курильщиком

In [None]:
sns.catplot(x = "sex", y = "total_bill", hue = "smoker", kind = "bar", data = tips)
plt.show()

In [None]:
# так выглядит распределение размера счета и чаевых
sns.catplot(x = "total_bill", y = "tip", kind = "strip", data=tips)
plt.show()
# не самая удачная визуализация, еще и долго строится - есть решение лучше

In [None]:
# jointplot - показывает распределение по 2 переменным + в hue можно добавить категориальные данные
sns.jointplot(x ='total_bill', y = 'tip', hue = 'sex', data = tips)
plt.show()

In [None]:
# можно строить линейную регрессию (для определения зависимости двух показателей, рассчитывается функция линейной зависимости)
sns.lmplot(x ='total_bill', y = 'tip', data = tips)
plt.show()

In [None]:
# заодно проверим, меняются ли счет / чаевые в связи со временем посещения - в обед или ужин
sns.lmplot(x ='total_bill', y = 'tip', hue = 'time', data = tips)
plt.show()

In [None]:
sns.pairplot(tips, hue='sex') # график из темы корреляция, но с категориальными данными!
plt.show()

### Доп. задание:

Ниже - загрузка датасета про пингвинов из seaborn (можно найти на гитхабе создателей библиотеки или нашем гитхабе курса)

Постройте:
- catplot
- jointplot
- lmplot

В качестве категории используйте вид пингвинов или остров

In [None]:
peng_data = sns.load_dataset('penguins')
peng_data

### Дополнительно:

Список телеграм-каналов по анализу данных и датавизу, которые читаю я, здесь:

https://t.me/chartomojka

https://t.me/nastengraph

https://t.me/data_publication

https://t.me/dashboardets

https://t.me/callmedata

https://t.me/designing_numbers

https://t.me/weekly_charts
