# Работа с matplotlib

Matplotlib — популярная Python-библиотека для визуализации данных. Она используется для создания любых видов графиков: линейных, круговых диаграмм, построчных гистограмм и других — в зависимости от задач.

![title](img/structure.png)

Проведем необходимые приготовления для работы, запустив следующие ячейки

In [None]:
!wget https://github.com/epidersis/moodle_data_analysis_repo/raw/main/2.6.1_viz/Titanic-Dataset.csv

In [None]:
from matplotlib import pyplot as plt # импортируем библиотеку построения графиков
import numpy as np
import pandas as pd

plt.style.use(['seaborn']) # изменяем стиль для более опрятного вида графиков

In [None]:
df = pd.read_csv('Titanic-Dataset.csv')
df.head()

# Importing Matplotlib

## Линейный график
### Простой график
Сначала сгенерируем фиктивные данные для построения графика.

In [None]:
x = np.linspace(0,15,30)
y = np.sin(x)

plt.plot(x, y)

## Упражнение

Постройте график параболы от -10 до 10

In [None]:
# code

А как насчет того, чтобы изменить линию на какую-нибудь другую, например, только пунктир или только точку, или точку и пунктир?

Третий параметр используется для установки стиля линии - пунктир или точка.

In [None]:
plt.plot(x,y, '--')

In [None]:
plt.plot(x, y, 'o')

In [None]:
plt.plot(x,y, '--o')

Можно изменить цвет линии, а также ее ширину.

In [None]:
plt.plot(x,y, color='red', lw=2)

Если вы используете линию типа "штрих и точка", то размер точки также можно изменить с помощью параметра `ms`. Здесь ms означает размер маркера.

In [None]:
plt.plot(x,y, '--o', color='teal', lw=.5, ms=5)

Также можно строить параметрические графики. Например, астроида

In [None]:
t = np.linspace(0,2*np.pi,60)
R = 2
x = R * np.cos(t)**3
y = R * np.sin(t)**3

plt.plot(x, y)

## Упражнение

Постройте график кардиоды (подсказка: используйте параметр t). Самостоятельно определите диапазон значений параметра t.

Задайте его красными точками, соединенными линиями.

In [None]:
# code

## Рисунок
Теперь, допустим, вам не нужна такая квадратная фигура, вы хотите иметь фигуру, напоминающую прямоугольник, тогда вы можете задать размер фигуры с помощью метода `figure()`.

В `figsize` необходимо указать единицы измерения по осям x и y соответственно, и тогда размер фигуры будет задан соответствующим образом.

In [None]:
plt.figure(figsize=(12,3))
plt.plot(x,y, '-', color='teal', lw=2)

Итак, вроде бы мы узнали достаточно много, но чего-то не хватает.

Как вы знаете, рисунок должен содержать метки по осям x и y, а также заголовок рисунка. Так что давайте добавим все это на рисунок.

In [None]:
# установка размера фигуры
plt.figure(figsize=(12,3)) 

# построение линии
plt.plot(x,y, 'o--', color='teal', lw=2, ms=10) 

# установка метки оси x, а также изменение размера шрифта на 16
plt.xlabel('x', fontsize=16) 

# установка метки оси y
plt.ylabel('sin(x)') 

# установка заголовка рисунка
plt.title('Синусоидальная волна')

## Множественный график

Допустим, вы хотите сравнить синусоидальную и косинусоидальную волны и для этого поместить эти кривые на один и тот же рисунок.

Сначала создадим значения x и y для косинусоидальной волны.

In [None]:
x2 = np.linspace(0, 15, 100)
y2 = np.cos(x2)

Теперь построим на том же рисунке графики для синусоидальной и косинусоидальной волн.

In [None]:
# установить размер фигуры
plt.figure(figsize=(8,3))

# построить график синусоиды по осям x и y
plt.plot(x,y, '-')

# построить график косинусоиды с использованием x2 и y2
plt.plot(x2,y2)

# установка метки оси x рисунка
plt.xlabel('x', fontsize=16)

# установка метки оси y рисунка
plt.ylabel('Волна')

# установка заголовка фигуры
plt.title('Синусоидальная и косинусоидальная волны')

Приведенный выше рисунок выглядит красиво и чисто, но есть одна проблема.

Если вы не знаете, как выглядят синусоидальные и косинусоидальные волны, то не сможете распознать, какая кривая является синусоидой, а какая - косинусоидой.

Для решения этой проблемы у нас есть Легенда.

Итак, давайте добавим легенду к нашему рисунку.

In [None]:
# установить размер фигуры
plt.figure(figsize=(8,3))

# построить график синусоиды по осям x и y
plt.plot(x,y, '-', label='Sine')

# построить график косинусоидальной волны с использованием x2 и y2
plt.plot(x2,y2, label='Cosine')

# установка метки оси x рисунка
plt.xlabel('x', fontsize=16)

# установка метки оси y рисунка
plt.ylabel('Wave')

# установка заголовка фигуры
plt.title('Синусоидальная и косинусоидальная волны')

# установка размера шрифта 12, а расположение - наилучшее
plt.legend(loc='best', fontsize=12)

Обратите внимание, что в приведенном выше коде функция `plot()` имеет еще один параметр `label`, который используется для того, чтобы легенда знала метку графика.

В приведенном выше коде функция `legend` имеет два параметра, `loc` и `fontsize`.

- Параметр `loc` используется для задания расположения легенды на рисунке. Я попросил функцию использовать `лучшее` расположение, но можно выбрать несколько вариантов.

- `fontsize` используется для установки размера шрифта содержимого легенды.

На этом, я думаю, мы рассмотрели достаточно много вопросов, касающихся линейных графиков. Теперь давайте перейдем к другим графикам, начиная с гистограммы.

## Упражнение

Постройте два графика на одном рисунке:
- График x^3 (зеленые точки)
- График модуля (синяя линия)

Самостоятельно подберите интервал для x

In [None]:
# code

## Гистограммы
Давайте подумаем о следующем сценарии. В вашей школе или колледже 100 студентов, и вы попросили их выбрать любимый язык программирования.

70 из них ответили Python, 20 - C++ и 10 - Java.

Для визуализации этого можно использовать гистограммы.

In [None]:
# нам нужно знать количество для каждого интервала диапазона 10
bins = [0,10,20,30,40,50,60,70,80,90,100]

# hist() принимает столбец в качестве данных и количество бинов
plt.hist(df["Age"], bins=bins)

# использование xticks для установки значений по оси x
plt.xticks(bins)
plt.xlabel("Возраст")
plt.ylabel("Количество пассажиров")
plt.title("Количество пассажиров в интервале")
plt.show()

Сначала мы задаем бины, которые выступают в качестве интервала 10. Так, первый бин будет от 0 до 10, второй - от 10 до 20 и так далее.

Теперь просто построим гистограмму, используя столбец "Возраст" и бины.

Установили `xticks`на бины, чтобы было легко визуализировать бины.

Мы также можем изменить цвет, как мы это делали с другими графиками.

## Упражнение. Столбчатые диаграммы

- Постройте график для колонки Sex
- Постройте график для колонки SibSp
- Постройте график для возрастов (как в примере выше), но для возрастов больше 30

In [None]:
# code

In [None]:
#изменить цвет
bins = [0,10,20,30,40,50,60,70,80,90,100]
plt.hist(df["Age"], bins=bins, color='teal')
plt.xticks(bins)
plt.xlabel("Возраст")
plt.ylabel(" Число пассажиров")
plt.title("Количество пассажиров в интервале")
plt.show()

## Круговая диаграмма
Допустим, вы хотите проверить, сколько из всех пассажиров-мужчин выжило, а сколько из всех пассажиров-женщин выжило.

In [None]:
# получение количества пассажиров-мужчин
male = df.loc[df["Sex"] == "male"].count()[0]

# получение количества пассажиров-мужчин и выживших пассажиров
survived_male = df.loc[(df["Sex"] == "male") & (df["Survived"] == 1)].count()[0]

# получение количества пассажиров-женщин
female = df.loc[df["Sex"] == "female"].count()[0]

# получение количества пассажиров-женщин и выживших пассажиров
survived_female = df.loc[(df["Sex"] == "female") & (df["Survived"] == 1)].count()[0]


# установка меток для каждого из них
labels = ['male', 'female']

# установка цветов 
colors = ['orange','teal']

# построение круговой диаграммы по приведенным данным
plt.pie([survived_male, survived_female], labels=labels, colors=colors, hatch=["/", "o"])
plt.title('Выжившие мужчины против выживших женщин')
plt.legend(loc="upper left", fontsize=12)
plt.show()

Вы можете задаться вопросом, почему `count()[0]`.


Потому что функция `count()` возвращает кадр данных, а мы хотим получить количество пассажиров, поэтому если мы выберем только первый столбец этого кадра данных, т.е. `PassengerId`, то наша задача будет выполнена.


Здесь также можно использовать `hatch`.


Остальные действия практически аналогичны другим графикам, т.е. вы можете задать заголовок, цвет, метки и легенду графика.


Примечание: Если вы не можете понять, как мы получили данные о мужчинах и выживших пассажирах или о женщинах и выживших пассажирах, то вам следует сначала узнать о пандах, и у меня есть отличный пост на эту тему. Посмотрите его здесь


Подмножества
Допустим, вы хотите получить рисунок, состоящий из множества различных фигур (не говоря уже о множестве графиков), тогда для этого можно использовать функцию `subplots()`.


Подплоты полезны, когда мы хотим отобразить несколько графиков на одном рисунке, например, для сравнения различных наборов данных или отображения различных аспектов одних и тех же данных.


Для создания подграфиков в matplotlib можно использовать функцию pyplot.subplots(), которая возвращает объект figure и массив объектов axes. Объект figure представляет весь рисунок, а объекты axes - отдельные участки внутри рисунка. В качестве аргументов функции subplots() можно указать количество строк и столбцов сетки подмножеств, а также передать другие параметры для управления внешним видом и поведением подмножеств.


Например, создадим сетку subplots 2x2 и построим на них кривые синуса и косинуса:

In [None]:
import matplotlib.pyplot as plt
import numpy as np
# Создаем выборочные данные
x = np.linspace(0, 2*np.pi, 100)
y1 = np.sin(x)
y2 = np.cos(x)
y3 = np.sin(x)**2
y4 = np.cos(x)**2
# Создать фигуру и сетку подплощадок 2x2
fig, axs = plt.subplots(2, 2)
# Построить данные на каждой подплощадке
axs[0, 0].plot(x, y1, color='blue')
axs[0, 1].plot(x, y2, color='orange')
axs[1, 0].plot(x, y3, color='green')
axs[1, 1].plot(x, y4, color='red')
# Добавляем заголовки и метки
fig.suptitle('Matplotlib Subplots Example')
axs[0, 0].set_title('Синус')
axs[0, 1].set_title('Косинус')
axs[1, 0].set_title('Синус в квадрате')
axs[1, 1].set_title('Косинус в квадрате')
for ax in axs.flat:
    ax.set_xlabel('x')
    ax.set_ylabel('y')
# Настроить расстояние между субплощадками
plt.tight_layout()
# Показать рисунок
plt.show()


- `subplots` имеет два параметра: `number_of_rows` и `number_of_columns`, и в результате будет создана сетка из указанного количества строк и столбцов.

- Все остается прежним, за исключением того, что здесь не нужно использовать `plt.plot`, а нужно использовать `axs[row_position, column_position]`. При этом для построения графика будет использоваться определенное положение строк и столбцов.

- Здесь для установки меток x и y каждой фигуры необходимо использовать функции `set_xlabel()` и `set_ylabel()` соответственно.

Как видите, мы создали четыре подграфа в одном рисунке, каждый из которых имеет свой заголовок и метки.

Существует множество других параметров и методов, которые мы можем использовать для настройки наших подплощадок. Для получения более подробной информации и примеров можно обратиться к официальной документации

## Упражнение

Постройте с помощью subplots 4 графика:
- Гипотрохоида
- Циклоида
- Трохоида
- Эпитрохоида

Подпишите графики. Укажите названия осей. Задайте легенду в виде подписей функций `y = sin(x)` (пример)

In [None]:
# code

## Дополнительные построения

In [None]:
np.random.seed(19680801)  # seed the random number generator.
data = {'a': np.arange(50),
        'c': np.random.randint(0, 50, 50),
        'd': np.random.randn(50)}
data['b'] = data['a'] + 10 * np.random.randn(50)
data['d'] = np.abs(data['d']) * 100

fig, ax = plt.subplots(figsize=(5, 2.7), layout='constrained')
ax.scatter('a', 'b', c='c', s='d', data=data)
ax.set_xlabel('entry a')
ax.set_ylabel('entry b')

In [None]:
X, Y = np.meshgrid(np.linspace(-3, 3, 128), np.linspace(-3, 3, 128))
Z = (1 - X/2 + X**5 + Y**3) * np.exp(-X**2 - Y**2)

fig, axs = plt.subplots(1, 2, layout='constrained')
pc = axs[0].pcolormesh(X, Y, Z, vmin=-1, vmax=1, cmap='RdBu_r')
fig.colorbar(pc, ax=axs[0])
axs[0].set_title('pcolormesh()')

co = axs[1].contourf(X, Y, Z, levels=np.linspace(-1.25, 1.25, 11))
fig.colorbar(co, ax=axs[1])
axs[1].set_title('contourf()')