# Курс "Программирование на языке Python. Уровень 4. Анализ и визуализация данных на языке Python. Библиотеки numpy, pandas, matplotlib"

# Модуль 7. Библиотека matplotlib

1. Первое знакомство с matplotlib и быстрое построение графиков
2. Настройка отображения графиков в jupyter notebook
3. Оформление графиков
4. Вывод нескольких графиков на одной иллюстрации
5. Инфографика (круговые, столбчатые диаграммы и т.д.)


In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline

## Быстрое построение графиков

Графики строятся функцией ```plot()```. Ей достаточно передать единственный параметр с вектором данных для отображения:

In [None]:
data = np.arange(10) ** 2
data

In [None]:
plt.plot(data)

In [None]:
plt.plot(np.arange(10), data)

Для построения полноценного графика функции $y = f(x)$ необходимо вызывать plot с двумя параметрами ```plot(x, f(x))```. 

При этом удобно задавать диапазон переменной c помощью метода numpy.linspace.

In [None]:
x = np.linspace(-5, 5, 50)
print(x)

Выведем график линейной зависимости:

In [None]:
plt.plot(x, x*2)
plt.show()

На одном поле можно строить несколько графиков:


In [None]:
x = np.linspace(0, 2, 100)
plt.plot(x, x) # линейная зависимость
plt.plot(x, x ** 2) # квардратичная зависимость
plt.plot(x, x ** 3) # кубическая
plt.plot(x, np.exp(x)) # экспоненциальная
plt.show()

Простейшую гистограмму можно построить из массива numpy функцией ```hist()```.

In [None]:
a_rand = np.random.randn(10000)
plt.hist(a_rand)

Диаграмму рассеяния можно нарисовать  функцией ```scatter()```:

In [None]:
plt.scatter(np.arange(30), np.arange(30) + 3 * np.random.randn(30))

Для рисования стрелок используем функцию ```arrow()```.

In [None]:
plt.arrow(0,0, 3,1, head_width=0.2, color='r', length_includes_head=True)
plt.arrow(0,0, 1,3, head_width=0.2, color='g', length_includes_head=True)
plt.arrow(0,0, 4,4, head_width=0.2, color='b', length_includes_head=True)
plt.show()

Другие полезные типы графиков:

In [None]:
x = np.linspace(-1, 1)

fig, axes = plt.subplots(1, 3, figsize = (12, 4))

# закрасить пространство между графиками
axes[0].fill_between(x, np.sqrt(np.abs(x)), x**2, 
                     color="green", alpha=0.5);
axes[0].set_title("fill_between");

# столбчатая диаграмма
axes[1].bar(np.arange(-5, 6), np.arange(-5, 6)**3, 
            align="center", width=0.5, alpha=0.5)
axes[1].set_title("bar")

# ступенчатый график
axes[2].step(x, np.sqrt(np.abs(x)), lw=1)
axes[2].set_title("step")

fig.tight_layout()

#### ЗАДАНИЕ

- Нарисуйте вектор [1, 2]:

In [None]:
# ваш код здесь

- Нарисуйте график синусоиды в диапазоне от $-2\pi$ до $2\pi$

In [None]:
# ваш код здесь

- Дано: матрица размера Nx2, она содержит случайные числа. Нарисуйте ее строки в виде векторов, исходящих из начала координат

In [None]:
N = 4
M = np.random.random((N,2))
# ваш код здесь


__???__ Все ли вас устраивает в этих графиках?





##  Оформление графиков

Размеры выводимых графиков могут быть настроены как глобально, так и для каждой иллюстрации отдельно.

Снова построим линейный график и расстоимся из-за его непропорциональности (и других визуальных недостатков):

In [None]:
plt.plot(np.arange(10))

Перед построением графика проинициализируйте иллюстрацию, вызвав функцию ```figure()``` с параметром ```figsize```, в котором можно передать размеры картинки в дюймах. Соотношение и будет пропорцией отображаемого графика.

In [None]:
plt.figure(figsize=(10,10))
plt.plot(np.arange(10))
plt.show()

Также можно задать нелинейные пропорции осей: логарифмическую, симметричную логарифмическую, логистическую и т.д.

In [None]:
x = np.linspace(-2,2,40)
plt.figure(figsize=(10,10))
plt.plot(x, x+1)
plt.plot(x, np.exp(x))
plt.yscale('log')
plt.show()

Давайте оформим график:
 - зададим диапазон отображения аргументов и функции
 - отобразим координатную сетку и оси
 - зададим метки для осей и самой иллюстрации
 - выведем легенду.
    

In [None]:
plt.figure(figsize=(10,10))

# зададим диапазон по осям, с полями
margin = .5
plt.ylim((-1.5, 4.5))
plt.xlim((x.min()-margin, x.max()+margin))

# отобразим координатную сетку и оси
plt.grid(color='grey', linestyle='-', linewidth=1)
plt.axhline(0,color='black') # x = 0
plt.axvline(0,color='black') # y = 0

# зададим метки для осей и самой иллюстрации
plt.xlabel("$x$, аргумент") 
plt.ylabel("$f(x)$, функция") # Label for y-axis.
plt.title('Линейная и эскпоненциальная зависимости')

# построим график
plt.plot(x, x+1, label="$f(x) = x$")
plt.plot(x, np.exp(x), label="$f(x) = e^x$")

# разместим легенду
plt.legend(loc='best')

plt.show()

Получилась довольно громоздкая конструкция. Если в вашей работе надо будет представлять все графики в одинаковом оформлении, ее можно убрать в отдельную функцию (а ее, в свою очередь, в модуль). Для этого нам надо ознакомиться с основными объектами matplotlib.

## Основные объекты matplotlib

 - Объект ```figure``` - сама иллюстрация.
 - Объект ```axes``` - один из графиков на этой иллюстрации, именно к этому объекту мы будем применять все те методы, с которыми мы ознакомились выше:
    - ```.plot()```
    - ```.ylim()``` и ```.xlim()```
    - ```.title()```, ```.xlabel()```, ```.ylabel()```
    - и т.д.

Получить экземпляр объекта ```figure``` и требуемое количество ```axes``` можно из функции ```subplots()```, ей надо передать количество графиков по горизонтали и по вертикали. Она возвращает кортеж из иллюстрации и подграфиков - если их несколько, она вернет их список вторым членом кортежа.

Построим наши графики в соответствии с объектно-ориентированным подходом:

In [None]:
fig, ax = plt.subplots(1,1) # пока что нам нужен один график

fig.set_size_inches(10,10)

ax.plot(x, x+1, label="$f(x) = x$")
ax.plot(x, np.exp(x), label="$f(x) = e^x$")

plt.show()

Перенесем все оформление в функцию:

In [None]:
def my_plotter(ax, data1, data2, **param_dict):
    
    # отобразим координатную сетку и оси
    ax.grid(color='grey', linestyle='-', linewidth=1)
    ax.axhline(0,color='black') # x = 0
    ax.axvline(0,color='black') # y = 0

    # зададим метки для осей и самой иллюстрации
    ax.set_xlabel("$x$, аргумент") 
    ax.set_ylabel("$f(x)$, функция") # Label for y-axis.
    
    out = ax.plot(data1, data2, **param_dict)
    return out

In [None]:
fig, ax = plt.subplots(1,1) # пока что нам нужен один график

fig.set_size_inches(10,10)

ax.set_title('Линейная и эскпоненциальная зависимости')

xx = x+1 # множество значений для линейной функции

# зададим диапазон по осям, с полями
margin = .5
ax.set_ylim((xx.min()-margin, xx.max()+margin))
ax.set_xlim((x.min()-margin, x.max()+margin))



# построим график
my_plotter(ax, x, xx, label="$f(x) = x$")
my_plotter(ax, x, np.exp(x), label="$f(x) = e^x$")

# разместим легенду
ax.legend(loc='best')

plt.show()



#### __ЗАДАНИЕ__ 

1. Используя ```my_plotter()``` выведите на ту же плоскость график функции $y = x^2 +1$ 
2. Задайте логарифмическую шкалу отображения методом ```.set_yscale()```

In [None]:
# ваш код здесь

## Вывод на одну иллюстрацию несколько графиков сразу

Для этого в matplotlib используется "сеточный" подход: мы мысленно разбиваем нашу иллюстрацию на ячейки и сами определяем, какую часть ячейки будет занимать наш график.

Затем мы обращаемся к функции ```subplot2grid()```, которая принимает следущие аргументы:
 - ```shape``` - кортеж с формой воображаемой "сетки" по горизонтали и вертикали
 - ```position``` - кортеж с координатами в ячейках сетки
 - ```colspan``` - сколько ячеек сетки данный график будет объединять по горизонтали
 - ```rowspan``` - сколько ячеек сетки данный график будет объединять по верткали
 


In [None]:
fig = plt.figure()
fig.set_size_inches(10,5)
# Arguments: shape, position and spanning in each (row or col) direction
# Аргументы: форма в виде кортежа с количеством ячеек по вертикали и горизонтали
ax1 = plt.subplot2grid((2, 4), (0, 0), colspan=2) 
ax1.set_ylabel('First')
ax2 = plt.subplot2grid((2, 4), (1, 0), colspan=1)
ax2.set_ylabel('Second')
ax3 = plt.subplot2grid((2, 4), (1, 1), colspan=2)
ax3.set_ylabel('Third')
# Automatically adjusts the positions of the axes to prevent overlapping
fig.tight_layout()

Также можно использовать уже знакомую нам конструкцию ```subplots()```:

In [None]:
fig, axs = plt.subplots(1,2) 

fig.set_size_inches(10,5) # обратите внимание на размер по высоте, мы уменьшили его вдвое!

axs[0].set_title('Линейная зависимость')
axs[1].set_title('Эскпоненциальная зависимость')

x = np.linspace(-2,2,40)

xx = x+1 # множество значений для линейной функции

# зададим диапазон по осям, с полями
margin = .5
for ax in axs:
    ax.set_ylim((xx.min()-margin, xx.max()+margin))
    ax.set_xlim((x.min()-margin, x.max()+margin))



# построим график
my_plotter(axs[0], x, xx, label="$f(x) = x$")
my_plotter(axs[1], x, np.exp(x), label="$f(x) = e^x$")


plt.show()

__ЗАДАНИЕ__ Выведите 3 графика горизонтально, затем два + один график внизу, третий график - кубическая зависимость.

In [None]:
# ваш код здесь


## Инфографика

Круговая диаграмма (pie chart) строится функцией ```pie()```. Направление обхода по умолчанию - против часовой стрелки.
Параметр ```explode``` позволяет задать смещение для некоторых элементов диаграммы. При этом в ```sizes``` могут быть совершенно любые числа, не обязательно процентное соотношение.

In [None]:
# сделаем графики побольше
plt.rcParams['figure.figsize'] = (10.0, 10.0)

In [None]:
labels = 'Для ежа', 'Для ужа', 'Для моржа', 'Для стрижа'
sizes = [15, 30, 45, 10]
explode = (0, 0.1, 0, 0) 

fig1, ax1 = plt.subplots()
ax1.pie(sizes, explode=explode, labels=labels, autopct='%1.1f%%',
        shadow=True, startangle=90)

plt.show()

Столбчатые диаграммы с распределением по группам строятся той же функцией ```bar()```, но для построения "надстройки" ей надо передать параметр ```bottom```, который будет содержать данные для "основной" диаграммы:

In [None]:
N = 5
menMeans = (20, 35, 30, 35, 27)
womenMeans = (25, 32, 34, 20, 25)
ind = np.arange(N)    # the x locations for the groups
width = 0.35       # the width of the bars: can also be len(x) sequence

p1 = plt.bar(ind, menMeans, width)
p2 = plt.bar(ind, womenMeans, width,
             bottom=menMeans)

plt.ylabel('Баллы')
plt.title('Баллы по группе и полу')
plt.xticks(ind, ('Г1', 'Г2', 'Г3', 'Г4', 'Г5'))
plt.yticks(np.arange(0, 81, 10))
plt.legend((p1[0], p2[0]), ('М', 'Ж'))

plt.show()

In [None]:
fig, ax = plt.subplots()

people = ('Жан-Клод', 'Сильвестр', 'Чак', 'Брюс', 'Арнольд')
y_pos = np.arange(len(people))
performance = 3 + 10 * np.random.rand(len(people))

ax.barh(y_pos, performance, align='center')
ax.set_yticks(y_pos)
ax.set_yticklabels(people)
ax.invert_yaxis()
ax.set_xlabel('Крутизна')


plt.show()

##### ЗАДАНИЕ

Для датасета "Титаник" постройте круговые диаграммы для следующих признаков:
 - класс каюты
 - порт посадки на судно

In [None]:
df_titanic = pd.read_csv('data/titanic.csv',
                  index_col='PassengerId')

embarked_ports = {'S': 'Southampton', 'C':'Cherbourg', 'Q': 'Queenstown'}

In [None]:
# ваш код здесь


Постройте столбчатую диаграмму с распределением по полу в каютах разных классов.

In [None]:
# ваш код здесь