# Библиотеки NumPy, Matpotlib, pandas

В этой лекции мы вкратце познакомимся сосновными библиотеками для решения научных задач. Они не являются частью стандартной библиотеки, и в общем случае должны устанавливаться вручную. Однако поскольку мы использовали дистрибутив Anaconda для установки Python, нам не потребуется ничего делать дополнительно, так как он включает в себя все нужное.

## NumPy

Библиотека [NumPy](https://docs.scipy.org/doc/numpy/reference/) предоставляет типы и функции для вычислений с многомерными **массивами**. Массивом (англ. *array*) в программировании называется контейнер, хранящий последовательно друг за другом множество элементов. Из тех контейнеров, с которыми мы познакомились с вами в одной из предыдущих лекций, он больше всего похож на [список](09_Collections.ipynb#Список). Основное же отличие заключается в том, что массив может хранить только значения фиксированного типа - того, который был указан при его создании. Благодаря этому ограничению можно эффективнее организовать хранение в памяти элементов массива, и добиться хорошей производительности операций, выполняющихся над всеми элементами.

Элементами многомерного массива являются другие массивы. Классический пример - матрица, представляющая собой массив строк, каждая из которых является массивом чисел.

Основным типом данных, предоставляемым библиотекой NumPy, является класс `ndarray`, который описывает многомерный массив. Перечислим наиболее важные атрибуты экземпляров этого класса:

1. `ndim` - количество измерений или, как их принято называть, осей. Например, обычная матрица имеет две оси (строки и столбцы). Оси идентифицируются своим порядковым номером, причем как и для индексов последовательностей, нумерация начинается с нуля (у матрицы строки - это нулевая ось, а столбцы - первая).
2. `shape` - форма массива. Это кортеж, который для каждой оси содержит число элементов в ней. Например, если у нас есть матрица размерности $N \times M$, то `shape` будет равно `(N, M)`.
3. `size` - общее количество элементов в многомерном массиве. По сути, представляет собой произведение всех элементов `shape`.
4. `dtype` - объект, содержащий информацию о типе данных элементов массива.

В дальнейших примерах нам часто будет требоваться выводить информацию о массиве на экран, поэтому мы определим простую функцию для этого:

In [None]:
import numpy as np

# Создадим функцию, расширяющую базовый функционал print'a, чтобы обогатить вывод информации
def print_array(a):
    print('ndim={}, shape={}, size={}, dtype={}'.format(a.ndim, a.shape, a.size, a.dtype))
    print(a)

### Создание массива

На первой части курса уже говорили про различные списки. Массивы `numpy` являются своеобразной доработкой базовых списков. 

Существует несколько способов создать массив `numpy`. Один из них - использовать функцию `array`.

In [None]:
# создаем одномерный массив
a = [1,2,3]
# передаем его как аргумент в функцию np.array()
b = np.array(a)
print_array(b)

In [None]:
# создаем двумерный массив (матрицу)
# исходный массив можно не записывать в отдельную переменную, а передавать сразу как аргумент
a = np.array([[0.1, 0.2, 0.3, 0.4],
              [0.5, 0.6, 0.7, 0.8]])
print_array(a)

Если при создании массива не указывается тип его элементов, то функция `array` в качестве него выбирает такой, чтобы можно было хранить любой элемент из перечисленных в ее вызове:

In [None]:
a = np.array([1, 2, 3])
print_array(a)

In [None]:
a = np.array([1, 2, 3.1])
print_array(a)

In [None]:
# явно указываем тип элементов
a = np.array([1, 2, 3], dtype=complex)
print_array(a)

Библиотека NumPy для элементов массива использует собственные типы данных, которые можно использовать так же, как соответствующие встроенные. Особенность типов данных из NumPy в том, что для них четко определено количество бит, которое они занимают в памяти. Можно при создании массива указать и тип данных из библиотеки NumPy:

In [None]:
# используем 16 битовые целые числа для хранения элементов
a = np.array([1, 2, 3], dtype=np.int16)
print_array(a)

Важно при этом понимать, какой диапазон значений можно хранить в том или ином типе (например, для int16 это $[-32768, 32767]$), потому что если впоследствии ваша программа присвоит элементу массива значение вне этого диапазона, оно будет сохранено неправильно!

Часто бывает так, что при создании массива известная его форма, но не значения элементов. В этом случае можно воспользоваться функциями `zeros`, `ones` или `empty`, которые заполняют созданный массив нулями, единицами или случайными значениями. В качестве первого аргумента все эти функции принимают кортеж, описывающий форму массива:

In [None]:
# создаем массив с 3мя осями;
# он представляет собой массив из двух массивов, каждый из
# которых содержит 3 массива, каждый из которых содержит 4 элемента
a = np.zeros((2, 3, 4))
print_array(a)

Обратите внимание, что по умолчанию для элементов массива используется тип `float64`. С помощью именованного параметра `dtype` функции `zeros` и других можно указать желаемый тип элементов.

Наконец, библиотека NumPy предоставляет функцию `arange` для генерации числовой последовательности, аналогичную встроенной функции `range`. Отличие заключается в том, что с помощью `arange` можно генерировать и последовательности чисел с плавающей точкой.

In [None]:
# целые из интервала [0, 10) с шагом 1
a = np.arange(10)
print_array(a)

In [None]:
# действительные из интервала [0.0, 1.0) c шагом 0.1
a = np.arange(0, 1, 0.1)
print_array(a)

Заметим, что использовать функцию `arange` для получения действительных чисел, стоит осторожно, потому что размер полученного массива может отличаться от ожидаемого (это связано с неточным представлением [чисел с плавающей точкой](04_Data_Types.ipynb#Типы-с-плавающей-точкой)). Более безопасной с этой точки зрения является функция `linspace`, которая возвращает указанное количество равноудаленных друг от друга чисел из интервала:

In [None]:
# 10 равноудаленных друг от друга чисел из интервала [0, 0.9]
a = np.linspace(0, 0.9, 10)
print_array(a)

### Задание

Создать массив содержащий n четных чисел начиная с 2.

In [3]:
import numpy as np
n = 50
arr = np.arange(1,n + 1) * 2
print(arr)

[  2   4   6   8  10  12  14  16  18  20  22  24  26  28  30  32  34  36
  38  40  42  44  46  48  50  52  54  56  58  60  62  64  66  68  70  72
  74  76  78  80  82  84  86  88  90  92  94  96  98 100]


In [None]:
n = 50
even_numbers = np.arange(1,n + 1) * 2 
print_array(even_numbers)

### Получение среза

В случае одномерных массивов, получение срезов выполняется так же, как и для обычных последовательностей (списков, кортежей и т.д.). У многомерных массивов индексироваться может каждая ось. Если при этом отсутствует индекс для некоторой оси, то возвращаются все ее элементы. Срез объекта типа `ndarray` также имеет тип `ndarray`.

In [None]:
a_multi = np.array([[0, 1, 2],
                    [3, 4, 5],
                    [6, 7, 8],
                    [9, 10, 11]])

# выводи третий элемент второй строки (помните, что нумерация
# индексов начинается с нуля!)
print(a_multi[1, 2]) 

In [None]:
# получаем срез, состоящий из второй и третьей строки
result = a_multi[1:3]
print(type(result))
print(result)

In [None]:
# получаем срез, состоящий из первого и третьего элемента
# второй и четвертой строки, взятых в обратном порядке
print(a_multi[3:0:-2, 0:3:2])

Тип `ndarray` является итерируемым, поэтому его можно использовать в цикле `for ... in`. Итерация при этом происходит по первой оси (например, в случае матриц - по строкам):

In [None]:
for row in a_multi:
    print(row)

Для итерации по элементам нужно использовать атрибут `flat`:

In [None]:
for item in a_multi.flat:
    print(item)

Обратите внимание, что при итерации по элементам вначале изменяется последняя ось, потом предпоследняя и т.д. Например, для трехмерного массива $N_1 \times N_2 \times N_3$ элементы извлекались бы в такой последовательности:

<pre>
a[0][0][0], ..., a[0][0][N3], a[0][1][0], ..., a[0][N2][N3], a[1][0][0], ..., a[N1][N2][N3]
</pre>

Поскольку `ndarray` относится к изменяемым типам данных, его элементы можно модифицировать:

In [None]:
a_multi[0, 0] = 100              # присваиваем первому элементу 100
a_multi[1] = 0                 # присваиваем всем элементам второй строки 0
a_multi[2] = np.arange(20, 23) # заменяем третью строку на строку [20, 21, 22]

print(a_multi)

### Задания

1) Задан двумерный массив, требуется развернуть j столбец в обратном порядке.

In [None]:
array = np.array(
      [[ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14, 15, 16, 17, 18, 19],
       [20, 21, 22, 23, 24, 25, 26, 27, 28, 29],
       [30, 31, 32, 33, 34, 35, 36, 37, 38, 39],
       [40, 41, 42, 43, 44, 45, 46, 47, 48, 49],
       [50, 51, 52, 53, 54, 55, 56, 57, 58, 59],
       [60, 61, 62, 63, 64, 65, 66, 67, 68, 69],
       [70, 71, 72, 73, 74, 75, 76, 77, 78, 79],
       [80, 81, 82, 83, 84, 85, 86, 87, 88, 89],
       [90, 91, 92, 93, 94, 95, 96, 97, 98, 99]])
j = 2


array[:,j] = array[:,j][::-1]

print_array(array)

### Изменение формы

Класс `ndarray` предоставляет несколько методов и атрибутов, которые изменяют форму массива (количество и размер осей):

| <div align="left">Название</div> | Описание |
|----------------------------------|----------|
| <div align="left"><samp>reshape(shape, ...)</samp></div>                                                                      | Возвращает новый массив с теми же данными, но с формой <samp>shape</samp>                                                    |
| <div align="left"><samp>resize(shape, ...)</samp></div>                                                                       | Изменяет форму текущего массива на <samp>shape</samp>                                                                        |
| <div align="left"><samp>ravel(...)</samp></div>                                                                               | Возвращает "плоскую" версию массива с одним измерением                                                                       |

При заполнении нового массива, его первому элементу присваивается первый элемент старого, второму - второй и т.д. Причем порядок элементов соответствует тому, в котором они возвращались бы при итерации по всем элементам (по атрибуту `flat`).

Еще класс `ndarray` предоставляет метод `transpose` и атрибут `T`, которые позволяют получить транспонированную версию многомерного массива.

In [None]:
a1 = np.arange(10)
a2 = a1.reshape((2, 5))
a3 = a2.T # a3 = np.transpose(a2)
a4 = a3.ravel()

In [None]:
print_array(a1)

In [None]:
print_array(a2)

In [None]:
print_array(a3)

In [None]:
print_array(a4)

Для объединения нескольких многомерных массивов в один класс `ndarray` предоставляет следующие функции:

| <div align="left">Название</div> | Описание |
|----------------------------------|----------|
| <div align="left"><samp>hstack(arrays_seq)</samp></div>                                                                       | Возвращает новый массив, каждая строка которого является конкатенацией строк массивов из последовательности <samp>arrays_seq</samp>                                                                                                        |
| <div align="left"><samp>vstack(arrays_seq)</samp></div>                                                                       | Возвращает новый массив, каждый столбец которого является конкатенацией столбцов массивов из последовательности <samp>arrays_seq</samp>                                                                                                        |

In [None]:
a1 = np.array([[1, 2, 3],
               [4, 5, 6],
               [7, 8, 9]])
a2 = np.array([[11, 12],
               [13, 14],
               [15, 16]])
a3 = np.array([[11, 12, 13],
               [14, 15, 16]])

In [None]:
print_array(np.hstack([a1, a2]))

In [None]:
print_array(np.vstack((a1, a3)))

Для разбиения многомерного массива на несколько меньших, используются функции `hsplit` и `vsplit`. Если им передается числовой аргумент, то он трактуется как количество массивов, на которое нужно разбить исходный, а если последовательность, то ее элементы трактуются как индексы, по которым нужно производить разбиение:

In [None]:
a = np.arange(18)
a.resize(2, 9)
print_array(a)

In [None]:
arrays = np.hsplit(a, 3)

for array in arrays:
    print_array(array)

In [None]:
arrays = np.vsplit(a.T, [2, 5, 8])

for array in arrays:
    print_array(array)

### Задание

Выполнить reshape к формату 10x10 и размножить image_orig на w по горизонтали и на h по вертикали 

In [None]:

w,h = 5,5

image_orig = np.array([0,1,0,0,0,0,0,1,0,0,
                       1,1,1,0,0,0,1,1,1,0,
                       1,1,1,1,1,1,1,1,1,0,
                       1,1,1,1,1,1,1,1,1,0,
                       1,1,1,1,1,1,1,1,1,0,
                       1,1,1,1,1,1,1,1,1,0,
                       0,1,1,1,1,1,1,1,0,0,
                       0,0,1,1,1,1,1,0,0,0,
                       0,0,0,1,1,1,0,0,0,0,
                       0,0,0,0,1,0,0,0,0,0
                      ])


image_orig = image_orig.reshape(10,10)

image_orig = np.hstack([image_orig for _ in range(w)])
image_orig = np.vstack([image_orig for _ in range(h)])

### Операции и универсальные функции

Обычные операции в Python перегружены для массива и при выполнении действуют на все его элементы:

In [None]:
a = np.arange(12).reshape((3, 4))
print_array(a)

In [None]:
a += 1
print(a)

Если в качестве операндов используются два массива одинаковой размерности, то операция выполняется для всех пар элементов на соответствующих позициях, например:

In [None]:
a1 = np.arange(7, 3, -1).reshape(2, 2)
a2 = np.arange(4).reshape(2, 2)

print_array(a1)
print_array(a2)

In [None]:
print(a1 * a2)
print(a1 ** a2)

Если вместо поэлементного умножения вы хотите матричное, то нужно воспользоваться функцией `dot`:

In [None]:
a1 = np.arange(6).reshape(2, 3)
a2 = np.arange(6).reshape(3, 2)

print_array(a1)
print_array(a2)
print_array(np.dot(a1, a2))

Методы `sum`, `max` и `min`, определенные для встроенных коллекций Python, также определены и для класса `ndarray`. По умолчанию они работают со всеми элементами массива, но можно также указать конкретную ось, вдоль которой производить вычисления.

In [None]:
a = np.arange(6).reshape(3, 2)
print_array(a)

In [None]:
print('max={}, min={}'.format(a.max(), a.min()))

# вычисляем по столбцам (axis=1), следовательно в результате
# получим сумму элементов для каждой строки
print(a.sum(axis=1)) 

В модуле `numpy.random` содержатся функции для генерации случайных массивов произвольной размерности. Например, функция `random` из этого модуля создает массив указанной формы и заполняет его случайными числами, равномерно распределенными в интервале $[0, 1)$:

In [None]:
a = np.random.random((3, 3))
print_array(a)

В NumPy реализованы те же математические функции, что встречаются в стандартной библиотеке Python, однако они дополнительно умеют работать с массивами. В терминологии библиотеки NumPy эти функции назваются **универсальными**.

In [None]:
a = np.array([[1, 4, 9],
              [16, 25, 36]])
print(np.sqrt(a))

In [None]:
a = np.array([0, 30, 45, 60, 90], dtype=float) # градусы
a *= np.pi / 180                               # преобразуем в радианы

# вычисляем синус для обычного числа и для массива
print(np.sin(a[3]))
print(np.sin(a))

In [None]:
a = np.random.random(10)
print(a)

print('mean:',np.mean(a))     # вычисляем математическое ожидание
print('variance:', np.var(a)) # вычисляем дисперсию

Функция `where` позволяет быстро найти и заменить нужные элементы в массиве

In [None]:
a = np.arange(15).reshape(5,3)
a = np.where(a >= 7, np.abs(14-a), a)
print_array(a)

Так же в Numpy можно проводить индексацию массива при помощи условий.

In [None]:
a = np.random.randint(0,100,20)

print_array(a[a % 2 == 0])

### Задания


1) Рассчитать абсолютную, максимальную и минимальную разницу между элементами массива b и a

In [4]:
a = np.array([1,1,1])
b = np.array([1,2,3])

print((b-a).min(),(b-a).max(), np.abs(b-a))

0 2 [0 1 2]


2) Создать матрицу 3х3 и заполнить ее случайными значениями от 0 до 100. Привести все числа к ближайшему большему четному. Далее, вычесть из матрицы поэлементно среднее и разделить на стандартное отклонение. В конце, напечатать получившуюся матрицу, ее дисперсию и среднее.

In [None]:
a = np.random.randint(-100,100, size = (3,3))
a = np.where(a%2==0, a, a+1)

a = (a - a.mean()) / a.std()

print_array(a)
print(a.var(), a.mean())

### Задание*

Давайте применим полученные знания на практике. Попробуем расскрасить полученный выше image_orig в цвет радуги

In [None]:
step = image_orig.shape[1] // 5 # определим шаг градиента

# создадим фильтр.
colors = np.array([
                 np.transpose([[255]*step,np.linspace(0,255,step), [0] * step]),
                 np.transpose([np.linspace(0,255,step)[::-1], [255] * step, [0] * step]),
                 np.transpose([[0] * step, [255] * step, np.linspace(0,255,step)]),
                 np.transpose([[0] * step,np.linspace(0,255,step)[::-1], [255] * step]),
                 np.transpose([np.linspace(0,255,step), [0] * step, [255] * step])
                ])

# преобразуем его к формату как у изображения и приведем в int
colors = colors.reshape(colors.shape[0] * colors.shape[1], colors.shape[-1]).astype(int)

# наложим фильтр на изображение, которое в данном случае является маской
new_img = colors * np.expand_dims(image_orig, axis = -1)

## Matplotlib

Библиотека [Matplotlib](https://matplotlib.org/) используется для создания различных 2D и 3D графиков и диаграмм, среди которых:

* обычные графики (англ. *line plot*)
* диаграммы разброса/рассеивания (англ. *scatter plot*), характеризующие корреляцию между различными факторами
* гистограммы (англ. *histogram*)
* столбчатые диаграммы (англ. *bar chart*)
* круговые диаграммы (англ. *pie chart*)
* и другие

Функции и типы Matplotlib умеют работать с массивами NumPy, и более того, практически никогда не используются без них. В библиотеке Matplotlib релиазовано два интерфейса - один процедурный, другой объектно-ориентированный. Мы будем использовать процедурный, который реализован в модуле `matplotlib.pyplot`. Давайте импортируем модули, которые мы будем использовать в примерах в этом разделе.

Примеры разных графиков: http://matplotlib.org/gallery.html

Некоторые функции отрисовки
<ul>
    <li>`plt.scatter(x, y, params)` — нарисовать точки с координатами из $x$ по горизонтальной оси и из $y$ по вертикальной оси</li>
    <li>`plt.plot(x, y, params)` — нарисовать график по точкам с координатами из $x$ по горизонтальной оси и из $y$ по вертикальной оси. Точки будут соединятся в том порядке, в котором они указаны в этих массивах.</li>
    <li>`plt.fill_between(x, y1, y2, params)` — закрасить пространство между $y_1$ и $y_2$ по координатам из $x$.</li>
    <li>`plt.pcolormesh(x1, x1, y, params)` — закрасить пространство в соответствии с интенсивностью $y$.</li>
    <li>`plt.contour(x1, x1, y, lines)` — нарисовать линии уровня. Затем нужно применить `plt.clabel`</li>
</ul>

Вспомогательные функции
<ul>
    <li>`plt.figure(figsize=(x, y))` — создать график размера $(x, y)$</li>
    <li>`plt.show()` — показать график.</li>
    <li>`plt.subplot(...)` — добавить подграфик</li>
    <li>`plt.xlim(x_min, x_max)` — установить пределы графика по горизонтальной оси</li>
    <li>`plt.ylim(y_min, y_max)` — установить пределы графика по вертикальной оси</li>
    <li>`plt.title(name)` — установить имя графика</li>
    <li>`plt.xlabel(name)` — установить название горизонтальной оси</li>
    <li>`plt.ylabel(name)` — установить название вертикальной оси</li>
    <li>`plt.xticks([list of value])` — установить шкалу горизонтальной оси</li>
    <li>`plt.yticks([list of value])` — установить шакалу вертикальной оси</li>
    <li>`plt.legend(loc=...)` — сделать легенду в позиции loc</li>
    <li>`plt.grid()` — добавить сетку на график</li>
    <li>`plt.savefig(filename)` — сохранить график в файл</li>
</ul>

In [None]:
import numpy as np
import matplotlib.pyplot as plt

### Картинка

Начнем с самого простого и наглядного - картинки. Для вывода картинки необходимо в функцию `imshow` передать 3-d массив. Давайте отобразим результат прошлого задания.

In [None]:
plt.figure()
plt.imshow(new_img)
plt.show()

Попробуйте отобразить картинцу без шкал на осях.

In [None]:
plt.figure()
plt.imshow(new_img)
plt.xticks([])
plt.yticks([])
plt.show()

### График

Обычный график создается с помощью функции `plot`. Основными ее параметрами являются две последовательности: в первой содержатся абсциссы точек, а во второй их ординаты. Функция `plot` строит график таким образом, чтобы он проходил через эти точки. Это означает, что чем сложнее форма графика, тем больше точек нужно передать в `plot`. Например, для построения прямой достаточно двух точек, но этого явно мало, чтобы правильно нарисовать параболу.

Кроме координат точек, функция `plot` имеет множество других параметров для настройки того, как график будет выглядеть. В наших примерах мы познакомим вас с некоторыми из них, а полную информацию можно получить в [справочном руководстве](https://matplotlib.org/api/_as_gen/matplotlib.pyplot.plot.html#matplotlib.pyplot.plot).

Давайте начнем с простого примера и создадим график прямой линии $2x + 1$:

In [None]:
# двух точек достаточно для того, чтобы построить прямую

x = [0, 2] # ординаты
y = [1, 5] # абсциссы

plt.plot(x, y);

Заметим, что сама функция `plot` не рисует график, а просто инициализирует нужную информацию для этого. В среде Jupyter Notebook по умолчанию используется режим, при котором вывод графика на экран происходит автоматически при выполнении ячейки, но вообще говоря, за это отвечает отдельная функция `show`. Если вы при работе с Matplotlib столкнетесь с ситуацией, когда график не отображается, в первую очередь стоит попробовать вызвать эту функцию.

Давайте немного иначе настроим наш график, чтобы продемонстрировать некоторые возможности Matplotlib:

## Задание 1

Постройте график 

$y=x^2+2x+6$
для  $x\in[-20,20]$ с шагом 0.1

для генерации точек используйте библиотеку `NumPy`

In [None]:
# type your code here
x =
y = 

In [None]:
x = np.array([0, 2])
y = np.array([1, 5])

# задаем дополнительно цвет линии и толщину
plt.plot(x, y, color='red', linewidth=2.5)

# установим границы осей X и Y так, чтобы график не
# выглядел "зажатым" осями координат
plt.xlim(x.min() - 0.5, x.max() + 0.5)
plt.ylim(y.min() - 0.5, y.max() + 0.5)

# определим, какие точки будут отмечены на осях
x_ticks = np.linspace(x.min(), x.max(), 2)
y_ticks = np.linspace(y.min(), y.max(), 2)
plt.xticks(x_ticks)
plt.yticks(y_ticks)

# определим, как будут подписаны координатные оси
plt.xlabel('abscissa')
plt.ylabel('ordinate')

# рисуем график
plt.show()

Можно в одной системе координат отобразить сразу несколько графиков. Давайте попробуем вывести графики синуса и косинуса.

In [None]:
x = np.linspace(-np.pi, np.pi, 200)
cos_x = np.cos(x)
sin_x = np.sin(x)

# добавляем два графика, устанавливаем для них цвет, тип линии
# и название
plt.plot(x, cos_x, color='red', linestyle='dashed', label='cosine')
plt.plot(x, sin_x, color='green', linestyle='dotted', label='sine')

# добавляем легеду (информацию о том, какая линия что означает)
plt.legend()

# определяем, какие точки будут отмечены на осях
# можно в качестве значения указывать LaTeX-формулу (используем
# это для того, чтобы вместо, например, 3.1415.. было написано pi)
x_ticks = np.array([-np.pi, -np.pi/2, 0, np.pi/2, np.pi])
x_ticks_name = [r'$-\pi$', r'$-\pi/2$', r'$0$', r'$\pi/2$', r'$\pi$']
y_ticks = np.array([-1, -0.5, 0, 0.5, 1])
y_ticks_name = [r'$-1$', r'$-0.5$', r'$0$', r'$0.5$', r'$1$']

plt.xticks(x_ticks, x_ticks_name)
plt.yticks(y_ticks, y_ticks_name)

# рисуем график
plt.show()

Теперь давайте попробуем настроить координатные оси таким образом, чтобы центр графика находился в точке $(0, 0)$, как мы привыкли со школы. Для этого нам потребуется метод `gca`, возвращающий объект, который можно использовать для управления внешним видом координатных осей. На рисунке сверху есть четыре оси, образующих прямоугольник, внутри которого находятся графики. Нам нужно скрыть две из них (например, ту, что сверху и ту, что справа), а оставшиеся две поместить в точку $(0, 0)$:

In [None]:
x = np.linspace(-np.pi, np.pi, 200)
cos_x = np.cos(x)
sin_x = np.sin(x)

# добавляем два графика, устанавливаем для них цвет, тип линии
# и название
plt.plot(x, cos_x, color='red', linestyle='dashed', label='cosine')
plt.plot(x, sin_x, color='green', linestyle='dotted', label='sine')

# добавляем легеду (информацию о том, какая линия что означает)
plt.legend()

# определяем, какие точки будут отмечены на осях
# можно в качестве значения указывать LaTex-формулу (используем
# это для того, чтобы вместо, например, 3.1415.. было написано pi)
x_ticks = np.array([-np.pi, -np.pi/2, 0, np.pi/2, np.pi])
x_ticks_name = [r'$-\pi$', r'$-\pi/2$', r'$0$', r'$\pi/2$', r'$\pi$']
y_ticks = np.array([-1, -0.5, 0, 0.5, 1])
y_ticks_name = [r'$-1$', r'$-0.5$', r'$0$', r'$0.5$', r'$1$']

plt.xticks(x_ticks, x_ticks_name)
plt.yticks(y_ticks, y_ticks_name)

# меняем положение координатных осей
axes = plt.gca()

    # скрываем две оси
axes.spines['top'].set_color(None)
axes.spines['right'].set_color(None)

    # устаналиваем позицию левой и правой оси;
    # data' означает, что 0 - это координата, через которую должна проходить ось
axes.spines['left'].set_position(('data', 0))
axes.spines['bottom'].set_position(('data', 0))

# рисуем график
plt.show()

### Задание

Попробуйте нарисовать график функции: $$ f(x) =  \frac{\mathrm{1} }{\mathrm{1} + e^{-x} }  $$ 




In [None]:
title = r"График функции: $f(x) = \frac{\mathrm{1} }{\mathrm{1} + e^{-x} }$"


x = np.arange(-5,5,0.1)
y = 1/(1+np.exp(-x))

plt.figure()
plt.plot(x[x < 0],y[x < 0], color='red', linestyle='dashed')
plt.plot(x[x > 0],y[x > 0])

plt.title(title, fontsize=20)
axes = plt.gca()

axes.spines['top'].set_color(None)
axes.spines['right'].set_color(None)

axes.spines['left'].set_position(('data', 0))


plt.show()


### Диаграмма разброса

Диаграмма разброса используется тогда, когда нужно оценить корреляцию между несколькими факторами. Для примера, в качестве одного фактора мы возьмем просто случайные, ничего не означающие данные. Второй фактор мы получим как сумму первого и некоторой случайной величины с достаточно большой дисперсией. Очевидно, что между этими двумя значениями мы должны увидеть положительную корреляцию - с ростом одного, увеличивается и второе. Проверим это на практике:

In [None]:
from random import uniform
from random import normalvariate

# используем генератор, чтобы создать массив случайных данных
x = np.array([uniform(0, 100) for i in range(1000)])
y = np.array([item + normalvariate(0, 20) for item in x])

# строим диаграмму разброса
plt.scatter(x, y)
plt.show()

Несмотря на то, что мы выбрали большое значение стандартного отклонения для случайной величины, с помощью которой мы оказывали влияние на первый фактор, положительная корреляция видна невооруженным глазом: с ростом $x$ возрастает $y$. Если стандартное отклонение продолжить увеличивать, то в определенный момент корреляция, очевидно, пропадет. Убедитесь в этом сами.

### Задание

Попробуйте разделить диаграмму по четвертям, проведя пунктирные линии , и расскрасить все четверти в разные цвета

In [None]:
middle_x = np.mean(x)
middle_y = np.mean(y)

plt.plot([middle_x,middle_x],[y.min(),y.max()], linestyle = '--', color = "black")
plt.plot([x.min(),x.max()],[middle_y, middle_y], linestyle = '--', color = "black")

plt.scatter(x[(x > middle_x) & (y > middle_y)], y[(x > middle_x) & (y > middle_y)], color = 'red', label = "I")
plt.scatter(x[(x > middle_x) & (y <= middle_y)], y[(x > middle_x) & (y <= middle_y)], color = 'violet', label = "II")
plt.scatter(x[(x <= middle_x) & (y <= middle_y)], y[(x <= middle_x) & (y <= middle_y)], color = 'orange', label = "III")
plt.scatter(x[(x <= middle_x) & (y > middle_y)], y[(x <= middle_x) & (y > middle_y)], color = 'green', label = "IV")

plt.legend()
plt.show()

### Гистограмма

Гистограммы часто используются для того, чтобы сделать предположение о том, какому распределению подчиняется случайная выборка: по выборке строится гистограмма, а затем сравнивается, плотность распределения какого закона она напоминает больше всего. В качестве примера, рассмотрим выборку из нормального закона распределения, но вообразим, что нам это неизвестно:

In [None]:
from math import sqrt
from random import normalvariate

def norm_density(x, mean, std):
    tmp1 = 1 / (std * np.sqrt(2 * np.pi))
    tmp2 = -((x - mean)**2 / 2 * std**2)
    return tmp1 * (np.e ** tmp2)


x = np.array([normalvariate(3, 1) for i in range(10000)])

# добавляем гистограмму на график (bins - количество столбиков в ней)
plt.hist(x, bins=15, density=True)

# добавим еще для наглядности график плотности распределения
x_mean = np.mean(x)
x_std = np.std(x) # стандартное отклонение
density_x = np.linspace(x.min(), x.max(), 200)
density_y = np.array([norm_density(item, x_mean, x_std) for item in density_x])
plt.plot(density_x, density_y, linewidth=2.5, color='red')

# рисуем графики
plt.show()

Как видите, гистограмма, построенная по выборке из "неизвестной" случайной величины, по форме похожа на плотность нормального распределения. Исходя из этого можно сделать вывод, что "неизвестная" случайная величина имеет закон распределения, близкий к нормальному.

В заключение дадим очень полезную [ссылку](https://matplotlib.org/tutorials/index.html) на раздел документации библиотеки Matplotlib, по которой можно найти большое количество примеров графиков вместе с исходным кодом, строящим их. Примеры оттуда позволяют увидеть весь спектр возможностей Matplotlib.

## pandas

Библиотека [pandas](https://pandas.pydata.org/pandas-docs/stable/index.html) предоставляет классы для быстрой обработки и анализа больших объемов данных. В своей реализации она использует библиотеку NumPy, с которой мы познакомились чуть выше. Двумя важнейшими классами библиотеки pandas являются `Series` и `DataFrame`. Оба они представляют собой массивы, элементам которых назначены специальные **метки** (англ. *label*), в совокупности образующие **индекс** этого массива. Термин "индекс" из pandas пересекается с тем, что мы использовали для обозначения позиции элемента в последовательности. Обычно путаницы из-за этого не возникает, но вам стоит иметь это в виду.

Все элеметы массивов pandas приводятся к одному и тому же типу данных (используются типы из библиотеки NumPy).

Перед тем как начать использование библиотеки pandas, подключим необходимый модуль:

In [None]:
import numpy as np
import pandas as pd

### Класс Series

`Series` представляет собой изменяемый одномерный массив, к каждому элементу которого прикреплена произвольная метка. Объект класса `Series` можно создать несколькими способами:

In [None]:
# из обычного списка
s = pd.Series([1, 2, 3, 4, 5])
print(s)

In [None]:
# из ndarray
s = pd.Series(np.random.random((3)))
print(s)

Обратите внимание на первый столбец в выведенных на экран объектах `Series` - это и есть их индекс. Обратиться к нему можно с помощью атрибута `index`:

In [None]:
print(s.index)

По умолчанию индекс представляет собой последовательно возрастающие от нуля числа, но это легко можно изменить, явно указав метки:

In [None]:
s = pd.Series([1, 2, 3], index=['first', 'second', 'third'])
print(s.index)
print(s)

Одномерный массив можно создать с помощью словаря Python, при этом ключи становятся метками, а значения - элементами:

In [None]:
s = pd.Series({'a':100, 'b':200, 'c':300})
print(s)

Объекты класса `Series` могут использовать как `ndarray` или как `dict`:

In [None]:
s = pd.Series([1, 2, 3, 4, 5], index=['a', 'b', 'c', 'd', 'e'])

# получаем элемент по его позиции, как для ndarray
print(s[1])

# обращаемся к элементу по метке, как для dict
print(s['e'])

# определяем, есть ли метка в объекте Series
print('c' in s)

In [None]:
# получаем срез, как для ndarray;
# срез объекта Series тоже имеет тип Series
print(s[3:1:-1])

Бинарные операции для одномерных массивов pandas работают так же, как и для массивов NumPy (применяются для каждого элемента). Универсальные функции NumPy могут в качестве аргумента принимать объекты `Series`:

In [None]:
s1 = pd.Series([1, 2, 3], index=['a', 'b', 'c'])
s2 = pd.Series([0.1, 0.2, 0.3], index=['a', 'b', 'c'])
print(s1, '\n')
print(s2)

In [None]:
print(s1 * 3, '\n')
print(s1 + s2, '\n')
print(np.exp(s1))

Особо стоит отметить случай, когда бинарная операция выполняется для массивов `Series`, имеющих разные метки. В этом случае происходит следующее: если метка есть в обоих массивах, то операция выполняется и ее результат становится значением элемента в новом объекте, иначе - в новый объект записывается специальная константа `Nan`, которая трактуется как отсутствие значения.

In [None]:
s2.index = ['x', 'a', 'c'] # меняем индекс у объекта s2
print(s2)

In [None]:
result = s1 - s2
print(result)

Любые бинарные арифметические операции со значениями `Nan` будут давать `Nan`:

In [None]:
print(result + 1)

Объекты типа `Series` поддерживают обращение сразу к нескольким элементам:

In [None]:
s = pd.Series([1, 2, 3, 4, 5], index=['a', 'b', 'c', 'd', 'e'])
print(s[['a', 'd', 'e']], '\n')

# изменяем сразу несколько элементов
s[['c', 'd']] = 0
print(s)

Объекты типа `Series` можно сравнивать между собой и со скалярами. Сравнения, как и другие бинарные операции, выполняются для каждого элемента отдельно. Результатом становится новый объект, у которого в i-ой позиции стоит `True`, если сравнение соответствующего элемента дало истину:

In [None]:
s1 = pd.Series([10, 5, 7])
s2 = pd.Series([1, 12, 3])

print(s1 > s2, '\n')
print(s2 == 3)

С помощью массива, состоящего из булевых элементов, можно отфильтровать элементы другого массива той же размерности. При этом в результирующий объект `Series` попадают только элементы, для которых в соответствующей позиции фильтрующего массива находится `True`:

In [None]:
print(s1[s1 > s2])

В заключение скажем, что объекты класса `Series` являются итерируемыми, т.е. могут использоваться в цикле `for ... in`:

In [None]:
s = pd.Series({'aaa':0.1, 'bbb':0.2, 'ccc':0.3})

for item in s:
    print(item)

In [None]:
# так выполняется итерация по меткам:
for item in s.index:
    print(item)

### Класс DataFrame

Класс `DataFrame` представляет двумерный изменяемый массив (матрицу), столбцами которого являются одномерные массивы `Series`. С помощью атрибутов `index` и `columns` задаются метки для строк и столбцов. Как и для типа `Series`, объекты `DataFrame` можно создавать несколькими способами:

In [None]:
# из словаря Series (ключи словаря становятся метками столбцов,
# индексы Series объединяются и образуют индекс для строк)
df = pd.DataFrame({'col1': pd.Series([1, 2, 3], ['row1', 'row2', 'row3']),
                   'col2': pd.Series([0.1, 0.2, 0.3, 0.4], ['row1', 'row2', 'row5', 'row6'])})
print(df)
print(df.index)
print(df.columns)

In [None]:
# из словаря ndarray/list (ключи словаря становятся метками
# столбцов, для строк используется индекс по умолчанию)
df = pd.DataFrame({'c1': [1, 2, 3], 'c2':[4, 5, 6]})
df.index = ['r1', 'r2', 'r3']
print(df)

Семантически объект `DataFrame` может рассматриваться как [словарь](09_Collections.ipynb#Словарь), ключом в котором являются метки столбцов, а значением - соответствующие объекты `Series`. Операции, которые мы рассматривали для словаря, схожим образом выполняются и для объектов `DataFrame`: 

In [None]:
df = pd.DataFrame({'c1': pd.Series(np.random.random(3), ['r1', 'r2', 'r3']),
                   'c2': pd.Series(np.random.random(4), ['r1', 'r2', 'r3', 'r4']),
                   'c3': pd.Series(np.random.random(3), ['r1', 'r3', 'r4'])})
print(df)

In [None]:
# получение конкретного элемента
print(df['c1']['r1'], '\n')

# получение нескольких элементов столбца
print(df['c3'][['r1', 'r2']], '\n')

# получение столбца целиком
print(df['c2'])

Очень удобной является возможность обращаться к столбцам и строкам как к атрибутам. Например, вот так мы можем переписать предыдущий блок кода:

In [None]:
print(df.c1.r1, '\n')
print(df.c3[['r1', 'r2']], '\n')
print(df.c2)

In [None]:
# добавление и удаление столбца
df['c4'] = pd.Series(np.random.random(2), index=['r2', 'r4'])
print(df, '\n')

del df['c4']
print(df)

Существуют также удобные способы для обращения к строкам. В результате возвращаются объекты `Series`, индекс которых состоит из меток столобцов объекта `DataFrame`.

In [None]:
# получаем строку по метке и по позиции
print(df.loc['r2'], '\n')
print(df.iloc[1])

In [None]:
# получаем сразу несколько строк
print(df.loc[['r1', 'r3']], '\n')

# получаем несколько строк и несколько столбцов
print(df.loc[['r2', 'r3'], ['c1', 'c2']])

Наконец, можно получить целый набор строк объекта `DataFrame` одним из следующих способов (в результате получается новый объект `DataFrame`, как и следовало ожидать):

In [None]:
# используем операцию взятия среза
df2 = df[3:1:-1]
print(type(df2))
print(df2)

In [None]:
# используем специфическую для массивов pandas операцию
print(df.loc[['r1', 'r2']])

С таблицами, можно выполнять арифметические операции, которые реализованы по тому же принципу, что и для объектов `Series`:

In [None]:
df1 = pd.DataFrame({'c1': pd.Series([0, 1, 2], ['r1', 'r2', 'r3']),
                    'c2': pd.Series([3, 4, 5], ['r1', 'r2', 'r3'])})
df2 = pd.DataFrame({'c1': pd.Series([0.0, 0.1, 0.2], ['r1', 'r2', 'r3']),
                    'c2': pd.Series([0.3, 0.4, 0.5], ['r1', 'r2', 'r4']),
                    'c3': pd.Series([0.6, 0.7, 0.8], ['r1', 'r2', 'r4'])})
s = pd.Series(np.ones((3)), index=['c1', 'c2', 'c3'])

print(df1, '\n')
print(df2, '\n')
print(s)

In [None]:
# арифметическая операция со скаляром
print(df1 + 1)

In [None]:
# арифметическая операция с двумя матрицами (результат состоит
# из объединения строк и столбцов операндов, значение Nan вставляется
# в позиции, где отсутствует элемент в одном из операндов)
print(df1 * df2)

In [None]:
# арифметическая операция с объектом Series (выполняется по строкам,
# т.е. в индексе объекта Series должны быть указаны метки столбцов,
# для которых нужно применить операцию)
print(df2 - s)

Покажем, как можно создать новый объект `DataFrame`, применив фильтрацию к элементам существующего:

In [None]:
result = df2[df2.c2 > 0.3]
print(result)

В заключение скажем, что объекты `DataFrame` являются итерируемыми, и их можно использовать в циклах `for ... in`. При этом стоит отметить, что итерация по массивам pandas выполняется **медленно**, и лучше ее избегать (например, подобрав нужную функцию, которая сделает все сама).

### Статистика

В pandas существует большое количество функций и методов, предназначенных для получения различных статистических данных об одномерных и двумерных массивах. В этом разделе мы рассмотрим некоторые из них.

In [None]:
s = pd.Series(np.random.random(5))
df = pd.DataFrame({'c1': pd.Series(np.random.random(3), index=['r1', 'r2', 'r3']),
                   'c2': pd.Series(np.random.random(3), index=['r1', 'r2', 'r3'])})

print(s, '\n')
print(df)

In [None]:
# статистика для Series
print('sum={}, prod={}'.format(\
       s.sum(), s.prod()))
print('mean={}, var={}, std={}'.format(\
       s.mean(), s.var(), s.std()))

In [None]:
# статистика для DataFrame (методы все те же)
    
    # сумма элементов по столбцам
print(df.sum(), '\n')

    # сумма элементов по строкам
print(df.sum(1))

In [None]:
# основная статистика для DataFrame (для Series тот же метод)
print(df.describe())

### Чтение файлов csv, xlsx

Очень часто исходная информация хранится в файлах типа `csv` или `xlsx`. Для того, чтобы их прочитать, существуют различные библиотеки, но в `pandas` уже есть реализованный функционал.

In [None]:
import numpy as np
import pandas as pd
from pandas import Series, DataFrame

#### Загрузка данных

In [None]:
titanic_dataframe = pd.read_csv("data/titanic/train.csv", index_col='PassengerId')

#### Посмотреть на данные

In [None]:
titanic_dataframe.head()

#### Обращение по названию столбца

In [None]:
titanic_dataframe['Age']

#### Обращение по номеру строки

In [None]:
titanic_dataframe.loc[1]

#### Обращение по номеру столбца

In [None]:
titanic_dataframe.iloc[:, 0]

## С какими данными работаем

| Variable | Definition | Key |
| ------------- |:-------------|: -----|
| survival | Survival   | 0 = No, 1 = Yes | 
| pclass   | Ticket class | 1 = 1st, 2 = 2nd, 3 = 3rd |
| sex | Sex | |
| Age | Age in years | |
| sibsp | # of siblings / spouses aboard the Titanic | |
| parch | # of parents / children aboard the Titanic | |
| ticket | Ticket number  | |
| fare   | Passenger fare | |
| cabin  | Cabin number | |
| embarked | Port of Embarkation | C = Cherbourg, Q = Queenstown, S = Southampton |

#### Информация по датафрэйму

In [None]:
titanic_dataframe.info()

### Полезные функции

Начнём с функции `map` она позволяет применить функцию к каждому элементу `Series`

In [None]:
# Например, давайте переведем столбец Sex из строки в boolean, 0 - male и 1 - female

titanic_dataframe["Sex_bin"] = titanic_dataframe["Sex"].map(lambda x: 0 if x == "male" else 1)

titanic_dataframe[["Sex", "Sex_bin"]].head(5)

Функция `sort_values` сортирует значения принимая порядок сортировки как аргумент `by`. Аргумент `ascending` при значении `True` отсортирует значения по возрастанию, если `False` - по убыванию

In [None]:
titanic_dataframe.sort_values(by="Age", ascending=False).head(5)

Функция `groupby` позволяет группировать данные применяя к ним функции агригации

In [None]:
# Давайте посмотрим средний возраст для каждого класса
titanic_dataframe[["Pclass", "Age"]].groupby(by="Pclass").mean()

### Задание

Посчитать сколько пассажиров выжило в разрезе Пол,Класс

In [None]:
titanic_dataframe[["Sex", "Pclass", "Survived"]].groupby(by=["Sex", "Pclass"]).sum()

### Анализ датасета Titanik

In [None]:
titanic_dataframe = pd.read_csv("data/titanic/train.csv")

# Начнем анализ с изучения столбцов и типов их значений
titanic_dataframe.info()

Тут мы видим, что поле Age содержит много пропусков.

#### Визуализация данных

Давайте рассмотрим способы визуализации данных в Pandas.

Первым делом построим гистограмму выживших

In [None]:
print(titanic_dataframe["Survived"].value_counts())

plot = titanic_dataframe["Survived"].value_counts().plot(kind="bar")
plot.set_ylabel("Кол-во пассажиров")
plot.set_xlabel("0 - Умер, 1 - Выжил")

Оценим кол-во пассажиров в разных классах.

In [None]:
plot = titanic_dataframe["Pclass"].value_counts().sort_index().plot(kind="barh")
plot.set_xlabel("Кол-во пассажиров")
plot.set_ylabel("Класс")

Как можно заметить в 3-м классе больше всего пассажиров

Теперь оценим кол-во выживших в разных классах

In [None]:
titanic_dataframe[["Pclass", "Survived"]].groupby(by="Pclass").sum()

Как мы видим больше всего выжили тех, кто купил билет в 1-й класс.

Теперь оценим вероятность выжить в зависимости от класса.

In [None]:
plot = titanic_dataframe[["Pclass", "Survived"]].groupby(by="Pclass").mean().Survived.plot(kind="bar")
plot.set_ylabel(r"$P_{выж.}$", fontsize= 20)
plot.set_xlabel("№ класса", fontsize = 20)

Теперь проведем схожий анализ только для пола пассажиров. Для примера рассмотрим еще один тип графика, Pie. А так же параметры для более приятного отображения.

In [None]:

plot = titanic_dataframe["Sex"].value_counts().sort_index().plot (kind="pie", 
                                                                 autopct = '%1.1f%%', # для вывода процентов
                                                                 shadow = True, # добавляет тень
                                                                 explode = (0.0,0.2) # дает отступ
                                                                ) 

Оценим вероятность выжить для каждого пола.

In [None]:
plot = titanic_dataframe[["Sex", "Survived"]].groupby(by="Sex").mean().plot.bar(legend = False)
plot.set_ylabel(r"$P_{выж.}$", fontsize= 15)
plot.set_xlabel("Пол", fontsize = 15)

### Задание

Проанализировать на распределение и вероятность выживания поля Embarked (Порт поссадки пассажира), SibSp (Число братьев\сестёр\супругов), Parch (Кол-во детей\родителей)

In [None]:
# Embarked dist

In [None]:
# Embarked Psurv

In [None]:
# Sibsp dist

In [None]:
# Sibsp Psurv

In [None]:
# Parch dist

In [None]:
# Parch Psurv

Рассмотрим вспомогательную библиотеку `seaborn` (она основана на `matplotlib`) и позволяет быстрее строить более сложные графики

In [None]:
import seaborn as sns

Для начала построим расспределение пассажиров по возрасту 

In [None]:
plt.figure()
sns.distplot(titanic_dataframe[titanic_dataframe.Survived == 1].Age, label = "Выжили")
sns.distplot(titanic_dataframe[titanic_dataframe.Survived == 0].Age, label = "Погибли")
plt.legend()
plt.show()

Теперь посмотрим расспределение для цены билета

In [None]:
plt.figure()
sns.distplot(titanic_dataframe[titanic_dataframe.Survived == 1].Fare, label = "Выжили")
sns.distplot(titanic_dataframe[titanic_dataframe.Survived == 0].Fare, label = "Погибли")
plt.legend()
plt.show()

Теперь разделим цены на категории и оценим зависимости выживаемости для каждой категории 

In [None]:
titanic_dataframe["Fare_cat"] = pd.cut(titanic_dataframe["Fare"], bins=[0,7.9,14.45,31.28,120], labels = ["Low", "Mid", "High_Mid", "High"])

In [None]:
plot = titanic_dataframe[["Fare_cat", "Survived"]].groupby(by="Fare_cat").mean().Survived.plot()
plot.set_ylabel(r"$P_{выж.}$", fontsize= 20)
plot.set_xlabel("Стоимость билета", fontsize = 20)

Как видим - зависимость прямая

Теперь посмотрим в каком классе какой пол встречается чаще

In [None]:
sns.factorplot("Sex", col = "Pclass", data = titanic_dataframe, kind = "count")

Тоже самое сделаем для Порта посадки и класса пассажира

In [None]:
sns.factorplot("Pclass", col = "Embarked", data = titanic_dataframe, kind = "count")

### Задание

Постройте такой же анализ для Порта посадки и Пола

In [None]:
### код тут

Давайте переведем из строк в численные значения поля `Sex` и `Embarked`
При помощи функции `apply` и `map`

In [None]:
titanic_dataframe["Sex"] = titanic_dataframe["Sex"].map(lambda x: 0 if x == "male" else 1)

titanic_dataframe["Embarked"] = titanic_dataframe["Embarked"].map({"C": 0, "Q": 1, "S": 2})

titanic_dataframe.head()

Давайте объеденим признаки SibSp и Parch в один признак FamilyCount. Тут нам опять поможет функция `apply` 

In [None]:
titanic_dataframe["FamilyCount"] = titanic_dataframe[["SibSp", "Parch"]].apply(lambda x: sum(x) + 1, axis = 1)

titanic_dataframe.head(5)

в завершении построим патрицу корреляций между всеми признаками. Коэффициент корреляции показывает зависимость между признаками. Чем ближе значение корреляции к -1 или 1 - тем больше зависимость, чем ближе к 0 - тем меньше зависимость

In [None]:
corr = titanic_dataframe.drop(columns="PassengerId").corr()

In [None]:
plt.figure(figsize=(10,10))
sns.heatmap(corr, cmap='flare', annot = True, linewidths = 0.3)

### Pandas profiling

Pandas profile - это удобный инструмет для построения автомотического отчета по данным в Pandas 

In [None]:
import pandas_profiling, webbrowser

profile = pandas_profiling.ProfileReport(titanic_dataframe)
profile.to_file("data_profile.html")

# Открыть страницу в браузере
_ = webbrowser.open_new_tab("data_profile.html")

### Подготовка датасета Titanik

In [None]:
# Удалим уникальные данные, которые не влияют на факт выживания

titanic_df = pd.read_csv("data/titanic/train.csv")

cols = ["Name", "Ticket", "Cabin"]
titanic_df = titanic_df.drop(columns=cols, axis = 1)

titanic_df.info()

Приведем признак Fare к категориальному разбив его на 4 промежутка

In [None]:
titanic_df["Fare_cat"] = pd.cut(titanic_df["Fare"], bins=[0,7.9,14.45,31.28,120], labels = ["Low", "Mid", "High_Mid", "High"])

titanic_df = titanic_df.drop(columns="Fare")

Теперь давайте подготовим категориальные признаки (категориальными называют признаки имеющие конечное число значений. Например, тип класса или пол, их всего 3 или 2 соответственно.)

In [None]:
# определим категориальные признаки
cat_columns = ["Pclass", "Sex", "Embarked", "Fare_cat"]
cat_features = [pd.get_dummies(titanic_df[col]) for col in cat_columns]

# Соединим полученные значения в одну таблицу. axis = 1 означает, что присоединяться будут столбцы
cat_features = pd.concat(cat_features, axis=1)

# Присоединим полученные данные к основной таблице
titanic_df = pd.concat([titanic_df, cat_features], axis = 1)

# Удалим оригиналы столбцов
titanic_df = titanic_df.drop(columns=cat_columns, axis = 1)


titanic_df.head(5)

Следующим шагом заполним строки с пропущиными значениями NaN
В практике, чаще всего, пропуски заполняют средним, промежуточным или наиболее часто встречающимся значением

In [None]:
# Найдем столбцы с пустыми значениями
titanic_df.isna().sum()

In [None]:
# Заполним пропуски промежуточными значениями (при помощи линейной интерполяции)
titanic_df["Age"] = titanic_df["Age"].interpolate(method="linear")
titanic_df.isna().sum()

За альтернативу можно взять функцию `dropna`. Она позволяет удалить пропуски, но такой подход ведет к потери дрогоценных данных.

In [None]:
titanic_df["Age"] = titanic_df["Age"].interpolate(method="linear")

Как сделали выше, создадим признак FamilyCount, которой является суммой признаков `SibSp` и `Parch`

In [None]:
titanic_df["FamilyCount"] = titanic_df["SibSp"] + titanic_df["Parch"] + 1
titanic_df = titanic_df.drop(columns=["SibSp", "Parch"])

## SkLearn

Scikit-learn - один из наиболее широко используемых пакетов Python для Data Science и Machine Learning. Он позволяет выполнять множество операций и предоставляет множество алгоритмов. Scikit-learn также предлагает отличную документацию о своих классах, методах и функциях, а также описание используемых алгоритмов. 

## Скалирование и нормализация

Вам часто нужно преобразовывать данные таким образом, чтобы среднее значение каждого столбца (элемента) было равно нулю, а стандартное отклонение - единице. В этом случае, можно использовать sklearn.preprocessing.StandardScaler:

In [None]:
X = titanic_df.drop(columns=["PassengerId", "Survived"]).values
Y = titanic_df["Survived"]

In [None]:
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
scaled_x = scaler.fit_transform(X)
scaler.scale_

In [None]:
scaler.mean_

In [None]:
scaler.var_

In [None]:
scaled_x[0], x[0]

### Более сложный препроцессинг

Рассмотрим пример более сложной обработки данных. Например оператор HOG. Он позволяет получить гистограммы ориентированных градиентов для изображения. Такой метод обработки изображений часто используется в задачах компьютерного зрения

In [None]:
from skimage.feature import hog
from skimage import data, exposure

image = data.astronaut()

fd, hog_image = hog(image, orientations=8, pixels_per_cell=(16, 16),
                    cells_per_block=(1, 1), visualize=True)

fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(8, 4), sharex=True, sharey=True)

ax1.axis('off')
ax1.imshow(image)
ax1.set_title('Input image')

hog_image_rescaled = exposure.rescale_intensity(hog_image, in_range=(0, 10))

ax2.axis('off')
ax2.imshow(hog_image_rescaled, cmap=plt.cm.gray)
ax2.set_title('Histogram of Oriented Gradients')
plt.show()