# **Лекция 6: модули в `python` и начало работы с численными данными**

## **План лекции**

- Обсуждение плана лекции
- Понятие модулей в `python`
    - Вопросы?
- Модуль `numpy`
- Что такое `ndarray`?
- Шаблоны создания массивов
- Поэлементное перемножение
- Матричные операции и линейная алгебра
- Индексирование матриц и векторов в `numpy`
- Подмодуль `numpy.random` и статистика (если успеем)
    - Вопросы?
- Разбор задачки из дз (если успеем)

# Модули в `python`

На модули можно посмотреть с двух сторон:
- Модули &ndash; это дополнения для `python`, которые позволяют решать узкоспециализрованные задачи. В прошлом домашнем задании я использовал модуль `pickle`, чтобы загрузить словарь с фильмами из файла. Есть много других модулей, позволяющих сильно упрощать жизнь
- Модулем является любой `.py` файл: это способ написать функции (или объявить классы или другие объекты) и использовать их в других файлах

В первую очередь, мы будем использовать другие модули. Для использования модуля нужно их установить и импортировать. В анаконду уже включены многие модули для работы с численными данными, поэтому устанавливать большинство из них нам не нужно. Импортируем модуль `numpy`:

In [3]:
import numpy as np

> ☝ Если вы будете работать с модулем, не забывайте его импортировать! Если забудете импортировать, вас ждет такая ошибка:
> ```python
> NameError: name 'np' is not defined
> ```

У большинства модулей есть конвенциональные сокращения, например модуль `numpy` в 98% случаях импортируется как `np`. Давайте посмотрим на него поближе!

# Модуль `numpy`

`numpy` (нампáй) это модуль для работы с численными данными с открытым исходным кодом. Изначально, `numpy` был чем-то вроде альтернативы другому популярному языку программирования &ndash; `MATLAB`-у. Действительно, многие функции и синтаксис очень близки и в нампае, и в Матлабе и в, например, `R` (хоть и в меньшей степени). Достоинство связки `python` и `numpy` заключается в открытом исходном коде и гибкости использования: именно на `python` написаны `api` ко многим программам, огромное количество пакетов и модулей, а значит можно использовать его вместе с огромным количеством разных инструментов.


Основу `numpy` составляют `ndarray` &ndash; класс (тип) данных, в котором можно удобно хранить многомерные массивы данных. Их можно создать несколькими разными способами. Самый простой &ndash; из списка:

In [6]:
example = np.array([1, 2, 3, 4, 5, 6])
print(example, type(example))

[1 2 3 4 5 6] <class 'numpy.ndarray'>


А что если мы хотим сделать очень большой массив? Конечно, мы всегда можем сделать это сделать это через цикл или `list comprehension`:

In [10]:
sample = []
for i in range(100):
    sample.append(i)
sample = np.array(sample)
print(sample)

sample = np.array([i for i in range(100)])
print(sample)

[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47
 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71
 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95
 96 97 98 99]
[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47
 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71
 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95
 96 97 98 99]


Но проще всего это сделать через:

In [12]:
sample = np.arange(100)
print(sample)

[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47
 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71
 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95
 96 97 98 99]


Абсолютно все операции из `numpy` можно сделать через обычный `python`, однако это *медленее* и *менее удобно*.

<p>
<details>
<summary> ☝ ✨ <u> Почему еще медленнее? </u> </summary>

Потому что большинство операций в `numpy` используют очень много низкоуровневого кода, по большей части написаного на C. `ndarray` в отличии от списков в чистом `python` могут содержать только один тип данных и статичны, что ускоряет работу с ними.

</details>
</p>

Раз уж мы стали обсуждать функции, которые позволяют создавать разного рода массивы в `numpy`, то давайте посмотрим на самые полезные:

In [14]:
print('Нолики: ')
print(np.zeros([3, 3])) # в качестве аргумента указываем СПИСОК с размером
                        # np.zeros(3, 3) не сработает!

print('ones:')
print(np.ones([3, 3]))

print('Arange с началом (1), концом (10) и шагом (0.1):')
print(np.arange(1, 10, 0.1))

Нолики: 
[[0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]]
ones:
[[1. 1. 1.]
 [1. 1. 1.]
 [1. 1. 1.]]
Arange с началом (1), концом (10) и шагом (0.1):
[1.  1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2.  2.1 2.2 2.3 2.4 2.5 2.6 2.7
 2.8 2.9 3.  3.1 3.2 3.3 3.4 3.5 3.6 3.7 3.8 3.9 4.  4.1 4.2 4.3 4.4 4.5
 4.6 4.7 4.8 4.9 5.  5.1 5.2 5.3 5.4 5.5 5.6 5.7 5.8 5.9 6.  6.1 6.2 6.3
 6.4 6.5 6.6 6.7 6.8 6.9 7.  7.1 7.2 7.3 7.4 7.5 7.6 7.7 7.8 7.9 8.  8.1
 8.2 8.3 8.4 8.5 8.6 8.7 8.8 8.9 9.  9.1 9.2 9.3 9.4 9.5 9.6 9.7 9.8 9.9]


Отдельного внимания заслуживает функция `np.linspace` &ndash; она позволяет создавать массивы фиксированной длины. К примеру, мы хотим сделать массив из ровно ста точек, где первым элементом будет 0, а последним $\pi$:

In [15]:
print(np.linspace(0, np.pi, 100))

[0.         0.03173326 0.06346652 0.09519978 0.12693304 0.1586663
 0.19039955 0.22213281 0.25386607 0.28559933 0.31733259 0.34906585
 0.38079911 0.41253237 0.44426563 0.47599889 0.50773215 0.53946541
 0.57119866 0.60293192 0.63466518 0.66639844 0.6981317  0.72986496
 0.76159822 0.79333148 0.82506474 0.856798   0.88853126 0.92026451
 0.95199777 0.98373103 1.01546429 1.04719755 1.07893081 1.11066407
 1.14239733 1.17413059 1.20586385 1.23759711 1.26933037 1.30106362
 1.33279688 1.36453014 1.3962634  1.42799666 1.45972992 1.49146318
 1.52319644 1.5549297  1.58666296 1.61839622 1.65012947 1.68186273
 1.71359599 1.74532925 1.77706251 1.80879577 1.84052903 1.87226229
 1.90399555 1.93572881 1.96746207 1.99919533 2.03092858 2.06266184
 2.0943951  2.12612836 2.15786162 2.18959488 2.22132814 2.2530614
 2.28479466 2.31652792 2.34826118 2.37999443 2.41172769 2.44346095
 2.47519421 2.50692747 2.53866073 2.57039399 2.60212725 2.63386051
 2.66559377 2.69732703 2.72906028 2.76079354 2.7925268  2.824260

## А зачем нам вообще работать с этими массивами?

В основном потому, что работа с формулами и любыми численными данными упрощается во много раз. В `numpy` можно перемножать массивы на числа и друг между другом: 
 - **Если мы умножаем `ndarray` на число, то на число умножаются все элементы этого массива**
 - **Если перемножаем массивы, то они умножаются поэлементно**
 - **Все остальные операции (сложение, вычитание, деление, возведение в степень, etc.) выполняются тоже поэлементно**
 
 Например:

In [73]:
a = np.arange(1, 10)
print('Умножаем массив на число:')
print(f'Массив a = {a}')
print(f'Массив a * 2 = {a*2}\n')

b = np.arange(1, 10)
print(f'Массив b = {b}')
print(f'Результат умножения a * b = {a*b}\n')

print(f'Результат сложения a + b = {a+b}\n')

print(f'Результат деления a/b = {a/b}')

Умножаем массив на число:
Массив a = [1 2 3 4 5 6 7 8 9]
Массив a * 2 = [ 2  4  6  8 10 12 14 16 18]

Массив b = [1 2 3 4 5 6 7 8 9]
Результат умножения a * b = [ 1  4  9 16 25 36 49 64 81]

Результат сложения a + b = [ 2  4  6  8 10 12 14 16 18]

Результат деления a/b = [1. 1. 1. 1. 1. 1. 1. 1. 1.]


> ☝ Не получится перемножить массивы разной длины друг на друга. Это одна из самых часто встречающихся ошибок! Часто бывает так, что вы пытаетесь это сделать случайно, и у вас не получается. Пожалуйста, запомните сообщение об ошибке, оно вам точно встретится еще на раз:

In [92]:
array_len_10 = np.arange(10)
array_len_5 = np.arange(5)
array_len_10*array_len_5

ValueError: operands could not be broadcast together with shapes (10,) (5,) 

Мы можем узнать информацию о массивах с помощью следующих комманд:

In [98]:
print(f'Размер массива аrray_len_10 = {array_len_10.shape}') # размер массива
print(f'Длина массива аrray_len_10 = {len(array_len_10)}\n') # работает и функция len!

zeros = np.zeros([3, 3])
print(f'Матрица zeros: \n{zeros}')
print(f'Размер матрицы zeros = {zeros.shape}')

print(f'Количество измерений матрицы zeros = {zeros.ndim}') # то же самое что len(zeros.shape)

Размер массива аrray_len_10 = (10,)
Длина массива аrray_len_10 = 10

Матрица zeros: 
[[0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]]
Размер матрицы zeros = (3, 3)
Количество измерений матрицы zeros = 2


## А зачем нам это поэлементное перемножение?

Давайте вернемся к задачам из прошлых домашних заданий и семинаров и разберем их с новыми знаниями. Помните задачку с фаренгейтами где нужно было перевести значения градусов в Фаренгейты? Это можно сделать одной строчкой:

In [82]:
temp_moscow_c = np.array([-6.2, -5.9, -0.7, 6.9, 13.6, 17.3, 19.7, 17.6, 11.9, 5.8, -0.5, -4.4])
temp_moscow_f = temp_moscow_c*9/5 + 32
for c, f in zip(temp_moscow_c, temp_moscow_f):  # колдунство, ага
    print(c, f)

-6.2 20.84
-5.9 21.38
-0.7 30.74
6.9 44.42
13.6 56.48
17.3 63.14
19.7 67.46
17.6 63.68
11.9 53.42
5.8 42.44
-0.5 31.1
-4.4 24.08


Помните задачку `Полный пипец` из второго практического задания? 

> Посчитайте значение формулы для любого натурального числа `n`:
$$
y = 4\frac{(-1)^n}{2n+1}
$$
> Сложите все `y` для `n` равных от нуля до `10000`. Что за число получилось? 

Оригинальное решение выглядело так:

In [16]:
sum_y = 0
for n in range(0, 10000):
    sum_y += 4*(-1)**n/(2*n+1)
print(sum_y)

3.1414926535900345


А вот так это можно записать с помощью `numpy`:

In [17]:
n = np.arange(0, 10000)
y = 4*(-1)**n/(2*n+1)
print(y.sum())

3.1414926535900416


Вообще говоря, это очень неточное значение числа $\pi$, потому что ряд медленно сходится. Давайте попробуем взять побольше итераций и сравнить время выполнения:

In [21]:
sum_y = 0
for n in range(0, 10000000):
    sum_y += 4*(-1)**n/(2*n+1)
print(sum_y)

3.1415925535897915


И вот так считает `numpy`:

In [24]:
n = np.arange(0, 10000000)
y = 4*(-1)**n/(2*n+1)
print(y.sum())

3.1415925535897977


<p>
<details>
<summary> ☝ ✨ <u> И насколько быстрее? </u> </summary>

Посчитаем с помощью старого доброго `timeit`! Код для измерения время работы обычного `python`:
```python
    
def leibniz_pi(n=10000000):
    sum_y = 0
    for n in range(0, 10000000):
        sum_y += 4*(-1)**n/(2*n+1)
    return sum_y
%timeit leibniz_pi()
```
Код для измерения время работы `numpy`:
```python
    
%timeit n = np.arange(0, 10000000); y = 4*(-1)**n/(2*n+1)
```
Первый код у меня занимает ~2.22 секунды, второй &ndash; 147 миллисекунд.
</details>
</p>

Давайте посмотрим другой пример. Допустим, у нас есть десять точек на плоскости, каждая из которых имеет координаты по осям `x` и `y`. У нас есть два массива этих координат, где `x[i], y[i]` это пара координат i-ой точки:

In [44]:
x = np.array([0.06503527, 0.39541038, 0.05495712, 0.93290225, 0.38837838,
              0.88251197, 0.17546014, 0.94477873, 0.70793484, 0.9565107 ])
y = np.array([0.08838887, 0.51019864, 0.10800854, 0.24220659, 0.471308  ,
           0.88908618, 0.66900829, 0.51928755, 0.6877618 , 0.93297063])

Мы же хотим найти точку, которая находится ближе всего к центру нашего поля (`0.5, 0.5`). Как бы мы это сделали в обычном `python`?

<p>
<details>
<summary>  <u> Формула расстояния между двумя точками на плоскости </u> </summary>

Если у нас есть две точки ($x_i$, $y_i$) и ($x_0$, $y_0$), то расстояние между ними можно найти по [формуле](https://ru.wikipedia.org/wiki/%D0%A2%D0%B5%D0%BE%D1%80%D0%B5%D0%BC%D0%B0_%D0%9F%D0%B8%D1%84%D0%B0%D0%B3%D0%BE%D1%80%D0%B0):
$$
distance = \sqrt{(x_i - x_0)^2 + (y_i - y_0)^2)}
$$

</details>
</p>

In [49]:
distances = []
x0 = 0.5
y0 = 0.5
for i in range(len(x)):
    distances.append(((x[i] - x0)**2 + (y[i] - y0)**2)**(1/2)) # ищем расстояние на плоскости 
minimum_value = min(distances) # находим минимальное значение 
index_minimum = distances.index(minimum_value) # ищем индекс минимального значения на плоскости 

# зная индекс минимального значения, выводим x и y соответсвующие ему:
print(x[index_minimum], y[index_minimum]) 

0.39541038 0.51019864


А так с помощью `numpy`:

In [51]:
x0 = 0.5
y0 = 0.5
distances = ((x - x0)**2 + (y - y0)**2)**1/2 # ищем расстояние на плоскости 
index_minimum = np.argmin(distances) # функция, которая ищет индекс минимального значения

# зная индекс минимального значения, выводим x и y соответсвующие ему:
print(x[index_minimum], y[index_minimum]) 

0.39541038 0.51019864


Поэлементно можно умножать и матрицы:

In [128]:
A = np.array([[1, 1, 1],
              [2, 2, 2],
              [3, 3 ,3]])
B = np.array([[1, 2, 3],
              [1, 2, 3],
              [1, 2 ,3]])

print(f'Результат перемножения матриц:\n{A*B}')

Результат перемножения матриц:
[[1 2 3]
 [2 4 6]
 [3 6 9]]


## Линейная алгебра и ее приложения

Раз у нас есть матрицы и векторы, значит мы можем использовать линейную алгебру. А значит мы можем [перемножать массивы (матрицы)](https://ru.wikipedia.org/wiki/%D0%A3%D0%BC%D0%BD%D0%BE%D0%B6%D0%B5%D0%BD%D0%B8%D0%B5_%D0%BC%D0%B0%D1%82%D1%80%D0%B8%D1%86) друг на друга матричным перемножением! Для этого используется специальный оператор `@`. Давайте посмотрим пример:

In [130]:
A = np.array([[1, 1, 1],
              [2, 2, 2],
              [3, 3 ,3]])
B = np.array([[1, 2, 3],
              [1, 2, 3],
              [1, 2 ,3]])

print(f'Результат перемножения матриц:\n{A@B}')

Результат перемножения матриц:
[[ 3  6  9]
 [ 6 12 18]
 [ 9 18 27]]


А как перемножить матрицу на вектор? Мы знаем правило перемножения матриц на векторы: если мы перемножим матрицу на вектор в таком порядке: `(3, 3) * (3, 1)`, то должен получится столбец `(3, 1)`. Как это сделать?

Прежде чем мы ответим на этот вопрос,  сначала разберемся с одним важным нюансом. Создадим два, казалось бы, одинаковых массива:

In [134]:
first = np.ones(10)
second = np.ones((10, 1))

print(f'Размер первого массива: {first.shape}')
print(f'Размер второго массива: {second.shape}')

Размер первого массива: (10,)
Размер второго массива: (10, 1)


Что это значит? В терминологии `numpy` `first` это **вектор**, `second` это **матрица**.

Строго говоря, мы можем получить векторы в виде *строк и столбцов*, нам нужно сделать специальные операции:

In [135]:
first_matr = first.reshape(10, 1) # изменение размера массива

Наконец, попробуем сделать матричное перемножение:

In [138]:
x = np.array([1, 2, 3]).reshape(3, 1)
print(f'Результат перемножения Ax:\n{A @ x}')

Результат перемножения Ax:
[[ 6]
 [12]
 [18]]


Обратите внимание, что это работает и в обратную сторону:

In [139]:
x = np.array([1, 2, 3]).reshape(1, 3)
print(f'Результат перемножения xA:\n{x @ A}')

Результат перемножения xA:
[[14 14 14]]


Другие полезные матричные операции:

In [157]:
A = np.array([[1, 1, 1],
              [2, 2, 2],
              [3, 3 ,3]])
print(f'Матрица A: \n{A} \n')

print(f'Транспонируем матрицу A: \n{A.T} \n')

print(f'Определитель матрицы A: {np.linalg.det(A)}\n')

print(f'Собственные значения матрицы A: {np.linalg.eigvals(A)}\n')

Матрица A: 
[[1 1 1]
 [2 2 2]
 [3 3 3]] 

Транспонируем матрицу A: 
[[1 2 3]
 [1 2 3]
 [1 2 3]] 

Определитель матрицы A: -1.8488927466117412e-32

Собственные значения матрицы A: [ 6.00000000e+00 -2.06006449e-16  1.88904767e-17]



> ☝️ Другие полезные функции из линейной алгебры можно найти в [документации](https://numpy.org/doc/stable/reference/routines.linalg.html)

# Базовое индексирование массивов `numpy`

Одной из самых важных и полезных фич `numpy` является очень продвинутое индексирование массивов, которое позволяет писать короткий, понятный и эффективный код. Сегодня мы посмотрим только на базовые примеры работы с матрицами и векторами. Индексирование вектора (одномерного массива) очень похоже на индексирование списков. А вот индексирование матриц немного отличается.

Синтаксис:
- `A[i, j]` - элемент в `i`-ой строчке и в `j`-ом столбце.
- `A[0, 0]` - элемент на строчке `0` и столбце `0`
- `A[:, 0]` - нулевой столбец
- `A[0, :]` - нулевая строчка

In [164]:
A = np.array([[1, 1, 1],
              [2, 2, 2],
              [3, 3 ,3]])

print(f'A[0, 0] = {A[0, 0]}')
print(f'Нулевой столбец: A[:, 0] = {A[:, 0]}')
print(f'Нулевая строчка: A[0, :] = {A[0, :]}')

A[0, 0] = 1
Нулевой столбец: A[:, 0] = [1 2 3]
Нулевая строчка: A[0, :] = [1 1 1]


> ☝️ Очень часто данные выглядят так: есть таблица размером `n x m`, и в каждом столбце записана разные переменные. Поэтому важнее всего помнить, как достать столбец из нашей матрицы!`

# Базовая статистика в `numpy`

Для работы со случайными величина есть целый подмодуль `random`. Посмотрим на случайную величину с постоянной плотностью вероятности:

In [173]:
print(f'Случайная величина, распредленная равномерно на отрезке от нуля до единицы:')
print(np.random.rand())

print(f'\nВектор таких случайных величин длины 10:')
print(np.random.rand(10))

print(f'\nМатрица таких случайных величин размера (10, 10):')
print(np.random.rand(10))

print(f'\nСлучайная величина, распредленная равномерно на отрезке от -0.5 до 0.5:')
print(np.random.rand() - 0.5)

print(f'\nСлучайная величина, распредленная равномерно на отрезке от 0 до 10:')
print(np.random.rand()*10)

Случайная величина, распредленная равномерно на отрезке от нуля до единицы:
0.14723248811173428

Вектор таких случайных величин длины 10:
[0.11643132 0.05369556 0.22521952 0.9661568  0.73840288 0.39606244
 0.56743262 0.796969   0.23179344 0.08239339]

Матрица таких случайных величин размера (10, 10):
[0.49476695 0.46274642 0.99234035 0.76370579 0.45104703 0.2828371
 0.83546541 0.59041056 0.60255952 0.99149986]

Случайная величина, распредленная равномерно на отрезке от -0.5 до 0.5:
0.2425852655757007

Случайная величина, распредленная равномерно на отрезке от 0 до 10:
5.8684501138794545


Посмотрим на нормально распредленные случайные величины:

In [197]:
print(f'Случайная величина, распредленная нормально с матожиданием 0 и стандартным отклонением 1:')
print(np.random.randn()) # обратите внимание, randn, добавилась n в конце

print(f'\nВектор таких случайных величин длины 10:')
print(np.random.randn(10))

print(f'\nМатрица таких случайных величин размера (10, 10):')
print(np.random.randn(10))

print(f'\nСлучайная величина, с матожиданием 5 и стандартным отклонением 1:')
print(np.random.randn() + 5)

print(f'\nСлучайная величина, с матожиданием 0 и стандартным отклонением 10:')
print(np.random.randn()*10 + 0)

Случайная величина, распредленная нормально с матожиданием 0 и стандартным отклонением 1:
-1.7415858140321263

Вектор таких случайных величин длины 10:
[ 0.51794424  0.28726822 -1.10442653  1.52994565  0.44670028 -1.83692844
  1.36579252 -0.86196888 -1.31100964 -0.17347723]

Матрица таких случайных величин размера (10, 10):
[-2.22476372 -1.3471568   0.63222198 -1.17666265  0.61844508 -0.96432846
 -0.57263971 -0.13532853  0.29000164 -0.06371472]

Случайная величина, с матожиданием 5 и стандартным отклонением 1:
5.2377214946109065

Случайная величина, с матожиданием 0 и стандартным отклонением 10:
-5.66754226174


# Среднее и стандратные отклонения выборки

Ну и теперь давайте посмотрим на то, что мы с вами можем извлечь из данных. Две главных функции:
- `np.mean()`: находит среднее значение вектора
- `np.std()`: находит среднеквадратичное отклонение вектора

In [258]:
print(f'Среднее значение в выборке из 20 сгенирированных случайных величин:')
print(np.mean(np.random.randn(20)*3 + 2))

# Увеличим число:
print(f'Среднее значение в выборке из 2000 сгенирированных случайных величин:')
print(np.mean(np.random.randn(2000)*1 + 2))

# Увеличим число:
print(f'Стандартное отклонение в выборе из 2000 сгенирированных случайных величин:')
print(np.std(np.random.randn(2000)*1 + 2))

print(f'Можно их использовать как метод: {np.random.randn(2000).mean()}')

Среднее значение в выборке из 20 сгенирированных случайных величин:
1.6360399050460213
Среднее значение в выборке из 2000 сгенирированных случайных величин:
2.029404282280677
Стандартное отклонение в выборе из 2000 сгенирированных случайных величин:
0.9938820032521802
Можно их использовать как метод: 0.04691232931165366


### Разбор задач из домашнего задания (если успеем)



In [None]:
# Наш код