# Занятие 3.2


## Аннотация
Второе занятие посвящено библиотеке NumPy и особенным типам данных, которые в ней используются.

## 1. Работа с модулями в Python

### О библиотеке NumPy

NumPy — это библиотека Python, которую применяют для математических вычислений: начиная с базовых функций и заканчивая линейной алгеброй. Полное название библиотеки — Numerical Python extensions, или «Числовые расширения Python». Библиотека добавляет поддержку больших многомерных массивов и матриц, вместе с большим набором высокоуровневых (и очень быстрых) математических функций для операций с этими массивами. Она является одной из основных библиотек для научных вычислений и анализа данных в Python и обеспечивает эффективные средства для работы с числами, массивами, линейной алгеброй и многими другими математическими операциями.

Основные преимущества NumPy:
* Работа с многомерными массивами.  
Основной объект NumPy - это многомерный массив (или ndarray), который представляет собой таблицу чисел одного типа (например, целых чисел или чисел с плавающей запятой). Эти массивы могут иметь одну, две, трех и более размерности.
* Быстрые операции над массивами.  
NumPy предоставляет эффективные (и поэтому быстрые) операции над массивами, включая математические, статистические, логические и другие операции.
* Поддержка индексация и срезов.  
NumPy позволяет индексировать и выполнять срезы массивов, что упрощает доступ к данным и их обработку.
* Интеграция с другими библиотеками.  
NumPy хорошо интегрируется с другими библиотеками для научных вычислений, такими как SciPy (для высокоуровневых операций), Matplotlib (для визуализации данных), и многими другими.
* Поддержка множества типов данных.  
NumPy поддерживает различные типы данных, включая целые числа разной точности, числа с плавающей точкой, комплексные числа, булевы значения и даже пользовательские типы данных.
* Поддержка случайных чисел.  
NumPy включает в себя модуль random для генерации случайных чисел.
* Функции линейной алгебры и статистики.  
NumPy предоставляет функции для выполнения операций линейной алгебры (например, умножение матриц, вычисление собственных значений и векторов) и статистики (например, вычисление среднего, медианы, дисперсии и т.д.).

Использование NumPy позволяет значительно ускорить выполнение операций над данными, особенно в сравнении с обычными списками Python. Благодаря своей широкой функциональности и высокой производительности, NumPy стал неотъемлемой частью экосистемы научных вычислений в Python и используется во многих областях, включая научные исследования, анализ данных, машинное обучение, обработку изображений, физику и многое другое.






Пакет **numpy** включен в стандартную среду Google Colab. При необходимости его можно поставить через pip:  
`pip install numpy`  
Перед началом работы его следует импортировать:  
`import numpy as np`  

И прежде чем начать пользоваться библиотекой, разберемся с терминами.

### Немного о структуре кода в Python

Крупные проекты и программы могут содержать десятки тысяч строк кода. В таких условиях одним файлом с кодом уже не обойтись — его нужно разбивать на части. И с целью получения доступа к коду, который находится в других файлах, реализуются различные механизмы организации кода.

В Python для описания организации и структуры кода используются термины "пакет", "модуль" и "библиотека". Разберемся, чем они отличаются.

1) **Модуль**.  
Модуль в Python — это файл с расширением .py, содержащий код на Python. Модуль может содержать функции, классы и переменные, которые могут быть использованы в других программах или модулях. Для использования кода из модуля его нужно импортировать с помощью ключевого слова import.

2) **Пакет**.  
Пакет в Python — это директория, которая содержит один или несколько модулей. Пакеты позволяют организовывать код на Python в логические группы, что упрощает его управление и поддержку и позволяет использовать его в других проектах. Каждый пакет содержит файл `__init__.py`, который указывает Python, что это пакет, а не просто директория. Пакеты также могут содержать другие пакеты, образуя древовидную структуру. Так же как и модуль, пакет может быть импортирован, поэтому он и сам в каком-то смысле является модулем в более общем виде и иногда эти термины используется как синонимы.

3) **Библиотека**.  
Библиотека в Python — это совокупность модулей или пакетов, предназначенных для выполнения определенной функциональности. Библиотеки могут быть стандартными, входящими в стандартную библиотеку Python, или сторонними, устанавливаемыми с помощью инструментов управления пакетами, таких как pip. Примерами стандартных библиотек в Python являются os или random.

Таким образом, модули используются для организации кода на уровне файла, пакеты — для организации модулей на уровне директории, а библиотеки — для предоставления некоторого функционала, упакованного в модули или пакеты.

Python предоставляет возможность разработчикам создавать и свои (пользовательские) модули, которые не обязательно размещать в каталоге пакетов.

### Использование import

**import** — это ключевое слово в Python, которое используется для загрузки модулей или объектов из других модулей в текущий скрипт или интерактивную среду.

Процесс работы import состоит из нескольких этапов:

* Поиск модуля: Python начинает поиск указанного модуля в соответствии с набором правил. Это текущий каталог, каталоги, указанные в специальной переменной окружения PYTHONPATH, а также стандартные каталоги для установленных модулей в операционной системе.

* Загрузка модуля: когда модуль найден, Python загружает его, интерпретирует его код и создает объект модуля. Если модуль не найден, возвращается соответствующая ошибка.

* Привязка модуля: после загрузки модуль становится доступным для использования в текущем скрипте или интерактивной среде. Его можно использовать, обращаясь к его переменным и функциям через точечную нотацию.

Где искать имя модуля для импортирования? Имя модуля соответствует имени файла. Например, если необходимо импортировать код из файла math.py, нужно написать `import math`. С помощью обращения через точку мы можем получить доступ к переменной, описанной в этом модуле:

In [None]:
import math
print(math.pi)  # значение числа π из модуля math

3.141592653589793


Если мы хотим импортировать пакет, содержащийся в каком-то каталоге, к слову import добавляется название каталога. Если попытаться импортировать несуществующий или неустановленный модуль, вернется ошибка ModuleNotFoundError:

In [None]:
import not_a_real_module

ModuleNotFoundError: No module named 'not_a_real_module'

Когда мы импортируем библиотеку, мы можем посмотреть, какой каталог с файлами является её пакетом. Например, библиотека numpy на виртуальной машине Google Colab это каталог `/usr/local/lib/python3.10/dist-packages/numpy` :

In [None]:
import numpy
print(numpy.__file__)

/usr/local/lib/python3.10/dist-packages/numpy/__init__.py


Также import поддерживает псевдонимы (**алиасы**), которые позволяют использовать более короткие имена для модулей:

In [None]:
import numpy as np
m = np.array(1)  # вместо numpy.array

Можно использовать import с ключевым словом **from** для импорта конкретных функций из модуля. Рассмотрим следующий пример:

In [None]:
import datetime
a = datetime.datetime.now()  # в переменной 'а' зафиксировали текущее время

Здесь мы обращаемся к функции now() класса datetime внутри модуля datetime. Получается достаточно громоздкая конструкция, к тому же для использования всего одной функции мы заняли память целым модулем. Попробуем с помощью from импортировать только лишь класс:

In [None]:
from datetime import datetime
a = datetime.now()

Теперь нам доступен напрямую класс datetime и нет необходимости указывать, какому модулю он принадлежит. Используя алиас, мы можем ещё сильнее сократить код:

In [None]:
from datetime import datetime as dt
a = dt.now()

Запись выглядит гораздо компактнее! Что особенно актуально если такая конструкция будет встречаться в коде несколько сотен раз.

### О точке входа в программу

Достаточно часто скрипт может выполняться и самостоятельно, и может быть импортирован как модуль другим скриптом. Так как в Python точкой входа в программу считается первая строка (в отличии от некоторых других языков), то импорт скрипта запускает весь код в нём, и надо каким-то образом указывать, что какие-то строки не должны выполняться при импорте.

В Python для этого есть специальная конструкция, который позволяет указать, что какой-то код не должен выполняться при импорте. Это условный блок   
`if __name__ == '__main__'`

Переменная `__name__` — это специальная переменная, которая будет равна `"__main__"`, только если файл запускается как основная программа, и выставляется равной имени модуля при импорте модуля. То есть условие if  проверяет, был ли файл запущен напрямую.

Как правило, в блок `if __name__ == '__main__'` заносят все вызовы функций и вывод информации на стандартный поток вывода. Рассмотрим пример.

In [None]:
def summ(x, y):
    return x + y

if __name__ == "__main__":
    res = summ(2, 3)
    print(res)

5


Допустим данный код лежит в файле my_summ.py. Если мы запустим этот файл через интепретатор:  
`python3 my_summ.py`  
то получим на экране результат "5". А если мы внутри другого файла сделаем импорт:  
`import my_summ`  
то будет загружена только функция summ, а весь код внутри блока if не будет выполнен.

Таким образом, если вы планируете использовать свой код в файле в качестве модуля, воспользуйтесь для указания точки входа блоком if. Однако такая конструкция предназначена для запуска скриптов `.py` и не имеет особого смысла в интерактивных средах jupyter notebooks.

## 2. Создание массива NumPy

Теперь, когда мы разобрались с механизмом импорта, вернемся к библиотеке NumPy. Существует 5 основных числовых типов numpy (dtype): булевские переменные (bool), целые числа (int), целые числа без знака (uint), вещественные числа (float) и комплексные числа (complex). Создадим для примера несколько переменных:

In [None]:
import numpy as np
x = np.float32(1.0)
y = np.int_([-1,2,4])
z = np.arange(3, dtype=np.uint8)
print(x)
print(y)
print(z)

1.0
[-1  2  4]
[0 1 2]


Типы переменных можно гибко настраивать по размеру занимаемой памяти и соответственно по размеру максимального значения в этой переменной. Существуют разные вариации:
* int8 ... int256
* uint8 ... uint256
* float16 ... float256
* complex64 ... complex512

Подчеркивание вместо цифры в названии типа данных (например, int_) означает, что размер берется в зависимости от платформы, на которой запущен код (обычно 32 или 64 бита).

### Создание массива

Главный объект в numpy — это массивы (array). Массивы схожи со списками в Python, но все элементы массива должны иметь одинаковый тип данных (float, int и др.). С массивами можно проводить числовые операции с большим объемом информации в разы быстрее и намного эффективнее чем со списками. Они используют гораздо меньше памяти для хранения данных и имеют хорошо оптимизированный код.

В numpy существует много способов создать массив. Один из наиболее простых — создать массив из обычных списков или кортежей Python, используя функцию **numpy.array()**:

In [None]:
m = np.array([1, 2, 3])
print(m, type(m), m.dtype, sep=' | ')

[1 2 3] | <class 'numpy.ndarray'> | int64


Обратите внимание: если хоть один из элементов вещественный — массив будет состоять целиком из вещественных чисел.

Функция **zeros** создает массив из нулей, функция **ones** — массив из единиц. Обе функции принимают кортеж с размерами, и аргумент dtype.

In [None]:
only_one = np.ones(5, dtype=np.float16)
only_one

array([1., 1., 1., 1., 1.], dtype=float16)

Аналогом одномерного массива в математике является **вектор**. Двумерный массив в математике называется **матрицей**.

Функция **eye** создаёт единичную матрицу (двумерный массив с единицами по главной диагонали).

In [None]:
np.eye(5, dtype=np.int_)

array([[1, 0, 0, 0, 0],
       [0, 1, 0, 0, 0],
       [0, 0, 1, 0, 0],
       [0, 0, 0, 1, 0],
       [0, 0, 0, 0, 1]])

 Функция array может трансформировать вложенные последовательности (списки списков) в многомерные массивы:

In [None]:
x = np.array([[1.5, 2, 3], [4, 5, 6]])
print(x)

[[1.5 2.  3. ]
 [4.  5.  6. ]]


Также для создания матрицы можно использовать непосредственно функцию **matrix**:

In [None]:
a = np.matrix('1 2 3 4; 5 6 7 8; 9 1 5 7')
a

matrix([[1, 2, 3, 4],
        [5, 6, 7, 8],
        [9, 1, 5, 7]])

Для преобразования типа массива используется функция **astype**. Например:

In [None]:
a.astype(float)

matrix([[1., 2., 3., 4.],
        [5., 6., 7., 8.],
        [9., 1., 5., 7.]])

Функция **arange** используется для создания массива с фиксированным шагом. Для этого необходимо указать первое число, последнее число и размер шага:

In [None]:
np.arange(1, 9, 2)

array([1, 3, 5, 7])

Если массив слишком большой, чтобы его печатать, numpy автоматически скрывает центральную часть массива и выводит только его края.

In [None]:
print(np.arange(0, 2000, 1))

[   0    1    2 ... 1997 1998 1999]


Если ваш массив лежит в каком-то файле, numpy позволяет его легко прочитать и сразу же положить в массив с помощью функции **loadtxt**:
```
matrix = np.loadtxt("matrix.txt", dtype=np.float32)
```
Для дата-файлов формата .csv дополнительно может понадобиться указать разделитель:
```
matrix = np.loadtxt("matrix.csv", delimiter=";")
```

**Итак**, математический вектор представляется в numpy в виде одномерного массива, матрица — в виде двумерного. Однако, следуя законам математики, в numpy мы можем создать массив любой размерности, которая нам нужна. Для трехмерных или более крупных размерных массивов обычно используется термин "тензор".

## 3. Срезы и сортировка массивов

### Срезы массивов

Со всеми элементами массивов можно работать так же, как это делали с обычными списками. Мы можем получить доступ к элементам в массиве, используя квадратные скобки. Индексирование в numpy так же начинается с нуля.

In [None]:
c = np.array([[1, 2, 3, 4], [5, 6, 7, 8]], int)
c

array([[1, 2, 3, 4],
       [5, 6, 7, 8]])

In [None]:
c[0]

array([1, 2, 3, 4])

В двумерной матрице взять конкретный элемент можно следующим образом:

In [None]:
c[1,2]

7

Срезы берутся как в классических списках: [start:end:step].

In [None]:
b = np.array([11, 12, 13, 14, 15, 16, 17], int)
b[::3]

array([11, 14, 17])

Срезы работают с многомерными массивами так же, как и с одномерными. Разница лишь в том, что срез можно делать по каждому доступному измерению:

In [None]:
print(c)
# из всех строк до первой (не включительно) возьми все столбцы с шагом два:
c[:1:, ::2]

[[1 2 3 4]
 [5 6 7 8]]


array([[1, 3]])

Для фильтрации элементов можно задавать **сложные условия**:

In [None]:
arr = np.array([[1, 2, 3, 4], [5, 6, 7, 8], [9, 10, 11, 12]])

new_array = arr[(arr > 2) & (arr % 2 == 0)]
new_array

array([ 4,  6,  8, 10, 12])

### Сортировка и удаление элементов



**Сортировать** массив можно с помощью numpy.sort():

In [None]:
arr = np.array([3, 1, 5, 2, 8, 4, 6, 7])
np.sort(arr)

array([1, 2, 3, 4, 5, 6, 7, 8])

Для **удаления** элементов можно использовать функцию numpy.delete(array, index). Здесь с помощью индекса мы задаём номера элементов подлежащих удалению:

In [None]:
a = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9])
index = [2, 3, 6]

new_a = np.delete(a, index)

print(new_a)

[1 2 5 6 8 9]


Функция numpy.unique позволяет показать только лишь **уникальные** элементы в массиве:


In [None]:
arr = np.array([11, 11, 12, 13, 14, 15, 16, 17, 12, 13, 11, 14, 18, 19, 20])

In [None]:
unique_values = np.unique(arr)
print(unique_values)

[11 12 13 14 15 16 17 18 19 20]


### Изменение размерности массива

Метод **shape** возвращает количество строк и столбцов в матрице:

In [None]:
c = np.array([[1, 2, 3, 4], [5, 6, 7, 8]], float)
c.shape

(2, 4)

Массивам можно изменять размерность при помощи метода **reshape**, который задает новый многомерный массив. Рассмотрим пример, в котором переформатируем одномерный массив из 12 элементов в двумерный массив, состоящий из 4 строк и 3 столбцов:

In [None]:
a = np.array(range(12), int)
a

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

Когда вы используете метод reshape, массив, который вы хотите создать, должен иметь то же количество элементов, что и исходный массив:

In [None]:
a = a.reshape((4, 3))
a

array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11]])

In [None]:
# укажем неверное количество элементов
a.reshape((13))

ValueError: cannot reshape array of size 12 into shape (13,)

Можно сделать и обратное — методом **flatten** конвертировать многомерный массив в одномерный:

In [None]:
a.flatten()

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

## 4. * Операции над векторами и матрицами

Векторы в NumPy можно складывать, вычитать, умножать на число и умножать на другой вектор (покоординатно).

Чтобы перемножить две матрицы A и B по всем правилам математики, используется метод **dot**:

In [None]:
A = np.arange(1, 10).reshape(3, 3)
B = np.arange(1, 10).reshape(3, 3)
print("A = B = \n", A)
print("A ⋅ B = \n", np.dot(A, B))


A = B = 
 [[1 2 3]
 [4 5 6]
 [7 8 9]]
A ⋅ B = 
 [[ 30  36  42]
 [ 66  81  96]
 [102 126 150]]


Заметьте, что запись A * B даст лишь поэлементное умножение:

In [None]:
print(A * B)

[[ 1  4  9]
 [16 25 36]
 [49 64 81]]


Умножать вектора вместо dot предпочтительней функцией для внутреннего умножения векторов **inner**:

In [None]:
a = np.arange(1, 6)
b = np.ones(5)
print(a)
print(b)
np.inner(a, b)

[1 2 3 4 5]
[1. 1. 1. 1. 1.]


15.0

Умножив таким образом вектора, мы получили скалярное произведение как сумму произведений соответствующих координат. Его можно использовать для вычисления угла между векторами: вспоминаем формулу `(a, b) = |a|*|b|*cos α`.

Длину вектора при этом можно посчитать так:

In [None]:
from numpy.linalg import norm

a = np.array([1, 2, -3])
magnitude = norm(a)
magnitude

3.7416573867739413

Для вычисления расстояния между векторами тоже используется функция norm:

In [None]:
a = np.array([1, 2, -3])
b = np.array([-4, 3, 8])
# Расстояние "городских кварталов"
print('L1 расстояние между векторами a и b:\n', norm(a - b, ord=1))
# Обычная Евклидова метрика
print('L2 расстояние между векторами a и b:\n', norm(a - b, ord=2))

L1 расстояние между векторами a и b:
 17.0
L2 расстояние между векторами a и b:
 12.12435565298214


Более простой пример. Нарисуйте на плоскости из начала координат два единичных вектора по двум осям X и Y. Тогда расстояние между кончиками по Евклидовой метрике будет равно корню из двух, а расстояние "городских кварталов" будет равно двум шагам по единичной клетке (то есть двум):

In [None]:
a = np.array([0, 1])
b = np.array([1, 0])
# Расстояние "городских кварталов"
print('L1 расстояние между векторами a и b:\n', norm(a - b, ord=1))
# Обычная Евклидова метрика
print('L2 расстояние между векторами a и b:\n', norm(a - b, ord=2))

L1 расстояние между векторами a и b:
 2.0
L2 расстояние между векторами a и b:
 1.4142135623730951


### Вывод
Использование NumPy позволяет значительно ускорить выполнение операций над данными, особенно в сравнении с обычными списками в Python. Благодаря своей широкой функциональности и высокой производительности, NumPy стал неотъемлемой частью экосистемы научных вычислений. Он используется во многих областях, включая научные исследования, машинное обучение, обработку изображений, физику и многое другое.