# NumPy:


NumPy – краеугольный пакет для высокопроизводительных научных расчетов и анализа данных. Содержит в себе такие полезные вещи как:

• ndarray, быстрый и потребляющий мало памяти многомерный массив,
предоставляющий векторные арифметические операции и возможность
укладывания;

• Стандартные математические функции для выполнения быстрых операций над целыми массивами без явного выписывания циклов;

• Средства для чтения массива данных с диска и записи его на диск, а также
для работы с проецируемыми на память файлами;

• Алгоритмы линейной алгебры, генерация случайных чисел и преобразование Фурье;

• Средства для интеграции с кодом, написанным на C, C++ или Fortran;

В большинстве приложений для анализа данных основной интерес представляет
следующая функциональность:

• быстрые векторные операции для переформатирования и очистки данных,
выборки подмножеств и фильтрации, преобразований и других видов вычислений;

• стандартные алгоритмы работы с массивами, например: фильтрация, удаление дубликатов и теоретико-множественные операции;

• эффективная описательная статистика, агрегирование и обобщение данных;

• выравнивание данных и реляционные операции объединения и соединения разнородных наборов данных;

• описание условной логики в виде выражений-массивов вместо циклов с
ветвлением if-elif-else;

• групповые операции с данными (агрегирование, преобразование, применение функции)

# NumPy ndarray:

Одна из ключевых особенностей NumPy – объект ndarray для представления N-мерного массива; это быстрый и гибкий контейнер для хранения больших наборов данных в Python. Массивы позволяют выполнять математические
операции над целыми блоками данных, применяя такой же синтаксис, как для соответствующих операций над скалярами:

In [None]:
import numpy as np
# Generate some random data
data = np.random.randn(2,2)
data

In [None]:
data * 10

In [None]:
data+data

ndarray – это обобщенный многомерный контейнер для однородных данных,
т. е. в нем могут храниться только элементы одного типа. У любого массива есть
атрибут shape – кортеж, описывающий размер по каждому измерению, и атрибут
dtype – объект, описывающий тип данных в массиве:

In [None]:
data.shape

In [None]:
data.dtype

### Создание ndarray

Проще всего создать массив с помощью функции np.array(). Она принимает любой
объект, похожий на последовательность (в том числе другой массив), и порождает
новый массив NumPy, содержащий переданные данные. Например, такое преобразование можно проделать со списком

In [None]:
import numpy as np
data1 = [6, 7., 8, 0, 1]
arr1 = np.array(data1)
arr1

Вложенные последовательности, например список списков одинаковой длины,
можно преобразовать в многомерный массив:

In [None]:
data2 = [[1, 2, 3, 4], [5, 6, 7, 8]]
arr2 = np.array(data2)
arr2

Если не определено явно, то функция np.array() пытается самостоятельно определить подходящий тип данных для создаваемого массива. Этот тип данных хранится в специальном объекте dtype;

In [None]:
arr1.dtype

In [None]:
arr2.dtype

In [None]:
arr1.shape

In [None]:
arr2.shape

In [None]:
arr1.ndim

In [None]:
arr2.ndim

Помимо np.array, существует еще ряд функций для создания массивов. Например, zeros и ones создают массивы заданной длины, состоящие из нулей и единиц соответственно, а np.empty() создает массив, не инициализируя его элементы. Для создания многомерных массивов, в качестве аргумента нужно передать кортеж, описывающий форму

In [None]:
np.zeros((3,6))

In [None]:
np.ones(10)

In [None]:
np.empty((2, 3, 2)) 
#Предполагать, что np.empty() возвращает массив из нулевых значений - небезопасно. 
#Фактически, возвращается массив, содержащий неинициализированный мусор.

Функция arange – вариант встроенной в Python функции range, только возвращаемым значением является массив:

In [None]:
np.arange(15)

### Тип данных для ndarray

Тип данных, или аргумент dtype – это специальный объект, который содержит информацию, необходимую ndarray для интерпретации содержимого блока памяти:

In [None]:
import numpy as np
arr1 = np.array([1, 2, 3], dtype=np.float64)
arr2 = np.array([1, 2, 3], dtype=np.int32)

In [None]:
arr1.dtype

In [None]:
arr2.dtype

Объектам dtype NumPy в значительной мере обязан своей эффективностью и
гибкостью. В большинстве случаев они точно соответствуют внутреннему машинному 
представлению, что позволяет без труда читать и записывает двоичные 
потоки данных на диск, а также обмениваться данными с кодом, написанным на языке
низкого уровня типа C или Fortran. Числовые dtype именуются единообразно: имя
типа, например float или int, затем число, указывающее разрядность одного элемента.
Стандартное значение с плавающей точкой двойной точности (хранящееся
во внутреннем представлении объекта Python типа floa занимает 8 байтов или
64 бита. Поэтому соответствующий тип в NumPy называется float64.
![image.png](attachment:image.png)

Можно явно преобразовать, или привести массив одного типа к другому, воспользовавшись методом astype:

In [None]:
arr = np.array([1, 2, 3, 4, 5])
float_arr = arr.astype(np.float64)
float_arr.dtype

In [None]:
arr = np.array([3.7, -1.2, -2.6, 0.5, 12.9, 10.1])
arr = arr.astype(np.int32)
arr

Если имеется массив строк, представляющих целые числа, то astype позволит
преобразовать их в числовую форму

In [None]:
numeric_strings = np.array(['1.25', '-9.6', '42'],dtype=np.string_)
numeric_strings = numeric_strings.astype(np.float64)
numeric_strings

При вызове astype всегда создается новый массив (данные копируются), даже если новый dtype не отличается от старого.
Следует иметь в виду, что числа с плавающей точкой, например типа
float64 или float32, предоставляют дробные величины приближенно.
В сложных вычислениях могут накапливаться ошибки округления, из-за которых 
сравнение возможно только с точностью до определенного числа
десятичных знаков.

### Арифметические операции ndarray

Массивы numpy важны, потому что позволяют выразить операции над совокупностями данных без выписывания циклов for. 
Обычно это называется векторизацией.
Любая арифметическая операция над массивами одинакового размера применяется к соответственным элементам:

In [None]:
import numpy as np
arr = np.array([[1, 2, 3], [4, 5, 6]])
arr * arr

Как легко догадаться, арифметические операции, в которых участвует скаляр,
применяются к каждому элементу массива:

In [None]:
1 / arr

In [None]:
arr ** 0.5

Булевы операции также применимы

In [None]:
arr2 = np.array([[0, 4, 1], [7, 2, 12]])
arr2 > arr

In [None]:
arr2 == arr

### Индексирование и вырезание

Индексирование массивов NumPy – обширная тема, поскольку подмножество
массива или его отдельные элементы можно выбрать различными способами.
С одномерными массивами все просто; на поверхностный взгляд, они ведут себя,
как списки Python

In [None]:
import numpy as np
arr = np.arange(10)
arr

In [None]:
arr = [[1,2],[3,4]]
arr = np.array(arr)
arr=np.insert( arr,2,[5,6], axis =0)
arr

In [None]:
print(arr[5:8])

In [None]:
arr[5:8] = 12
arr

Как видите, если присвоить скалярное значение срезу, как в arr[5:8] = 12, то
оно распространяется (или укладывается) на весь срез. Важнейшее отличие от
списков состоит в том, что срез массива является представлением исходного массива. 
Это означает, что данные на самом деле не копируются, а любые изменения,
внесенные в представление, попадают и в исходный массив.

In [None]:
arr_slice = arr[5:8]
arr_slice

In [None]:
arr_slice[1] = 12345
arr

In [None]:
arr_slice[:] = 64
arr

NumPy проектировался для работы с большими массивами данных, поэтому при прямолинейном копировании данных неизбежно
возникли бы проблемы с быстродействием и памятью.
Чтобы получить копию, а не представление среза массива, нужно выполнить операцию копирования явно, например: arr[5:8].copy().

Для массивов большей размерности и вариантов тоже больше. В случае двумерного массива результатом индексирования с одним индексом является не скаляр,
а одномерный массив:

In [None]:
arr2d = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
arr2d[2]

К отдельным элементам можно обращаться рекурсивно. Но это слишком громоздко, поэтому для выбора одного элемента можно указать список индексов через запятую. Таким образом, следующие две конструкции эквивалентны

In [None]:
arr2d[0][2]

In [None]:
arr2d[0, 2]

Если при работе с многомерным массивом опустить несколько последних индексов, то будет возвращен объект ndarray меньшей размерности, содержащий данные по указанным при индексировании осям. Так, пусть имеется массив arr3d
размерности 2 × 2 × 3:

In [None]:
arr3d = np.array([[[1, 2, 3], [4, 5, 6]], [[7, 8, 9], [10, 11, 12]]])
arr3d

Тогда arr3d[0] – массив размерности 2 × 3:

In [None]:
arr3d[0]

Выражению arr3d[0] можно присвоить как скалярное значение, так и массив:

In [None]:
old_values = arr3d[0].copy()
arr3d[0] = 42
arr3d

In [None]:
arr3d[0] = old_values
arr3d

Аналогично arr3d[1, 0] дает все значения, список индексов которых начинается с (1, 0), т. е. одномерный массив:

In [None]:
arr3d[1, 0]

In [None]:
arr3d[1, 0, 0]

#### Индексирование.срезами

Как и для одномерных объектов наподобие списков Python, для объектов
ndarray можно формировать срезы:

In [None]:
arr[1:6]

Для объектов большей размерности вариантов больше, потому что вырезать
можно по одной или нескольким осям, сочетая с выбором отдельных элементов с
помощью целых индексов. Вернемся к рассмотренному выше двумерному массиву arr2d. Вырезание из него выглядит несколько иначе:

In [None]:
arr2d

In [None]:
arr2d[:2]

Можно указать несколько срезов – как несколько индексов.
При таком вырезании мы всегда получаем представления массивов с таким же
числом измерений, как у исходного. Сочетая срезы и целочисленные индексы,
можно получить массивы меньшей размерности

In [None]:
arr2d[:2, 1:]

In [None]:
arr2d[1, :2]

In [None]:
arr2d[:2, 2]

Двоеточие без указания числа
означает, что нужно взять всю ось целиком, поэтому для получения осей только
высших размерностей можно поступить следующим образом

In [None]:
arr2d[:, :1]

Разумеется, присваивание выражению-срезу означает присваивание всем элементам этого среза:

In [None]:
arr2d[:2, 1:] = 0
arr2d

![image.png](attachment:image.png)

### Булево индексирование

Пусть имеется некоторый массив имен

In [None]:
names = np.array(['Bob', 'Joe', 'Will', 'Bob', 'Will', 'Joe', 'Joe'])
names

Операции сравнения массивов (например, ==), как и арифметические, также векторизованы. 
Поэтому сравнение names со строкой 'Bob' дает массив булевых величин:

In [None]:
names == 'Bob'

In [None]:
names != 'Bob'

Ключевые слова Python and и or с булевыми массивами не работают.

### Fancy Indexing

Термином fancy indexing в NumPy обозначается
индексирование с помощью целочисленных массивов. Допустим, имеется массив
8 × 4:

In [None]:
arr = np.empty((8, 4))
for i in range(8):
    arr[i] = i
arr

Чтобы выбрать подмножество строк в определенном порядке, можно просто
передать список или массив целых чисел, описывающих желаемый порядок:

In [None]:
arr[[4, 3, 0, 6]]

Если указать отрицательный индекс, то номер соответствующей строки будет отсчитываться с конца:

In [None]:
arr[[-3, -5, -7]]

При передаче нескольких массивов индексов делается несколько иное: выбирается одномерный массив элементов, соответствующих каждому кортежу индексов:

In [None]:
arr[[1, 5, 7, 2]][:, [0, 3, 1, 2]]

### Транспонирование массивов и перестановка осей

np.reshape придает массиву новую размерность без изменения его данных.

In [None]:
a = np.arange(6)
a

In [None]:
a = np.arange(6).reshape((3, 2))
a

Транспонирование – частный случай изменения формы, при этом также возвращается представление исходных данных без какого-либо копирования. У массивов имеется метод transpose и специальный атрибут T:

In [None]:
arr = np.arange(15).reshape((3, 5))
arr

In [None]:
arr.T

Обычное транспонирование с помощью .T – частный случай перестановки
осей. У объекта ndarray имеется метод swapaxes, который принимает пару номеров осей:

In [None]:
arr

In [None]:
arr.swapaxes(1, 0)

## Универсальные функции:быстрые поэлементные операции над массивами

Универсальной функцией называется функция которая выполняет поэлементные операции над данными, хранящимися в объектах ndarray.
Можно считать, что это векторные обертки вокруг простых функций, которые принимают одно или 
несколько скалярных значений и порождают один или несколько скалярных результатов.
Многие такие функции простые поэлементные преобразования, например sqrt или exp:

In [None]:
arr = np.arange(10)
arr

In [None]:
np.sqrt(arr)

In [None]:
np.exp(arr)

Такие функции называются унарными. Другие, например add или maximum,
принимают 2 массива (и потому называются бинарными) и возвращают один результирующий массив:

In [None]:
x = np.random.randn(8)
y = np.random.randn(8)
print(x)
print(y)
np.maximum(x, y)

Хотя и нечасто, но можно встретить u-функцию, возвращающую несколько массивов. 
Примером может служить modf, векторный вариант встроенной в Python
функции divmod: она возвращает дробные и целые части хранящихся в массиве
чисел с плавающей точкой:

In [None]:
arr = np.random.randn(7) * 5
arr
remainder, whole_part = np.modf(arr)

In [None]:
remainder

In [None]:
whole_part

Унарные u-функции
![image.png](attachment:image.png)

Бинарные u-функции
![image.png](attachment:image.png)

In [None]:
arr
np.sqrt(arr)
np.sqrt(arr, arr)
arr

## Обработка данных с применением массивов

С помощью массивов NumPy многие виды обработки данных можно записать
очень кратко, не прибегая к циклам. Такой способ замены явных циклов выражениями-массивами обычно называется векторизацией. Вообще говоря, векторные операции с массивами выполняются на один-два (а то и больше) порядка быстрее,
чем эквивалентные операции на чистом Python.
В качестве простого примера предположим, что нужно вычислить функцию
sqrt(x^2 + y^2) на регулярной сетке. Функция np.meshgrid принимает два
одномерных массива и порождает две двумерные матрицы, соответствующие всем
парам (x, y) элементов, взятых из обоих массивов:

In [None]:
points = np.arange(-5, 5, 0.01) # 1000 equally spaced points
xs, ys = np.meshgrid(points, points)
ys

Теперь для вычисления функции достаточно написать такое же выражение, как
для двух точек

In [None]:
z = np.sqrt(xs ** 2 + ys ** 2)
z

Выведем в виде изображения результат применения функции imshow из библиотеки
matplotlib для создания изображения по двумерному массиву значений функции

In [None]:
import matplotlib.pyplot as plt
plt.imshow(z, cmap=plt.cm.gray); plt.colorbar()
plt.title("Image plot of $\sqrt{x^2 + y^2}$ for a grid of values")
plt.show()

### Запись логических условий в виде операций с массивами

Функция numpy.where – это векторный вариант тернарного выражения x if
condition else y. Пусть есть булев массив и два массива значений:

In [None]:
xarr = np.array([1.1, 1.2, 1.3, 1.4, 1.5])
yarr = np.array([2.1, 2.2, 2.3, 2.4, 2.5])
cond = np.array([True, False, True, True, False])

Допустим, что мы хотим брать значение из массива xarr, если соответственное
значение в массиве cond равно True, а в противном случае – значение из yarr. Эту
задачу решает такая операция спискового включения:

In [None]:
result = [(x if c else y)
          for x, y, c in zip(xarr, yarr, cond)]
result

Здесь сразу несколько проблем. Во-первых, для больших массивов это будет
не быстро (потому что весь код написан на чистом Python). Во-вторых, к многомерным массивам такое решение вообще неприменимо. С помощью функции
np.where можно написать очень лаконичный код:

In [None]:
result = np.where(cond, xarr, yarr)
result

Второй и третий аргументы np.where не обязаны быть массивами – один или
оба могут быть скалярами. При анализе данные where обычно применяется, чтобы
создать новый массив на основе существующего. Предположим, имеется матрица
со случайными данными, и мы хотим заменить все положительные значение на 2,
а все отрицательные – на –2. С помощью np.where сделать это очень просто:

In [None]:
arr = np.random.randn(4, 4)
arr

In [None]:
np.where(arr > 0, 2, -2)

In [None]:
np.where(arr > 0, 2, arr) # set only positive values to 2

### Математические и статистические операции

Среди методов массива есть математические функции, которые вычисляют 
статистики массива в целом или данных вдоль одной оси. 
Выполнить агрегирование (часто его называют редукцией) типа sum, mean или стандартного отклонения
std можно как с помощью метода экземпляра массива, так и функции на верхнем
уровне NumPy:

In [None]:
arr = np.random.randn(5, 4)
arr

In [None]:
arr.mean()

In [None]:
np.mean(arr)

In [None]:
arr.sum()

Функции типа mean и sum принимают необязательный аргумент axis, при наличии которого вычисляется статистика по заданной оси, и в результате порождается массив на единицу меньшей размерности:

In [None]:
arr.mean(axis=1)

In [None]:
arr.sum(axis=0)

Другие методы, например cumsum и cumprod, ничего не агрегируют, а порождают массив промежуточных результатов:

In [None]:
arr = np.array([0, 1, 2, 3, 4, 5, 6, 7])
arr.cumsum()

In [None]:
arr = np.array([[0, 1, 2], [3, 4, 5], [6, 7, 8]])
arr
arr.cumsum(axis=0)
arr.cumprod(axis=1)

### Методы булевых массивов

В вышеупомянутых методах булевы значения приводятся к 1 (True) и 0 (False).
Поэтому функция sum часто используется для подсчета значений True в булевом
массиве:

In [None]:
arr = np.random.randn(100)
(arr > 0).sum() # Number of positive values

Но существуют еще два метода, any и all, особенно полезных в случае булевых
массивов. Метод any проверяет, есть ли в массиве хотя бы одно значение, равное
True, а all – что все значения в массиве равны True:

In [None]:
bools = np.array([False, False, True, False])
bools.any()

In [None]:
bools.all()

### Сортировка

Как и встроенные в Python списки, массивы NumPy можно сортировать на месте методом sort:

In [None]:
arr = np.random.randn(6)
arr

In [None]:
arr.sort()
arr

В многомерных массивах можно сортировать на месте одномерные секции
вдоль любой оси, для этого нужно передать sort номер оси:

In [None]:
arr = np.random.randn(5, 3)
arr

In [None]:
arr.sort(1)
arr

In [None]:
large_arr = np.random.randn(1000)
large_arr.sort()
large_arr[int(0.05 * len(large_arr))] # 5% quantile

## Файловый ввод-вывод массивов

NumPy умеет сохранять на диске и загружать с диска данные в текстовом или двоичном формате.
np.save и np.load – основные функции для эффективного сохранения и загрузки данных с диска. По умолчанию массивы хранятся в несжатом двоичном формате в файле с расширением .npy.

Если путь к файлу не заканчивается суффиксом .npy, то он будет добавлен.
Хранящийся на диске массив можно загрузить в память функцией np.load:

In [None]:
arr = np.arange(10)
np.save('some_array', arr)

In [None]:
np.load('some_array.npy')

Можно сохранить несколько массивов в zip-архиве с помощью функции
np.savez, которой массивы передаются в виде именованных аргументов:

In [None]:
np.savez('array_archive.npz', a=arr, b=arr)

При считывании npz-файла мы получаем похожий на словарь объект, который
отложенно загружает отдельные массивы:

In [None]:
arch = np.load('array_archive.npz')
arch['b']

In [None]:
np.savez_compressed('arrays_compressed.npz', a=arr, b=arr)

In [None]:
!rm some_array.npy
!rm array_archive.npz
!rm arrays_compressed.npz

## Линейная алгебра

Операции линейной алгебры – умножение и разложение матриц, вычисление
определителей и другие – важная часть любой библиотеки для работы с массивами. В отличие от некоторых языков, например MATLAB, в NumPy применение
оператора * к двум двумерным массивам вычисляет поэлементное, а не матричное
произведение. А для перемножения матриц имеется функция dot – как в виде
метода массива, так и в виде функции в пространстве имен numpy:

In [None]:
x = np.array([[1., 2., 3.], [4., 5., 6.]])
y = np.array([[6., 23.], [-1, 7], [8, 9]])
x.dot(y)

In [None]:
np.dot(x, y)

Произведение двумерного массива и одномерного массива подходящего размера дает одномерный массив:

In [None]:
np.dot(x, np.ones(3))

В модуле numpy.linalg имеет стандартный набор алгоритмов, в частности, разложение матриц, нахождение обратной матрицы и вычисление определителя. Все они реализованы на базе тех же библиотек, написанных на Fortran, которые используются и в других языках, например MATLAB и R: BLAS, LAPACK
и, возможно (в зависимости от сборки NumPy), библиотеки MKL, поставляемой
компанией Intel:

In [None]:
from numpy.linalg import inv, qr
X = np.random.randn(5, 5)
mat = X.T.dot(X)
inv(mat)
mat.dot(inv(mat))
q, r = qr(mat)
r

## Генерация псевдослучайных чисел

Модуль numpy.random дополняет встроенный модуль random функциями, которые генерируют целые массивы случайных чисел с различными распределениями
вероятности. Например, с помощью функции можно получить случайный массив
4 × 4 с нормальным распределением:

In [None]:
samples = np.random.normal(size=(4, 4))
samples

Встроенный в Python модуль random умеет выдавать только по одному случайному 
числу за одно обращение. Ниже видно, что numpy.random более чем на порядок быстрее стандартного модуля при генерации очень больших выборок:

In [None]:
from random import normalvariate
N = 1000000
%timeit samples = [normalvariate(0, 1) for _ in range(N)]
%timeit np.random.normal(size=N)

In [None]:
np.random.seed(1234)

In [None]:
rng = np.random.RandomState(1234)
rng.randn(10)

![image.png](attachment:image.png)

## Пример: случайное блуждание

Проиллюстрируем операции с массивами на примере случайного блуждания.
Сначала рассмотрим случайное блуждание с начальной точкой 0 и шагами 1 и –1,
выбираемыми с одинаковой вероятностью. Вот реализация одного случайного
блуждания с 1000 шагами на чистом Python с помощью встроенного модуля random:

In [None]:
import random
position = 0
walk = [position]
steps = 1000
for i in range(steps):
    step = 1 if random.randint(0, 1) else -1
    position += step
    walk.append(position)

Покажем первые 100 значений такого случайного блуждания

In [None]:
plt.plot(walk[:100])
plt.show()

walk – это просто нарастающая сумма
случайных шагов, которую можно вычислить как выражение-массив. Поэтому 
воспользуемся модулем np.random, чтобы за один присест подбросить 1000 монет
с исходами 1 и –1 и вычислить нарастающую сумму:

In [None]:
np.random.seed(12345)

In [None]:
nsteps = 1000
draws = np.random.randint(0, 2, size=nsteps)
steps = np.where(draws > 0, 1, -1)
walk = steps.cumsum()

Теперь можно приступить к вычислению статистики, например минимального
и максимального значения на траектории блуждания:

In [None]:
walk.min()
walk.max()

In [None]:
(np.abs(walk) >= 10).argmax()