# Numpy
NumPy - одна из основных и самых популярных библиотек в python.
Главный объект NumPy - это однородный многомерный массив. Это таблица элементов (как правило чисел) одного типа, индексированных набором неотрицательных целых чисел. В NumPy измерения называются осями.

Например, координаты точки в трехмерном пространстве `[1, 2, 1]` имеют одну ось. Эта ось имеет 3 элемента, поэтому мы говорим, что она имеет длину 3. В примере, изображенном ниже, массив имеет 2 оси. Первая ось имеет длину 2, вторая ось имеет длину 3.

Не забудь установить numpy через pip 

In [None]:
! pip install numpy

In [1]:
import numpy as np # стандартное сокращение

In [2]:
my_list = [[ 1., 0., 0.],
          [ 0., 1., 2.]]
my_array = np.array(my_list)

print(my_list) # список (list)
print(my_array) # numpy массив

[[1.0, 0.0, 0.0], [0.0, 1.0, 2.0]]
[[1. 0. 0.]
 [0. 1. 2.]]


Класс массива NumPy называется ndarray. Обратите внимание, что numpy.array - это не то же самое, что класс array.array стандартной библиотеки Python, который обрабатывает только одномерные массивы и предлагает меньшую функциональность. Наиболее важные атрибуты объекта ndarray:

### ndarray.ndim
количество осей (размерностей) массива.

### ndarray.shape
размеры массива. Это кортеж целых чисел, указывающий размер массива в каждом измерении. Для матрицы с n строками и m столбцами форма будет (n, m). Таким образом, длина кортежа формы равна количеству осей ndim.

### ndarray.size
общее количество элементов массива. Это равно произведению размеров осей (shape).

### ndarray.dtype
объект, описывающий тип элементов в массиве. Можно создать или указать dtype, используя стандартные типы Python. Кроме того, NumPy предоставляет собственные типы. numpy.int32, numpy.int16 и numpy.float64 - вот некоторые примеры.

### ndarray.itemsize
размер в байтах каждого элемента массива. Например, массив элементов типа float64 имеет размер элемента 8 (= 64/8), а массив элементов типа complex32 имеет размер элемента 4 (= 32/8). Это эквивалент ndarray.dtype.itemsize.

Если непонятны какие-то слова (например кортеж 😉) то ботайте питон

In [3]:
print(my_array)
print(my_array.shape)
print(my_array.ndim)
print(my_array.dtype)

# изменим тип массива
print(my_array.astype(np.uint8))
print(my_array.astype(np.uint8).dtype)

[[1. 0. 0.]
 [0. 1. 2.]]
(2, 3)
2
float64
[[1 0 0]
 [0 1 2]]
uint8


Часто при загрузке данных из csv / создании массива выбирается самый избыточный тип (np.float64).

Уменьшайте при необходимости:
    https://numpy.org/devdocs/user/basics.types.html

# Создание массива
Создать массив можно из многих итерируемых объектов (список, кортеж, ...)


In [4]:
a = np.array([1, 2, 3])
b = np.array((1, 4, 10))
c = np.array(range(10))
d = np.array((1, 4., 10))
print(a, b, c, d)

[1 2 3] [ 1  4 10] [0 1 2 3 4 5 6 7 8 9] [ 1.  4. 10.]


Как и выше - можно создавать многомерные массивы

In [5]:
a_1d = np.array([1, 2, 3])
a_2d = np.array([[1, 2, 3], [1, 2, 3]])
a_3d = np.array([[[1, 2, 3], [1, 2, 3]], [[7, 7, 7], [8, 8, 8]]])
### итд
print(a_3d)
print(a_3d.ndim)
print(a_3d.shape)

[[[1 2 3]
  [1 2 3]]

 [[7 7 7]
  [8 8 8]]]
3
(2, 2, 3)


Часто элементы массива изначально неизвестны, но известен его размер. Следовательно, NumPy предлагает несколько функций для создания массивов с начальным содержимым заполнителя. Это сводит к минимуму необходимость увеличения массивов, что является дорогостоящей операцией.

## zeros 
создает массим из нулей
## ones
создает массив из единиц
## empty 
создает массив, начальное содержимое которого является случайным и зависит от состояния памяти.  
По умолчанию dtype созданного массива - float64.

In [6]:
print(np.zeros((2,3,4), dtype=np.int16))
print(np.ones((2,3,4), dtype=np.int16))
print(np.empty((2,3,4), dtype=np.int16))

[[[0 0 0 0]
  [0 0 0 0]
  [0 0 0 0]]

 [[0 0 0 0]
  [0 0 0 0]
  [0 0 0 0]]]
[[[1 1 1 1]
  [1 1 1 1]
  [1 1 1 1]]

 [[1 1 1 1]
  [1 1 1 1]
  [1 1 1 1]]]
[[[1 1 1 1]
  [1 1 1 1]
  [1 1 1 1]]

 [[1 1 1 1]
  [1 1 1 1]
  [1 1 1 1]]]


## Создание массива на интервале
По аналогии со стандартной функцией `range` есть функция `arange`, котороая принимает начальный элемент (включительно), конечный (не включительно) и размер шага

Также есть функция `linspace`, в которой нужно указать количество элементов а не длину шага. Для логарифмической шкалы можно применить `logspace`

In [7]:
print(np.arange(10, 30, 5))
print(np.arange(10, 14.5, 0.5))
print(np.linspace(10, 15, 5))
print(np.linspace(10, 15, 6))
print(np.logspace(0, 0.1, 6, base=10)) # 6 элементов от 10**0 до 10**(0.1)

[10 15 20 25]
[10.  10.5 11.  11.5 12.  12.5 13.  13.5 14. ]
[10.   11.25 12.5  13.75 15.  ]
[10. 11. 12. 13. 14. 15.]
[1.         1.04712855 1.0964782  1.14815362 1.20226443 1.25892541]


Форму массива можно менять с помощью `reshape, ravel, flatten`

In [8]:
a = np.array(range(4))
print(a)
b = a.reshape((2, 2))
print(b)
# если мы не знаем размер второй(или еще какой) оси то можем его не указывать (но только для одной оси!)
b = a.reshape((2, -1))
print(b)
b = a.reshape((2, 2, -1)) # 3D массив
print(b)

[0 1 2 3]
[[0 1]
 [2 3]]
[[0 1]
 [2 3]]
[[[0]
  [1]]

 [[2]
  [3]]]


In [9]:
b = a.reshape((2, -1, -1)) # 3D массив
print(b)

ValueError: can only specify one unknown dimension

Распрямляем массив в одну ось

Разница ravel и flatten:
    https://stackoverflow.com/questions/28930465/what-is-the-difference-between-flatten-and-ravel-functions-in-numpy

In [10]:
c = b.ravel()
print(c)

print(b)

c = b.flatten()
print(c)

[0 1 2 3]
[[[0]
  [1]]

 [[2]
  [3]]]
[0 1 2 3]


.T транспонирует массив

In [11]:
a = np.array(range(4))
print(a)
b = a.reshape((2, 2))
print(b)
print(b.T)


[0 1 2 3]
[[0 1]
 [2 3]]
[[0 2]
 [1 3]]


# Операции над массивами
Массивы numpy поддерживают многие стандартные числовые операции:  

`+ - + /`  
Можно использовать операции сразу с присвоением результата:

`+= -= ...`

Если `a` `b` являются массивами, то `a*b` - поэлементное умножение, а `a @ b` - матричное

In [12]:
A = np.array([[1,1], [0,1]])
B = np.array([[2,0], [3,4]])
print(A + 1)
print(A * 3)

print(A * B) # поэлементное умножение
print(A @ B) # матричное умножение

print(A.dot(B)) # тоже матричное умножение
print(np.dot(A, B)) # и еще одно матричное умножение

[[2 2]
 [1 2]]
[[3 3]
 [0 3]]
[[2 0]
 [0 4]]
[[5 4]
 [3 4]]
[[5 4]
 [3 4]]
[[5 4]
 [3 4]]


In [13]:
A *= B
print(A) # массив A изменился

[[2 0]
 [0 4]]


# Функции от массивов
np массивы поддерживают многие опреации как от всего массива, так и в направлении определенной оси

In [14]:
a = np.array(range(4))
print(a)
b = a.reshape((2, 2))
print(b)

print(b.max())
print(b.max(axis=1)) # вернет массив максимумов по строкам
print(b.max(axis=0)) # вернет массив максимумов по столбцам

# еще примеры

print(b.cumsum())
print(b.sum())
print(b.std(axis=1))

# или так
print(np.std(b, axis=1))

# примеры математических функций

print(np.sqrt(a))
print(np.sin(a))
print(np.exp(a))

print(np.exp(a) @ np.exp(a))

[0 1 2 3]
[[0 1]
 [2 3]]
3
[1 3]
[2 3]
[0 1 3 6]
6
[0.5 0.5]
[0.5 0.5]
[0.         1.         1.41421356 1.73205081]
[0.         0.84147098 0.90929743 0.14112001]
[ 1.          2.71828183  7.3890561  20.08553692]
466.41599962481


# Индексирование
Одномерные массивы можно индексировать как списки и другие итерируемые объекты в Python.

In [15]:
a = np.arange(10)**3
print(a)
print(a[2])
print(a[2:5])
a[:6:2] = 1000
print(a)
print(a[ : :-1])

[  0   1   8  27  64 125 216 343 512 729]
8
[ 8 27 64]
[1000    1 1000   27 1000  125  216  343  512  729]
[ 729  512  343  216  125 1000   27 1000    1 1000]


Многомерные массивы можно индексировать вдоль каждой оси отдельно

In [16]:
b = (np.arange(16)**3).reshape((4, 4))
print(b)
print(b[2,3])
print(b[0:5, 1])
print(b[:,1])
print(b[1:3,:])


[[   0    1    8   27]
 [  64  125  216  343]
 [ 512  729 1000 1331]
 [1728 2197 2744 3375]]
1331
[   1  125  729 2197]
[   1  125  729 2197]
[[  64  125  216  343]
 [ 512  729 1000 1331]]


In [17]:
# если обратиться к одному индексу, то вернется первая строка (массив вдоль нулевой оси)
print(b[1])

[ 64 125 216 343]


In [18]:
# если нужно указать срез вдоль одной оси а другие не трогать можно использовать троеточие ...
print(b[..., 1])

[   1  125  729 2197]


# Объединение массивов и разбиение массива

In [19]:
# фиксируем случайный сид
np.random.seed(10)

# генерируем 2 массива (всегда будут генерироваться одни и те же)
a = np.floor(100*np.random.rand(4).reshape((2, 2)))/10
b = np.floor(100*np.random.rand(4).reshape((2, 2)))/10
print(a)
print(b)

# конкатенируем вдоль строк
print(np.hstack([a, b]))

# конкатенируем вдоль столбцов
print(np.vstack([a, b]))

# конкатенируем вдоль произвольной оси
print(np.stack([a, b], axis=0))

[[7.7 0.2]
 [6.3 7.4]]
[[4.9 2.2]
 [1.9 7.6]]
[[7.7 0.2 4.9 2.2]
 [6.3 7.4 1.9 7.6]]
[[7.7 0.2]
 [6.3 7.4]
 [4.9 2.2]
 [1.9 7.6]]
[[[7.7 0.2]
  [6.3 7.4]]

 [[4.9 2.2]
  [1.9 7.6]]]


Заменяем stack на split и получаем разбиение массивов

In [20]:
print(np.hsplit(a, 2)) 
print(np.vsplit(a, 2)) 
print(np.split(a, 2, axis=1)) 

[array([[7.7],
       [6.3]]), array([[0.2],
       [7.4]])]
[array([[7.7, 0.2]]), array([[6.3, 7.4]])]
[array([[7.7],
       [6.3]]), array([[0.2],
       [7.4]])]


# Копирование массивов
При работе с массивами и манипулировании ими их данные иногда копируются в новый массив, а иногда нет. Это часто сбивает с толку новичков. Есть три случая:

In [21]:
# тот же самый массив

a = np.floor(100*np.random.rand(4).reshape((2, 2)))/10
b = a
a is b

True

In [22]:
# view - НОВЫЙ массив но с ТЕМИ ЖЕ данными
a = np.floor(100*np.random.rand(4).reshape((2, 2)))/10
b = a.view()
print(a is b)
print(b.base is a)

print(a)
b = b.reshape((1, -1))
print(a) # а не изменился
print(b) 
b[0, 0] = -10
print(a) # а изменился!

False
True
[[0.  5.1]
 [8.1 6.1]]
[[0.  5.1]
 [8.1 6.1]]
[[0.  5.1 8.1 6.1]]
[[-10.    5.1]
 [  8.1   6.1]]


In [23]:
# Метод copy возвращает новый массив с новыми данными
a = np.floor(100*np.random.rand(4).reshape((2, 2)))/10
b = a.copy()
print(a is b)
print(b.base is a)

print(a)
b = b.reshape((1, -1))
print(a) # а не изменился
print(b) 
b[0, 0] = -10
print(a) # а не изменился

False
False
[[7.2 2.9]
 [9.1 7.1]]
[[7.2 2.9]
 [9.1 7.1]]
[[7.2 2.9 9.1 7.1]]
[[7.2 2.9]
 [9.1 7.1]]


# Продвинутое индексирование
NumPy предлагает больше возможностей для индексирования, чем стандартные методы Python. В дополнение к индексации целыми числами и срезами, как мы видели ранее, массивы могут индексироваться массивами целых чисел и массивами bool.

In [24]:
a = np.arange(12)**2                       

i = np.array([1, 1, 3, 8, 5])
print(a[i]) # индексируме одномерным массивом (он может быть любого размера - возьмутся соответствующие индексы)
j = np.array([[3, 4], [9, 7]])
print(a[j]) # индексируем двумерным массивом

k = np.array([[[3, 4], [9, 7]], [[3, 4], [9, 7]]])
print(a[k]) # индексируем трехмерным массивом

[ 1  1  9 64 25]
[[ 9 16]
 [81 49]]
[[[ 9 16]
  [81 49]]

 [[ 9 16]
  [81 49]]]


Можно делать операции присваивания

In [25]:
a = np.arange(5)
print(a)
a[[0, 0,2]]=[1,2,3]
print(a)

#  Обратите внимание индекс повторяется - используется второе значение
a = np.arange(5)
print(a)
a[[0,2]]=[2,3]
print(a)

[0 1 2 3 4]
[2 1 3 3 4]
[0 1 2 3 4]
[2 1 3 3 4]


Индексирование булевыми значениями

In [26]:
a = np.arange(12).reshape(3,4)
b = a > 4 # массив True / False
print(a)
print(b)
print(a[b])

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]
[[False False False False]
 [False  True  True  True]
 [ True  True  True  True]]
[ 5  6  7  8  9 10 11]


In [27]:
a = np.arange(12).reshape(3,4)
b = a%2 == 0 # массив True / False
print(b)
a[b] = -5
print(a)

[[ True False  True False]
 [ True False  True False]
 [ True False  True False]]
[[-5  1 -5  3]
 [-5  5 -5  7]
 [-5  9 -5 11]]


# Линейная алгебра
numpy содержит базовые функции линейной алгебры. Ниже приведены некоторые из них:

In [28]:
a = np.array([[1.0, 2.0], [3.0, 4.0]])
print(a)
print(a.T)

# обратная матрица
print(np.linalg.inv(a))

u = np.eye(2) # диагональная матрица
print(u)
j = np.array([[0.0, -1.0], [1.0, 0.0]])

# перемножение матриц
print(j @ j)

print(np.trace(u))  # след матрицы

# решение системы линейных уравнений
y = np.array([[5.], [7.]])
print(np.linalg.solve(a, y))

# собственные векторы
print(np.linalg.eig(j))

[[1. 2.]
 [3. 4.]]
[[1. 3.]
 [2. 4.]]
[[-2.   1. ]
 [ 1.5 -0.5]]
[[1. 0.]
 [0. 1.]]
[[-1.  0.]
 [ 0. -1.]]
2.0
[[-3.]
 [ 4.]]
(array([0.+1.j, 0.-1.j]), array([[0.70710678+0.j        , 0.70710678-0.j        ],
       [0.        -0.70710678j, 0.        +0.70710678j]]))


Создано на основе официального туториала https://numpy.org/doc/stable/user/quickstart.html