# Библиотека Numpy

<img src=https://numpy.org/images/logo.svg width="200" />


In [1]:
import numpy as np

## Гланый герой — np.ndarray

Реализизует массив произвольной размерности и базовые операции над ними

* `np.array` —  создать массив из аргумента (например, из списка)
* `.shape` — вернуть кортеж размерностей
* `+, *, /, -` — поэлементные операции
* `np.dot` — матричное умножение
* Другие поэлементные функции `np.sin`, `np.cos`, `np.log`

### Создение

* Из списка

In [3]:
ar = np.array([
    [1, 2, 3],
    [4, 5, 6],
])

print(type(ar))

<class 'numpy.ndarray'>


* `np.arange` — последовательность эелментов с заданной разницей между ними. Поддерживает нецелоцисленную разницу между элементами


In [16]:
print(np.arange(0, 5))
print(np.arange(0, 5, 1))
print(np.arange(0, 5, 0.5))

[0 1 2 3 4]
[0 1 2 3 4]
[0.  0.5 1.  1.5 2.  2.5 3.  3.5 4.  4.5]


* `np.linspace` — равномерно разделить интервал на заданное число частей

In [22]:
np.linspace(0, 4.5, 10)

array([0. , 0.5, 1. , 1.5, 2. , 2.5, 3. , 3.5, 4. , 4.5])

* `np.logspace` - равномерно, но в логарифмической шкале

In [30]:
np.logspace(0, 10, num=11, base=2)

array([1.000e+00, 2.000e+00, 4.000e+00, 8.000e+00, 1.600e+01, 3.200e+01,
       6.400e+01, 1.280e+02, 2.560e+02, 5.120e+02, 1.024e+03])

### Может быть любой размерности

In [9]:
ar = np.array([
    [
        [0],
        [1],
        [2],
    ],
    [
        [3],
        [4],
        [5],
    ]
])

print(ar)
print(ar.shape)

[[[0]
  [1]
  [2]]

 [[3]
  [4]
  [5]]]
(2, 3, 1)


### Поменять размерности

In [13]:
ar = np.array([
    [
        [0],
        [1],
        [2],
    ],
    [
        [3],
        [4],
        [5],
    ]
])

print(ar)
print(ar.shape)

print('=======')

ar2 = ar.reshape(2, 3)
print(ar2)
print(ar2.shape)

[[[0]
  [1]
  [2]]

 [[3]
  [4]
  [5]]]
(2, 3, 1)
[[0 1 2]
 [3 4 5]]
(2, 3)


### Транспонировать

In [31]:
m = np.array([
    [1, 2],
    [3, 4]
])

print(m)
print(m.transpose())

[[1 2]
 [3 4]]
[[1 3]
 [2 4]]


In [49]:
t = np.arange(1, 9).reshape(2, 2, 2)

t_transposed = t.transpose((0, 2, 1))

print(t)
print(t_transposed)

print(t[0].transpose() == t_transposed[0])
print(t[1].transpose() == t_transposed[1])

[[[1 2]
  [3 4]]

 [[5 6]
  [7 8]]]
[[[1 3]
  [2 4]]

 [[5 7]
  [6 8]]]
[[ True  True]
 [ True  True]]
[[ True  True]
 [ True  True]]


*Грабли*

In [53]:
a = np.array([
    [1, 2],
    [3, 4],
])

print(a)

a_tranposed = a.transpose()
print(a_tranposed)
a_tranposed[0, 0] = 1000

print(a[0, 0])

[[1 2]
 [3 4]]
[[1 3]
 [2 4]]
1000


### Операции

In [93]:
a = np.array([
    [1, 2],
    [3, 4],
])
b = np.array([
    [1, -2],
    [-3, 4],
])

print('Sum')
print(a + b)
print('Difference')
print(a - b)
print('Elementwise product')
print(a * b)
print('Matrix product')
print(np.dot(a, b))
print('Elementwise log')
print(np.log(a))

print(a == b)
print(a > b)

Sum
[[2 0]
 [0 8]]
Difference
[[0 4]
 [6 0]]
Elementwise product
[[ 1 -4]
 [-9 16]]
Matrix product
[[-5  6]
 [-9 10]]
Elementwise log
[[0.         0.69314718]
 [1.09861229 1.38629436]]
[[ True False]
 [False  True]]
[[False  True]
 [ True False]]


### Индексирование

* взять один элемент. Для этого надо передать столько индексов, сколько размерностей имеет массив

In [54]:
a = np.array([
    [1, 2],
    [3, 4]
])

print(a[0, 0])

1


* подмассив (срез, slice). Можно указать меньше индексов, чем надо, тогда будет взят срез.
Если вдоль какого-то измерения надо взять все элементы, то можно передать `:`, или `None`

In [60]:
a = np.array([
    [1, 2],
    [3, 4]
])

print('0-th row', a[0])
print('0-th column', a[:, 0])

b = np.arange(0, 8).reshape(2, 2, 2)
print(b[:, 1, :])

0-th row [1 2]
0-th column [1 3]
[[2 3]
 [6 7]]


* много индексов вдоль какого-то измерения. Можно передать список (или массив) индексов, тогда будут взять соответствующие элементы

In [82]:
a = np.arange(0, 9).reshape(3, 3)
print(a[[0, 2], :])
print(a[::2, :])

[[0 1 2]
 [6 7 8]]
[[0 1 2]
 [6 7 8]]


Но есть так сделать для нескольких осей, то результат может удивить. 
Формально, если передать
$$
ar[[x_1, x_2, \ldots, x_n], [y_1, y_2, \ldots, y_n]],
$$
то в результате будет одномерный массив 
$$
[ar[x_1, y_1], ar[x_2, y_2], \ldots, ar[x_n, y_n]]
$$

In [73]:
a = np.arange(0, 9).reshape(3, 3)
print(a[[0, 2], [0, 1]])

[0 7]


Чтобы взять несколько строк и столбцов, можно использовать функцию `np.ix_`

In [78]:
a = np.arange(0, 9).reshape(3, 3)
print(a[np.ix_([0, 2], [0, 1])])


[[0 1]
 [6 7]]


* булевой маской. Можно передавать булев массив, тогда будет взяты те элементы (или срезы), для которых истинны значения в маске



In [90]:
a = np.arange(-5, 4).reshape(3, 3)
positive = a > 0
print(positive)
print(a[positive])

print(a[a > -1]) # Обратите внимание на размер

[[False False False]
 [False False False]
 [ True  True  True]]
[1 2 3]
[0 1 2 3]


### [Broadcasting](https://docs.scipy.org/doc/numpy/user/basics.broadcasting.html)

Broadcasting снимает правило одной размерности и позволяет производить арифметические операции над массивами разных, но всё-таки согласованных размерностей.

Если количество размерностей не совпадают, то к массиву меньшей размерности добавляются фиктивные размерности "слева"
Проще всего показать на картинке:
![title](http://www.scipy-lectures.org/_images/numpy_broadcasting.png)

При этом скаляр (число) может быть интепретировано как массив с 1 размерностью, и к нему так же применяются правила распространения.

In [109]:
a = np.arange(4).reshape(2, 2)
b = np.arange(2)

print('A', a)
print('B', b)

print('=====')
print('A + B')
print(a + b)
print(a + b.reshape(len(b), -1))
print('=====')

print(2 * a)

A [[0 1]
 [2 3]]
B [0 1]
=====
A + B
[[0 2]
 [2 4]]
[[0 1]
 [3 4]]
=====
[[0 2]
 [4 6]]


### Агрегаты

Можно брать сумму, произведение элементов, максимум и другие операции. Всех, или только вдоль некоторых осей. 

In [126]:
a = np.arange(4).reshape(2, 2)
print(a)

print(np.sum(a))
print(np.sum(a, axis=0))
print(np.sum(a, axis=1))
print(np.sum(a, axis=1, keepdims=True))

[[0 1]
 [2 3]]
6
[2 4]
[1 5]
[[1]
 [5]]


### Скорость

Давайте посчитаем скалярное произведение
$$
     xy = \sum_{i = 1}^N x[i]y[i]
$$

In [120]:
def dot_product_python(x, y):
    return sum(xi * yi for xi, yi in zip(x, y))
    
    
def dot_product_manual_numpy(x, y):
    return np.sum(x * y)


def dot_product_numpy(x, y):
    return np.dot(x, y)

In [115]:
size = 10000

a = np.random.randn(size)
b = np.random.randn(size)

In [117]:
%%timeit 
dot_product_python(a, b)

1.07 ms ± 35 µs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)


In [118]:
%%timeit 
dot_product_manual_numpy(a, b)

6.37 µs ± 29.2 ns per loop (mean ± std. dev. of 7 runs, 100,000 loops each)


In [121]:
%%timeit
dot_product_numpy(a, b)

5.34 µs ± 51.2 ns per loop (mean ± std. dev. of 7 runs, 100,000 loops each)
