**NumPy - Numerical Python
библиотека для эффективных вычислений**


Python -- высокоуровневый, интепретируемый и динамический. Списки в нём &ndash; списки указателей на объекты (которые могут иметь любой тип), и при выполнении, например, "векторных операций" (с помощью циклов или list comprehensions) интерпретатор каждый раз проверяет, применим ли тип очередного элемента. 


*То, за счёт чего мы получаем лаконичность кода и высокую скорость разработки, вынуждает наши программы работать медленнее.*


В numpy &ndash; 
1. array должны быть одного типа, поэтому нет дополнительных вычислительных затрат на проверки.
2. Часть операций реализована на C.


Отсюда прирост в производительности на некоторых распространённых задачах &ndash; в сотни раз.


*Если вы используете numpy и если при этом в вашем коде есть циклы, скорее всего, вы делаете что-то не так.*

In [None]:
import numpy as np 

In [None]:
# numpy.ndarray -- это элементы ОДНОГО типа (в numpy их много)

array = [1, 222, 33, 5]
nparray = np.array(array)

print(type(nparray))
print(nparray)
print(nparray.dtype)

array = [1, 222, 33, 5.0]
nparray = np.array(array)

print(nparray)
print(nparray.dtype)

array = [1, 222, 33, "5.0"]
nparray = np.array(array)

print(nparray)
print(nparray.dtype)

In [None]:
# у объектов в numpy, как и у любых объектов в python, есть атрибуты

# arange -- генерация подряд идущих чисел
# reshape -- приведение к нужной размерности
array = np.arange(40).reshape(2, 2, 10)

print(type(array))

print(array)

# размерности
print(array.ndim)

# как нумеруются оси
# строки -- axis=0
# столбцы -- axis=1
print(array.shape)
print(len(array))

# все нормальные операции -- immutable
print(array.astype(np.float32))
print(array.dtype)

# также можно задавать многомерные массивы, передав в список списков [списков [списков [...]]

In [None]:
# Другие методы создания списков

# от, до, сколько частей
c = np.linspace(0, 1, 6)
d = np.linspace(0, 1, 6, endpoint=False)
print(c, d)

# на вход -- размеры массивов
e = np.zeros((2, 3))
print(e)

f = np.ones((2, 2, 3))
print(f)

# на вход -- длина диагонали квадратной матрицы
g = np.eye(4)
print(g)

h = np.diag(np.arange(5))
i = np.diag(np.ones(3))
print(h)
print(i)

# etc

In [None]:
# Случайные числа из разных распределений

# "посев" для генератора случайных чисел -- для одних и тех же псвдослучайных генераций
np.random.seed(4)

# генерация сэмплов из равномерного распределения
a = np.random.rand(4)  
print(a)

# гауссовское распределение
b = np.random.randn(50)
print(b)

# и есть несколько других полезных на практике, google it

In [None]:
# индексирование массивов

# одномерные
arr = np.array([1, 2, 3, 4])
print(arr[0])
print(arr[2] + arr[3])

# многомерные
arr = np.array([[1, 2, 3, 4, 5], [6, 7, 8, 9, 10]])
print('5 элемент массива на втором ряду:', arr[1, 4])

arr = np.array([[[1, 2, 3], [4, 5, 6]], [[7, 8, 9], [10, 11, 12]]])
print(arr[0, 1, 2])

arr = np.array([[1,2,3,4,5], [6,7,8,9,10]])
print('Последний элемент второго измерения (строки): ', arr[1, -1])

arr = np.arange(120).reshape(12, 10)

# срезы

arr = np.array([1, 2, 3, 4, 5, 6, 7])
print(arr[1:5])
print(arr[4:])
print(arr[:4])
print(arr[-3:-1])
print(arr[1:5:2])
print(arr[::2])

# срезы в многомерных массивах
arr = np.array([[1, 2, 3, 4, 5], [6, 7, 8, 9, 10]])
print(arr[1, 1:4])
print(arr[0:2, 2])
print(arr[0:2, 1:4])
print(arr[:, 1])

# можно передавать список индексов (как лист, так и np.ndarray)
arr = np.arange(120).reshape(12, 10)
print(arr[[0, 3], :1])
print(arr[np.array([0, 3]), :1])

In [None]:
# копирование, view objects

arr = np.arange(1, 13)
print(arr.reshape(3, 2, 2))
print('=')
print(arr.reshape(3, 2, -1))
arrview = arr.reshape(3, 2, 2)
print(arr.base, arrview.base)
arr[1] = 123
print(arrview)
print(arrview.reshape(-1))

In [None]:
# итерирование

for elem in np.nditer(arr):
    print(elem, end='\t')
    
for i, elem in np.ndenumerate(arr):
    print(i, elem, end='\t')

In [None]:
# слияние

# конкатенирование
arr1 = np.array([1, 2, 3])
arr2 = np.array([4, 5, 6])
print(np.concatenate((arr1, arr2)))
arr3 = np.arange(1, 13).reshape(4, -1)
arr4 = np.arange(13, 25).reshape(4, -1)
print(arr3)
print(arr4)
print(np.concatenate((arr3, arr4), axis=0))
print(np.concatenate((arr3, arr4), axis=1))

# стекинг
print(np.stack((arr1, arr2)))

# разделение
arr = np.arange(1, 13)
print(np.array_split(arr, 3))

In [None]:
# поиск

arr = np.array([1, 2, 3, 4, 5, 4, 4])
x = np.where(arr == 4)
print(x)

# фильтрация (маскинг)

arr = np.array([1, 2, 3, 4])
fil = [True, False, True, False]
print(arr[fil])
print(arr[arr % 2 == 0])
# 4. хитрый отбор элементов -- masking
x = np.random.randn(1000)

# элементы больше среднего
print(x[x > np.mean(x)][:10])

# минуточку, а что за выражение в квадратных скобках?
print((x > np.mean(x))[:10])

# всё, что выпадает за три сигмы
print(x[(x > np.mean(x) + 3 * np.std(x)) | (x < np.mean(x) - 3 * np.std(x))])

%timeit x[(x > np.mean(x) + 3 * np.std(x)) | (x < np.mean(x) - 3 * np.std(x))]

mn = np.mean(x)
std = 3 * np.std(x)
mnstdr = mn + std
mnstdl = mn - std

%timeit filter(lambda x: x > mnstdr or x < mnstdl, x)


"""
У маскинга свой небольшой язык со своеобразным синтаксисом. 

Например,
not = ~
and = &
or = |
>, <, >=, <=

Скобки для отделения одних условных выражений от других -- не лишние никогда (в питоне, как мы помним, всё не так).
"""

In [None]:
# сортировка

arr = np.random.rand(3, 3)
print(np.sort(arr))

### Залог эффективных вычислений 
#### воспринимать рекомендации по работе с numpy 
*(ну или заглядывать в исходники, но это для джедаев)*

**Numpy-way strategies**
1. **Использование numpy ufuncs**
2. **Использование numpy aggregate functions**

In [None]:
# I. ufuncs

# Нет ни одного шанса, что мы даже за пару-тройку занятий рассмотрим всё, что есть в numpy.
# Поэтому если есть нужда в решении какой-нибудь задачи линейной алгебры, стоит погуглить, 
# наверняка в numpy/scipy есть готовое

# Сейчас учимся, "как делать это правильно", а конкретные необходимые вам методы придётся погуглить

x = np.arange(6).reshape((2, 3))
print(x, x.shape)

# cool, heh?
print(x + 2)
print(x / 2)
print(x * 2)
print(x ** 2) # element-wise

# cooler?
print(x + x)
print(x - x)

# NOTA BENE!
print(x * x) # element-wise
print(x.dot(x.T)) # multiplication
print(x.T.dot(x)) # multiplication

# а давайте проверим
# print(x * x == x ** 2)

"""
Сюда же относятся очень эффективные
np.log
np.exp
...

Можете не писать питоновские лямбды -- не делайте этого
"""

In [None]:
# let's make sure numpy's ufuncs are cool
arr = list(range(0, 60000))
%timeit [v + 5 for v in arr]

arr = np.arange(60000)
%timeit arr + 5

# убедительно? :]

In [None]:
# II. Aggregate functions: берём коллекцию, вычисляем "агрегат"

# Нет ни одного шанса, что мы даже за пару-тройку занятий рассмотрим всё, что есть в numpy.
# Поэтому если есть нужда в решении какой-нибудь задачи линейной алгебры, стоит погуглить, 
# наверняка в numpy/scipy есть готовое
# Сейчас учимся, "как делать это правильно", а конкретные необходимые вам методы придётся погуглить

x = np.arange(60).reshape((10, 6))
print(x)

# среднее по разным измерениям
print(np.mean(x))
print(np.mean(x, axis=0))
print(np.mean(x, axis=1))

# ст. отклонение по разным измерениям
print(np.std(x))
print(np.std(x, axis=0))
print(np.std(x, axis=1))

"""
Есть много-много других хороших полезных агрегирующих функций на каждый день
"""

In [None]:
# let's make sure numpy's aggr funcs are blazing fast
arr = list(range(0, 60000))
%timeit sum(arr)

arr = np.arange(60000)
%timeit np.sum(arr)

# убедительно? :]

**Broadcasting**

<img src=numpy_broadcasting.png>

In [21]:
# скаляр и вектор
a = np.array([1, 2, 3])
print(a)
b = 2
print(b)
c = a + b
print(c)

[1 2 3]
2
[3 4 5]


In [22]:
# скаляр и матрица
A = np.array([[1, 2, 3], [1, 2, 3]])
print(A)
b = 2
print(b)
C = A + b
print(C)

[[1 2 3]
 [1 2 3]]
2
[[3 4 5]
 [3 4 5]]


In [23]:
# вектор и матрица
A = np.array([[1, 2, 3], [1, 2, 3]])
print(A)
b = np.array([1, 2, 3])
print(b)
C = A + b
print(C)

[[1 2 3]
 [1 2 3]]
[1 2 3]
[[2 4 6]
 [2 4 6]]


In [None]:
# есть свои ограничения:

arr1 = np.array([1, 2, 3, 4, 5])
arr2 = np.array([1, 2, 3, 4])

arr1 + arr2