# Просьба отметиться на портале

In [1]:
%matplotlib inline
import matplotlib.pyplot as plt
import numpy as np

# 2.1. Numpy ndarray - создание

Numpy - пакет для векторизованных вычислений в Python'e. Основной объект в numpy - nddarray, который располагается напрерывно в памяти и позволяет производить быстрые вычисления (конструктор для ndarray - array, так как последний не является массивом, то мы будем использовать array и ndarray как синонимы без всякого риска).

В чем преимущества массива в numpy перед списком в Питоне?

* статическая типизация и гомогенность;
* возможность компиляции функций, работающих с статистически типизированными объектами;
* как следствие, эффективное использование RAM и CPU;
* broadcasting (рассмотрим далее).

То, что элементы array расположены последовательно означает, что следовать за a[i] элементом массива в памяти будет элемент a[i+1]. Каждый элемент занимает, разумеется, itemsize байтов.

In [2]:
a = np.array([1,2,3,4], dtype=np.int16)

In [3]:
a.shape

(4,)

In [4]:
a = np.array([[1, 2], [3, 4]])

In [5]:
a.size

4

In [6]:
a.shape

(2, 2)

In [None]:
a.dtype

In [None]:
a.itemsize

In [None]:
a.nbytes

In [None]:
np.size(a)

In [None]:
np.shape(a)

In [None]:
np.lookfor('create array')

и IPython:

Разумеется, произвольно присваивать значения элементам массива нельзя:

In [None]:
a[0,0] = "hello"

In [None]:
a[0,0] = 100

** Тип не изменяется! **

In [None]:
a = np.arange(10, dtype=np.int)
a[0] = np.pi
a

**Создание массивов**

Создавать из списков мы уже умеем:

In [None]:
np.array([1,2,3,4], dtype=np.int16)

Разумеется, главное - чтобы объект, корый передается конструктору, поддерживал протокол итерации.

In [None]:
np.array((1,2,3,4), dtype=np.int16)

In [None]:
np.arange(1,10,0.5)

In [None]:
np.linspace(0, 1, 25)

In [None]:
np.ones((3, 3))

In [None]:
np.zeros((3, 2))

In [None]:
np.eye(3)

In [7]:
np.diag(np.array([1, 2, 3, 4]))

array([[1, 0, 0, 0],
       [0, 2, 0, 0],
       [0, 0, 3, 0],
       [0, 0, 0, 4]])

In [8]:
x = np.array([('Rex', 9, 81.0), ('Fido', 3, 27.0)],
       dtype=[('name', 'U10'), ('age', 'i4'), ('weight', 'f4')])
x

array([('Rex', 9, 81.), ('Fido', 3, 27.)],
      dtype=[('name', '<U10'), ('age', '<i4'), ('weight', '<f4')])

** Случайные массивы **

на интервале [0,1]:

In [None]:
np.random.rand(3,2)

Нормально распределенные:

In [None]:
np.random.randn(3,2)

In [None]:
np.random.randint(0, 1000, 4)

# 2.2. Numpy ndarray - индексы

In [11]:
A = np.random.rand(3,5)

In [12]:
A

array([[0.29964616, 0.63093939, 0.81135746, 0.50439695, 0.23968842],
       [0.69113557, 0.72091786, 0.80643988, 0.43329504, 0.01769882],
       [0.2802775 , 0.65298033, 0.01464697, 0.16940651, 0.04653128]])

In [13]:
A[0,:]

array([0.29964616, 0.63093939, 0.81135746, 0.50439695, 0.23968842])

In [14]:
A[:,0]

array([0.29964616, 0.69113557, 0.2802775 ])

Поддерживается стандартный протокол - python slicing syntax ([lower:upper:step]) :

In [15]:
A[0,:]

array([0.29964616, 0.63093939, 0.81135746, 0.50439695, 0.23968842])

In [16]:
A[0,:][0:4:2]

array([0.29964616, 0.81135746])

Операция slicing создает т.н. view - то есть данные не копируются, поэтому исходный объект по адресу - mutable.

In [17]:
A[0,:][0:4:2] = [1.0, 2.5]

In [18]:
A

array([[1.        , 0.63093939, 2.5       , 0.50439695, 0.23968842],
       [0.69113557, 0.72091786, 0.80643988, 0.43329504, 0.01769882],
       [0.2802775 , 0.65298033, 0.01464697, 0.16940651, 0.04653128]])

Параметры для slicing могут пропускаться:

In [19]:
A[0,:][0:4:2]

array([1. , 2.5])

In [20]:
A[0,:][0:4]

array([1.        , 0.63093939, 2.5       , 0.50439695])

In [21]:
A[0,:][:3]

array([1.        , 0.63093939, 2.5       ])

In [22]:
A[0,:][::-1]

array([0.23968842, 0.50439695, 2.5       , 0.63093939, 1.        ])

In [23]:
A[0,:][-3:]

array([2.5       , 0.50439695, 0.23968842])

<img src="http://www.scipy-lectures.org/_images/numpy_indexing.png">

** Fancy Indexing **

Этим термином обозначается индексирование с помощью массивов (или иных итерируемых конструкций).

In [None]:
row_indices = [1, 2]
A[row_indices]

In [None]:
col_indices = [1, -1]
A[row_indices, col_indices]

Возможно Булево индексирование (**Boolean indexing**):

In [None]:
B = np.array([n for n in xrange(5)])
row_mask = np.array([True, False, True, False, False])
B[row_mask]

In [None]:
row_mask = np.array([1,0,1,0,0], dtype=bool)
B[row_mask]

Это очень удобно, как вы наверняка догадались, если мы хотим отобрать данные, отвечающие определенным условиям:

In [None]:
x = np.arange(0, 10, 0.5)
x

In [None]:
mask = (5 < x) * (x < 7.5)
mask

In [None]:
x[mask]

<img src="http://www.scipy-lectures.org/_images/numpy_fancy_indexing.png">

Получить список индексов элементов, отвечающих заданной маске, можно с помощью **which**:

In [None]:
indices = np.where(mask)

indices

In [None]:
x[indices]

## TLDR:
* основной объект numpy - гомогенный массив фиксированного размера;
* для доступа к элементам массива пользуйтесь slicing и помните, что slicing создает view, а значит исходный массив может быть изменен.

# 2.3. Numpy ndarray - элементарные операции с массивами

** Broadcasting **

Концепеция broadcasting является ключевой для понимания операций с массивами. Обычно, операции с массивами производятся поэлементно. 

In [None]:
a = np.array([1.0,2.0,3.0])
b = np.array([2.0,2.0,2.0])

In [None]:
a * b

Что, если массивы разного размера? Начнем с простого - скаляр и вектор:

In [None]:
a = np.array([1.0,2.0,3.0])
b = 2.0
a * b

Все просто - скаляр словно "вырастает" (broadcasted) до размеров вектора и производится поэлементная операция (разумеется, это умозрительная аналогия - новый вектор из 2 не создается!).

Общее правило таково:

операция может произведена если размерность "крайних" осей массивов совпадает (trailing dimension), либо один из элементов является скаляром.

Пример из оффициальной документации:

In [None]:
'''

Image  (3d array): 256 x 256 x 3
Scale  (1d array):             3
Result (3d array): 256 x 256 x 3

A      (4d array):  8 x 1 x 6 x 1
B      (3d array):      7 x 1 x 5
Result (4d array):  8 x 7 x 6 x 5

'''
pass

а вот эти опреции дадут вам ошибку:

In [None]:
'''
A      (1d array):  3
B      (1d array):  4 # trailing dimensions do not match

A      (2d array):      2 x 1
B      (3d array):  8 x 4 x 3 # second from last dimensions mismatched
'''
pass

In [None]:
x = np.arange(4)
xx = x.reshape(4,1)
y = np.ones(5)
z = np.ones((3,4))

print x.shape

print y.shape

x + y

In [None]:
print xx.shape
print y.shape
print (xx + y).shape
print xx + y

print '-------'

print x.shape
print z.shape
print (x + z).shape
print x + z

** Операции вида "массив - скаляр" **

In [None]:
A

In [None]:
A + 2

** Операции вида "массив - массив" **

Производятся поэлементно с учетом правил broadcasting:

In [None]:
A * A

In [None]:
A / A

** Матричные операции**

In [None]:
A = np.random.rand(3,3)

In [None]:
np.dot(A,A)

In [None]:
v = np.random.randn(3)

In [None]:
np.dot(A,v)

In [None]:
np.dot(v,v)

Если хочется использовать по умолчанию операции из матричной алгебры, то можно использовать конструктор matrix().

In [None]:
M = np.matrix(A)

In [None]:
v1 = np.matrix(v).T

In [None]:
M.shape

In [None]:
v1.shape

In [None]:
v1.T * v1

In [None]:
M * v1

In [None]:
A.T

** "Flattening" массива **

In [None]:
a = np.array([[1, 2, 3], [4, 5, 6]])

In [None]:
a.ravel()

In [None]:
a.T.ravel()

** reshape **

In [None]:
a.shape

In [None]:
b = a.ravel()

In [None]:
b = b.reshape((2, 3))

In [None]:
b

** resize **

In [None]:
a = np.arange(4)

In [None]:
a.resize((8,))

In [None]:
a

** repeat **

In [None]:
a = np.array([[1, 2], [3, 4]])
np.repeat(a, 3)

In [None]:
np.tile(a, 3)

** concatenate **

In [None]:
a

In [None]:
b = np.array([[5, 6]])

In [None]:
np.concatenate((a, b), axis=0)

In [None]:
np.concatenate((a, b.T), axis=1)

Что касается параметра axis, то иллюстрировать его использование можно следующим образом:

<img src="https://www.scipy-lectures.org/_images/reductions.png">

** hstack **

Название говорит само за себя - horizontal stack.

In [None]:
np.hstack((a,b.T))

In [None]:
a.shape

In [None]:
b.T.shape

** vstack **

In [None]:
np.vstack((a,b))

In [None]:
a.shape

In [None]:
b.shape

** Копии и view **

Мы помним, что очень важно различать копирование объекта и присваивание новой ссылки на объект. Numpy в этом смысле не отличается от списков:

In [None]:
A = np.array([[1, 2], [3, 4]])

In [None]:
B = A

In [None]:
B[0,0] = 10

In [None]:
A

Если это не тот тип поведения, который нам нужен - следует использовать np.copy():

In [None]:
B = np.copy(A)

In [None]:
B[0,0] = 100

In [None]:
A

Важно помнить, что если вы используете view массива, то копии вы не создаете!

In [None]:
a = np.arange(10)

In [None]:
b = a[::2]

In [None]:
np.may_share_memory(a, b)

In [None]:
c = a[::2].copy()
np.may_share_memory(a, c)

In [None]:
d = a.T
np.may_share_memory(a, d)

## TLDR:
* следует отличать копию массива и view;
* при осуществлении операций помните про правила broadcasting;
* запомните hstack и vstack.

# 2.4. Numpy - основные функции.

** Встроенные функции массива **

In [None]:
m = np.random.rand(3,3)

In [None]:
m.sum()

In [None]:
m.max()

# Всегда используйте встроенные функции!

In [None]:
a = np.random.rand(100000)

In [None]:
% timeit max(a)

In [None]:
% timeit a.max()

In [None]:
% timeit sum(a)

In [None]:
% timeit a.sum()

In [None]:
a = np.random.rand(1000000)

In [None]:
%%time
r = 0
for x in a:
    r += np.power(np.sin(x), 2)

In [None]:
%%time
r = (np.sin(x) ** 2).sum()

In [None]:
n, m = 1000, 5000
A = np.random.random((n, m))
B = np.random.random((n, m))

In [None]:
%%time
C = np.zeros_like(A)
for i in range(n):
    for j in range(m):
        C[i,j] = A[i,j] + B[i,j]

In [None]:
%%time
C = A + B

In [None]:
m

In [None]:
m.sum(axis=0)

In [None]:
m.sum(axis=1)

In [None]:
m.max(axis=0)

Очень полезно произведение всех элементов:

In [None]:
m.prod(axis=1)

Кумулятивная сумма элементов:

In [None]:
a.cumsum() * 100

In [None]:
a.cumsum() * 100 / a.sum()

**Простые статистики**

**Среднее**

In [None]:
m.mean(axis=0)

In [None]:
np.mean(m, axis=0)

In [None]:
np.mean(a)

In [None]:
a.mean()

**Медиана**

In [None]:
np.median(m, axis=0)

In [None]:
np.median(a)

** Дисперсия **

In [None]:
np.std(m, axis=0)

In [None]:
m.std(axis=0)

In [None]:
np.var(a)

In [None]:
a.var()

** Сортировка **

In [None]:
np.sort(a)

Функция выше возвращает отсортированную копию массива. Если нужна сортировка in-place:

In [None]:
a.sort()

In [None]:
a = np.random.rand(100000)

Также иногда бывает полезно получить только список индексов в правильном порядке:

In [None]:
np.argsort(a)

In [None]:
np.argmax(a)

In [None]:
np.argmin(a)

In [None]:
np.nonzero(a)

** Функции для работы с матрицами **

In [None]:
m

In [None]:
np.diag(m)

In [None]:
m.diagonal()

Для целого класса функций из линейной алгебры есть свой суб-модуль np.linalg.

http://docs.scipy.org/doc/numpy/reference/routines.linalg.html

In [None]:
MM = np.random.randn(9, 6)

In [None]:
U, s, V = np.linalg.svd(MM, full_matrices=False)
U.shape, V.shape, s.shape

In [None]:
S = np.diag(s)
np.allclose(MM, np.dot(U, np.dot(S, V)))

** Векторизация кода **

В numpy есть встроенная функция vectorize, которая "автоматически" векторизует вашу функцию:

In [None]:
def heavyside(x):
    if x >= 0:
        return 1
    else:
        return 0

In [None]:
heavyside(np.array([-3,-2,-1,0,1,2,3]))

In [None]:
heavyside_vec = np.vectorize(heavyside)

In [None]:
heavyside_vec(np.array([-3,-2,-1,0,1,2,3]))

Тем не менее, лучше сразу пишите так:

In [None]:
def heavyside(x):
    return 1 * (x >= 0)

In [None]:
heavyside(np.array([-3,-2,-1,0,1,2,3]))

** Условные выражения **

Как вы уже поняли, для вектора конструкция типа if (vector) не подходит.

In [None]:
if (M > 5).any():
    print("at least one element in M is larger than 5")
else:
    print("no element in M is larger than 5")

In [None]:
if (M > 5).all():
    print("all elements in M are larger than 5")
else:
    print("all elements in M are not larger than 5")

## TLDR:
- всегда используйте встроенные в np функции;
- векторизуйте везде, где это возможно!

# 2.5. Numpy - I/O.

В даноом случае у нас на выбор 2 опции - либо формат numpy, либо просто текстовый файл.

In [None]:
np.save("random.npy", M)

In [None]:
!cat random.npy

In [None]:
np.load("random.npy")

In [None]:
np.savetxt('random.csv', M, delimiter='\t')

In [None]:
! cat random.csv

In [None]:
np.loadtxt('random.csv')

# 2.6 SciPy

### Разреженные матрицы

Compressed Sparse Column matrix

- Advantages of the CSC format
- - efficient arithmetic operations CSC + CSC, CSC * CSC, etc.
- - efficient column slicing
- - fast matrix vector products (CSR, BSR may be faster)
- Disadvantages of the CSC format
- - slow row slicing operations (consider CSR)
- - changes to the sparsity structure are expensive (consider LIL or DOK)

In [None]:
import numpy as np
from scipy.sparse import csc_matrix, csr_matrix

row = np.array([0, 2, 2, 0, 1, 2])
col = np.array([0, 0, 1, 2, 2, 2])
data = np.array([1, 2, 3, 4, 5, 6])
csc_matrix((data, (row, col)), shape=(3, 3))

In [None]:
csc_matrix((data, (row, col)), shape=(3, 3)).toarray()

Compressed Sparse Row matrix

- Advantages of the CSR format
- - efficient arithmetic operations CSR + CSR, CSR * CSR, etc.
- - efficient row slicing
- - fast matrix vector products
- Disadvantages of the CSR format
- - slow column slicing operations (consider CSC)
- - changes to the sparsity structure are expensive (consider LIL or DOK)

In [None]:
row = np.array([0, 0, 1, 2, 2, 2])
col = np.array([0, 2, 2, 0, 1, 2])
data = np.array([1, 2, 3, 4, 5, 6])
csr_matrix((data, (row, col)), shape=(3, 3)).toarray()

### Методы оптимизации

In [None]:
from scipy.optimize import minimize

def rosen(x):
    """The Rosenbrock function"""
    return sum(100.0*(x[1:]-x[:-1]**2.0)**2.0 + (1-x[:-1])**2.0)

In [None]:
x0 = np.array([1.3, 0.7, 0.8, 1.9, 1.2])
res = minimize(rosen, x0, method='nelder-mead', options={'xtol': 1e-8, 'disp': True})
res

In [None]:
res = minimize(lambda x: (x - 2.7) ** 2 + 3, x0=100, method='BFGS')
res

### Проверка стат-тестов

In [None]:
from scipy import stats
rvs = stats.norm.rvs(loc=5, scale=10, size=(50,2))
stats.ttest_1samp(rvs,5.0)

In [None]:
stats.ttest_1samp(rvs,0.0)

# Задачки

- Создать "шахматную доску" на numpy:

```1 0 1 0 1
0 1 0 1 0
1 0 1 0 1
0 1 0 1 0
1 0 1 0 1```

- Создать случайный вектор и занулить три самых больших по модулю значения

- Диагональная матрица с квадратами натуральных чисел

- Змейка 

```[[ 1  6 11 16 21]
 [ 2  7 12 17 22]
 [ 3  8 13 18 23]
 [ 4  9 14 19 24]
 [ 5 10 15 20 25]]```
 
- Евклидово расстояние между вектором и всеми строчками матрицы

- Косинусное расстояние между вектором и всеми строчками матрицы. Косинусное расстояние для векторов
 