# ТЕХНОЛОГИИ ОБРАБОТКИ БОЛЬШИХ ДАННЫХ

# Лекция 1: библиотека NumPy

Автор: Сергей Вячеславович Макрушин, Финансовый универсиет, 2018 г. e-mail: SVMakrushin@fa.ru 

При подготовке лекции использованы материалы:
* J.R. Johansson (jrjohansson at gmail.com) IPython notebook доступен на: [http://github.com/jrjohansson/scientific-python-lectures](http://github.com/jrjohansson/scientific-python-lectures).
* Bryan Van de Ven презентация: Intrduction to NumPy 
* Уэс Маккинли Python и анализ данных / Пер. с англ. Слипкин А.А. - М.: ДМК Пресс, 2015. - 482 с.

### Введение

Стек технологий Python для обработки данных и научных расчетов:
![L1_python_st.png](attachment:L1_python_st.png)

NumPy - это библиотека (пакет) для Python интегрированная с кодом на C и Fortran, решающая задачи математических расчетов и манипулирования массивами данных (в первую очередь - числовых). NumPy - это краеугольный камень техноголического стека Python для научных расчетов и обработки данных.

В основе NumPy тип массива ndarray: 
* быстрый, потребляющий мало памяти, многомерный массив
* для массива доступен широкий набор высокопроэффективных математических и других операций для манипулирования информацией (в первую очередь - числовой) 

NumPy используется практически во всех вычислительных приложениях, использующих Python. Сочетание реализации векторных функций на C и Fortran и оперирования данных на Python позволяет сочитать высокую производительность и гибкость и удобство использования библиотеки.

In [1]:
import numpy as np # общепринятый способ импорта библиотеки NumPy

### Создание массивов NumPy

Создать массив numpy можно тремя способами:
* из списков или кортежей Python
* с помощью функций, которые предназначены для генерации массивов numpy (например: arange, linspace и т.д.)
* из данных хранящихся в файле

Массив NumPy:

![L1_numpy_arr.png](attachment:L1_numpy_arr.png)

![anatomyarrayrus.png](attachment:anatomyarrayrus.png)

In [2]:
a = np.array([1, 2, 3, 4, 5, 6, 7, 8])
a

array([1, 2, 3, 4, 5, 6, 7, 8])

In [3]:
# размер (количество элементов) массива:
a.size 

8

Массивы numpy могут быть многомерными.

Одномерный массив. Форма (shape) массива определяется в виде кортежа из одного элемента.

Двухмерный массив (shape в виде кортежа из двух элементов).

Многомерный массив (количество измерений не ограничено и соответствует количеству элементов в кортеже shape).

![L1_axis.png](attachment:L1_axis.png)

В отличие от списков списков в Python массивы в NumPy строго "прямогуольные".

In [4]:
py_ar = [[1, 2, 3], [1, 2], [1, 2, 3, 4]]

In [5]:
len(py_ar)

3

In [6]:
# форма массива a:
a.shape

(8,)

In [7]:
b = np.array([[0, 1, 2, 3, 4], [5, 6, 7, 8, 9], [10, 11, 12, 13, 14]])
b

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [8]:
b.size

15

In [9]:
b.shape

(3, 5)

In [10]:
# тип объектов (как типа языка Python):
type(a), type(b)

(numpy.ndarray, numpy.ndarray)

In [11]:
a.itemsize # рзмер элемента в байтах 

4

In [12]:
a.nbytes # размер массива в байтах

32

In [13]:
a.ndim # количество измерений

1

Чем же отличаются массивы numpy от списков (и вложенных списков) Python?

Массивы numpy: 
* статически типизированы: тип объектов массива определяется во время объявления массива и не может меняться
* однородны: все элементы массива имеют одинаковый тип
* статичны: размер и тип элементов массива неизменен
* эффективно хранятся в памяти
За счет этих свойств операции над массивами numpy могут быть реализованы на компилируемых языках (C, Fortran), что на порядок повышает скорость их выполнения. Для массивов numpy в виде высокоэффективных функций реализованы основные математические операции. Массивы numpy не обладают гибкостью списков Python и прежде всего ориентированы на работу с числовой информацией.

In [14]:
# определение типа элементов массива numpy: 
a.dtype

dtype('int32')

Основные числовые типы dtype:

<table border="1" class="docutils">
<colgroup>
<col width="17%">
<col width="83%">
</colgroup>
<thead valign="bottom">
<tr class="row-odd"><th class="head">Data type</th>
<th class="head">Description</th>
</tr>
</thead>
<tbody valign="top">
<tr class="row-even"><td><code class="docutils literal"><span class="pre">bool_</span></code></td>
<td>Boolean (True or False) stored as a byte</td>
</tr>
<tr class="row-odd"><td><code class="docutils literal"><span class="pre">int_</span></code></td>
<td>Default integer type (same as C <code class="docutils literal"><span class="pre">long</span></code>; normally either
<code class="docutils literal"><span class="pre">int64</span></code> or <code class="docutils literal"><span class="pre">int32</span></code>)</td>
</tr>
<tr class="row-even"><td>intc</td>
<td>Identical to C <code class="docutils literal"><span class="pre">int</span></code> (normally <code class="docutils literal"><span class="pre">int32</span></code> or <code class="docutils literal"><span class="pre">int64</span></code>)</td>
</tr>
<tr class="row-odd"><td>intp</td>
<td>Integer used for indexing (same as C <code class="docutils literal"><span class="pre">ssize_t</span></code>; normally
either <code class="docutils literal"><span class="pre">int32</span></code> or <code class="docutils literal"><span class="pre">int64</span></code>)</td>
</tr>
<tr class="row-even"><td>int8</td>
<td>Byte (-128 to 127)</td>
</tr>
<tr class="row-odd"><td>int16</td>
<td>Integer (-32768 to 32767)</td>
</tr>
<tr class="row-even"><td>int32</td>
<td>Integer (-2147483648 to 2147483647)</td>
</tr>
<tr class="row-odd"><td>int64</td>
<td>Integer (-9223372036854775808 to 9223372036854775807)</td>
</tr>
<tr class="row-even"><td>uint8</td>
<td>Unsigned integer (0 to 255)</td>
</tr>
<tr class="row-odd"><td>uint16</td>
<td>Unsigned integer (0 to 65535)</td>
</tr>
<tr class="row-even"><td>uint32</td>
<td>Unsigned integer (0 to 4294967295)</td>
</tr>
<tr class="row-odd"><td>uint64</td>
<td>Unsigned integer (0 to 18446744073709551615)</td>
</tr>
<tr class="row-even"><td><code class="docutils literal"><span class="pre">float_</span></code></td>
<td>Shorthand for <code class="docutils literal"><span class="pre">float64</span></code>.</td>
</tr>
<tr class="row-odd"><td>float16</td>
<td>Half precision float: sign bit, 5 bits exponent,
10 bits mantissa</td>
</tr>
<tr class="row-even"><td>float32</td>
<td>Single precision float: sign bit, 8 bits exponent,
23 bits mantissa</td>
</tr>
<tr class="row-odd"><td>float64</td>
<td>Double precision float: sign bit, 11 bits exponent,
52 bits mantissa</td>
</tr>
<tr class="row-even"><td><code class="docutils literal"><span class="pre">complex_</span></code></td>
<td>Shorthand for <code class="docutils literal"><span class="pre">complex128</span></code>.</td>
</tr>
<tr class="row-odd"><td>complex64</td>
<td>Complex number, represented by two 32-bit floats (real
and imaginary components)</td>
</tr>
<tr class="row-even"><td>complex128</td>
<td>Complex number, represented by two 64-bit floats (real
and imaginary components)</td>
</tr>
</tbody>
</table>
 
Кроме intc имеются платфоромо-зависимые числовые типы: short, long, float и их беззнаковые версии. Типы dtype доступны с помощью объявления в пространстве имен numpy, например: np.bool_, np.float32 и т.д.

In [15]:
# При создании массива можно явно объявить тип его элементов, иначе numpy выполнит автоматическое определение типа 
d1 = np.array([[1, 2], [3, 4]], dtype=np.float)
d1, d1.dtype

(array([[1., 2.],
        [3., 4.]]), dtype('float64'))

In [16]:
# автоматическое определение типа выбирает самый простой тип, 
# достаточный для хранения всех представленных при объявлении значений:
d2 = np.array([[1, 2], [3, 4]])
d2, d2.dtype

(array([[1, 2],
        [3, 4]]), dtype('int32'))

In [17]:
# numpy при создании массива старается не терять информацию и выбирает самый «вместительный» тип
d3 = np.array([[1, 2], [3., 4]])
d3, d3.dtype

(array([[1., 2.],
        [3., 4.]]), dtype('float64'))

In [18]:
d2_dt = d2.dtype

In [19]:
d2_dt.itemsize # размер (в байтах) элемента этого типа

4

In [20]:
d2_dt.type, d2_dt.name

(numpy.int32, 'int32')

In [21]:
d4 = np.array([1, 2, 3, "Hello"])
d4

array(['1', '2', '3', 'Hello'], dtype='<U11')

In [22]:
# <U21 означает юникодную строку длиной максимум 21 байт. При попытке записать более длинную строку она будет обрезана.
d4[0] = 'Hello, World, This is a Test'
d4[0]

'Hello, Worl'

Устройства массива numpy:
![L1_array_structure.png](attachment:L1_array_structure.png)

In [23]:
a

array([1, 2, 3, 4, 5, 6, 7, 8])

In [24]:
# функция reshape создает новое представление массива с другой размерностью и теми же данными:
a2 = a.reshape((2, 4))
a2

array([[1, 2, 3, 4],
       [5, 6, 7, 8]])

Функция reshape не копирует массив (идеология NumPy предполагает, что массив не копируется везде где это явно не определено) а создает новый заголовок, работающий с теми же данными. Идеология NumPy продиктована тем, что библиотека предназначена для обработки больших объемов данных. Неявное копирование этих данных при выполнении операций приведет к снижению производительности и возникновению проблем с доступной оперативной памятью.

In [25]:
a3 = a.reshape((4, 2))
a3

array([[1, 2],
       [3, 4],
       [5, 6],
       [7, 8]])

In [26]:
a3 = a.reshape((4, -1)) # один из параметров может быть равен -1, в этом случае его расчет будет произведен автоматически

In [27]:
a[0] = 10
a

array([10,  2,  3,  4,  5,  6,  7,  8])

In [28]:
a2

array([[10,  2,  3,  4],
       [ 5,  6,  7,  8]])

In [29]:
a3

array([[10,  2],
       [ 3,  4],
       [ 5,  6],
       [ 7,  8]])

In [30]:
a4c = a3.copy() # явно определенное копирование массива
a4c

array([[10,  2],
       [ 3,  4],
       [ 5,  6],
       [ 7,  8]])

In [31]:
a4c[0, 0] = 100
a4c

array([[100,   2],
       [  3,   4],
       [  5,   6],
       [  7,   8]])

In [32]:
a3 # изменения в копии не приводят к изменениям в оригинале

array([[10,  2],
       [ 3,  4],
       [ 5,  6],
       [ 7,  8]])

#### Создание массивов с помощью функций для генерации массивов

In [184]:
# Функция arange, аналог встроенной функции range
# # аналогично стандартной функции range python, правая граница не включается
ar1 = np.arange(0, 10, 1) # аргументы: [start], stop, [step], dtype=None
ar1

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [185]:
np.arange(2.5, 8.7, 0.9) # может работать и с вещественными числами (в отличие от встроенной функции range)

array([2.5, 3.4, 4.3, 5.2, 6.1, 7. , 7.9])

In [34]:
ar2 = np.arange(-1, 1, 0.1, dtype=np.float64)
ar2, ar2.dtype

(array([-1.00000000e+00, -9.00000000e-01, -8.00000000e-01, -7.00000000e-01,
        -6.00000000e-01, -5.00000000e-01, -4.00000000e-01, -3.00000000e-01,
        -2.00000000e-01, -1.00000000e-01, -2.22044605e-16,  1.00000000e-01,
         2.00000000e-01,  3.00000000e-01,  4.00000000e-01,  5.00000000e-01,
         6.00000000e-01,  7.00000000e-01,  8.00000000e-01,  9.00000000e-01]),
 dtype('float64'))

Вообще, при использовании arange() с аргументами типа float, сложно быть уверенным в том, сколько элементов будет получено (из-за ограничения точности чисел с плавающей запятой). Поэтому, в таких случаях обычно лучше использовать функцию `linspace()`, которая вместо шага в качестве одного из аргументов принимает число, равное количеству нужных элементов.

In [35]:
# linspace - последовательность значений из заданного интервала с постоянным шагом
# np.linspace(start, stop, num=50, endpoint=True, retstep=False, dtype=None)
# правая граница включается!
np.linspace(0, 10, 25)   # 25 чисел от 0 до 10 включительно

array([ 0.        ,  0.41666667,  0.83333333,  1.25      ,  1.66666667,
        2.08333333,  2.5       ,  2.91666667,  3.33333333,  3.75      ,
        4.16666667,  4.58333333,  5.        ,  5.41666667,  5.83333333,
        6.25      ,  6.66666667,  7.08333333,  7.5       ,  7.91666667,
        8.33333333,  8.75      ,  9.16666667,  9.58333333, 10.        ])

In [36]:
np.logspace(0, 2, 9)  # массив из 9 точек от 10**0=1 до 10**2=100

array([  1.        ,   1.77827941,   3.16227766,   5.62341325,
        10.        ,  17.7827941 ,  31.6227766 ,  56.23413252,
       100.        ])

In [37]:
# geomspace - геометрическая последовательность значений из заданного интервала 
# np.geomspace(start, stop, num=50, endpoint=True, dtype=None)
np.geomspace(1, 256, num=9, dtype=np.int)

array([  1,   2,   4,   7,  16,  32,  63, 127, 256])

In [38]:
# в модуле np.random находятся функции для работы со случайными значениями
# равномерно распределенные случайные числа из диапазона [0,1]:
np.random.rand(5, 5) # аргументы - размерность получаемого массива

array([[0.89810785, 0.04856464, 0.81907433, 0.58074455, 0.56110704],
       [0.8937351 , 0.57858325, 0.31633523, 0.54268519, 0.51024668],
       [0.19369814, 0.52979357, 0.48337848, 0.73902183, 0.37470253],
       [0.19295221, 0.10947103, 0.53630115, 0.58798781, 0.88544267],
       [0.44194335, 0.44120867, 0.33328656, 0.85602673, 0.2123507 ]])

In [39]:
# Для равномерного распределения на [a, b) где a < b есть формула (b - a) * np.random_sample() + a
# Для массива 2х3 с числами, равномерно распределенными на [-5, 7)
(7 - (-5)) * np.random.random_sample((2, 3)) + (-5)

array([[ 1.69179056, -1.20907568, -0.48807438],
       [ 3.7104869 , -0.1196696 ,  5.77223697]])

In [40]:
np.random.uniform(-5, 7, (2, 3))

array([[ 0.99955932,  1.46869112,  5.43582304],
       [-0.92832002,  2.04556951, -2.32738618]])

In [41]:
# .random.standard_normal(size=None) возвращает массив чисел с нормальным распределением (mean=0, stdev=1)
np.random.standard_normal((2, 3))

array([[ 0.36819903, -0.18465015,  1.66578225],
       [ 0.1466844 , -0.56254032, -1.03776339]])

In [42]:
# равномерно распределенные случайные целые числа
np.random.randint(15)                   # 1 целое число из [0, 15)
np.random.randint(2, size=10)           # массив из 10 целых чисел из [0, 2)
np.random.randint(5, 15, size=10)       # массив из 10 целых чисел из [5, 15)
np.random.randint(5, size=(2, 4))       # массив 2х4 из целых чисел из [0, 5)

array([[2, 2, 1, 2],
       [3, 0, 0, 0]])

In [43]:
# диагональная матрица с заданными в аргументе значениями на диагонали 
np.diag([1, 2, 3])

array([[1, 0, 0],
       [0, 2, 0],
       [0, 0, 3]])

In [44]:
# diagonal with offset from the main diagonal
np.diag([1,  2, 3], k = 1) 

array([[0, 1, 0, 0],
       [0, 0, 2, 0],
       [0, 0, 0, 3],
       [0, 0, 0, 0]])

In [45]:
# матрица из нулей
np.zeros((3, 3))

array([[0., 0., 0.],
       [0., 0., 0.],
       [0., 0., 0.]])

In [46]:
np.zeros((3,3), dtype=np.int)

array([[0, 0, 0],
       [0, 0, 0],
       [0, 0, 0]])

In [47]:
# Функция ones() создает массив из единиц
np.ones((2, 3), dtype=np.int16)

array([[1, 1, 1],
       [1, 1, 1]], dtype=int16)

In [48]:
# Функция eye() создаёт единичную матрицу (двумерный массив)
np.eye(5)

array([[1., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0.],
       [0., 0., 1., 0., 0.],
       [0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 1.]])

In [49]:
np.eye(2, 3, k=1)  # матрица 2х3, все 0, кроме 1 на диагонали номер k=1

array([[0., 1., 0.],
       [0., 0., 1.]])

In [50]:
# fromfunction() применяет функцию ко всем комбинациям индексов
np.fromfunction(lambda i, j: 3 * i + j, (3, 4))

array([[0., 1., 2., 3.],
       [3., 4., 5., 6.],
       [6., 7., 8., 9.]])

### Работа с массивами

#### Индексация и срезы

In [51]:
a

array([10,  2,  3,  4,  5,  6,  7,  8])

In [52]:
a[1]

2

In [53]:
a[1] = 20
a

array([10, 20,  3,  4,  5,  6,  7,  8])

In [54]:
a[-1]

8

In [164]:
a[ : :-1] # reversed a

array([ 8,  7,  6,  5,  4,  3, 20, 10])

In [55]:
b

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [56]:
# индексация элементов многомерного массива numpy проиводится иначе, нежели для вложенных списков Python:
b[1, 2] # размерность индекса должна совпадать с размерностью массива

7

In [57]:
b[1] 

array([5, 6, 7, 8, 9])

In [59]:
b[1][2]

7

In [60]:
b[2, 1]

11

In [61]:
b[1, 2] = 70
b

array([[ 0,  1,  2,  3,  4],
       [ 5,  6, 70,  8,  9],
       [10, 11, 12, 13, 14]])

In [62]:
b[1, 2] = 7
b

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [63]:
i = (2, 3)
b[i] # аргумент индексации - кортеж

13

In [64]:
# если количество переданных индексов меньше размерности массива, то будет возвращена соответствующая проекция массива 
# (счиатется, что опущены индексы для последних осей):
b[1]

array([5, 6, 7, 8, 9])

In [65]:
# на основе этого механизма работает индексация в стиле многомерных списков Python:
b[1][2]

7

numpy поддерживает работу со срезами, анлогичными срезам для списков Python.

In [67]:
b

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [68]:
b[1, :]

array([5, 6, 7, 8, 9])

In [160]:
b[1, ...]  # то же, что b[1, : , :] или b[1]

array([5, 6, 7, 8, 9])

In [69]:
# срез без определенных границ позволяет получать проекцию по любым осям:
b[:, 1]

array([ 1,  6, 11])

![L1_slicing1.png](attachment:L1_slicing1.png)

In [70]:
b[0:2, :]

array([[0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9]])

In [71]:
b[2, 1:]

array([11, 12, 13, 14])

![L1_slicing2.png](attachment:L1_slicing2.png)

In [72]:
b[:2, 2:4]

array([[2, 3],
       [7, 8]])

![L1_slicing3.png](attachment:L1_slicing3.png)

In [161]:
b[:, ::2]

array([[100,   2,   4],
       [  5,   7,   9],
       [ 10,  12,  14]])

In [165]:
b[::2, ::2]

array([[100,   2,   4],
       [ 10,  12,  14]])

In [162]:
b[... , 2]  # то же, что b[: , 2]

array([ 2,  7, 12])

![L1_slicing4.png](attachment:L1_slicing4.png)

In [74]:
b_s2 = b[::2, ::3]
b_s2

array([[ 0,  3],
       [10, 13]])

![L1_slicing.png](attachment:L1_slicing.png)

В numpy создание среза ничего не копирует: срез — это не новый массив, содержащий те же элементы, что и старый, а так называемый *array view* (вид), то есть своего рода интерфейс к старому массиву (идеология numpy - избегание копирования данных). Можно думать про срез как про такие специальные очки, через которые мы смотрим на исходный массив.

In [75]:
# определение, содержит ли объект данные или является представлением 
b.flags.owndata, b_s2.flags.owndata

(True, False)

In [76]:
b_s2[0, 0]

0

In [77]:
b[0, 0] = 10

In [78]:
b_s2[0, 0]

10

In [79]:
b_s2[0, 0] = 100

In [80]:
b[0, 0]

100

Срезам массивов можно присваивать новые значения

In [81]:
b2 = b.copy()
b2

array([[100,   1,   2,   3,   4],
       [  5,   6,   7,   8,   9],
       [ 10,  11,  12,  13,  14]])

In [82]:
b2[::2, ::3]

array([[100,   3],
       [ 10,  13]])

In [83]:
b2[::2, ::3] = [[-1, -2], [-4, -5]] # присвоение срезу многомерной структуры совпадающей размерности
b2

array([[-1,  1,  2, -2,  4],
       [ 5,  6,  7,  8,  9],
       [-4, 11, 12, -5, 14]])

In [84]:
b2[2, 1:]

array([11, 12, -5, 14])

In [85]:
b2[2, 1:] = 110 # присвоение срезу скалярного значения за счет распространения (broadcasting)
b2

array([[ -1,   1,   2,  -2,   4],
       [  5,   6,   7,   8,   9],
       [ -4, 110, 110, 110, 110]])

#### Работа с функциями NumPy

_Универсальные функции_

Универсальные функции (ufuncs) - функции выполняющие поэлементные операции над данными, хранящимися в массиве. Это векторные операции на базе простых функций работающих с одним или несколькими скалярными значениями и возвращающими скаляр.

Основные универсальные функции:
* операции сравнения: <, <=, ==, !=, >=, >
* арифметические операции: +, -, *, /, reciprocal, square
* экспоненциальные функции: exp, expm1, exp2, log, log10, log1p, log2, power, sqrt
* тригонометрические функции: sin, cos, tan, acsin, arccos, atctan
* гиперболические функции: sinh, cosh, tanh, acsinh, arccosh, atctanh
* побитовые операции: &, |, ~, ^, left_shift, right_shift
* логические операции: and, logical_xor, not, or
* предикаты: isfinite, isinf, isnan, signbit
* другие функции: abs, ceil, floor, mod, modf, round, sinc, sign, trunc

![L1_ufunc2.png](attachment:L1_ufunc2.png)

In [86]:
a0 = np.arange(5)
a0

array([0, 1, 2, 3, 4])

In [87]:
b0 = np.arange(0, 50, 10)
b0

array([ 0, 10, 20, 30, 40])

In [88]:
c0 = a0 + b0
c0

array([ 0, 11, 22, 33, 44])

_Оси и векторные функции_

Основные типы векторных функций:
* Агрегирующие функциии:
sum(), mean(), argmin(), argmax(), cumsum(), cumprod()

* Предикаты
a.any(), a.all()

* Манипуляция векторными данными:
argsort(), a.transpose(), trace(), reshape(...), ravel(), fill(...), clip(...)

![L1_axis0.png](attachment:L1_axis0.png)

In [89]:
ar1 = np.arange(15).reshape(3, 5)
ar1

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [90]:
ar1.sum()

105

In [91]:
ar1.sum(axis=None)

105

![L1_axis1.png](attachment:L1_axis1.png)

In [92]:
ar1.sum(axis=0) # сумма по столбцам

array([15, 18, 21, 24, 27])

![L1_axis2.png](attachment:L1_axis2.png)

In [93]:
ar1.sum(axis=1) # сумма по строкам

array([10, 35, 60])

Основные функции, которым может передаваться ось:
* all([axis, out, keepdims])	Returns True if all elements evaluate to True.
* all([axis, out, keepdims])	Returns True if all elements evaluate to True.
* any([axis, out, keepdims])	Returns True if any of the elements of a evaluate to True.
* argmax([axis, out])	Return indices of the maximum values along the given axis.
* argmin([axis, out])	Return indices of the minimum values along the given axis of a.
* argpartition(kth[, axis, kind, order])	Returns the indices that would partition this array.
* argsort([axis, kind, order])	Returns the indices that would sort this array.
* compress(condition[, axis, out])	Return selected slices of this array along given axis.
* cumprod([axis, dtype, out])	Return the cumulative product of the elements along the given axis.
* cumsum([axis, dtype, out])	Return the cumulative sum of the elements along the given axis.
* diagonal([offset, axis1, axis2])	Return specified diagonals.
* max([axis, out, keepdims])	Return the maximum along a given axis.
* mean([axis, dtype, out, keepdims])	Returns the average of the array elements along given axis.
* min([axis, out, keepdims])	Return the minimum along a given axis.
* partition(kth[, axis, kind, order])	Rearranges the elements in the array in such a way that the value of the element in kth * position is in the position it would be in a sorted array.
* prod([axis, dtype, out, keepdims])	Return the product of the array elements over the given axis
* ptp([axis, out, keepdims])	Peak to peak (maximum - minimum) value along a given axis.
* repeat(repeats[, axis])	Repeat elements of an array.
* sort([axis, kind, order])	Sort an array, in-place.
* squeeze([axis])	Remove single-dimensional entries from the shape of a.
* std([axis, dtype, out, ddof, keepdims])	Returns the standard deviation of the array elements along given axis.
* sum([axis, dtype, out, keepdims])	Return the sum of the array elements over the given axis.
* swapaxes(axis1, axis2)	Return a view of the array with axis1 and axis2 interchanged.
* take(indices[, axis, out, mode])	Return an array formed from the elements of a at the given indices.
* trace([offset, axis1, axis2, dtype, out])	Return the sum along diagonals of the array.
* |var([axis, dtype, out, ddof, keepdims])	Returns the variance of the array elements, along given axis.

_Распространение (broadcasting)_

Термин broadcasting описывает механизм, с помощью которого библиотека NumPy выполняет посимвольные арифметические операции над массивами разной формы.

Поскольку операции выполняются поэлементно, операнды бинарных операций должны иметь одинаковый размер. Тем не менее, операция может быть корректно выполнена, если размеры операндов таковы, что они могут быть расширены до одинаковых размеров. Данная возможность называется broadcasting.

В общем случае, меньший (по форме и размеру) "расширяется" до размера "большего" массива так, чтобы их форма стала одинаковой.

В примере скаляр распространяется до массива размерности (5,):
![L1_broadcasting.png](attachment:L1_broadcasting.png)

In [94]:
np.arange(5) + 10

array([10, 11, 12, 13, 14])

![L1_broadcasting2_.png](attachment:L1_broadcasting2_.png)

In [95]:
a2 = np.arange(6).reshape(3, 2)
a2

array([[0, 1],
       [2, 3],
       [4, 5]])

In [96]:
b2 = np.arange(10, 40, 10).reshape(3,1)
b2, b2.shape

(array([[10],
        [20],
        [30]]), (3, 1))

In [97]:
a2 + b2

array([[10, 11],
       [22, 23],
       [34, 35]])

In [98]:
b3 = np.arange(10, 40, 10)
b3, b3.shape

(array([10, 20, 30]), (3,))

In [100]:
a2 + b3

ValueError: operands could not be broadcast together with shapes (3,2) (3,) 

In [101]:
b4 = np.arange(10, 30, 10)
b4, b4.shape

(array([10, 20]), (2,))

In [102]:
a2 + b4

array([[10, 21],
       [12, 23],
       [14, 25]])

Правила выполнения распространения: 

Единственное условие — чтобы массивы имели *почти одинаковый размер*. То есть если мы хотим выполнить поэлементную операцию между массивами A и B, то:
* Кортежи (tuples) A.shape и B.shape должны быть одинаковой длины. 
* Пусть A.shape = $(x_1, \dots, x_n)$, а B.shape = $(y_1, \dots, y_n)$. Тогда либо $x_i = y_i$ (соответствующие измерения двух массивов должны либо совпадать), либо одно из этих значений равно 1. Если в одном из массивов не хватает измерений, numpy «мысленно» размножит (много раз продублирует) массив по этой размерности, и операция выполнится так, как будто массивы имели одинаковый размер (считается что недостающее количество измерений - это младшие измерения (измерения с наименьшими номерами), которым приписывается размерность 1).

Пример работы с размерностями массивов в корректных операциях распространения:
![L1_broadcasting3.png](attachment:L1_broadcasting3.png)

![L1_broadcasting_1.png](attachment:L1_broadcasting_1.png)

In [103]:
a2, a2.shape

(array([[0, 1],
        [2, 3],
        [4, 5]]), (3, 2))

In [104]:
b3, b3.shape

(array([10, 20, 30]), (3,))

In [105]:
# для добавления измерения (оси) размерностью 1 можно использовать np.newaxis :
b3t = b3[:, np.newaxis]
b3t, b3t.shape

(array([[10],
        [20],
        [30]]), (3, 1))

In [107]:
a2 + b3

ValueError: operands could not be broadcast together with shapes (3,2) (3,) 

In [108]:
a2 + b3t

array([[10, 11],
       [22, 23],
       [34, 35]])

In [109]:
x = np.arange(5)
y = np.arange(7)

In [110]:
x = x[:, np.newaxis]
y = y[np.newaxis, :]
print(x.shape, y.shape)

(5, 1) (1, 7)


In [111]:
x

array([[0],
       [1],
       [2],
       [3],
       [4]])

In [112]:
y

array([[0, 1, 2, 3, 4, 5, 6]])

In [113]:
x + y

array([[ 0,  1,  2,  3,  4,  5,  6],
       [ 1,  2,  3,  4,  5,  6,  7],
       [ 2,  3,  4,  5,  6,  7,  8],
       [ 3,  4,  5,  6,  7,  8,  9],
       [ 4,  5,  6,  7,  8,  9, 10]])

In [114]:
# Пример:
A = np.random.randint(50, size=12).reshape(3, 4)
B = np.random.randint(50, size=20).reshape(4, 5)
# Построим массив, состоящий из всех пар A[i, j] * B[j, k], i=1, ..., 3; j = 1, ..., 4; k = 1, ..., 5
C = A[:, :, np.newaxis] * B[np.newaxis, :, :]
# Пояснение: Мы привели обы массива к одинаковой форме (3, 4, 5).
# Первый массив «мысленно» повторился 5 раз по оси 2 и стал трёхмерным, 
# а второй массив "мысленно" повторился 3 раза по оси 0 и тоже стал трёхмерным.
# Дальше их попарно перемножили.
C

array([[[ 114,   72,   72,   99,  126],
        [1032,   96,  384,  192,  528],
        [ 504,  490,  154,   84,   70],
        [  68,  476,  816,  612, 1428]],

       [[1862, 1176, 1176, 1617, 2058],
        [ 430,   40,  160,   80,  220],
        [ 720,  700,  220,  120,  100],
        [  60,  420,  720,  540, 1260]],

       [[ 380,  240,  240,  330,  420],
        [2064,  192,  768,  384, 1056],
        [ 432,  420,  132,   72,   60],
        [  24,  168,  288,  216,  504]]])

#### Линенйная алгебра

Арифметические операции с массивами NumPy выполняются на поэлементной основе.

In [115]:
e = np.array([[ 0,  1,  2,  3,  4],
       [10, 11, 12, 13, 14],
       [20, 21, 22, 23, 24],
       [30, 31, 32, 33, 34],
       [40, 41, 42, 43, 44]])

In [116]:
e + 10

array([[10, 11, 12, 13, 14],
       [20, 21, 22, 23, 24],
       [30, 31, 32, 33, 34],
       [40, 41, 42, 43, 44],
       [50, 51, 52, 53, 54]])

In [117]:
e * e

array([[   0,    1,    4,    9,   16],
       [ 100,  121,  144,  169,  196],
       [ 400,  441,  484,  529,  576],
       [ 900,  961, 1024, 1089, 1156],
       [1600, 1681, 1764, 1849, 1936]])

In [118]:
e / 2

array([[ 0. ,  0.5,  1. ,  1.5,  2. ],
       [ 5. ,  5.5,  6. ,  6.5,  7. ],
       [10. , 10.5, 11. , 11.5, 12. ],
       [15. , 15.5, 16. , 16.5, 17. ],
       [20. , 20.5, 21. , 21.5, 22. ]])

In [121]:
# При делении на 0 возвращается inf (бесконечность)
e / 0

  
  


array([[nan, inf, inf, inf, inf],
       [inf, inf, inf, inf, inf],
       [inf, inf, inf, inf, inf],
       [inf, inf, inf, inf, inf],
       [inf, inf, inf, inf, inf]])

In [122]:
# матричное умножение:
m1 = np.arange(9).reshape(3, 3)
m2 = np.arange(6).reshape(3, 2)
m1, m2

(array([[0, 1, 2],
        [3, 4, 5],
        [6, 7, 8]]), array([[0, 1],
        [2, 3],
        [4, 5]]))

In [123]:
np.dot(m1, m2)

array([[10, 13],
       [28, 40],
       [46, 67]])

In [124]:
m1 @ m2 # бинарный оператор, аналогичный dot()

array([[10, 13],
       [28, 40],
       [46, 67]])

In [125]:
m2.T # транспонирование

array([[0, 2, 4],
       [1, 3, 5]])

In [126]:
m2.T @ m1

array([[30, 36, 42],
       [39, 48, 57]])

In [127]:
np.linalg.det(m1) # определитель

0.0

In [128]:
m3 = np.array([[3, 7, 4], [11, 2, 9], [4, 11, 2]])
m3

array([[ 3,  7,  4],
       [11,  2,  9],
       [ 4, 11,  2]])

In [129]:
np.linalg.det(m3) 

265.00000000000017

In [130]:
m3i = np.linalg.inv(m3) # получение обратной матрицы
m3i

array([[-0.35849057,  0.11320755,  0.20754717],
       [ 0.05283019, -0.03773585,  0.06415094],
       [ 0.42641509, -0.01886792, -0.26792453]])

In [131]:
m3i @ m3

array([[ 1.00000000e+00, -5.27355937e-16, -5.55111512e-17],
       [ 5.55111512e-17,  1.00000000e+00,  0.00000000e+00],
       [ 2.22044605e-16,  2.22044605e-16,  1.00000000e+00]])

Ещё один тип данных в NumPy — matrix. Является производным классом от ndarray, в связи с чем можно использовать все методы и функции, применимые к array. Однако:
* matrix — строго 2мерные
* матричное умножение осуществляется через * (в отличие от dot для ndarray)

In [166]:
A = np.arange(0, 4).reshape(2, 2)
B = np.arange(3, 7).reshape(2, 2)
A_mat = np.matrix(A)
B_mat = np.matrix('3 4; 5 6') # ещё один способ создания matrix

In [167]:
A_mat

matrix([[0, 1],
        [2, 3]])

In [168]:
B_mat

matrix([[3, 4],
        [5, 6]])

In [169]:
A_mat * B_mat

matrix([[ 5,  6],
        [21, 26]])

In [170]:
np.dot(A, B)

array([[ 5,  6],
       [21, 26]])

#### Прихотливое индексирование

Прихотливым иднексированием (fancy indexing) называется использование массива или списка в качестве индекса.

In [132]:
e = np.array([[ 0,  1,  2,  3,  4],
       [10, 11, 12, 13, 14],
       [20, 21, 22, 23, 24],
       [30, 31, 32, 33, 34],
       [40, 41, 42, 43, 44]])
e

array([[ 0,  1,  2,  3,  4],
       [10, 11, 12, 13, 14],
       [20, 21, 22, 23, 24],
       [30, 31, 32, 33, 34],
       [40, 41, 42, 43, 44]])

In [133]:
row_indices = [3, 2, 1]
e[row_indices]

array([[30, 31, 32, 33, 34],
       [20, 21, 22, 23, 24],
       [10, 11, 12, 13, 14]])

In [134]:
col_indices = [1, 2, -1]
e[row_indices, col_indices]

array([31, 22, 14])

Для индексирования мы можем использовать маски: если массив NumPy содержит элементы типа `bool`, то элемент выбирается в зависимости от булевского значения. Создаваемый таким способом массив является честной копией исходного.

In [135]:
f = np.arange(5)
fb = np.array([True, False, True, False, False])
f, fb

(array([0, 1, 2, 3, 4]), array([ True, False,  True, False, False]))

In [136]:
f[fb] # выбирает ровно те элементы, на чьих местах стоит True

array([0, 2])

In [137]:
f % 2 == 0

array([ True, False,  True, False,  True])

In [138]:
f[f % 2 == 0]  # выбирает те элементы, для которых выполнилось условие

array([0, 2, 4])

In [139]:
f[f % 2 == 0].sum() # сумма всех четных чисел в массиве

6

In [140]:
np.where(f > 2)

(array([3, 4], dtype=int64),)

In [176]:
f[np.logical_and(f != 2, f % 3 != 0)]

array([1, 4])

![L1_fancy_indexing.png](attachment:L1_fancy_indexing.png)

In [141]:
# чтобы узнать, что два массива равны (состоят из одних и тех же элементов, находящихся в одном и том же порядке), 
# теперь нельзя использовать == — ведь это тоже поэлементная операция!
np.array([1, 2, 3]) == np.array([1, 2, 3])

array([ True,  True,  True])

In [142]:
(np.array([1, 2, 3]) == np.array([1,2,3])).all()

True

In [143]:
np.array_equal(np.array([1, 2, 3]), np.array([1, 2, 3]))

True

#### Дополнительные операции с массивами

In [144]:
b

array([[100,   1,   2,   3,   4],
       [  5,   6,   7,   8,   9],
       [ 10,  11,  12,  13,  14]])

In [145]:
b.flatten() # операция создает копию массива!

array([100,   1,   2,   3,   4,   5,   6,   7,   8,   9,  10,  11,  12,
        13,  14])

Используя функции repeat, tile, vstack, hstack, concatenate можно создать больший массив из массивов меньших размеров.

In [146]:
a5 = np.array([[1, 2], [3, 4]])
a5

array([[1, 2],
       [3, 4]])

In [147]:
np.repeat(a5, 3)

array([1, 1, 1, 2, 2, 2, 3, 3, 3, 4, 4, 4])

In [148]:
np.tile(a5, 3)

array([[1, 2, 1, 2, 1, 2],
       [3, 4, 3, 4, 3, 4]])

In [149]:
b5 = np.array([[5, 6]])
b5

array([[5, 6]])

In [150]:
# Конкатенация таблиц по горизонтали и вертикали (соответствующие размерности должны совпадать!)
np.concatenate((a5, b5), axis=0) 

array([[1, 2],
       [3, 4],
       [5, 6]])

In [151]:
np.concatenate((a5, b5.T), axis=1)   # можно конкатенировать любое кол-во матриц

array([[1, 2, 5],
       [3, 4, 6]])

In [152]:
np.vstack((a5, b5)) # по вертикали (vertical stack)  # поставили массивы один на другой, вертикально

array([[1, 2],
       [3, 4],
       [5, 6]])

In [153]:
np.hstack((a5, b5.T)) # по горизонтали (horizontal stack)  # поставили массивы рядом, горизонтально

array([[1, 2, 5],
       [3, 4, 6]])

In [154]:
# column_stack() объединяет одномерные массивы в качестве столбцов двумерного массива
a6 = np.array([[1, 2], [3, 4]])
b6 = np.array([[5, 6], [7, 8]])
np.row_stack((a6, b6))

array([[1, 2],
       [3, 4],
       [5, 6],
       [7, 8]])

In [155]:
np.column_stack((a6, b6))

array([[1, 2, 5, 6],
       [3, 4, 7, 8]])

In [156]:
# hsplit() вы можете разбить массив вдоль горизонтальной оси, указав либо число возвращаемых массивов одинаковой формы, 
# либо номера столбцов, после которых массив разрезается "ножницами"
a7 = np.arange(12).reshape((2, 6))

In [157]:
np.hsplit(a7, 3)  # Разбить на 3 части

[array([[0, 1],
        [6, 7]]), array([[2, 3],
        [8, 9]]), array([[ 4,  5],
        [10, 11]])]

In [158]:
np.hsplit(a7, (3, 4))  # Разрезать a после третьего и четвёртого столбца

[array([[0, 1, 2],
        [6, 7, 8]]), array([[3],
        [9]]), array([[ 4,  5],
        [10, 11]])]

In [159]:
# .vsplit() разбивает массив вдоль вертикальной оси

In [177]:
# Зачем необходимо использовать NumPy, если существуют стандартные списки/кортежи и циклы?
# Причина заключается в скорости работы.

In [178]:
A_quick_arr = np.random.normal(size = (1000000,))
B_quick_arr = np.random.normal(size = (1000000,))

In [179]:
A_slow_list, B_slow_list = list(A_quick_arr), list(B_quick_arr)

In [180]:
%%time
ans = 0
for i in range(len(A_slow_list)):
    ans += A_slow_list[i] * B_slow_list[i]

Wall time: 517 ms


In [181]:
%%time
ans = sum([A_slow_list[i] * B_slow_list[i] for i in range(1000000)])

Wall time: 467 ms


In [182]:
%%time
ans = np.sum(A_quick_arr * B_quick_arr)

Wall time: 18 ms


In [183]:
%%time
ans = A_quick_arr.dot(B_quick_arr)

Wall time: 4.99 ms
