# Лекция 1: Библиотека Numpy

__Автор: Сергей Вячеславович Макрушин__ e-mail: SVMakrushin@fa.ru 

Финансовый универсиет, 2020 г. 

При подготовке лекции использованы материалы:
* J.R. Johansson (jrjohansson at gmail.com) IPython notebook доступен на: [http://github.com/jrjohansson/scientific-python-lectures](http://github.com/jrjohansson/scientific-python-lectures).
* Bryan Van de Ven презентация: Intrduction to NumPy 
* Уэс Маккинли Python и анализ данных / Пер. с англ. Слипкин А.А. - М.: ДМК Пресс, 2015

V 0.8 03.09.2020

In [1]:
# загружаем стиль для оформления презентации
from IPython.display import HTML
from urllib.request import urlopen
html = urlopen("file:./lec_v1.css")
HTML(html.read().decode('utf-8'))

## Оглавление

## Введение

<center>         
    <img src="./img/L1_python_st.png" alt="Стек технологий Python для обработки данных и научных расчетов" style="width: 700px;"/>
    <b>Стек технологий Python для обработки данных и научных расчетов</b>
</center>

<em class="df"> __NumPy__ (от Numerical Python)</em> - библиотека (пакет) для Python, интегрированная с кодом на C и Fortran, решающая задачи математических расчетов и манипулирования массивами данных (в первую очередь - числовых). 

В основе NumPy - тип массива __ndarray__: 
* быстрый, потребляющий мало памяти, многомерный массив;
* для массива доступен широкий набор высокоэффективных математических и других операций для манипулирования информацией (в первую очередь - числовой).

<em class="cb">NumPy - это краеугольный камень технологического стека Python для научных расчетов и обработки данных.</em>

NumPy используется практически во всех вычислительных приложениях, использующих Python. Сочетание реализации векторных функций на C и Fortran и оперирования данных на Python позволяет совместить высокую производительность и гибкость и удобство использования библиотеки. В этом смысле NumPy является ярким примером использования <em class="cb">концепции Python as "glue" language</em>. 


In [2]:
# общепринятый способ импорта библиотеки NumPy:
import numpy as np

## Создание массивов NumPy

Создать массив numpy можно тремя способами:
* из списков или кортежей Python
* с помощью функций, которые предназначены для генерации массивов numpy (например: arange, linspace и т.д.)
* из данных, хранящихся в файле (будет рассмотрено на семинарах)

<center>         
    <img src="./img/L1_numpy_arr.png" alt="Массив NumPy" style="width: 700px;"/>
    <b>Пример массива NumPy</b>
</center>

In [8]:
# создание ndarray на базе списка Python (не эффективный способ создания ndarray!)
a = np.array([1,2,3,4,5,6,7,8])
a

array([1, 2, 3, 4, 5, 6, 7, 8])

In [9]:
type(a)

numpy.ndarray

In [10]:
# размер (количество элементов) массива:
a.size 

8

#### Форма массивов NumPy

<img src="./img/L1_shape1.png" alt="Массив NumPy" style="width: 550px;"/>  
<b>Пример одномерного массива NumPy. Форма (shape) массива определяется в виде кортежа из одного элемента.</b>

<center>         
Массивы numpy могут быть многомерными.
    
<img src="./img/L1_shape1.png" alt="Массив NumPy" style="width: 550px;"/>  
<b>Пример одномерного масси|ва NumPy. Форма (shape) массива определяется в виде кортежа из одного элемента.</b>

<img src="./img/L1_shape2.png" alt="Массив NumPy" style="width: 550px;"/>  
<b>Пример двухмерного массива NumPy. Shape в виде кортежа из двух элементов.</b>

<img src="./img/L1_shape3.png" alt="Массив NumPy" style="width: 550px;"/>  
<b>Многомерный массив. Количество измерений не ограничено и соответствует количеству элементов в кортеже shape.</b>

</center>

In [11]:
# форма массива a:
a.shape

(8,)

<em class="cb">В отличие от списков в Python массивы в NumPy строго "прямоугольные".</em> Т.е. количество элементов по каждой из размерностей во всех частях массива должно строго  совпадать.

In [12]:
# Пример "не прямоугольного" вложенного списка:
l_non_rect = [[1, 2, 3], [1, 2], [1, 2, 3, 4]]

In [13]:
# размерность по "внешнему измерению"
len(l_non_rect)

3

In [16]:
# размерность массива по вложенному измерению не совпадает (он "не прямоугольный"):
[len(l) for l in l_non_rect]

[3, 2, 4]

In [17]:
l_non_rect[2][2]

3

In [19]:
# ndarray из l_non_rect создается, но не является двухмерным массивом, как мы того ожидаем:
a_l_non_rect = np.array(l_non_rect)
a_l_non_rect

array([list([1, 2, 3]), list([1, 2]), list([1, 2, 3, 4])], dtype=object)

In [20]:
a_l_non_rect.shape

(3,)

In [24]:
a_l_non_rect.size

3

In [21]:
# построение обычного двухмерного массива ndarray:
b = np.array([[0, 1, 2, 3, 4], [5, 6, 7, 8, 9], [10, 11, 12, 13, 14]])
b

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [25]:
b.size

15

In [26]:
b.shape

(3, 5)

In [27]:
# тип объектов ndarray:
type(a), type(b)

(numpy.ndarray, numpy.ndarray)

In [28]:
a.itemsize # рзмер элемента в байтах 

4

In [29]:
a.nbytes # размер массива в байтах

32

In [30]:
a.ndim # количество измерений

1

In [31]:
len(b.shape)

2

### Типизация массивов NumPy

In [32]:
# определение типа элементов массива numpy: 
a.dtype

dtype('int32')

Основные числовые типы dtype:

<table border="1" class="docutils">
<colgroup>
<col width="17%">
<col width="83%">
</colgroup>
<thead valign="bottom">
<tr class="row-odd"><th class="head">Data type</th>
<th class="head">Description</th>
</tr>
</thead>
<tbody valign="top">
<tr class="row-even"><td><code class="docutils literal"><span class="pre">bool_</span></code></td>
<td>Boolean (True or False) stored as a byte</td>
</tr>
<tr class="row-odd"><td><code class="docutils literal"><span class="pre">int_</span></code></td>
<td>Default integer type (same as C <code class="docutils literal"><span class="pre">long</span></code>; normally either
<code class="docutils literal"><span class="pre">int64</span></code> or <code class="docutils literal"><span class="pre">int32</span></code>)</td>
</tr>
<tr class="row-even"><td>intc</td>
<td>Identical to C <code class="docutils literal"><span class="pre">int</span></code> (normally <code class="docutils literal"><span class="pre">int32</span></code> or <code class="docutils literal"><span class="pre">int64</span></code>)</td>
</tr>
<tr class="row-odd"><td>intp</td>
<td>Integer used for indexing (same as C <code class="docutils literal"><span class="pre">ssize_t</span></code>; normally
either <code class="docutils literal"><span class="pre">int32</span></code> or <code class="docutils literal"><span class="pre">int64</span></code>)</td>
</tr>
<tr class="row-even"><td>int8</td>
<td>Byte (-128 to 127)</td>
</tr>
<tr class="row-odd"><td>int16</td>
<td>Integer (-32768 to 32767)</td>
</tr>
<tr class="row-even"><td>int32</td>
<td>Integer (-2147483648 to 2147483647)</td>
</tr>
<tr class="row-odd"><td>int64</td>
<td>Integer (-9223372036854775808 to 9223372036854775807)</td>
</tr>
<tr class="row-even"><td>uint8</td>
<td>Unsigned integer (0 to 255)</td>
</tr>
<tr class="row-odd"><td>uint16</td>
<td>Unsigned integer (0 to 65535)</td>
</tr>
<tr class="row-even"><td>uint32</td>
<td>Unsigned integer (0 to 4294967295)</td>
</tr>
<tr class="row-odd"><td>uint64</td>
<td>Unsigned integer (0 to 18446744073709551615)</td>
</tr>
<tr class="row-even"><td><code class="docutils literal"><span class="pre">float_</span></code></td>
<td>Shorthand for <code class="docutils literal"><span class="pre">float64</span></code>.</td>
</tr>
<tr class="row-odd"><td>float16</td>
<td>Half precision float: sign bit, 5 bits exponent,
10 bits mantissa</td>
</tr>
<tr class="row-even"><td>float32</td>
<td>Single precision float: sign bit, 8 bits exponent,
23 bits mantissa</td>
</tr>
<tr class="row-odd"><td>float64</td>
<td>Double precision float: sign bit, 11 bits exponent,
52 bits mantissa</td>
</tr>
<tr class="row-even"><td><code class="docutils literal"><span class="pre">complex_</span></code></td>
<td>Shorthand for <code class="docutils literal"><span class="pre">complex128</span></code>.</td>
</tr>
<tr class="row-odd"><td>complex64</td>
<td>Complex number, represented by two 32-bit floats (real
and imaginary components)</td>
</tr>
<tr class="row-even"><td>complex128</td>
<td>Complex number, represented by two 64-bit floats (real
and imaginary components)</td>
</tr>
</tbody>
</table>
 
Кроме intc имеются платформо-зависимые числовые типы: short, long, float и их беззнаковые версии. 

Типы dtype доступны с помощью объявления в пространстве имен numpy, например: np.bool_, np.float32 и т.д.

In [29]:
b.dtype

dtype('int32')

In [33]:
# При создании массива можно явно объявить тип его элементов, иначе numpy выполнит автоматическое определение типа:
d1 = np.array([[1, 2], [3, 4]], dtype=np.float)
d1, d1.dtype

(array([[1., 2.],
        [3., 4.]]),
 dtype('float64'))

In [34]:
# автоматическое определение типа выбирает самый простой тип, 
# достаточный для хранения всех представленных при объявлении значений:
d2 = np.array([[1, 2], [3, 4]])
d2, d2.dtype

(array([[1, 2],
        [3, 4]]),
 dtype('int32'))

In [35]:
d2_dt = d2.dtype

In [36]:
d2_dt.itemsize # размер (в байтах) элемента этого типа

4

In [37]:
d2_dt.type, d2_dt.name

(numpy.int32, 'int32')

__Итог: чем отличаются массивы numpy от списков (и вложенных списков) Python__

Массивы numpy: 
* __статически типизированы__: тип объектов массива определяется во время объявления массива и не может меняться
* __однородны__: все элементы массива имеют одинаковый тип
* __статичны__: размер массива неизменен, массивы должны быть "прямоугольными", но проекции массива по осям могут меняться

За счет этих свойств массивs numpy:
* <em class="pl"></em> __эффективно хранятся в памяти__
* <em class="pl"></em> операции над массивами numpy могут быть реализованы на компилируемых языках (C, Fortran). Это __на порядок повышает скорость выполнения операций__. Для массивов numpy в виде высокоэффективных функций реализованы основные математические операции.
* <em class="mn"></em> __не обладают гибкостью списков Python__
* <em class="mn"></em> прежде всего ориентированы на работу с числовой информацией (т.е. __имеют ограничения по типам используемой информации__)

#### Устройство массивов NumPy и изменение формы

<center>         
    <img src="./img/L1_array_structure.png" alt="Устройство массива numpy" style="width: 600px;"/>
    <b>Устройство массива numpy</b>
</center>

In [42]:
a

array([1, 2, 3, 4, 5, 6, 7, 8])

In [43]:
a.size

8

In [45]:
a.shape

(8,)

In [43]:
# функция reshape создает новое представление массива с другой размерностью и теми же данными:
a2 = a.reshape((2, 4))
a2

array([[10,  2,  3,  4],
       [ 5,  6,  7,  8]])

In [44]:
a2.size

8

In [45]:
a2.shape

(2, 4)

<em class="cb">Функция reshape не копирует массив, а создает новый заголовок, работающий с теми же данными.</em>

<em class="cb">Идеология NumPy предполагает, что массив не копируется везде, где это явно не определено.</em> Эта логика продиктована тем, что библиотека предназначена для обработки больших объемов данных. Неявное копирование этих данных при выполнении операций приведет к снижению производительности и возникновению проблем с доступной оперативной памятью.

In [46]:
a3 = a.reshape((4, 2))
a3

array([[10,  2],
       [ 3,  4],
       [ 5,  6],
       [ 7,  8]])

In [47]:
a[0] = 10
a

array([10,  2,  3,  4,  5,  6,  7,  8])

In [48]:
a2

array([[10,  2,  3,  4],
       [ 5,  6,  7,  8]])

In [49]:
a3

array([[10,  2],
       [ 3,  4],
       [ 5,  6],
       [ 7,  8]])

In [50]:
a4c = a3.copy() # явно определенное копирование массива
a4c

array([[10,  2],
       [ 3,  4],
       [ 5,  6],
       [ 7,  8]])

In [51]:
a4c[0, 0] = 100
a4c

array([[100,   2],
       [  3,   4],
       [  5,   6],
       [  7,   8]])

In [52]:
a3 # изменения в копии не приводят к изменениям в оригинале

array([[10,  2],
       [ 3,  4],
       [ 5,  6],
       [ 7,  8]])

### Создание массивов с помощью функций для генерации массивов

In [54]:
list(range(10))

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

In [55]:
ar1 = np.arange(10) # аргументы: [start], stop, [step], dtype=None

ar1

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [58]:
# Функция arange, аналог встроенной функции range
ar1 = np.arange(0, 10, 1) # аргументы: [start], stop, [step], dtype=None

ar1

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [56]:
ar2 = np.arange(-1, 1, 0.1, dtype=np.float64)
ar2, ar2.dtype

(array([-1.00000000e+00, -9.00000000e-01, -8.00000000e-01, -7.00000000e-01,
        -6.00000000e-01, -5.00000000e-01, -4.00000000e-01, -3.00000000e-01,
        -2.00000000e-01, -1.00000000e-01, -2.22044605e-16,  1.00000000e-01,
         2.00000000e-01,  3.00000000e-01,  4.00000000e-01,  5.00000000e-01,
         6.00000000e-01,  7.00000000e-01,  8.00000000e-01,  9.00000000e-01]),
 dtype('float64'))

In [57]:
# linspace - последовательность значений из заданного интервала с постоянным шагом
# np.linspace(start, stop, num=50, endpoint=True, retstep=False, dtype=None)
np.linspace(0, 10, 25)

array([ 0.        ,  0.41666667,  0.83333333,  1.25      ,  1.66666667,
        2.08333333,  2.5       ,  2.91666667,  3.33333333,  3.75      ,
        4.16666667,  4.58333333,  5.        ,  5.41666667,  5.83333333,
        6.25      ,  6.66666667,  7.08333333,  7.5       ,  7.91666667,
        8.33333333,  8.75      ,  9.16666667,  9.58333333, 10.        ])

In [59]:
# geomspace - геометрическая последовательность значений из заданного интервала 
# np.geomspace(start, stop, num=50, endpoint=True, dtype=None)
np.geomspace(1, 256, num=9)

array([  1.,   2.,   4.,   8.,  16.,  32.,  64., 128., 256.])

In [66]:
# в модуле np.random находятся функции для работы со случайными значениями
# равномерно распределенные случайные числа из диапазона [0,1]:
np.random.rand(5, 5) # аргументы - размерность получаемого массива

array([[0.15770997, 0.86162913, 0.50710942, 0.50636251, 0.07034829],
       [0.27554711, 0.56442661, 0.16217884, 0.49915686, 0.01048966],
       [0.81446749, 0.20009838, 0.20309595, 0.73554491, 0.4296668 ],
       [0.29705968, 0.37303607, 0.59897688, 0.4920559 , 0.29289069],
       [0.38007565, 0.85987236, 0.79461751, 0.1791864 , 0.25232482]])

In [67]:
# диагональная матрица с заданными в аргументе значениями на диагонали 
np.diag([1,2,3])

array([[1, 0, 0],
       [0, 2, 0],
       [0, 0, 3]])

In [68]:
# матрица из нулей
np.zeros((3, 3))

array([[0., 0., 0.],
       [0., 0., 0.],
       [0., 0., 0.]])

In [69]:
np.zeros((3, 3), dtype=np.int)

array([[0, 0, 0],
       [0, 0, 0],
       [0, 0, 0]])

---

# Работа с массивами

## Индексация

In [60]:
a

array([10,  2,  3,  4,  5,  6,  7,  8])

In [61]:
a[1]

2

In [62]:
a[1] = 20
a

array([10, 20,  3,  4,  5,  6,  7,  8])

In [63]:
a[-1]

8

In [64]:
b

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [65]:
# индексация элементов многомерного массива numpy производится иначе, нежели для вложенных списков Python:
b[1, 2] # размерность индекса должна совпадать с размерностью массива

7

In [66]:
# если при индексации не хватает измерений, то считается, что для последних (по порядку) измерений индекс не задан
# и по этим измерениям выбираются все значания:
b[1] 

array([5, 6, 7, 8, 9])

In [67]:
# работает как последовательная индексация по одному индексу:
b[1][2]

7

In [68]:
b[1, 2]

7

In [69]:
b[1, 2] = 70
b

array([[ 0,  1,  2,  3,  4],
       [ 5,  6, 70,  8,  9],
       [10, 11, 12, 13, 14]])

In [70]:
b[1, 2] = 7
b

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [71]:
i = (2, 3)
b[i] # аргумент индексации - кортеж

13

In [72]:
# если количество переданных индексов меньше размерности массива, то будет возвращена соответствующая проекция массива 
# (считается, что опущены индексы для последних осей):
b[1]

array([5, 6, 7, 8, 9])

In [73]:
# на основе этого механизма работает индексация в стиле многомерных списков Python:
b[1][2]

7

## Cрезы

NumPy поддерживает работу со срезами, анлогичными срезам для списков Python.

In [87]:
b

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [88]:
b[1, :]

array([5, 6, 7, 8, 9])

In [89]:
b[1]

array([5, 6, 7, 8, 9])

In [90]:
# срез без определенных границ позволяет получать проекцию по любым осям:
b[:, 1]

array([ 1,  6, 11])

<center>         
<img src="./img/L1_slicing1.png" alt="Устройство массива numpy" style="width: 600px;"/>
<b>Пример выполнения среза</b>
</center>

In [82]:
b[0:2, :]

array([[0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9]])

In [83]:
b[2, 1:]

array([11, 12, 13, 14])

<center>         
<img src="./img/L1_slicing2_.png" alt="Устройство массива numpy" style="width: 600px;"/>
<b>Пример выполнения среза</b>
</center>

In [84]:
b[:2, 2:4]

array([[2, 3],
       [7, 8]])

<center>         
<img src="./img/L1_slicing3.png" alt="Устройство массива numpy" style="width: 600px;"/>
<b>Пример выполнения среза</b>
</center>

In [85]:
b[:, ::2]

array([[ 0,  2,  4],
       [ 5,  7,  9],
       [10, 12, 14]])

<center>         
<img src="./img/L1_slicing4.png" alt="Устройство массива numpy" style="width: 600px;"/>
<b>Пример выполнения среза</b>
</center>

In [92]:
b_s2 = b[::2, ::3]
b_s2

array([[ 0,  3],
       [10, 13]])

<em class="cb">При получении среза массива создается объект-представление (array view), который работает с данными исходного массива</em> (идеология numpy - избегание копирования данных), определяя для него специальный порядок обхода элементов. 

In [93]:
# определение, содержит ли объект данные или является представлением 
b.flags.owndata, b_s2.flags.owndata

(True, False)

In [94]:
b_s2[0, 0]

0

In [95]:
b[0, 0] = 10

In [96]:
b_s2[0,0]

10

In [97]:
b_s2[0,0] = 100

In [98]:
b[0, 0]

100

Срезам массивов можно присваивать новые значения

In [99]:
b2 = b.copy()
b2

array([[100,   1,   2,   3,   4],
       [  5,   6,   7,   8,   9],
       [ 10,  11,  12,  13,  14]])

In [100]:
b2[::2, ::3]

array([[100,   3],
       [ 10,  13]])

In [101]:
b2[::2, ::3] = [[-1, -2], [-4, -5]] # присвоение срезу многомерной структуры совпадающей размерности
b2

array([[-1,  1,  2, -2,  4],
       [ 5,  6,  7,  8,  9],
       [-4, 11, 12, -5, 14]])

In [102]:
b2[2, 1:]

array([11, 12, -5, 14])

In [103]:
b2[2, 1:] = 110 # присвоение срезу скалярного значения за счет распространения (broadcasting)
b2

array([[ -1,   1,   2,  -2,   4],
       [  5,   6,   7,   8,   9],
       [ -4, 110, 110, 110, 110]])

## Работа с функциями NumPy

### Универсальные функции

<em class="df"> __Универсальные функции__ (ufuncs)</em> - функции, выполняющие поэлементные операции над данными, хранящимися в массиве. Это векторные операции на базе простых функций, работающих с одним или несколькими скалярными значениями и возвращающими скаляр.

Основные универсальные функции:
* операции сравнения: <, <=, ==, \!=, >=, >
* арифметические операции: +, -, *, /, %, reciprocal, square
* экспоненциальные функции: exp, expm1, exp2, log, log10, log1p, log2, power, sqrt
* тригонометрические функции: sin, cos, tan, acsin, arccos, atctan
* гиперболические функции: sinh, cosh, tanh, acsinh, arccosh, atctanh
* побитовые операции: &, |, ~, ^, left_shift, right_shift
* логические операции: and, logical_xor, not, or
* предикаты: isfinite, isinf, isnan, signbit
* другие функции: abs, ceil, floor, mod, modf, round, sinc, sign, trunc

In [104]:
b

array([[100,   1,   2,   3,   4],
       [  5,   6,   7,   8,   9],
       [ 10,  11,  12,  13,  14]])

In [105]:
b < 7

array([[False,  True,  True,  True,  True],
       [ True,  True, False, False, False],
       [False, False, False, False, False]])

In [106]:
(3 < b) & (b < 7)

array([[False, False, False, False,  True],
       [ True,  True, False, False, False],
       [False, False, False, False, False]])

In [107]:
b + 10

array([[110,  11,  12,  13,  14],
       [ 15,  16,  17,  18,  19],
       [ 20,  21,  22,  23,  24]])

In [108]:
b * 10

array([[1000,   10,   20,   30,   40],
       [  50,   60,   70,   80,   90],
       [ 100,  110,  120,  130,  140]])

In [109]:
b + b

array([[200,   2,   4,   6,   8],
       [ 10,  12,  14,  16,  18],
       [ 20,  22,  24,  26,  28]])

In [110]:
b * b # поэлементное умножение! 

array([[10000,     1,     4,     9,    16],
       [   25,    36,    49,    64,    81],
       [  100,   121,   144,   169,   196]])

In [111]:
np.exp(b)

array([[2.68811714e+43, 2.71828183e+00, 7.38905610e+00, 2.00855369e+01,
        5.45981500e+01],
       [1.48413159e+02, 4.03428793e+02, 1.09663316e+03, 2.98095799e+03,
        8.10308393e+03],
       [2.20264658e+04, 5.98741417e+04, 1.62754791e+05, 4.42413392e+05,
        1.20260428e+06]])

<center>         
<img src="./img/L1_ufunc2.png" alt="Выполнение универсальной функции" style="width: 600px;"/>
<b>Выполнение универсальной функции<b>
</center>

In [112]:
a0 = np.arange(5)
a0

array([0, 1, 2, 3, 4])

In [113]:
b0 = np.arange(0, 50, 10)
b0

array([ 0, 10, 20, 30, 40])

In [114]:
c0 = a0 + b0
c0

array([ 0, 11, 22, 33, 44])

### Оси и векторные функции

Основные типы векторных функций:
* Агрегирующие функциии:
sum(), mean(), argmin(), argmax(), cumsum(), cumprod()

* Предикаты
a.any(), a.all()

* Манипуляция векторными данными:
argsort(), a.transpose(), trace(), reshape(...), ravel(), fill(...), clip(...)

<center>         
<img src="L1_axis0.png" alt="Обход элементов массива при незаданной оси" style="width: 600px;"/>
__Обход элементов массива при незаданной оси__
</center>

In [115]:
ar1 = np.arange(15).reshape(3, 5)
ar1

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [116]:
ar1.shape

(3, 5)

In [117]:
ar1.sum()

105

In [118]:
ar1.sum(axis=None)

105

<center>         
<img src="L1_axis1.png" alt="Обход элементов массива" style="width: 600px;"/>
__Обход элементов массива по axis=0__
</center>

In [119]:
ar1.sum(axis=0)

array([15, 18, 21, 24, 27])

In [120]:
ar1.sum(axis=0).shape

(5,)

<center>         
<img src="L1_axis2.png" alt="Обход элементов массива" style="width: 600px;"/>
__Обход элементов массива по axis=0__
</center>

In [121]:
ar1.sum(axis=1)

array([10, 35, 60])

Основные функции, которым может передаваться ось:
* all([axis, out, keepdims])	Returns True if all elements evaluate to True.
* all([axis, out, keepdims])	Returns True if all elements evaluate to True.
* any([axis, out, keepdims])	Returns True if any of the elements of a evaluate to True.
* argmax([axis, out])	Return indices of the maximum values along the given axis.
* argmin([axis, out])	Return indices of the minimum values along the given axis of a.
* argpartition(kth[, axis, kind, order])	Returns the indices that would partition this array.
* argsort([axis, kind, order])	Returns the indices that would sort this array.
* compress(condition[, axis, out])	Return selected slices of this array along given axis.
* cumprod([axis, dtype, out])	Return the cumulative product of the elements along the given axis.
* cumsum([axis, dtype, out])	Return the cumulative sum of the elements along the given axis.
* diagonal([offset, axis1, axis2])	Return specified diagonals.
* max([axis, out, keepdims])	Return the maximum along a given axis.
* mean([axis, dtype, out, keepdims])	Returns the average of the array elements along given axis.
* min([axis, out, keepdims])	Return the minimum along a given axis.
* partition(kth[, axis, kind, order])	Rearranges the elements in the array in such a way that the value of the element in kth * position is in the position it would be in a sorted array.
* prod([axis, dtype, out, keepdims])	Return the product of the array elements over the given axis
* ptp([axis, out, keepdims])	Peak to peak (maximum - minimum) value along a given axis.
* repeat(repeats[, axis])	Repeat elements of an array.
* sort([axis, kind, order])	Sort an array, in-place.
* squeeze([axis])	Remove single-dimensional entries from the shape of a.
* std([axis, dtype, out, ddof, keepdims])	Returns the standard deviation of the array elements along given axis.
* sum([axis, dtype, out, keepdims])	Return the sum of the array elements over the given axis.
* swapaxes(axis1, axis2)	Return a view of the array with axis1 and axis2 interchanged.
* take(indices[, axis, out, mode])	Return an array formed from the elements of a at the given indices.
* trace([offset, axis1, axis2, dtype, out])	Return the sum along diagonals of the array.
* var([axis, dtype, out, ddof, keepdims])	Returns the variance of the array elements, along given axis.

### Распространение (broadcasting)

В качестве аргументов универсальных функций могут быть массивы с различной, но сравнимой формой. В этом случае применяется механизм __распространения (broadcsting)__.

<center>         
    <img src="./img/L1_broadcasting.png" alt="Обход элементов массива" style="width: 600px;"/>
    <b>В примере скаляр распространяется до массива размерности (5,)</b>
</center>

In [122]:
np.arange(5) + 10

array([10, 11, 12, 13, 14])

<center>         
    <img src="./img/L1_broadcasting2_.png" alt="Пример распространения" style="width: 600px;"/>
    <b>Пример распространения для протяженных массивов разной размерности</b>
</center>

In [123]:
a2 = np.arange(6).reshape(3, 2)
a2

array([[0, 1],
       [2, 3],
       [4, 5]])

In [124]:
b2 = np.arange(10, 40, 10).reshape(3,1)
b2, b2.shape

(array([[10],
        [20],
        [30]]),
 (3, 1))

In [125]:
a2 + b2

array([[10, 11],
       [22, 23],
       [34, 35]])

In [126]:
a2.shape

(3, 2)

In [127]:
b3 = np.arange(10, 40, 10)
b3, b3.shape

(array([10, 20, 30]), (3,))

In [128]:
a2 + b3

ValueError: operands could not be broadcast together with shapes (3,2) (3,) 

In [129]:
b4 = np.arange(10, 30, 10)
b4, b4.shape

(array([10, 20]), (2,))

In [130]:
a2 + b4

array([[10, 21],
       [12, 23],
       [14, 25]])

Правила выполнения распространения: 
* соответствующие измерения двух массивов должны либо совпадать
* либо одно из них должно быть равно единице. 

Если в одном из массивов не хватает измерений, то считается, что недостающее количество измерений - это младшие измерения (измерения с наименьшими номерами), которым приписывается размерность 1. 

<center>         
    <img src="./img/L1_broadcasting3.png" alt="Пример работы с размерностями массивов" style="width: 500px;"/>
    <b>Пример работы с размерностями массивов в корректных операциях распространения</b>
</center>

In [131]:
a2, a2.shape

(array([[0, 1],
        [2, 3],
        [4, 5]]),
 (3, 2))

In [132]:
b3, b3.shape

(array([10, 20, 30]), (3,))

In [133]:
# для добавления измерения (оси) размерностью 1 можно использовать np.newaxis :
b3t = b3[:, np.newaxis]
b3t, b3t.shape

(array([[10],
        [20],
        [30]]),
 (3, 1))

In [134]:
a2 + b3

ValueError: operands could not be broadcast together with shapes (3,2) (3,) 

In [135]:
a2 + b3t

array([[10, 11],
       [22, 23],
       [34, 35]])

### Линейная алгебра

Арифметические операции с массивами NumPy выполняются на поэлементной основе.

In [136]:
e = np.array([[ 0,  1,  2,  3,  4],
       [10, 11, 12, 13, 14],
       [20, 21, 22, 23, 24],
       [30, 31, 32, 33, 34],
       [40, 41, 42, 43, 44]])

In [137]:
e * 10

array([[  0,  10,  20,  30,  40],
       [100, 110, 120, 130, 140],
       [200, 210, 220, 230, 240],
       [300, 310, 320, 330, 340],
       [400, 410, 420, 430, 440]])

In [138]:
e * e

array([[   0,    1,    4,    9,   16],
       [ 100,  121,  144,  169,  196],
       [ 400,  441,  484,  529,  576],
       [ 900,  961, 1024, 1089, 1156],
       [1600, 1681, 1764, 1849, 1936]])

In [139]:
e / 2

array([[ 0. ,  0.5,  1. ,  1.5,  2. ],
       [ 5. ,  5.5,  6. ,  6.5,  7. ],
       [10. , 10.5, 11. , 11.5, 12. ],
       [15. , 15.5, 16. , 16.5, 17. ],
       [20. , 20.5, 21. , 21.5, 22. ]])

In [140]:
# матричное умножение:
m1 = np.arange(9).reshape(3, 3)
m2 = np.arange(6).reshape(3, 2)
print(m1)
print(m2)

[[0 1 2]
 [3 4 5]
 [6 7 8]]
[[0 1]
 [2 3]
 [4 5]]


In [141]:
np.dot(m1, m2)

array([[10, 13],
       [28, 40],
       [46, 67]])

In [142]:
m1 @ m2 # бинарный оператор, аналогичный dot()

array([[10, 13],
       [28, 40],
       [46, 67]])

In [143]:
m2

array([[0, 1],
       [2, 3],
       [4, 5]])

In [144]:
m2.T # транспонирование

array([[0, 2, 4],
       [1, 3, 5]])

In [145]:
m2_1 = m2[:,1]
m2_1, m2_1.shape # одномерный массив

(array([1, 3, 5]), (3,))

In [146]:
m2_1.T # транспонирование одномерного массива не приводит к созданию вектора столбца!

array([1, 3, 5])

In [147]:
m2_1l = m2_1[np.newaxis, :] # создаем "матрицу-строку"
print(m2_1l, m2_1l.shape, '\n')
print(m2_1l.T, m2_1l.T.shape) # транспонирование работает!

[[1 3 5]] (1, 3) 

[[1]
 [3]
 [5]] (3, 1)


In [148]:
m2_1[:, np.newaxis] # делаем "матрицу-столбец" напрямую

array([[1],
       [3],
       [5]])

In [149]:
m1

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

In [150]:
m2.T

array([[0, 2, 4],
       [1, 3, 5]])

In [151]:
m2.T @ m1

array([[30, 36, 42],
       [39, 48, 57]])

In [152]:
np.arange(10, 40, 10).T

array([10, 20, 30])

In [153]:
np.linalg.det(m1) # определитель

0.0

In [154]:
m3 = np.array([[3, 7, 4], [11, 2, 9], [4, 11, 2]])
m3

array([[ 3,  7,  4],
       [11,  2,  9],
       [ 4, 11,  2]])

In [155]:
np.linalg.det(m3) 

265.00000000000017

In [156]:
m3i = np.linalg.inv(m3) # получение обратной матрицы
m3i

array([[-0.35849057,  0.11320755,  0.20754717],
       [ 0.05283019, -0.03773585,  0.06415094],
       [ 0.42641509, -0.01886792, -0.26792453]])

In [157]:
m3i @ m3

array([[ 1.00000000e+00, -5.27355937e-16, -5.55111512e-17],
       [ 5.55111512e-17,  1.00000000e+00,  0.00000000e+00],
       [ 2.22044605e-16,  2.22044605e-16,  1.00000000e+00]])

## Маскирование и прихотливое индексирование

<em class="df"> __Прихотливым индексированием__ (fancy indexing)</em> называется использование массива или списка в качестве индекса.

In [158]:
e = np.array([[ 0,  1,  2,  3,  4],
       [10, 11, 12, 13, 14],
       [20, 21, 22, 23, 24],
       [30, 31, 32, 33, 34],
       [40, 41, 42, 43, 44]])
e

array([[ 0,  1,  2,  3,  4],
       [10, 11, 12, 13, 14],
       [20, 21, 22, 23, 24],
       [30, 31, 32, 33, 34],
       [40, 41, 42, 43, 44]])

In [161]:
e[1]

array([10, 11, 12, 13, 14])

In [162]:
row_indices = [3, 2, 1]
e[row_indices]

array([[30, 31, 32, 33, 34],
       [20, 21, 22, 23, 24],
       [10, 11, 12, 13, 14]])

In [163]:
col_indices = [1, 2, -1]
e[row_indices, col_indices]

array([31, 22, 14])

In [164]:
ind = np.arange(4)
e[ind, ind + 1]

array([ 1, 12, 23, 34])

Для индексирования мы можем использовать __маски__ (маскирование): если массив NumPy содержит элементы типа `bool`, то элемент выбирается в зависимости от булевского значения.

In [165]:
f = np.arange(5)
fb = np.array([True, False, True, False, False])
f, fb

(array([0, 1, 2, 3, 4]), array([ True, False,  True, False, False]))

In [166]:
f[fb]

array([0, 2])

In [167]:
f % 2

array([0, 1, 0, 1, 0], dtype=int32)

In [168]:
f % 2 == 0

array([ True, False,  True, False,  True])

In [169]:
f[f % 2 == 0]

array([0, 2, 4])

In [170]:
f[f % 2 == 0].sum() # сумма всех четных чисел в массиве

6

### Дополнительные операции с массивами

In [171]:
b

array([[100,   1,   2,   3,   4],
       [  5,   6,   7,   8,   9],
       [ 10,  11,  12,  13,  14]])

In [172]:
b.flatten() # операция создает копию массива!

array([100,   1,   2,   3,   4,   5,   6,   7,   8,   9,  10,  11,  12,
        13,  14])

Используя функции repeat, tile, vstack, hstack, concatenate, можно создать больший массив из массивов меньших размеров.

In [173]:
a5 = np.array([[1, 2], [3, 4]])
a5

array([[1, 2],
       [3, 4]])

In [174]:
np.repeat(a5, 3)

array([1, 1, 1, 2, 2, 2, 3, 3, 3, 4, 4, 4])

In [175]:
np.tile(a5, (3, 2))

array([[1, 2, 1, 2],
       [3, 4, 3, 4],
       [1, 2, 1, 2],
       [3, 4, 3, 4],
       [1, 2, 1, 2],
       [3, 4, 3, 4]])

In [176]:
b5 = np.array([[5, 6]])
b5

array([[5, 6]])

In [177]:
np.concatenate((a5, b5), axis=0)

array([[1, 2],
       [3, 4],
       [5, 6]])

In [178]:
np.concatenate((a5, b5.T), axis=1)

array([[1, 2, 5],
       [3, 4, 6]])

In [179]:
np.vstack((a5, b5, b5))

array([[1, 2],
       [3, 4],
       [5, 6],
       [5, 6]])

In [180]:
np.hstack((a5, b5.T))

array([[1, 2, 5],
       [3, 4, 6]])