# Лекция 1: Библиотека Numpy


__Автор: Сергей Вячеславович Макрушин, 2022 г.__

e-mail: s-makrushin@yandex.ru 

При подготовке лекции использованы материалы:
* J.R. Johansson (jrjohansson at gmail.com) IPython notebook доступен на: [http://github.com/jrjohansson/scientific-python-lectures](http://github.com/jrjohansson/scientific-python-lectures).
* Bryan Van de Ven презентация: Intrduction to NumPy 
* Уэс Маккинли Python и анализ данных / Пер. с англ. Слипкин А.А. - М.: ДМК Пресс, 2015

V 0.9 25.08.2022

In [90]:
# загружаем стиль для оформления презентации
from IPython.display import HTML
from urllib.request import urlopen
html = urlopen("file:./lec_v2.css")
HTML(html.read().decode('utf-8'))

## Оглавление  <a class="anchor" id="разделы"></a>

* [Знакомство с NumPy](#intro)
* [Устройство ndarray и базовые операции с ним](#ndarray)
    * [Создание и форма массивов ndarray](#shape)
    * [Устройство массивов ndarray и изменение формы](#reshape)    
    * [Типизация массивов ndarray](#dtype)    
    * [Создание массивов с помощью функций для генерации массивов](#gen)
    * [Сохранение ndarray в файл и загрузка из файла](#file)    
* [Обращение к массивам ndarray](#accessing)
    * [Индексация](#indexing)
    * [Cрезы](#slicing)    
* [Работа с функциями NumPy](#functions)
    * [Универсальные функции](#ufuncts)
    * [Оси и агрегирующие функции](#axis)
* [Линейная алгебра в Numpy](#linalg)    
* [Распространение (broadcasting)](#broadcasting)
* [Продвинуте индексирование и операции с ndarray](#advindex)
    * [Прихотливое индексирование (fancy indexing)](#fancyindx)
    * [Маскирование ndarray](#mask)
    * [Изменение формы и объединение ndarray](#shape)
---

* [к оглавлению](#разделы)

## Знакомство с NumPy <a class="anchor" id="intro"></a>
* [к оглавлению](#разделы)

<center>         
    <img src="./img/L1_python_st.png" alt="Стек технологий Python для обработки данных и научных расчетов" style="width: 700px;"/>
    <b>Стек технологий Python для обработки данных и научных расчетов</b>
</center>

<em class="df"> __NumPy__ (от Numerical Python)</em> - библиотека (пакет) для Python, интегрированная с кодом на C и Fortran, решающая задачи математических расчетов и манипулирования массивами данных (в первую очередь - числовыми). 

<em class="cb">NumPy - это краеугольный камень технологического стека Python для научных расчетов и обработки данных.</em> NumPy - открытая библиотека, поставляемая с базовым дистрибутивом Python.

NumPy используется практически во всех вычислительных приложениях, использующих Python. Сочетание реализации векторных функций на C и Fortran и оперирования данных на Python позволяет __совместить высокую производительность и гибкость и удобство использования библиотеки__. В этом смысле NumPy является ярким примером использования <em class="cb">концепции "Python as a glue language"</em>. 

В основе NumPy - тип массива __ndarray__: 
* быстрый, потребляющий мало памяти, многомерный массив;
* для массива доступен широкий набор высокоэффективных математических и других операций для манипулирования информацией (в первую очередь - числовой).

NumPy включает ряд высокоуровневых пакетов ориентированных на определенные задачи работы с данными:
* numpy.linalg - Linear algebra
* numpy.fft - Discrete Fourier Transform
* numpy.matlib - Matrix library
* numpy.random - Random sampling

In [94]:
# общепринятый способ импорта библиотеки NumPy:
import numpy as np

---

# Устройство ndarray и базовые операции с ним  <a class="anchor" id="ndarray"></a>
* [к оглавлению](#разделы)

## Создание и форма массивов ndarray <a class="anchor" id="shape"></a>
* [к оглавлению](#разделы)

Создать массив numpy можно тремя способами:
* из списков или кортежей Python
* с помощью функций, которые предназначены для генерации массивов numpy
* из данных, хранящихся в файле 

<center>         
    <img src="./img/L1_numpy_arr.png" alt="Массив NumPy" style="width: 700px;"/>
    <b>Пример массива ndarray</b>
</center>

In [191]:
# создание ndarray на базе списка Python (не эффективный способ создания ndarray!)
a = np.array([0, 1, 2, 3, 4, 5, 6, 7, 8])
a

array([0, 1, 2, 3, 4, 5, 6, 7, 8])

In [96]:
type(a)

numpy.ndarray

In [97]:
# размер (количество элементов) массива:
a.size 

9

<img src="./img/L1_shape1.png" alt="Массив NumPy" style="width: 550px;"/>  
<b>Пример одномерного массива NumPy. Форма (shape) массива определяется в виде кортежа из одного элемента.</b>

In [8]:
a

array([0, 1, 2, 3, 4, 5, 6, 7, 8])

In [98]:
# форма массива a:
a.shape

(9,)

<center>         
Массивы numpy могут быть многомерными.
    
<img src="./img/L1_shape2.png" alt="Массив NumPy" style="width: 550px;"/>  
<b>Пример двухмерного массива NumPy. Shape в виде кортежа из двух элементов.</b>

<img src="./img/L1_shape3.png" alt="Массив NumPy" style="width: 550px;"/>  
<b>Многомерный массив. Количество измерений не ограничено и соответствует количеству элементов в кортеже shape.</b>

</center>

In [179]:
# построение обычного двухмерного массива ndarray:
b = np.array([[0, 1, 2, 3, 4], [5, 6, 7, 8, 9], [10, 11, 12, 13, 14]])
b

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [100]:
# форма массива b:
b.shape

(3, 5)

In [101]:
# количество измерений a:
a.ndim 

1

In [102]:
len(a.shape)

1

In [103]:
# количество измерений b:
b.ndim 

2

In [104]:
len(b.shape)

2

<em class="cb">В отличие от списков в Python массивы в NumPy строго "прямоугольные".</em> Т.е. количество элементов по каждой из размерностей во всех частях массива должно строго  совпадать.

In [19]:
# Пример "не прямоугольного" вложенного списка:
l_non_rect = [[1, 2, 3], [1, 2], [1, 2, 3, 4]]

In [105]:
# размерность по "внешнему измерению"
len(l_non_rect)

3

In [106]:
# размерность массива по вложенному измерению не совпадает (он "не прямоугольный"):
[len(l) for l in l_non_rect]

[3, 2, 4]

In [107]:
l_non_rect[2][2]

3

In [108]:
# ndarray из l_non_rect создается, но не является двухмерным массивом, как мы того ожидаем:
a_l_non_rect = np.array(l_non_rect)
a_l_non_rect

array([list([1, 2, 3]), list([1, 2]), list([1, 2, 3, 4])], dtype=object)

In [109]:
a_l_non_rect.shape

(3,)

In [110]:
a_l_non_rect.size

3

In [111]:
# построение обычного двухмерного массива ndarray:
b = np.array([[0, 1, 2, 3, 4], [5, 6, 7, 8, 9], [10, 11, 12, 13, 14]])
b

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [112]:
b.size

15

In [113]:
b.shape

(3, 5)

У массивов разной размерности один и тот же тип - ndarray:

In [114]:
# тип объектов ndarray:
type(a), type(b)

(numpy.ndarray, numpy.ndarray)

## Устройство массивов ndarray и изменение формы <a class="anchor" id="reshape"></a>
* [к оглавлению](#разделы)

<center>         
    <img src="./img/L1_array_structure.png" alt="Устройство массива numpy" style="width: 600px;"/>
    <b>Устройство массива numpy</b>
</center>

In [115]:
c = np.array([1, 2, 3, 4, 5, 6, 7, 8])

In [116]:
c.size

8

In [117]:
c.shape

(8,)

In [118]:
# функция reshape создает новое представление массива с другой размерностью и теми же данными:
c2 = c.reshape((2, 4))
c2

array([[1, 2, 3, 4],
       [5, 6, 7, 8]])

In [119]:
c2.size

8

In [120]:
c2.shape

(2, 4)

<em class="cb">Функция reshape не копирует массив, а создает новый заголовок, работающий с теми же данными.</em>

<em class="cb">Идеология NumPy предполагает, что __массив не копируется, кроме случаев, где это явно не определено__.</em> Эта логика продиктована тем, что библиотека предназначена для обработки больших объемов данных. Неявное копирование данных (особенно в случае их большого объема) при выполнении операций приведет к снижению производительности и возникновению проблем с доступной оперативной памятью.

In [121]:
c3 = c.reshape((4, 2))
c3

array([[1, 2],
       [3, 4],
       [5, 6],
       [7, 8]])

In [122]:
c[0] = 10
c

array([10,  2,  3,  4,  5,  6,  7,  8])

In [123]:
c2

array([[10,  2,  3,  4],
       [ 5,  6,  7,  8]])

In [124]:
c3

array([[10,  2],
       [ 3,  4],
       [ 5,  6],
       [ 7,  8]])

Все три массива ndarray используют одну область памяти для хранения значений.

In [125]:
c4cpy = c3.copy() # явно определенное копирование массива
c4cpy

array([[10,  2],
       [ 3,  4],
       [ 5,  6],
       [ 7,  8]])

In [126]:
c4cpy[0, 0] = 100
c4cpy

array([[100,   2],
       [  3,   4],
       [  5,   6],
       [  7,   8]])

In [127]:
c3 # изменения в копии не приводят к изменениям в оригинале

array([[10,  2],
       [ 3,  4],
       [ 5,  6],
       [ 7,  8]])

## Типизация массивов ndarray <a class="anchor" id="dtype"></a>
* [к оглавлению](#разделы)

В отличие от списков Python многомерные массивы ndarray строго типизированы.

In [129]:
a

array([0, 1, 2, 3, 4, 5, 6, 7, 8])

In [130]:
# определение типа элементов массива numpy: 
a.dtype

dtype('int32')

Основные числовые типы dtype:

<table border="1" class="docutils">
<colgroup>
<col width="17%">
<col width="83%">
</colgroup>
<thead valign="bottom">
<tr class="row-odd"><th class="head">Data type</th>
<th class="head">Description</th>
</tr>
</thead>
<tbody valign="top">
<tr class="row-even"><td><code class="docutils literal"><span class="pre">bool_</span></code></td>
<td>Boolean (True or False) stored as a byte</td>
</tr>
<tr class="row-odd"><td><code class="docutils literal"><span class="pre">int_</span></code></td>
<td>Default integer type (same as C <code class="docutils literal"><span class="pre">long</span></code>; normally either
<code class="docutils literal"><span class="pre">int64</span></code> or <code class="docutils literal"><span class="pre">int32</span></code>)</td>
</tr>
<tr class="row-even"><td>intc</td>
<td>Identical to C <code class="docutils literal"><span class="pre">int</span></code> (normally <code class="docutils literal"><span class="pre">int32</span></code> or <code class="docutils literal"><span class="pre">int64</span></code>)</td>
</tr>
<tr class="row-odd"><td>intp</td>
<td>Integer used for indexing (same as C <code class="docutils literal"><span class="pre">ssize_t</span></code>; normally
either <code class="docutils literal"><span class="pre">int32</span></code> or <code class="docutils literal"><span class="pre">int64</span></code>)</td>
</tr>
<tr class="row-even"><td>int8</td>
<td>Byte (-128 to 127)</td>
</tr>
<tr class="row-odd"><td>int16</td>
<td>Integer (-32768 to 32767)</td>
</tr>
<tr class="row-even"><td>int32</td>
<td>Integer (-2147483648 to 2147483647)</td>
</tr>
<tr class="row-odd"><td>int64</td>
<td>Integer (-9223372036854775808 to 9223372036854775807)</td>
</tr>
<tr class="row-even"><td>uint8</td>
<td>Unsigned integer (0 to 255)</td>
</tr>
<tr class="row-odd"><td>uint16</td>
<td>Unsigned integer (0 to 65535)</td>
</tr>
<tr class="row-even"><td>uint32</td>
<td>Unsigned integer (0 to 4294967295)</td>
</tr>
<tr class="row-odd"><td>uint64</td>
<td>Unsigned integer (0 to 18446744073709551615)</td>
</tr>
<tr class="row-even"><td><code class="docutils literal"><span class="pre">float_</span></code></td>
<td>Shorthand for <code class="docutils literal"><span class="pre">float64</span></code>.</td>
</tr>
<tr class="row-odd"><td>float16</td>
<td>Half precision float: sign bit, 5 bits exponent,
10 bits mantissa</td>
</tr>
<tr class="row-even"><td>float32</td>
<td>Single precision float: sign bit, 8 bits exponent,
23 bits mantissa</td>
</tr>
<tr class="row-odd"><td>float64</td>
<td>Double precision float: sign bit, 11 bits exponent,
52 bits mantissa</td>
</tr>
<tr class="row-even"><td><code class="docutils literal"><span class="pre">complex_</span></code></td>
<td>Shorthand for <code class="docutils literal"><span class="pre">complex128</span></code>.</td>
</tr>
<tr class="row-odd"><td>complex64</td>
<td>Complex number, represented by two 32-bit floats (real
and imaginary components)</td>
</tr>
<tr class="row-even"><td>complex128</td>
<td>Complex number, represented by two 64-bit floats (real
and imaginary components)</td>
</tr>
</tbody>
</table>
 
Кроме intc имеются платформо-зависимые числовые типы: short, long, float и их беззнаковые версии. 

Типы dtype доступны с помощью объявления в пространстве имен numpy, например: np.bool_, np.float32 и т.д.

In [131]:
b.dtype

dtype('int32')

In [132]:
# При создании массива можно явно объявить тип его элементов, иначе numpy выполнит автоматическое определение типа:
d1 = np.array([[1, 2], [3, 4]], dtype=np.float)
d1, d1.dtype

(array([[1., 2.],
        [3., 4.]]),
 dtype('float64'))

In [133]:
# автоматическое определение типа выбирает самый простой тип, 
# достаточный для хранения всех представленных при объявлении значений:
d2 = np.array([[1, 2], [3, 4]])
d2, d2.dtype

(array([[1, 2],
        [3, 4]]),
 dtype('int32'))

In [134]:
# даже одно значение более сложного типа потребует хранения всего массива с испольованием этого типа:
d2 = np.array([[1, 2], [3, 4.0]])
d2, d2.dtype

(array([[1., 2.],
        [3., 4.]]),
 dtype('float64'))

In [36]:
d2_dt = d2.dtype

In [135]:
# размер (в байтах) элемента этого типа:
d2_dt.itemsize 

4

In [136]:
# размер (в байтах) элемента массива:
d2.itemsize

8

In [137]:
# размер массива в байтах:
d2.nbytes 

32

In [139]:
d2.size

4

In [138]:
# размер массива в байтах:
d2.itemsize * d2.size

32

In [30]:
d2_dt.type, d2_dt.name

(numpy.int32, 'int32')

__Итог: чем отличаются массивы numpy от списков (и вложенных списков) Python__

Массивы numpy: 
* __статически типизированы__: тип объектов массива определяется во время объявления массива и не может меняться
* __однородны__: все элементы массива имеют одинаковый тип
* __статичны__: размер массива неизменен, массивы должны быть "прямоугольными", но проекции массива по осям могут меняться

За счет этих свойств массивs numpy:
* <em class="pl"></em> __эффективно хранятся в памяти__ (для хранения значений используется непрерывная область памяти с простой индексацией, как это принято в C или Fortran)
* <em class="pl"></em> операции над массивами numpy могут быть реализованы на компилируемых языках (C, Fortran). Это __на порядок повышает скорость выполнения операций__. Для массивов numpy в виде высокоэффективных функций реализованы основные математические операции.
* <em class="mn"></em> __не обладают гибкостью списков Python__ ("не прямоугольные" вложенные списки, разнотипные элементы в списках)
* <em class="mn"></em> прежде всего ориентированы на работу с числовой информацией (т.е. __имеют ограничения по типам используемой информации__)

## Создание массивов с помощью функций для генерации массивов <a class="anchor" id="gen"></a>
* [к оглавлению](#разделы)

In [141]:
list(range(10))

[1, 2, 3, 4, 5, 6, 7, 8, 9]

In [142]:
ar1 = np.arange(10) # аргументы: [start], stop, [step], dtype=None

ar1

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [145]:
# Функция arange, аналог встроенной функции range
ar1 = np.arange(0, 10, 1) # аргументы: [start], stop, [step], dtype=None

ar1

array([100, 102, 104, 106, 108])

In [48]:
ar2 = np.arange(-1, 1, 0.1, dtype=np.float64)
ar2, ar2.dtype

(array([-1.00000000e+00, -9.00000000e-01, -8.00000000e-01, -7.00000000e-01,
        -6.00000000e-01, -5.00000000e-01, -4.00000000e-01, -3.00000000e-01,
        -2.00000000e-01, -1.00000000e-01, -2.22044605e-16,  1.00000000e-01,
         2.00000000e-01,  3.00000000e-01,  4.00000000e-01,  5.00000000e-01,
         6.00000000e-01,  7.00000000e-01,  8.00000000e-01,  9.00000000e-01]),
 dtype('float64'))

In [363]:
# linspace - последовательность значений из заданного интервала с постоянным шагом
# np.linspace(start, stop, num=50, endpoint=True, retstep=False, dtype=None)
np.linspace(0, 10, 25)

array([ 0.        ,  0.41666667,  0.83333333,  1.25      ,  1.66666667,
        2.08333333,  2.5       ,  2.91666667,  3.33333333,  3.75      ,
        4.16666667,  4.58333333,  5.        ,  5.41666667,  5.83333333,
        6.25      ,  6.66666667,  7.08333333,  7.5       ,  7.91666667,
        8.33333333,  8.75      ,  9.16666667,  9.58333333, 10.        ])

In [49]:
# geomspace - геометрическая последовательность значений из заданного интервала 
# np.geomspace(start, stop, num=50, endpoint=True, dtype=None)
np.geomspace(1, 256, num=9)

array([  1.,   2.,   4.,   8.,  16.,  32.,  64., 128., 256.])

In [365]:
# в модуле np.random находятся функции для работы со случайными значениями
# равномерно распределенные случайные числа из диапазона [0,1]:
np.random.rand(5, 5) # аргументы - размерность получаемого массива

array([[0.29184894, 0.8769098 , 0.4093358 , 0.62439337, 0.35760498],
       [0.97726654, 0.59505163, 0.38649252, 0.83020082, 0.45807283],
       [0.99220724, 0.16106952, 0.68238018, 0.82392631, 0.73270889],
       [0.4285355 , 0.78899409, 0.60849969, 0.19200771, 0.78950572],
       [0.89999712, 0.67135811, 0.85580464, 0.99606939, 0.00224674]])

In [146]:
# диагональная матрица с заданными в аргументе значениями на диагонали 
np.diag([1,2,3])

array([[1, 0, 0],
       [0, 2, 0],
       [0, 0, 3]])

In [147]:
# матрица из нулей
np.zeros((3, 3))

array([[0., 0., 0.],
       [0., 0., 0.],
       [0., 0., 0.]])

In [148]:
np.zeros((3, 3), dtype=np.int)

array([[0, 0, 0],
       [0, 0, 0],
       [0, 0, 0]])

Полный список функций для создания массивов ndarray: https://numpy.org/doc/stable/reference/routines.array-creation.html
* From shape or value - по определенной формой, с заданным значением (например: zeros)
* From existing data - на основе существующих данных (например: array, copy)
* Creating record arrays - создание массивов записей
* Creating character arrays - создание строковых массивов (устарело, сохраняется для совместимости)
* Numerical ranges - числовые последовательности (например: arange, linspace)
* Building matrices - создание матриц (например: diag)
* The Matrix class - создание специализированны массивов-матриц

## Сохранение ndarray в файл и загрузка из файла <a class="anchor" id="file"></a>
* [к оглавлению](#разделы)

NumPy предлагает два основных формата для хранения массивов ndarray:
* __npy__ - стандартный формат двоичного файла в NumPy для сохранения одного массива NumPy. Формат npy разработан так, чтобы быть максимально простым при достижении ограниченных целей.
* __npz__ - простой способ объединить несколько массивов в один файл, который использует zip архив (по умолчанию - не сжатый) для хранения нескольких файлов npy. Для этих архивов рекомендуется использовать расширение ".npz".


В NumPy предлагаются различные функции для работы с указанными бинарными форматами файлов:
* `np.save` - сохраняет единичный ndarray в бинарный файл формата npy.
* `np.savez` - сохраняет __несколько ndarray__ в несжатый архив формата npz.
* `np.savez_compressed` - сохраняет несколько ndarray в __сжатый архив формата npz__.
* `np.load` - загружает массивы или объекты, сохраненные с помощью pickle из npy, npz или файлов pickle./

Сохранение и загрузка одного массива в npy:

In [149]:
a

array([0, 1, 2, 3, 4, 5, 6, 7, 8])

In [150]:
np.save('a_ndarr.npy', a)

In [151]:
a_ld = np.load('a_ndarr.npy')
a_ld

array([0, 1, 2, 3, 4, 5, 6, 7, 8])

In [152]:
a == a_ld

array([ True,  True,  True,  True,  True,  True,  True,  True,  True])

Сохранение и загрузка нескольких массивов в npz:

In [153]:
a

array([0, 1, 2, 3, 4, 5, 6, 7, 8])

In [154]:
b

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [155]:
np.savez('ab_ndarr.npz', a=a, b=b)

In [156]:
npzfile = np.load('ab_ndarr.npz')
npzfile.files

['a', 'b']

In [157]:
npzfile['b']

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [158]:
npzfile['a']

array([0, 1, 2, 3, 4, 5, 6, 7, 8])

Сохранение и загрузка нескольких анонимных массивов в npz:

In [160]:
np.savez('xx_ndarr.npz', a, b)
npzfile2 = np.load('xx_ndarr.npz')
npzfile2.files

['arr_0', 'arr_1']

NumPy поддерживат сохранение и загрузку массивов в текстовом формате с помощью функций:
* `savetxt` - поддерживает различные опции форматирования сохраняемого массива (единственного, имеющего размерность 1 или 2). Документация: https://numpy.org/doc/stable/reference/generated/numpy.savetxt.html
* `loadtxt` - поддерживает большое количество вариантов загрузки массива ndarray из текстового файла (в том числе формата CSV). Документация: https://numpy.org/doc/stable/reference/generated/numpy.loadtxt.html

In [78]:
b

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [161]:
np.savetxt('b_s1.txt', b, delimiter=',')

In [162]:
with open("b_s1.txt", "r") as file:
    for line in file:
        print(line)

0.000000000000000000e+00,1.000000000000000000e+00,2.000000000000000000e+00,3.000000000000000000e+00,4.000000000000000000e+00

5.000000000000000000e+00,6.000000000000000000e+00,7.000000000000000000e+00,8.000000000000000000e+00,9.000000000000000000e+00

1.000000000000000000e+01,1.100000000000000000e+01,1.200000000000000000e+01,1.300000000000000000e+01,1.400000000000000000e+01



In [163]:
np.loadtxt('b_s1.txt', delimiter=',')

array([[ 0.,  1.,  2.,  3.,  4.],
       [ 5.,  6.,  7.,  8.,  9.],
       [10., 11., 12., 13., 14.]])

In [164]:
np.loadtxt('b_s1.txt', delimiter=',', dtype=np.int)

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [165]:
np.savetxt('b_s2.txt', b, fmt='%1.4e')

In [166]:
with open("b_s2.txt", "r") as file:
    for line in file:
        print(line)

0.0000e+00 1.0000e+00 2.0000e+00 3.0000e+00 4.0000e+00

5.0000e+00 6.0000e+00 7.0000e+00 8.0000e+00 9.0000e+00

1.0000e+01 1.1000e+01 1.2000e+01 1.3000e+01 1.4000e+01



In [167]:
np.loadtxt('b_s2.txt')

array([[ 0.,  1.,  2.,  3.,  4.],
       [ 5.,  6.,  7.,  8.,  9.],
       [10., 11., 12., 13., 14.]])

Для чтения данных из CSV файлов так же можно использовать функции `numpy.genfromtxt` или использовать `pandas.read_csv`.

---

# Обращение к массивам ndarray <a class="anchor" id="accessing"></a>
* [к оглавлению](#разделы)

## Индексация <a class="anchor" id="indexing"></a>
* [к оглавлению](#разделы)

In [192]:
a

array([0, 1, 2, 3, 4, 5, 6, 7, 8])

In [193]:
a[0]

0

In [194]:
a[1]

1

In [195]:
a[1] = 20
a

array([ 0, 20,  2,  3,  4,  5,  6,  7,  8])

In [196]:
a[-1]

8

In [197]:
a.shape

(9,)

In [198]:
a[8]

8

In [199]:
a[9]

IndexError: index 9 is out of bounds for axis 0 with size 9

In [200]:
a[-8]

20

In [201]:
a[-9]

0

In [202]:
a[-10]

IndexError: index -10 is out of bounds for axis 0 with size 9

In [203]:
b

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [204]:
# индексация элементов многомерного массива numpy производится иначе, нежели для вложенных списков Python:
b[1, 2] # размерность индекса должна совпадать с размерностью массива

7

In [205]:
b.shape

(3, 5)

In [207]:
# если количество переданных индексов меньше размерности массива, 
# то считается, что для последних (по порядку) измерений индекс 
# и будет возвращена соответствующая проекция массива:
b[1] 

array([5, 6, 7, 8, 9])

In [208]:
# на основе этого механизма работает индексация в стиле многомерных списков Python
# она функционирует как последовательная индексация по одному индексу:
b[1][2]

7

In [209]:
b[1, 2]

7

In [210]:
b[1, 2] = 70
b

array([[ 0,  1,  2,  3,  4],
       [ 5,  6, 70,  8,  9],
       [10, 11, 12, 13, 14]])

In [211]:
b[1, 2] = 7
b

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [212]:
i = (2, 3)
b[i] # аргумент индексации - кортеж

13

## Cрезы <a class="anchor" id="slicing"></a>
* [к оглавлению](#разделы)

NumPy поддерживает работу со срезами, анлогичными срезам для списков Python.

In [213]:
b

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [214]:
b.shape

(3, 5)

In [215]:
b[1, :]

array([5, 6, 7, 8, 9])

In [216]:
b[1]

array([5, 6, 7, 8, 9])

In [217]:
# срез без определенных границ позволяет получать проекцию по любым осям:
b[:, 1]

array([ 1,  6, 11])

<center>         
<img src="./img/L1_slicing1.png" alt="Устройство массива numpy" style="width: 600px;"/>
<b>Пример выполнения среза</b>
</center>

In [218]:
b[0:2, :]

array([[0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9]])

In [219]:
b[2, 1:]

array([11, 12, 13, 14])

<center>         
<img src="./img/L1_slicing2_.png" alt="Устройство массива numpy" style="width: 600px;"/>
<b>Пример выполнения среза</b>
</center>

In [220]:
b[:2, 2:4]

array([[2, 3],
       [7, 8]])

<center>         
<img src="./img/L1_slicing3.png" alt="Устройство массива numpy" style="width: 600px;"/>
<b>Пример выполнения среза</b>
</center>

In [221]:
b[:, ::2]

array([[ 0,  2,  4],
       [ 5,  7,  9],
       [10, 12, 14]])

<center>         
<img src="./img/L1_slicing4.png" alt="Устройство массива numpy" style="width: 600px;"/>
<b>Пример выполнения среза</b>
</center>

In [222]:
b_s2 = b[::2, ::3]
b_s2

array([[ 0,  3],
       [10, 13]])

<em class="cb">При получении среза массива создается объект-представление (array view), который работает с данными исходного массива</em> (идеология numpy - избегание копирования данных), определяя для него специальный порядок обхода элементов. 

In [223]:
# определение, содержит ли объект данные или является представлением 
b.flags.owndata, b_s2.flags.owndata

(True, False)

In [224]:
b_s2[0, 0]

0

In [225]:
b[0, 0] = 10

In [226]:
b_s2[0, 0]

10

In [227]:
b_s2[0, 0] = 100

In [228]:
b[0, 0]

100

In [229]:
b

array([[100,   1,   2,   3,   4],
       [  5,   6,   7,   8,   9],
       [ 10,  11,  12,  13,  14]])

Срезам массивов можно присваивать новые значения

In [230]:
b2 = b.copy()
b2

array([[100,   1,   2,   3,   4],
       [  5,   6,   7,   8,   9],
       [ 10,  11,  12,  13,  14]])

In [231]:
b2[::2, ::3]

array([[100,   3],
       [ 10,  13]])

In [232]:
b2[::2, ::3] = [[-1, -2], [-4, -5]] # присвоение срезу многомерной структуры совпадающей размерности
b2

array([[-1,  1,  2, -2,  4],
       [ 5,  6,  7,  8,  9],
       [-4, 11, 12, -5, 14]])

In [233]:
b2[2, 1:]

array([11, 12, -5, 14])

In [234]:
b2[2, 1:] = 110 # присвоение срезу скалярного значения за счет распространения (broadcasting)
b2

array([[ -1,   1,   2,  -2,   4],
       [  5,   6,   7,   8,   9],
       [ -4, 110, 110, 110, 110]])

---

# Работа с функциями NumPy <a class="anchor" id="functions"></a>
* [к оглавлению](#разделы)

## Универсальные функции <a class="anchor" id="ufunc"></a>
* [к оглавлению](#разделы)

<em class="df"> __Универсальные функции__ (ufuncs)</em> - функции, выполняющие поэлементные операции над данными, хранящимися в массиве. Это векторные операции на базе простых функций, работающих с одним или несколькими скалярными значениями и возвращающими скаляр.

Основные универсальные функции:
* операции сравнения: <, <=, ==, \!=, >=, >
* арифметические операции: +, -, *, /, %, reciprocal, square
* экспоненциальные функции: exp, expm1, exp2, log, log10, log1p, log2, power, sqrt
* тригонометрические функции: sin, cos, tan, acsin, arccos, atctan
* гиперболические функции: sinh, cosh, tanh, acsinh, arccosh, atctanh
* побитовые операции: &, |, ~, ^, left_shift, right_shift
* логические операции: and, logical_xor, not, or
* предикаты: isfinite, isinf, isnan, signbit
* другие функции: abs, ceil, floor, mod, modf, round, sinc, sign, trunc

In [235]:
b

array([[100,   1,   2,   3,   4],
       [  5,   6,   7,   8,   9],
       [ 10,  11,  12,  13,  14]])

In [236]:
b < 7

array([[False,  True,  True,  True,  True],
       [ True,  True, False, False, False],
       [False, False, False, False, False]])

In [237]:
(3 < b) & (b < 7)

array([[False, False, False, False,  True],
       [ True,  True, False, False, False],
       [False, False, False, False, False]])

In [238]:
b + 10

array([[110,  11,  12,  13,  14],
       [ 15,  16,  17,  18,  19],
       [ 20,  21,  22,  23,  24]])

In [239]:
b * 10

array([[1000,   10,   20,   30,   40],
       [  50,   60,   70,   80,   90],
       [ 100,  110,  120,  130,  140]])

In [240]:
b + b

array([[200,   2,   4,   6,   8],
       [ 10,  12,  14,  16,  18],
       [ 20,  22,  24,  26,  28]])

In [241]:
b * b # поэлементное умножение! 

array([[10000,     1,     4,     9,    16],
       [   25,    36,    49,    64,    81],
       [  100,   121,   144,   169,   196]])

In [242]:
np.exp(b)

array([[2.68811714e+43, 2.71828183e+00, 7.38905610e+00, 2.00855369e+01,
        5.45981500e+01],
       [1.48413159e+02, 4.03428793e+02, 1.09663316e+03, 2.98095799e+03,
        8.10308393e+03],
       [2.20264658e+04, 5.98741417e+04, 1.62754791e+05, 4.42413392e+05,
        1.20260428e+06]])

<center>         
<img src="./img/L1_ufunc2.png" alt="Выполнение универсальной функции" style="width: 600px;"/>
<b>Выполнение универсальной функции</b>
</center>    

In [243]:
a0 = np.arange(5)
a0

array([0, 1, 2, 3, 4])

In [244]:
b0 = np.arange(0, 50, 10)
b0

array([ 0, 10, 20, 30, 40])

In [245]:
c0 = a0 + b0
c0

array([ 0, 11, 22, 33, 44])

## Оси и агрегирующие функции <a class="anchor" id="axis"></a>
* [к оглавлению](#разделы)

Основные типы векторных функций:
* Агрегирующие функциии:
sum(), mean(), argmin(), argmax(), cumsum(), cumprod()

* Предикаты
a.any(), a.all()

* Манипуляция векторными данными:
argsort(), a.transpose(), trace(), reshape(...), ravel(), fill(...), clip(...)

<center>         
<img src="./img/L1_axis0.png" alt="Обход элементов массива при незаданной оси" style="width: 600px;"/>
    <b>Обход элементов массива при незаданной оси</b>
</center>

In [246]:
ar1 = np.arange(15).reshape(3, 5)
ar1

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [247]:
ar1.shape

(3, 5)

In [248]:
ar1.sum()

105

In [249]:
ar1.sum(axis=None)

105

<center>         
<img src="./img/L1_axis1.png" alt="Обход элементов массива" style="width: 600px;"/>
    <b>Обход элементов массива по axis=0</b>
</center>

In [412]:
ar1.shape

(3, 5)

In [250]:
ar1.sum(axis=0)

array([15, 18, 21, 24, 27])

In [413]:
ar1.sum(axis=0).shape

(5,)

<center>         
<img src="./img/L1_axis2.png" alt="Обход элементов массива" style="width: 600px;"/>
    <b>Обход элементов массива по axis=0</b>
</center>

In [251]:
ar1.sum(axis=1)

array([10, 35, 60])

Основные функции, которым может передаваться ось:
* all([axis, out, keepdims])	Returns True if all elements evaluate to True.
* all([axis, out, keepdims])	Returns True if all elements evaluate to True.
* any([axis, out, keepdims])	Returns True if any of the elements of a evaluate to True.
* argmax([axis, out])	Return indices of the maximum values along the given axis.
* argmin([axis, out])	Return indices of the minimum values along the given axis of a.
* argpartition(kth[, axis, kind, order])	Returns the indices that would partition this array.
* argsort([axis, kind, order])	Returns the indices that would sort this array.
* compress(condition[, axis, out])	Return selected slices of this array along given axis.
* cumprod([axis, dtype, out])	Return the cumulative product of the elements along the given axis.
* cumsum([axis, dtype, out])	Return the cumulative sum of the elements along the given axis.
* diagonal([offset, axis1, axis2])	Return specified diagonals.
* max([axis, out, keepdims])	Return the maximum along a given axis.
* mean([axis, dtype, out, keepdims])	Returns the average of the array elements along given axis.
* min([axis, out, keepdims])	Return the minimum along a given axis.
* partition(kth[, axis, kind, order])	Rearranges the elements in the array in such a way that the value of the element in kth * position is in the position it would be in a sorted array.
* prod([axis, dtype, out, keepdims])	Return the product of the array elements over the given axis
* ptp([axis, out, keepdims])	Peak to peak (maximum - minimum) value along a given axis.
* repeat(repeats[, axis])	Repeat elements of an array.
* sort([axis, kind, order])	Sort an array, in-place.
* squeeze([axis])	Remove single-dimensional entries from the shape of a.
* std([axis, dtype, out, ddof, keepdims])	Returns the standard deviation of the array elements along given axis.
* sum([axis, dtype, out, keepdims])	Return the sum of the array elements over the given axis.
* swapaxes(axis1, axis2)	Return a view of the array with axis1 and axis2 interchanged.
* take(indices[, axis, out, mode])	Return an array formed from the elements of a at the given indices.
* trace([offset, axis1, axis2, dtype, out])	Return the sum along diagonals of the array.
* var([axis, dtype, out, ddof, keepdims])	Returns the variance of the array elements, along given axis.

---

# Линейная алгебра в Numpy <a class="anchor" id="linalg"></a>
* [к оглавлению](#разделы)

Арифметические операции с массивами NumPy выполняются на поэлементной основе.

In [252]:
e = np.array([[ 0,  1,  2,  3,  4],
       [10, 11, 12, 13, 14],
       [20, 21, 22, 23, 24],
       [30, 31, 32, 33, 34],
       [40, 41, 42, 43, 44]])

In [253]:
e * 10

array([[  0,  10,  20,  30,  40],
       [100, 110, 120, 130, 140],
       [200, 210, 220, 230, 240],
       [300, 310, 320, 330, 340],
       [400, 410, 420, 430, 440]])

In [183]:
e * e

array([[   0,    1,    4,    9,   16],
       [ 100,  121,  144,  169,  196],
       [ 400,  441,  484,  529,  576],
       [ 900,  961, 1024, 1089, 1156],
       [1600, 1681, 1764, 1849, 1936]])

In [254]:
e / 2

array([[ 0. ,  0.5,  1. ,  1.5,  2. ],
       [ 5. ,  5.5,  6. ,  6.5,  7. ],
       [10. , 10.5, 11. , 11.5, 12. ],
       [15. , 15.5, 16. , 16.5, 17. ],
       [20. , 20.5, 21. , 21.5, 22. ]])

In [255]:
# матричное умножение:
m1 = np.arange(9).reshape(3, 3)
m2 = np.arange(6).reshape(3, 2)
print(m1)
print(m2)

[[0 1 2]
 [3 4 5]
 [6 7 8]]
[[0 1]
 [2 3]
 [4 5]]


In [256]:
m3 = np.dot(m1, m2)
m3

array([[10, 13],
       [28, 40],
       [46, 67]])

In [257]:
m1.shape, m2.shape, m3.shape

((3, 3), (3, 2), (3, 2))

In [258]:
m1 @ m2 # бинарный оператор, аналогичный dot()

array([[10, 13],
       [28, 40],
       [46, 67]])

In [259]:
m2

array([[0, 1],
       [2, 3],
       [4, 5]])

In [260]:
m2.T # транспонирование

array([[0, 2, 4],
       [1, 3, 5]])

In [261]:
m2_1 = m2[:,1]
m2_1, m2_1.shape # одномерный массив, а не столбец!

(array([1, 3, 5]), (3,))

In [262]:
m2_1.T # транспонирование одномерного массива не приводит к созданию вектора столбца!

array([1, 3, 5])

In [263]:
m2_1l = m2_1[np.newaxis, :] # создаем "матрицу-строку"
print(m2_1l, m2_1l.shape, '\n')
print(m2_1l.T, m2_1l.T.shape) # транспонирование работает!

[[1 3 5]] (1, 3) 

[[1]
 [3]
 [5]] (3, 1)


In [264]:
m2_1[:, np.newaxis] # делаем "матрицу-столбец" напрямую

array([[1],
       [3],
       [5]])

In [265]:
m1

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

In [266]:
m2.T

array([[0, 2, 4],
       [1, 3, 5]])

In [267]:
m2.T @ m1

array([[30, 36, 42],
       [39, 48, 57]])

In [126]:
np.arange(10, 40, 10).T

array([10, 20, 30])

In [268]:
np.linalg.det(m1) # определитель

0.0

In [269]:
m3 = np.array([[3, 7, 4], [11, 2, 9], [4, 11, 2]])
m3

array([[ 3,  7,  4],
       [11,  2,  9],
       [ 4, 11,  2]])

In [130]:
np.linalg.det(m3) 

265.00000000000017

In [270]:
m3i = np.linalg.inv(m3) # получение обратной матрицы
m3i

array([[-0.35849057,  0.11320755,  0.20754717],
       [ 0.05283019, -0.03773585,  0.06415094],
       [ 0.42641509, -0.01886792, -0.26792453]])

In [271]:
m3 @ m3i

array([[ 1.00000000e+00,  2.77555756e-17,  0.00000000e+00],
       [-1.66533454e-16,  1.00000000e+00, -2.22044605e-16],
       [ 0.00000000e+00,  1.38777878e-17,  1.00000000e+00]])

---

# Распространение (broadcasting) <a class="anchor" id="broadcasting"></a>
* [к оглавлению](#разделы)

В качестве аргументов универсальных функций могут быть массивы с различной, но сравнимой формой. В этом случае применяется механизм __распространения (broadcsting)__.

<center>         
    <img src="./img/L1_broadcasting.png" alt="Обход элементов массива" style="width: 600px;"/>
    <b>В примере скаляр распространяется до массива размерности (5,)</b>
</center>

In [272]:
np.arange(5) + 10

array([10, 11, 12, 13, 14])

<center>         
    <img src="./img/L1_broadcasting2_.png" alt="Пример распространения" style="width: 600px;"/>
    <b>Пример распространения для протяженных массивов разной размерности</b>
</center>

In [273]:
a2 = np.arange(6).reshape(3, 2)
a2

array([[0, 1],
       [2, 3],
       [4, 5]])

In [274]:
b2 = np.arange(10, 40, 10).reshape(3,1)
b2, b2.shape

(array([[10],
        [20],
        [30]]),
 (3, 1))

In [275]:
a2 + b2

array([[10, 11],
       [22, 23],
       [34, 35]])

In [103]:
a2.shape

(3, 2)

In [276]:
b3 = np.arange(10, 40, 10)
b3, b3.shape

(array([10, 20, 30]), (3,))

In [277]:
a2 + b3

ValueError: operands could not be broadcast together with shapes (3,2) (3,) 

In [278]:
b4 = np.arange(10, 30, 10)
b4, b4.shape

(array([10, 20]), (2,))

In [279]:
a2 + b4

array([[10, 21],
       [12, 23],
       [14, 25]])

Правила выполнения распространения: 
* соответствующие измерения двух массивов должны либо совпадать
* либо одно из них должно быть равно единице. 

Если в одном из массивов не хватает измерений, то считается, что недостающее количество измерений - это младшие измерения (измерения с наименьшими номерами), которым приписывается размерность 1. 

<center>         
    <img src="./img/L1_broadcasting3.png" alt="Пример работы с размерностями массивов" style="width: 500px;"/>
    <b>Пример работы с размерностями массивов в корректных операциях распространения</b>
</center>

In [284]:
a2, a2.shape

(array([[0, 1],
        [2, 3],
        [4, 5]]),
 (3, 2))

In [285]:
b3, b3.shape

(array([10, 20, 30]), (3,))

In [286]:
# для добавления измерения (оси) размерностью 1 можно использовать np.newaxis :
b3t = b3[:, np.newaxis]
b3t, b3t.shape

(array([[10],
        [20],
        [30]]),
 (3, 1))

In [287]:
a2 + b3

ValueError: operands could not be broadcast together with shapes (3,2) (3,) 

In [288]:
a2 + b3t

array([[10, 11],
       [22, 23],
       [34, 35]])

---
# Продвинуте индексирование и операции с ndarray <a class="advindex" id="mfr"></a>
* [к оглавлению](#разделы)

## Прихотливое индексирование (fancy indexing) <a class="advindex" id="fancyindx"></a>
* [к оглавлению](#разделы)

<em class="df"> __Прихотливым индексированием__ (fancy indexing)</em> называется использование массива или списка в качестве индекса.

In [289]:
e = np.array([[ 0,  1,  2,  3,  4],
       [10, 11, 12, 13, 14],
       [20, 21, 22, 23, 24],
       [30, 31, 32, 33, 34],
       [40, 41, 42, 43, 44]])
e

array([[ 0,  1,  2,  3,  4],
       [10, 11, 12, 13, 14],
       [20, 21, 22, 23, 24],
       [30, 31, 32, 33, 34],
       [40, 41, 42, 43, 44]])

In [290]:
e[1]

array([10, 11, 12, 13, 14])

In [291]:
row_indices = [3, 2, 1]
e[row_indices]

array([[30, 31, 32, 33, 34],
       [20, 21, 22, 23, 24],
       [10, 11, 12, 13, 14]])

In [135]:
col_indices = [1, 2, -1]
e[row_indices, col_indices]

array([31, 22, 14])

In [446]:
ind = np.arange(4)
e[ind, ind + 1]

array([ 1, 12, 23, 34])

## Маскирование ndarray <a class="advindex" id="mask"></a>
* [к оглавлению](#разделы)

Для индексирования мы можем использовать __маски__ (маскирование): если массив NumPy содержит элементы типа `bool`, то элемент выбирается в зависимости от булевского значения.

In [447]:
f = np.arange(5)
fb = np.array([True, False, True, False, False])
f, fb

(array([0, 1, 2, 3, 4]), array([ True, False,  True, False, False]))

In [448]:
f[fb]

array([0, 2])

In [449]:
f % 2

array([0, 1, 0, 1, 0], dtype=int32)

In [314]:
f % 2 == 0

array([ True, False,  True, False,  True])

In [450]:
f[f % 2 == 0]

array([0, 2, 4])

In [451]:
f[f % 2 == 0].sum() # сумма всех четных чисел в массиве

6

## Изменение формы и объединение ndarray <a class="anchor" id="shape"></a>
* [к оглавлению](#разделы)

In [292]:
b

array([[100,   1,   2,   3,   4],
       [  5,   6,   7,   8,   9],
       [ 10,  11,  12,  13,  14]])

In [293]:
b.shape

(3, 5)

In [138]:
b.flatten() # операция создает копию массива!

array([100,   1,   2,   3,   4,   5,   6,   7,   8,   9,  10,  11,  12,
        13,  14])

Используя функции repeat, tile, vstack, hstack, concatenate, можно создать больший массив из массивов меньших размеров.

In [294]:
a5 = np.array([[1, 2], [3, 4]])
a5

array([[1, 2],
       [3, 4]])

In [295]:
np.repeat(a5, 3)

array([1, 1, 1, 2, 2, 2, 3, 3, 3, 4, 4, 4])

In [141]:
np.tile(a5, (3, 2))

array([[1, 2, 1, 2],
       [3, 4, 3, 4],
       [1, 2, 1, 2],
       [3, 4, 3, 4],
       [1, 2, 1, 2],
       [3, 4, 3, 4]])

In [296]:
b5 = np.array([[5, 6]])
b5

array([[5, 6]])

In [158]:
np.concatenate((a5, b5), axis=0)

array([[1, 2],
       [3, 4],
       [5, 6]])

In [143]:
np.concatenate((a5, b5.T), axis=1)

array([[1, 2, 5],
       [3, 4, 6]])

In [144]:
np.vstack((a5, b5, b5))

array([[1, 2],
       [3, 4],
       [5, 6],
       [5, 6]])

In [145]:
np.hstack((a5, b5.T))

array([[1, 2, 5],
       [3, 4, 6]])

---

# Спасибо за внимание!