# Семинар: знакомство с NumPy
[(**Num**eric **Py**thon)](http://www.numpy.org/)


## Немного про Jupyter notebook

Полная документация: https://devpractice.ru/python-lesson-6-work-in-jupyter-notebook/

---
В Jupyter Notebook есть два режима работы: режим _команд_ и режим _редактирования_

_Командный_ режим нужен для того, чтобы взаимодействовать и управлять ячейками (добавлять, удалять, запускать, копировать, ...)

В режиме _редактирования_ вы меняете содержимое ячейки. 

Ячейки бывают двух основных типов, _код_ и _разметка_

### Полезные команды

(находясь в командном режиме)

- `a` - добавить пустую ячейку сверху

- `b` - добавить пустую ячейку снизу
- `c` - скопировать текущую ячейку
- `v` - вставить скопированную ячейку
- `d` - удалить текущую ячейку
- `x` - вырезать (удалить и скопировать) текущую ячейку
- `m` - изменить тип выбранной ячейки на "разметка" 
- `y` - изменить тип выбранной ячейки на "код" 
- `z` - отменить последнее действие


- `Enter` - начать редактировать выбранную ячейку

(будучи в режим редактирования ячейки)
- `esc` - вернуться в командный режим

(будучи в любом режиме)

- `Ctrl + Enter` - запустить выбранную ячейку
- `Shift + Enter` - запустить выбранную ячейку и выбрать следующую

In [136]:
2 + 2

4

## NumPy

- документация: http://www.numpy.org/

Библиотека numpy является удобным инструментом для работы с многомерными массивами с возможностью векторизации вычислений. 

Установка `numpy` (если нет):  
`!pip install numpy`

Рассмотрим базовые вещи, которые можно делать с помощью нее.

## <a id="Особенности Numpy"><span style="color:green">Особенности</span></a>

**NumPy** - это open-source модуль для Python, который предоставляет общие математические и числовые операции в виде пре-скомпилированных, быстрых функций (использует типы из C, которые существенно быстрее чем Python типы). Они обеспечивают функционал, который можно сравнить с функционалом MatLab.  

Возможности:
   - поддержка многомерных массивов (включая матрицы);
   - поддержка высокоуровневых математических функций, предназначенных для работы с многомерными массивами.  

**Типы данных в NumPy**

В `Python` к числовым типам относятся:
   - int
   - float
   - bool
   - complex   
   
В `numpy` имеются эти типы, а также обёртки над этими типами, которые **используют реализацию типов на C**, например, `int8`, `int16`, `int32`, `int64` (подробнее о типах данных `numpy` можно прочитать [здесь](https://www.numpy.org/devdocs/user/basics.types.html)). За счёт того, что используются типы данных из C, numpy получает ускорение операций.

In [143]:
import numpy as np

## <a id="Массивы ndarray и операции с ними"><span style="color:green">Массивы ndarray и операции с ними</span></a>

Основным объектом `NumPy` является *однородный* многомерный массив, в numpy он реализован через объект `ndarray`. Массивы (`ndarray`) похожи на списки (`list`), но могут хранить только элементы одного типа. Производить вычисления с массивами гораздо быстрее и эффективнее чем со списками.

Наиболее важные атрибуты объектов ndarray:
1. **`ndarray.ndim`** - число измерений (чаще их называют "оси") массива.
  
2. **`ndarray.shape`** - размеры массива, его форма. Это кортеж натуральных чисел, показывающий длину массива по каждой оси. Для матрицы из n строк и m столбов, shape будет (n,m). Число элементов кортежа shape равно ndim.
3. **`ndarray.size`** - количество элементов массива. Очевидно, равно произведению всех элементов атрибута shape.
4. **`ndarray.dtype`** - объект, описывающий тип элементов массива. Можно определить dtype, используя стандартные типы данных Python. Можно хранить и numpy типы, например: bool, int16, int32, int64, float16, float32, float64, complex64
5. **`ndarray.itemsize`** - размер каждого элемента массива в байтах.
6. **`ndarray.data`** - буфер, содержащий фактические элементы массива. Обычно не нужно использовать этот атрибут, так как обращаться к элементам массива проще всего с помощью индексов.

Cоздание одномерного массива (с помощью списка)

In [148]:
# создание массива из списка
a = np.array([1, 2, 3, 1, 0])


In [149]:
a.dtype

dtype('int32')

In [150]:
type(a)

numpy.ndarray

In [151]:
a

array([1, 2, 3, 1, 0])

In [152]:
#Справка
np.array?

[1;31mDocstring:[0m
array(object, dtype=None, *, copy=True, order='K', subok=False, ndmin=0,
      like=None)

Create an array.

Parameters
----------
object : array_like
    An array, any object exposing the array interface, an object whose
    ``__array__`` method returns an array, or any (nested) sequence.
    If object is a scalar, a 0-dimensional array containing object is
    returned.
dtype : data-type, optional
    The desired data-type for the array. If not given, NumPy will try to use
    a default ``dtype`` that can represent the values (by applying promotion
    rules when necessary.)
copy : bool, optional
    If true (default), then the object is copied.  Otherwise, a copy will
    only be made if ``__array__`` returns a copy, if obj is a nested
    sequence, or if a copy is needed to satisfy any of the other
    requirements (``dtype``, ``order``, etc.).
order : {'K', 'A', 'C', 'F'}, optional
    Specify the memory layout of the array. If object is not an array, the
   

In [153]:
#Также используйте сочетаия клавиш `Shift + Tab` для получения короткой справки 
#(Работает только в Jupyter Notebook)
np.array

<function numpy.array>

In [154]:
print(a)
print("a.ndim =", a.ndim)
print("a.shape = ", a.shape)
print("a.size =", a.size)
print("a.dtype =", a.dtype)
print("Размер каждого элемента массива в байтах a.itemsize =", a.itemsize)
print("Обращение к элементу a[0] =", a[0])

[1 2 3 1 0]
a.ndim = 1
a.shape =  (5,)
a.size = 5
a.dtype = int32
Размер каждого элемента массива в байтах a.itemsize = 4
Обращение к элементу a[0] = 1


Cоздание двумерного массива (с помощью списка)

In [156]:
b = np.array([[1, 8, 3], 
              [3, 2, 3], 
              [3, 5, 6]])

In [157]:
print(b)
print("a.ndim =", b.ndim)
print("a.shape = ", b.shape)
print("a.size =", b.size)
print("a.dtype =", b.dtype)
print("Размер каждого элемента массива в байтах a.itemsize =", b.itemsize)
print("Нулевая строка b[0] =", b[0])
print("Обращение к элементу b[строка][столбец]: b[0][1] =", b[0][1])
print("Обращение к элементу b[строка, столбец]: b[0, 1] =", b[0, 1])

[[1 8 3]
 [3 2 3]
 [3 5 6]]
a.ndim = 2
a.shape =  (3, 3)
a.size = 9
a.dtype = int32
Размер каждого элемента массива в байтах a.itemsize = 4
Нулевая строка b[0] = [1 8 3]
Обращение к элементу b[строка][столбец]: b[0][1] = 8
Обращение к элементу b[строка, столбец]: b[0, 1] = 8


Индексация n-мерных массивов такая же как и для n-мерных списоков.

## <a id="Cпособы создания массива"><span style="color:green">Cпособы создания массива</span></a>

- Создание массива из списка

In [161]:
m = np.array([[1, 2], [3, 4], [5, 6]])
print(m)

[[1 2]
 [3 4]
 [5 6]]


- Создание единичной матрицы

In [163]:
m = np.eye(3) #квадратная
print(m)

[[1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]]


In [164]:
np.eye?

[1;31mSignature:[0m [0mnp[0m[1;33m.[0m[0meye[0m[1;33m([0m[0mN[0m[1;33m,[0m [0mM[0m[1;33m=[0m[1;32mNone[0m[1;33m,[0m [0mk[0m[1;33m=[0m[1;36m0[0m[1;33m,[0m [0mdtype[0m[1;33m=[0m[1;33m<[0m[1;32mclass[0m [1;34m'float'[0m[1;33m>[0m[1;33m,[0m [0morder[0m[1;33m=[0m[1;34m'C'[0m[1;33m,[0m [1;33m*[0m[1;33m,[0m [0mlike[0m[1;33m=[0m[1;32mNone[0m[1;33m)[0m[1;33m[0m[1;33m[0m[0m
[1;31mDocstring:[0m
Return a 2-D array with ones on the diagonal and zeros elsewhere.

Parameters
----------
N : int
  Number of rows in the output.
M : int, optional
  Number of columns in the output. If None, defaults to `N`.
k : int, optional
  Index of the diagonal: 0 (the default) refers to the main diagonal,
  a positive value refers to an upper diagonal, and a negative value
  to a lower diagonal.
dtype : data-type, optional
  Data-type of the returned array.
order : {'C', 'F'}, optional
    Whether the output should be stored in row-major (C-style)

In [165]:
m = np.eye(3,4)  #прямоугольная
print(m)

[[1. 0. 0. 0.]
 [0. 1. 0. 0.]
 [0. 0. 1. 0.]]


In [166]:
np.identity(4) #кваратная

array([[1., 0., 0., 0.],
       [0., 1., 0., 0.],
       [0., 0., 1., 0.],
       [0., 0., 0., 1.]])

- Создание матрицы из единиц

In [168]:
m = np.ones((2, 3)) #матрица
print(m)

[[1. 1. 1.]
 [1. 1. 1.]]


In [169]:
m = np.ones(3) #вектор
print(m)

[1. 1. 1.]


In [170]:
np.ones?

[1;31mSignature:[0m [0mnp[0m[1;33m.[0m[0mones[0m[1;33m([0m[0mshape[0m[1;33m,[0m [0mdtype[0m[1;33m=[0m[1;32mNone[0m[1;33m,[0m [0morder[0m[1;33m=[0m[1;34m'C'[0m[1;33m,[0m [1;33m*[0m[1;33m,[0m [0mlike[0m[1;33m=[0m[1;32mNone[0m[1;33m)[0m[1;33m[0m[1;33m[0m[0m
[1;31mDocstring:[0m
Return a new array of given shape and type, filled with ones.

Parameters
----------
shape : int or sequence of ints
    Shape of the new array, e.g., ``(2, 3)`` or ``2``.
dtype : data-type, optional
    The desired data-type for the array, e.g., `numpy.int8`.  Default is
    `numpy.float64`.
order : {'C', 'F'}, optional, default: C
    Whether to store multi-dimensional data in row-major
    (C-style) or column-major (Fortran-style) order in
    memory.
like : array_like, optional
    Reference object to allow the creation of arrays which are not
    NumPy arrays. If an array-like passed in as ``like`` supports
    the ``__array_function__`` protocol, the result will

- Создание матрицы из нулей

In [172]:
m = np.zeros((4, 1)) # создание матрицы из нулей
print(m)
print(m.shape)
print(m.ndim)

[[0.]
 [0.]
 [0.]
 [0.]]
(4, 1)
2


In [173]:
v = np.zeros(4) # создание вектора из нулей
print(v)

[0. 0. 0. 0.]


 - Создание массива из диапазона значений [start, end)

In [175]:
m = np.arange(0, 5, 0.2) # np.arange(start, stop, step)
print(m)


[0.  0.2 0.4 0.6 0.8 1.  1.2 1.4 1.6 1.8 2.  2.2 2.4 2.6 2.8 3.  3.2 3.4
 3.6 3.8 4.  4.2 4.4 4.6 4.8]


In [176]:
m = np.arange(5)
print(m)

[0 1 2 3 4]


- Создание массива из диапазона значений [start, stop] с заданием кол-ва точек

In [178]:
m = np.linspace(0, 3, 4)
print(m)

[0. 1. 2. 3.]


- Создание массива из случайных чисел

In [180]:
np.random.seed(42)
np.random.rand(2, 3) #unoform distrib.


array([[0.37454012, 0.95071431, 0.73199394],
       [0.59865848, 0.15601864, 0.15599452]])

In [181]:
# массив чисел из равномерного (uniform) распределения в диапазоне [0, 1)
# np.random.rand(d0, d1, d2, ...) d0, d1,... - pазмеры возвращаемого массива
np.random.rand(2, 3).shape

(2, 3)

In [182]:
np.random.rand?

[1;31mDocstring:[0m
rand(d0, d1, ..., dn)

Random values in a given shape.

.. note::
    This is a convenience function for users porting code from Matlab,
    and wraps `random_sample`. That function takes a
    tuple to specify the size of the output, which is consistent with
    other NumPy functions like `numpy.zeros` and `numpy.ones`.

Create an array of the given shape and populate it with
random samples from a uniform distribution
over ``[0, 1)``.

Parameters
----------
d0, d1, ..., dn : int, optional
    The dimensions of the returned array, must be non-negative.
    If no argument is given a single Python float is returned.

Returns
-------
out : ndarray, shape ``(d0, d1, ..., dn)``
    Random values.

See Also
--------
random

Examples
--------
>>> np.random.rand(3,2)
array([[ 0.14022471,  0.96360618],  #random
       [ 0.37601032,  0.25528411],  #random
       [ 0.49313049,  0.94909878]]) #random
[1;31mType:[0m      builtin_function_or_method

In [183]:
# массив чисел из стандартного нормального (norm) распределения
np.random.randn(2, 3)

array([[-0.46947439,  0.54256004, -0.46341769],
       [-0.46572975,  0.24196227, -1.91328024]])

In [184]:
np.random.randn?

[1;31mDocstring:[0m
randn(d0, d1, ..., dn)

Return a sample (or samples) from the "standard normal" distribution.

.. note::
    This is a convenience function for users porting code from Matlab,
    and wraps `standard_normal`. That function takes a
    tuple to specify the size of the output, which is consistent with
    other NumPy functions like `numpy.zeros` and `numpy.ones`.

.. note::
    New code should use the
    `~numpy.random.Generator.standard_normal`
    method of a `~numpy.random.Generator` instance instead;
    please see the :ref:`random-quick-start`.

If positive int_like arguments are provided, `randn` generates an array
of shape ``(d0, d1, ..., dn)``, filled
with random floats sampled from a univariate "normal" (Gaussian)
distribution of mean 0 and variance 1. A single float randomly sampled
from the distribution is returned if no argument is provided.

Parameters
----------
d0, d1, ..., dn : int, optional
    The dimensions of the returned array, must be non-nega

In [185]:
#нормальное распределение (в общем виде с заданными средним и станд откл.)
np.random.normal(2, 1, size=3) #normal(loc=0.0, scale=1.0, size=None)

array([0.27508217, 1.43771247, 0.98716888])

In [186]:
np.random.normal?

[1;31mDocstring:[0m
normal(loc=0.0, scale=1.0, size=None)

Draw random samples from a normal (Gaussian) distribution.

The probability density function of the normal distribution, first
derived by De Moivre and 200 years later by both Gauss and Laplace
independently [2]_, is often called the bell curve because of
its characteristic shape (see the example below).

The normal distributions occurs often in nature.  For example, it
describes the commonly occurring distribution of samples influenced
by a large number of tiny, random disturbances, each with its own
unique distribution [2]_.

.. note::
    New code should use the `~numpy.random.Generator.normal`
    method of a `~numpy.random.Generator` instance instead;
    please see the :ref:`random-quick-start`.

Parameters
----------
loc : float or array_like of floats
    Mean ("centre") of the distribution.
scale : float or array_like of floats
    Standard deviation (spread or "width") of the distribution. Must be
    non-negative.


In [187]:
#равномерное распределение (в общем виде на заданном интервале)
np.random.randint(5, 10, size=3) #randint(low, high=None, size=None, dtype=int)

array([8, 8, 7])

In [188]:
np.random.randint?

[1;31mDocstring:[0m
randint(low, high=None, size=None, dtype=int)

Return random integers from `low` (inclusive) to `high` (exclusive).

Return random integers from the "discrete uniform" distribution of
the specified dtype in the "half-open" interval [`low`, `high`). If
`high` is None (the default), then results are from [0, `low`).

.. note::
    New code should use the `~numpy.random.Generator.integers`
    method of a `~numpy.random.Generator` instance instead;
    please see the :ref:`random-quick-start`.

Parameters
----------
low : int or array-like of ints
    Lowest (signed) integers to be drawn from the distribution (unless
    ``high=None``, in which case this parameter is one above the
    *highest* such integer).
high : int or array-like of ints, optional
    If provided, one above the largest (signed) integer to be drawn
    from the distribution (see above for behavior if ``high=None``).
    If array-like, must contain integer values
size : int or tuple of ints, option

---
*Дополнительно*

In [190]:
# массив случайно выбранных чисел
# size - размер возвращаемого массива, replace=True с повторениями
np.random.choice(a=np.arange(5), size=10, replace=True)

array([3, 3, 0, 2, 4, 2, 4, 0, 1, 3])

In [191]:
np.random.choice(a=np.linspace(1, 50, 50) + 100, size=10, replace=False)

array([144., 141., 103., 119., 130., 139., 121., 143., 111., 101.])

---

## <a id="Индексация"> <span style="color:green">Индексация</span></a>

In [194]:
m = np.array([[1, 8, 3, 2, 3], 
              [3, 2, 1, 4, 1], 
              [3, 5, 6, 2, 3],
              [2, 0, 1, 2, 1]])
print(m)

[[1 8 3 2 3]
 [3 2 1 4 1]
 [3 5 6 2 3]
 [2 0 1 2 1]]


In [195]:
m[2]   # третья строка

array([3, 5, 6, 2, 3])

In [196]:
m[2, :]    # третья строка

array([3, 5, 6, 2, 3])

In [197]:
m[:, 1]     # второй столбец

array([8, 2, 5, 0])

In [198]:
m[::2, 1:4:2]

array([[8, 2],
       [5, 2]])

---

*Дополнительно:* выделение "подматрицы"

In [201]:
m[[0, 2], [2]] #"углы"

array([3, 6])

In [202]:
m[[0, 2], [0, 1]] #"углы"

array([1, 5])

In [203]:
m[np.array([1,2])] #1 и 2 строки

array([[3, 2, 1, 4, 1],
       [3, 5, 6, 2, 3]])

In [204]:
m[np.ix_([0, 2], [0, 1, 1])] #выделение подматрицы !!!

array([[1, 8, 8],
       [3, 5, 5]])

---

## <a id="Операции с матрицами и векторами"><span style="color:green">Операции с матрицами и векторами</span></a>

В NumPy двумерный массив можно рассматривать и как матрицу, то есть для него определены все матричные операции. Одномерный массив также можно рассматривать как вектор.

**Арифметические операции**

Операции numpy обычно выполняются поэлементно

In [210]:
vec = np.array([[1, 2], [3, 4], [5, 6]])
vec

array([[1, 2],
       [3, 4],
       [5, 6]])

In [211]:
vec + 1

array([[2, 3],
       [4, 5],
       [6, 7]])

In [212]:
vec * 2

array([[ 2,  4],
       [ 6,  8],
       [10, 12]])

In [213]:
vec**2

array([[ 1,  4],
       [ 9, 16],
       [25, 36]])

In [214]:
vec + vec**2

array([[ 2,  6],
       [12, 20],
       [30, 42]])

In [215]:
vec * vec**2

array([[  1,   8],
       [ 27,  64],
       [125, 216]])

**Транспонирование**

In [217]:
m = np.array([[1, 12, 3, 4], 
              [3, 2, 10, 2], 
              [3, 56, 6, 11]])
print(m)
print()
print(m.T) #вариант 1

[[ 1 12  3  4]
 [ 3  2 10  2]
 [ 3 56  6 11]]

[[ 1  3  3]
 [12  2 56]
 [ 3 10  6]
 [ 4  2 11]]


In [218]:
m.transpose() #вариант 2

array([[ 1,  3,  3],
       [12,  2, 56],
       [ 3, 10,  6],
       [ 4,  2, 11]])

**Скалярное произведение векторов**

Рассмотрим два вектора $a$ и $b$ в n-мерном пространстве  
$a = (a_1, a_2, a_3, \dots a_n)$   
$b = (b_1, b_2, b_3, \dots b_n)$   
Скалярное произведение векторов $a$ и $b$ определяется следующим образом:  
$$\langle a, b \rangle = a_1 b_1 + a_2 b_2 + a_3 b_3 \dots + a_n b_n = \sum_{i = 1}^{n} a_i b_i$$

In [221]:
a = np.array([3, 1, 5, 2])
b = np.array([2, 5, 2, 4])
# <a, b> = 3*2 + 1*5 + 5*2 + 2*4
print(a @ b)    # python 3 style - вариант 1
print(a.dot(b))  #вариант 2
print(np.dot(a, b))  #вариант 3

29
29
29


Также доступно *ПОКООРДИНАТНОЕ* умножение, не путать с матричным!

In [223]:
print(a * b)

[ 6  5 10  8]


**Умножение матриц и векторов**


  
Операция умножения определена для двух матриц, таких что число столбцов первой равно числу строк второй. 

Пусть матрицы $A$ и $B$ таковы, что $A \in \mathbb{R}^{n \times k}$ и $B \in \mathbb{R}^{k \times m}$.    
Произведением матриц $A$ и $B$ называется матрица $C$, такая что 
$$c_{ij} = \sum_{r=1}^{k} a_{ir}b_{rj},$$     
где  $c_{ij}$ — элемент матрицы $C$, стоящий на пересечении строки с номером $i$ и столбца с номером $j$.

In [226]:
m = np.array([[1, 2], [0, 1], [2, 4]])
print(m)
#v = np.array([2, 5]) #вектор "(1 на 2)"!!!   - вариант 1 (умножение)
v = np.array([[2], [5]]) #матрица (2 на 1) !!! - вариант 2 (умножение)
print(f"v = {v}") #результаты разные

[[1 2]
 [0 1]
 [2 4]]
v = [[2]
 [5]]


In [227]:
print(m.shape)
print(v.shape)

(3, 2)
(2, 1)


In [228]:
m @ v

array([[12],
       [ 5],
       [24]])

In [229]:
(m @ v).shape

(3, 1)

In [230]:
np.dot(m, v)

array([[12],
       [ 5],
       [24]])

#### Broadcasting (Расширение/адаптация размерностей)
Мощный механизм, позволяющий NumPy работать с массивами различной формы при выполнении арифметических операций. Часто у нас есть меньший массив и больший массив, и мы хотим использовать меньший массив несколько раз, чтобы выполнить некоторую операцию над большим массивом

[Наглядный туториал](https://scipy.github.io/old-wiki/pages/EricsBroadcastingDoc)

Также:
https://docs.scipy.org/doc/numpy-1.15.0/user/basics.broadcasting.html

Случай 1

In [233]:
x = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9], [10, 11, 12]])
v = np.array([3, 4, 5]) #вектор-строка

print(x)
print(v)
print(v.shape)

[[ 1  2  3]
 [ 4  5  6]
 [ 7  8  9]
 [10 11 12]]
[3 4 5]
(3,)


In [234]:
x + v #прибавляем v к строкам

array([[ 4,  6,  8],
       [ 7,  9, 11],
       [10, 12, 14],
       [13, 15, 17]])

Случай 2

In [236]:
x

array([[ 1,  2,  3],
       [ 4,  5,  6],
       [ 7,  8,  9],
       [10, 11, 12]])

In [237]:
vv = np.array([[3], [4], [5], [6]]) #матрица
print(vv.shape)
vv

(4, 1)


array([[3],
       [4],
       [5],
       [6]])

In [238]:
x + vv #прибавляем vv к столбцам

array([[ 4,  5,  6],
       [ 8,  9, 10],
       [12, 13, 14],
       [16, 17, 18]])

Случай 3

In [240]:
x

array([[ 1,  2,  3],
       [ 4,  5,  6],
       [ 7,  8,  9],
       [10, 11, 12]])

In [241]:
vvv = np.arange(3, 7)
print(vvv.shape)
vvv

(4,)


array([3, 4, 5, 6])

In [242]:
x + vvv

ValueError: operands could not be broadcast together with shapes (4,3) (4,) 

In [None]:
#меняем форму массива - вариант 1
print(vvv.reshape(4,1))
print(vvv.reshape(4,1).shape)

In [None]:
x + vvv.reshape(4,1)

In [None]:
#меняем форму массива  - вариант 2
vvv.reshape(2, -1)

Бродкастинг двух массивов работает следующим образом:
*   Если массивы не имеют одинаковый ранг (кол-во размерностей), нужно выровнять кол-во размерностей, добавлением дополнительных "единичных" размерностей массиву меньшего ранга
*   Говорят, что два массива *совместимы* в i-ой размерности, если они имеют одинаковый по величине набор значений в этой размерности, или если один из массивов имеет ровно 1 элемент в этом измерении.
*   Массивы **broadcastable**, если они совместимы во всех размерностях.
*   После адаптации каждый массив ведет себя так, как будто он имеет форму, равную поэлементному максимуму форм двух входных массивов.
*   В любом измерении, где один массив имел размер 1, а другой массив имел размер больше 1, первый массив ведет себя так, как если бы он был скопирован "вдоль" этого измерения

## <a id="Полезные функции и методы"><span style="color:green">Полезные функции и методы</span></a>

В numpy реализовано огромное число функций.
Вот некоторые из них:
    
- np.log(x) - натуральный логарифм x
- np.log10(x) - десятичный логарифм x
- np.log2(x)
- np.sqrt(x) - квадратный корень из x
- np.power(x, n) - возведение x в степень n
- np.abs(x) - модуль x
- np.round(x, n) - математическое округление x
- np.floor(x) - округление вниз
- np.ceil(x) - округление вверх
- np.int(x) - округление к нулю
- sin(x) - синус
- cos(x) - косинус
- ... и т. д..    

In [298]:
np.round(4.5), np.floor(4.5), np.ceil(4.5)

(4.0, 4.0, 5.0)

In [300]:
np.cos(np.pi)

-1.0

In [302]:
np.e

2.718281828459045

In [304]:
# справка
np.log?

[1;31mSignature:[0m       [0mnp[0m[1;33m.[0m[0mlog[0m[1;33m([0m[1;33m*[0m[0margs[0m[1;33m,[0m [1;33m**[0m[0mkwargs[0m[1;33m)[0m[1;33m[0m[1;33m[0m[0m
[1;31mType:[0m            ufunc
[1;31mString form:[0m     <ufunc 'log'>
[1;31mFile:[0m            c:\programdata\anaconda3\lib\site-packages\numpy\__init__.py
[1;31mDocstring:[0m      
log(x, /, out=None, *, where=True, casting='same_kind', order='K', dtype=None, subok=True[, signature, extobj])

Natural logarithm, element-wise.

The natural logarithm `log` is the inverse of the exponential function,
so that `log(exp(x)) = x`. The natural logarithm is logarithm in base
`e`.

Parameters
----------
x : array_like
    Input value.
out : ndarray, None, or tuple of ndarray and None, optional
    A location into which the result is stored. If provided, it must have
    a shape that the inputs broadcast to. If not provided or None,
    a freshly-allocated array is returned. A tuple (possible only as a
    keywor

Функции numpy обычно выполняются поэлементно

In [310]:
b = np.array([[1, 2],
              [10, 100]])
b

array([[  1,   2],
       [ 10, 100]])

In [312]:
np.sin(b)

array([[ 0.84147098,  0.90929743],
       [-0.54402111, -0.50636564]])

Кроме математических функций есть также полезные функции для работы с массивами.

In [315]:
a = np.array([103, 142, 141, 147, 145, 130])
b = np.array([138, 103, 110, 124, 114, 131])
print(a)
print(b)

[103 142 141 147 145 130]
[138 103 110 124 114 131]


- **Замена элементов по индексу**

In [317]:
np.put(a, ind=[0, 2], v=[-44, -55]) #эл-ты с инд. ind заменяем на эл-ты из v
a

array([-44, 142, -55, 147, 145, 130])

- **Булевы массивы. Выделение элементов по условию**

Логические операции: | -или, & -и, ~ -не

In [320]:
a < 0 

array([ True, False,  True, False, False, False])

In [322]:
~(a < 0) 

array([False,  True, False,  True,  True,  True])

In [324]:
a % 2 == 0

array([ True,  True, False, False, False,  True])

In [326]:
print(a)
print(b)

[-44 142 -55 147 145 130]
[138 103 110 124 114 131]


In [328]:
(a < 0) | (b > 110) 

array([ True, False,  True,  True,  True,  True])

In [330]:
a[~(a < 0)] #неотрицательные эл-ты a - вариант 1

array([142, 147, 145, 130])

Применение ф-ии к булеву массиву

In [332]:
a

array([-44, 142, -55, 147, 145, 130])

In [334]:
a % 2 == 0

array([ True,  True, False, False, False,  True])

In [336]:
np.sum(a % 2 == 0) 

3

Булевы массивы позволяют вытаскивать элементы с True из массива того же размера

In [338]:
a[np.where(~(a < 0))] #неотрицательные эл-ты a - вариант 2

array([142, 147, 145, 130])

In [340]:
a

array([-44, 142, -55, 147, 145, 130])

In [342]:
np.where(a < 0, -42, a) #замена отр. эл-тов на -42

array([-42, 142, -42, 147, 145, 130])

In [344]:
np.where(a < 0) #индексы отр. эл-тов

(array([0, 2], dtype=int64),)

In [346]:
a[np.where(a < 0)]

array([-44, -55])

- **Сортировка**

In [348]:
print(a)

[-44 142 -55 147 145 130]


In [350]:
np.sort(a)

array([-55, -44, 130, 142, 145, 147])

Индексы сортированного массива

In [352]:
np.argsort(a)

array([2, 0, 5, 1, 4, 3], dtype=int64)

In [354]:
# создание массива
m = np.round(np.random.rand(4, 5) * 10, 2)
print(m)

[[1.99 7.11 7.9  6.06 9.26]
 [6.51 9.15 8.5  4.49 0.95]
 [3.71 6.69 6.66 5.91 2.75]
 [5.61 3.83 9.72 8.49 7.22]]


In [356]:
np.sort(m, axis=0) # сортировка по столбцам

array([[1.99, 3.83, 6.66, 4.49, 0.95],
       [3.71, 6.69, 7.9 , 5.91, 2.75],
       [5.61, 7.11, 8.5 , 6.06, 7.22],
       [6.51, 9.15, 9.72, 8.49, 9.26]])

In [358]:
np.sort(m, axis=1) # сортировка по строкам

array([[1.99, 6.06, 7.11, 7.9 , 9.26],
       [0.95, 4.49, 6.51, 8.5 , 9.15],
       [2.75, 3.71, 5.91, 6.66, 6.69],
       [3.83, 5.61, 7.22, 8.49, 9.72]])

У некоторых функций бывает параметр `axis`, который позволяет применить эту функцию по разным осям - в данном случае, по строкам или столбцам:

- **Сумма элементов массива**

In [360]:
vec

array([[1, 2],
       [3, 4],
       [5, 6]])

In [362]:
print(np.sum(vec))  #Способ 1
#print(vec.sum())   #Способ 2
print(np.sum(vec, axis=0)) #Сумма элементов столбцов
print(np.sum(vec, axis=1)) #Сумма элементов строк

21
[ 9 12]
[ 3  7 11]


- **Изменение формы массива**

In [364]:
vec.reshape(2, 3)

array([[1, 2, 3],
       [4, 5, 6]])

In [366]:
vec.reshape(-1, 3)

array([[1, 2, 3],
       [4, 5, 6]])

In [368]:
vec.reshape(2, -1)

array([[1, 2, 3],
       [4, 5, 6]])

- **Объединение массивов**

In [371]:
vec

array([[1, 2],
       [3, 4],
       [5, 6]])

In [373]:
np.hstack((vec, np.zeros(vec.shape))) #горизонтально

array([[1., 2., 0., 0.],
       [3., 4., 0., 0.],
       [5., 6., 0., 0.]])

In [375]:
np.vstack((vec, np.zeros(vec.shape))) #вертикально

array([[1., 2.],
       [3., 4.],
       [5., 6.],
       [0., 0.],
       [0., 0.],
       [0., 0.]])

---


*Дополнительно:*

- **newaxis**

Добавление нового измерения

In [377]:
a = np.linspace(1, 4, 4)
print(a)
print(a.shape)

[1. 2. 3. 4.]
(4,)


In [379]:
print(a[np.newaxis, :]) #вариант 1 
#a[None, :]       #вариант 2
print(a[np.newaxis, :].shape)

print()

print(a[:, np.newaxis])  #вариант 1
#a[:, None]       #вариант 2
print(a[:, np.newaxis].shape)

[[1. 2. 3. 4.]]
(1, 4)

[[1.]
 [2.]
 [3.]
 [4.]]
(4, 1)


*Вытягивание любого массива в вектор (полезно для картинок)*

In [381]:
print(a[np.newaxis, :].reshape(-1)) 
print(a[:, np.newaxis].reshape(-1))

[1. 2. 3. 4.]
[1. 2. 3. 4.]


- **any / all**

`Any` возвращает True, если хотя бы один элемент `True`   
`All` возвращает True, если все элементы `True`

In [383]:
any([True, True, False, True, False, False, False])

True

In [385]:
all([True, True, False, True, False, False, False])

False

Cравнение векторов

In [387]:
np.array([1, 1, 0, 2]) == np.array([1, 1, 0, 2])

array([ True,  True,  True,  True])

In [389]:
all(np.array([1, 1, 0, 2]) == np.array([1, 1, 0, 2]))

True

In [391]:
any(np.array([1, 1, 0, 0]) == np.array([1, 1, 0, 2]))

True

---

## <a id="Вычисление статистик"><span style="color:green">Вычисление статистик</span></a>

In [393]:
a = np.random.randint(-10, 70, (4, 3))
print(a)

[[ 3 16 -2]
 [68  4 31]
 [66 40 52]
 [41 -7 12]]


- среднее

In [396]:
print(a.mean())
print(a.mean(axis=0)) # среднее по столбцам
print(a.mean(axis=1)) # среднее по строкам

27.0
[44.5  13.25 23.25]
[ 5.66666667 34.33333333 52.66666667 15.33333333]


- медиана

In [399]:
print(np.median(a))
print(np.median(a, axis=0))
print(np.median(a, axis=1))

23.5
[53.5 10.  21.5]
[ 3. 31. 52. 12.]


- максимум и минимум

In [402]:
print(a)

[[ 3 16 -2]
 [68  4 31]
 [66 40 52]
 [41 -7 12]]


In [404]:
print(a.max())              # максимальный элемент
print(a.max(axis=0))        # максимумы по столбцам
print(a.argmax(axis=0))     # индексы строк максимумов по столбцам
print(a.max(axis=1))        # максимумы по строкам
print(a.argmax(axis=1))     # индексы столбцов максимумов по строкам

68
[68 40 52]
[1 2 2]
[16 68 66 41]
[1 0 0 0]


- счетчик

In [407]:
np.arange(5)

array([0, 1, 2, 3, 4])

In [409]:
np.bincount(np.arange(5))

array([1, 1, 1, 1, 1], dtype=int64)

In [411]:
np.bincount(np.array([0, 1, 1, 3, 2, 1, 7]))

array([1, 3, 1, 1, 0, 0, 0, 1], dtype=int64)

Как это получилось? Получили массив соответсвующий диапазону от 0 до max. И посчитали кол-во попаданий в 0, 1, 2, ... max.

**Время работы (Почему вообще используют `numpy`?)**

%%time - время работы всей ячейки  
%time - время работы содержимого одной строчки

1. Сравните:

In [413]:
%%time    
a = list(range(10 ** 8))


CPU times: total: 1.78 s
Wall time: 1.79 s


In [414]:
%time a_numpy = np.arange(10 ** 8)

CPU times: total: 141 ms
Wall time: 223 ms


In [417]:
type(a_numpy)

numpy.ndarray

2. Сравните:

In [420]:
%%time
for idx, elem in enumerate(a):
    a[idx] = elem * 2

CPU times: total: 12.8 s
Wall time: 12.8 s


In [421]:
%%time
b = np.arange(1, 10 ** 8 + 1) 
b *= 2

CPU times: total: 234 ms
Wall time: 207 ms


3. Сравните:

In [424]:
n = 300
A = np.random.rand(n, n)
B = np.random.rand(n, n)

In [426]:
%%time
C = np.zeros((n, n))
for i in range(n):
    for j in range(n):
        for k in range(n):
            C[i, j] += A[i, k] * B[k, j]

CPU times: total: 14.9 s
Wall time: 15 s


In [427]:
%%time
C = A @ B

CPU times: total: 0 ns
Wall time: 54.7 ms


**Вывод:** старайтесь использовать векторизированные вычисления!

## Полезные задачи

<span style="color:blue">Задача (argsort). Отсортируйте все столбцы по столбцу с номером 1:</span>

In [430]:
np.random.seed(42)
a = np.random.randint(0, 10, (5, 3))
print(a)
print()
i = a[:, 1].argsort() #индексы (сортируем по столбцу 1)
print(i)
print()
print(a[i])

[[6 3 7]
 [4 6 9]
 [2 6 7]
 [4 3 7]
 [7 2 5]]

[4 0 3 1 2]

[[7 2 5]
 [6 3 7]
 [4 3 7]
 [4 6 9]
 [2 6 7]]


<span style="color:blue">Задача (bincount). Как найти наиболее частое значение в массиве?</span>

In [432]:
z = np.random.randint(0, 10, 50)
print(z)
print(np.bincount(z))
print(np.bincount(z).argmax())

[4 1 7 5 1 4 0 9 5 8 0 9 2 6 3 8 2 4 2 6 4 8 6 1 3 8 1 9 8 9 4 1 3 6 7 2 0
 3 1 7 3 1 5 5 9 3 5 1 9 1]
[3 9 4 6 5 5 4 3 5 6]
1


## Дополнительные материалы

Для самых любознательных и тех, кто хочет порешать задачи, есть сборник "100 заданий по Numpy": https://www.machinelearningplus.com/python/101-numpy-exercises-python/

Для тех, кому нужно руководство по матричным операциям в Numpy: https://www.programiz.com/python-programming/matrix

Справочник по математическим функциям в numpy: https://numpy.org/doc/stable/reference/routines.math.html

**numpy reference:** https://numpy.org/doc/stable/reference/index.html

**Примечание:** умение numpy догадываться о том, как можно прибавлять число к вектору/число к матрице/вектор к матрице и прочие подобные операции, называется ```broadcasting```. То есть numpy растягивает массивы меньшей размерности до массива большей размерности, чтобы у них стали одинаковые размерности, по особым правилам, которые позволяют довольно интуитивно вычесть строку из матрицы, и эта строка вычтется из каждой строки матрицы. Почитать об этом подробнее можно [здесь](https://numpy.org/doc/stable/user/basics.broadcasting.html) и[здесь](https://machinelearningmastery.com/broadcasting-with-numpy-arrays/) . 

А вот еще и наглядные картинки, которые показывают, как работает broadcasting

![](https://www.tutorialspoint.com/numpy/images/array.jpg)
![](https://jakevdp.github.io/PythonDataScienceHandbook/figures/02.05-broadcasting.png)
![](https://i.stack.imgur.com/JcKv1.png)

### Задания для самостоятельного решения

#### Часть 1 (элементы массивов целые неотрицательные)

1. Развернуть одномерный массив (сделать так, чтобы его элементы шли в обратном порядке).
2. Найти максимальный нечетный элемент в одномерном массиве.
3. Замените все нечетные элементы массива на ваше любимое число.
4. Создайте массив первых n нечетных чисел, записанных в порядке убывания. Например, если `n=5`, то ответом будет `array([9, 7, 5, 3, 1])`. *Функции, которые могут пригодиться при решении: `.arange()`*
5. Вычислите индексы самого близкого и самого дальнего чисел к данному в рассматриваемом массиве чисел. Вычислите также сами эти числа. Например, если на вход поступают массив `array([4, 3, 2, 1, 0])` и число 1.33, то ответом будет `(3, 0)` и `(1, 4)`. _Функции, которые могут пригодиться при решении: `.abs()`, `.argmax()`, `.argmin()`_ 
6. Вычисляющую первообразную заданного полинома (в качестве константы возьмите ваше любимое число). Например, если на вход поступает массив коэффициентов `array([4, 6, 0, 1])`, что соответствует полиному $4x^3 + 6x^2 + 1$, на выходе получается массив коэффициентов `array([1, 2, 0, 1, -2])`, соответствующий полиному $x^4 + 2x^3 + x - 2$. _Функции, которые могут пригодиться при решении: `.append()`_
7. Пользуясь пунктом 6, посчитайте первую производную для заданного полинома в заданной точке.