# NumPy
[(**Num**eric **Py**thon)](http://www.numpy.org/)

## Содержание
 * [Особенности](#Особенности)
 * [Некоторые функции](#Некоторые функции)
 * [Массивы ndarray и операции с ними](#Массивы ndarray и операции с ними)
   - [Cпособы создания массива](#Cпособы создания массива)
   - [Индексация](#Индексация)
   - [Операции с матрицами и векторами](#Операции с матрицами и векторами)
   - [Полезные функций и методы](#Полезные функций и методы)
   - [Вычисление статистик](#Вычисление статистик)

# <a id="Особенности"><span style="color:green">Особенности</span></a>

**NumPy** это open-source модуль для python, который предоставляет общие математические и числовые операции в виде пре-скомпилированных, быстрых функций (использует типы из C, которые существенно быстрее чем Python типы). Они обеспечивают функционал, который можно сравнить с функционалом MatLab.  

Возможности:
   - поддержка многомерных массивов (включая матрицы);
   - поддержка высокоуровневых математических функций, предназначенных для работы с многомерными массивами.  

**Типы данных в NumPy**

В `Python` к числовым типам относятся:
   - int
   - float
   - bool
   - complex   
   
В `numpy` имеются эти типы, а также обёртки над этими типами, которые **используют реализацию типов на C**, например, `int8`, `int16`, `int32`, `int64` (подробнее о типах данных `numpy` можно прочитать [здесь](https://www.numpy.org/devdocs/user/basics.types.html)). За счёт того, что используются типы данных из C, numpy получает ускорение операций.

In [1]:
import numpy as np

In [2]:
type(np.int()), type(np.int32()), type(np.int64())

(int, numpy.int32, numpy.int64)

**Переполнение**

В связи с особенностями типов `numpy` важно помнить о переполнении.   
Например, 64-битный int в С хранит числа от -9223372036854775808 до 9223372036854775807

In [3]:
print(np.int64(1e10)) # все поместилось

10000000000


In [4]:
print(np.int64(10e18)) # не поместилось

OverflowError: Python int too large to convert to C long

# <a id="Некоторые функции"><span style="color:green">Некоторые функции</span></a>

В numpy реализовано огромное число функций.
Вот некоторые из них:

- np.log(x) - натуральный логарифм x
- np.log10(x) - десятичный логарифм x
- np.log2(x)
- np.sqrt(x) - квадратный корень из x
- np.power(x, n) - возведение x в степень n
- np.abs(x) - модуль x
- np.round(x, n) - математическое округление x
- np.floor(x) - округление вниз
- np.ceil(x) - округление вверх
- np.int(x) - округление к нулю
- sin(x) - синус
- cos(x) - косинус
- ... и т. д..

**Примеры**

Все аргументы, описание функций легко найти:

In [5]:
# справка
np.log?

Также используйте сочетаия клавиш `Shift + Tab` для получения короткой справки.

In [6]:
np.log(10, dtype=np.float16)

2.303

In [7]:
np.log(0.)

  """Entry point for launching an IPython kernel.


-inf

In [8]:
print(np.log10(10))
print(np.log10(100))

1.0
2.0


In [9]:
np.round(4.5), np.floor(4.5), np.ceil(4.5), np.int(4.5)

(4.0, 4.0, 5.0, 4)

In [10]:
np.round(-4.5), np.floor(-4.5), np.ceil(-4.5), np.int(-4.5)

(-4.0, -5.0, -4.0, -4)

In [11]:
# переполнение!
np.power(2, 1000), type(np.power(2, 1000))

(0, numpy.int64)

То же самое но с помощью Python-типа int

In [12]:
2 ** 1000, type(2 ** 1000) # питоновское возведение в степень

(10715086071862673209484250490600018105614048117055336074437503883703510511249361224931983788156958581275946729175531468251871452856923140435984577574698574803934567774824230985421074605062371141877954182153046474983581941267398767559165543946077062914571196477686542167660429831652624386837205668069376,
 int)

In [13]:
np.cos(np.pi)

-1.0

In [14]:
np.e

2.718281828459045

# <a id="Массивы ndarray и операции с ними"><span style="color:green">Массивы ndarray и операции с ними</span></a>

Основным объектом `NumPy` является *однородный* многомерный массив, в numpy он реализован через объект `ndarray`. Массивы (`ndarray`) похожи на списки (`list`), но могут хранить только элементы одного типа. Производить вычисления с массивами гораздо быстрее и эффективнее чем со списками.

Наиболее важные атрибуты объектов ndarray:
1. **`ndarray.ndim`** - число измерений (чаще их называют "оси") массива.
  
2. **`ndarray.shape`** - размеры массива, его форма. Это кортеж натуральных чисел, показывающий длину массива по каждой оси. Для матрицы из n строк и m столбов, shape будет (n,m). Число элементов кортежа shape равно ndim.
3. **`ndarray.size`** - количество элементов массива. Очевидно, равно произведению всех элементов атрибута shape.
4. **`ndarray.dtype`** - объект, описывающий тип элементов массива. Можно определить dtype, используя стандартные типы данных Python. Можно хранить и numpy типы, например: bool, int16, int32, int64, float16, float32, float64, complex64
5. **`ndarray.itemsize`** - размер каждого элемента массива в байтах.
6. **`ndarray.data`** - буфер, содержащий фактические элементы массива. Обычно не нужно использовать этот атрибут, так как обращаться к элементам массива проще всего с помощью индексов.

Одномерный массив

In [15]:
# создание массива из списка
a = np.array([1, 2, 3, 1, 0])
type(a)

numpy.ndarray

In [16]:
print(a)
print("a.shape = ", a.shape)
print("a.ndim =", a.ndim)
print("a.size =", a.size)
print("a.dtype =", a.dtype)
print("Hазмер каждого элемента массива в байтах a.itemsize =", a.itemsize)
print("Обращение к элементу a[0] =", a[0])

[1 2 3 1 0]
a.shape =  (5,)
a.ndim = 1
a.size = 5
a.dtype = int64
Hазмер каждого элемента массива в байтах a.itemsize = 8
Обращение к элементу a[0] = 1


Двумерный массив

In [17]:
b = np.array([[1, 8, 3], 
              [3, 2, 1], 
              [3, 5, 6]])

In [18]:
print(b)
print("a.shape = ", b.shape)
print("a.ndim =", b.ndim)
print("a.size =", b.size)
print("a.dtype =", b.dtype)
print("Hазмер каждого элемента массива в байтах a.itemsize =", b.itemsize)
print("Нулевая строка b[0] =", b[0])
print("Обращение к элементу b[строка][столбец]: b[0][1] =", b[0][1])

[[1 8 3]
 [3 2 1]
 [3 5 6]]
a.shape =  (3, 3)
a.ndim = 2
a.size = 9
a.dtype = int64
Hазмер каждого элемента массива в байтах a.itemsize = 8
Нулевая строка b[0] = [1 8 3]
Обращение к элементу b[строка][столбец]: b[0][1] = 8


Индексация n-мерных массивов такая же как и для n-мерных списоков.

## <a id="Cпособы создания массива"><span style="color:green">Cпособы создания массива</span></a>

- Из списка

In [19]:
# из списка
m = np.array([[1, 8, 3], 
              [3, 2, 1], 
              [3, 5, 6]])
print(m)

[[1 8 3]
 [3 2 1]
 [3 5 6]]


- Создание единичной матрицы

In [20]:
# создание единичной матрицы
m = np.eye(3)
print(m)
m = np.eye(N=3, M=4)
print(m)

[[1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]]
[[1. 0. 0. 0.]
 [0. 1. 0. 0.]
 [0. 0. 1. 0.]]


- Создание матрицы из единиц

In [21]:
# создание матрицы из единиц
m = np.ones((5, 4))
print(m)

[[1. 1. 1. 1.]
 [1. 1. 1. 1.]
 [1. 1. 1. 1.]
 [1. 1. 1. 1.]
 [1. 1. 1. 1.]]


- Создание матрицы из нулей

In [22]:
# создание матрицы из нулей
m = np.zeros((2, 4))
print(m)

[[0. 0. 0. 0.]
 [0. 0. 0. 0.]]


In [23]:
# создание вектора из нулей
v = np.zeros(4)
print(v)

[0. 0. 0. 0.]


- **Создание массива из диапазона**

   - создание массива из диапазона значений [start, end)

In [24]:
# np.arrange(start=0, end, step=1)
m = np.arange(0, 10, 2)
print(m)
m = np.arange(10)
print(m)

[0 2 4 6 8]
[0 1 2 3 4 5 6 7 8 9]


<span style="color:blue">Создайте матрицу 5x5 со значениями строк в диапазоне от 0 до 4</span>

In [25]:
m = np.zeros((5, 5))
m += np.arange(5)
print(m)

[[0. 1. 2. 3. 4.]
 [0. 1. 2. 3. 4.]
 [0. 1. 2. 3. 4.]
 [0. 1. 2. 3. 4.]
 [0. 1. 2. 3. 4.]]


- создание массива из диапазона значений [start, stop] с заданием кол-ва точек

In [26]:
m = np.linspace(0, 5, 5)
print(m)

[0.   1.25 2.5  3.75 5.  ]


- создание массива из диапазона [$base^{start}$, $base^{end}$]

In [27]:
# np.logspace(start, end, num=50, base=10)
m = np.logspace(2.0, 5.0, num=4, base=2.0)
print(m)

[ 4.  8. 16. 32.]


- **Создание массива из случайных чисел**

In [28]:
np.random.seed(42)

В `numpy` есть аналог модуля `random` - `numpy.random`. Используя типизацию из C, он как и свой аналог генерирует случайные данные.

In [29]:
# массив чисел из равномерного (uniform) распределения в диапазоне [0, 1)
# np.random.rand(d0, d1, d3, ...) d0, d1,... - pазмеры возвращаемого массива
print(np.random.rand(2, 2))
print(np.random.rand(2, 2).shape)

[[0.37454012 0.95071431]
 [0.73199394 0.59865848]]
(2, 2)


In [30]:
# массив чисел из стандартного нормального (norm) распределения
# нормальное распределение в заданном shape
np.random.randn(2, 3, 2) 

array([[[ 1.57921282,  0.76743473],
        [-0.46947439,  0.54256004],
        [-0.46341769, -0.46572975]],

       [[ 0.24196227, -1.91328024],
        [-1.72491783, -0.56228753],
        [-1.01283112,  0.31424733]]])

In [31]:
# массив из случайно выбранных чисел
# size - размер возвращаемого массива, reaplce=False без замещения
np.random.choice(a=np.arange(20), size=5, replace=False)

array([13, 10,  5,  7, 17])

In [32]:
np.random.choice(a=np.arange(20), size=(2, 3), replace=True)

array([[ 8,  1, 19],
       [14,  6, 11]])

**Почему так плохо делать?**

In [33]:
%%time
a = np.zeros(1000000, dtype=np.float64)
for i in range(1, 1000001):
    a[i - 1] = i ** 0.5

CPU times: user 372 ms, sys: 573 µs, total: 372 ms
Wall time: 371 ms


In [34]:
%%time
b = np.arange(1, 1000001, dtype=np.float64)
b = np.sqrt(b)

CPU times: user 5.25 ms, sys: 8.23 ms, total: 13.5 ms
Wall time: 12.5 ms


**Вывод:** старайтесь использовать векторизированные вычисления!

## <a id="Индексация"> <span style="color:green">Индексация</span></a>

In [35]:
m = np.array([[1, 8, 3], 
              [3, 2, 1], 
              [3, 5, 6]])
print(m)

[[1 8 3]
 [3 2 1]
 [3 5 6]]


In [36]:
# третья строка (вторая если считать с 0)
m[2]

array([3, 5, 6])

In [37]:
# третья строка (вторая если считать с 0)
m[2, :]

array([3, 5, 6])

In [38]:
# второй столбец
m[:, 1]

array([8, 2, 5])

Выделение "подматрицы"

In [39]:
# возьмем только нулевую и вторую строки в 0 столбце
# m [список строк, список столбцов]
m[[0, 2], [0]]

array([1, 3])

In [40]:
m[[0, 2], [0, 1, 2]]

IndexError: shape mismatch: indexing arrays could not be broadcast together with shapes (2,) (3,) 

In [41]:
m[np.ix_([0, 2], [0, 1, 2])]

array([[1, 8, 3],
       [3, 5, 6]])

## <a id="Операции с матрицами и векторами"><span style="color:green">Операции с матрицами и векторами</span></a>

В NumPy двумерный массив можно рассматривать и как матрицу, то есть для него определены все матричные операции. Одномерный массив также можно рассматривать как вектор.

**Транспонирование**

Транспонированной матрицей $A^{T}$ называется матрица, полученная из исходной матрицы $A$ путем замены строк на столбцы.

In [42]:
m = np.array([[1, 12, 3, 4], 
              [3, 2, 10, 2], 
              [3, 56, 6, 11]])
print(m)
print()
print(m.T)

[[ 1 12  3  4]
 [ 3  2 10  2]
 [ 3 56  6 11]]

[[ 1  3  3]
 [12  2 56]
 [ 3 10  6]
 [ 4  2 11]]


**Скалярное произведение векторов**

Рассмотрим два вектора $a$ и $b$ в n-мерном пространстве  
$a = (a_1, a_2, a_3, \dots a_n)$   
$b = (b_1, b_2, b_3, \dots b_n)$   
Скалярное произведение векторов $a$ и $b$ определяется следующим образом:  
$$\langle a, b \rangle = a_1 b_1 + a_2 b_2 + a_3 b_3 \dots + a_n b_n = \sum_{i = 1}^{n} a_i b_i$$

In [43]:
a = np.array([3, 1, 5, 2])
b = np.array([2, 5, 2, 4])
# <a, b> = 3*1 + 1*5 + 5*2 + 2*4
print(a @ b)    # python 3 style
print(a.dot(b)) 
print(np.dot(a, b))

29
29
29


**Умножение матриц**  
  
Операция умножения определена для двух матриц, таких что число столбцов первой равно числу строк второй. 

Пусть матрицы $A$ и $B$ таковы, что $A \in \mathbb{R}^{n \times k}$ и $B \in \mathbb{R}^{k \times m}$.    
__Произведением__ матриц $A$ и $B$ называется матрица $C$, такая что 
$$c_{ij} = \sum_{r=1}^{k} a_{ir}b_{rj}$$, 
где  $c_{ij}$ — элемент матрицы $C$, стоящий на пересечении строки с номером $i$ и столбца с номером $j$.

In [44]:
a = np.array([[1, 2], [0, 1]])
b = np.array([[4, 1], [2, 2]])
print(a @ b)    # python 3 style
print(a.dot(b)) 
print(np.dot(a, b))

[[8 5]
 [2 2]]
[[8 5]
 [2 2]]
[[8 5]
 [2 2]]


Также доступно *ПОКООРДИНАТНОЕ* умножение, не путать с матричным!

In [45]:
print(a * b)

[[4 2]
 [0 2]]


**Умножение матриц и векторов**

In [46]:
m = np.array([[1, 2], [0, 1], [2, 4]])
print(m)
v = np.array([2, 5])
print("v = ",v)

[[1 2]
 [0 1]
 [2 4]]
v =  [2 5]


In [47]:
m @ v

array([12,  5, 24])

## <a id="Полезные функций и методы"><span style="color:green">Полезные функций и методы</span></a>

Все функции описанные в предыдущем разделе можно применять к массивам!

In [48]:
np.log(b)

array([[1.38629436, 0.        ],
       [0.69314718, 0.69314718]])

In [49]:
np.sin(a)

array([[0.84147098, 0.90929743],
       [0.        , 0.84147098]])

Кроме математических функций есть также полезные функции для работы с массивами.

In [50]:
a = np.random.choice(a=np.linspace(1, 50, 50), size=10, replace=False)
print(a)

[42.  5. 41. 44. 11. 46.  3. 39. 48. 12.]


- Замена элементов по индексу

In [51]:
np.put(a, ind=[0, 2], v=[-44, -55])
a

array([-44.,   5., -55.,  44.,  11.,  46.,   3.,  39.,  48.,  12.])

- Выделение элементов по условию

In [52]:
np.where(a < 0, a, 1)

array([-44.,   1., -55.,   1.,   1.,   1.,   1.,   1.,   1.,   1.])

In [53]:
a[np.where(a < 0)]

array([-44., -55.])

- Сортировка

In [54]:
np.sort(a)

array([-55., -44.,   3.,   5.,  11.,  12.,  39.,  44.,  46.,  48.])

Индексы сортированного массива

In [55]:
np.argsort(a)

array([2, 0, 6, 1, 4, 9, 7, 3, 5, 8])

In [56]:
# создание матрицы для демонстрации примеров
m = np.round(np.random.rand(4, 5) * 10, 3)
print(m)

[[7.713 0.74  3.585 1.159 8.631]
 [6.233 3.309 0.636 3.11  3.252]
 [7.296 6.376 8.872 4.722 1.196]
 [7.132 7.608 5.613 7.71  4.938]]


In [57]:
# сортировка по столбцам
np.sort(m, axis=0)

array([[6.233, 0.74 , 0.636, 1.159, 1.196],
       [7.132, 3.309, 3.585, 3.11 , 3.252],
       [7.296, 6.376, 5.613, 4.722, 4.938],
       [7.713, 7.608, 8.872, 7.71 , 8.631]])

In [58]:
# сортировка по строкам
np.sort(m, axis=1)

array([[0.74 , 1.159, 3.585, 7.713, 8.631],
       [0.636, 3.11 , 3.252, 3.309, 6.233],
       [1.196, 4.722, 6.376, 7.296, 8.872],
       [4.938, 5.613, 7.132, 7.608, 7.71 ]])

<span style="color:blue">Отсортируйте все столбцы по нулевому столбцу:</span>

In [59]:
np.random.seed(21)
a = np.random.randint(0, 10, (5, 3))
print(a)
print()
print(a[a[:,1].argsort()])

[[9 8 4]
 [0 0 8]
 [3 2 1]
 [8 9 6]
 [0 4 6]]

[[0 0 8]
 [3 2 1]
 [0 4 6]
 [9 8 4]
 [8 9 6]]


- **newaxis**

Добавление нового измерения

In [60]:
a = np.linspace(1, 10, 10)
print(a)
print(a.shape)

[ 1.  2.  3.  4.  5.  6.  7.  8.  9. 10.]
(10,)


In [61]:
print(a[:, np.newaxis])
print("New shape ", a[:, np.newaxis].shape)

[[ 1.]
 [ 2.]
 [ 3.]
 [ 4.]
 [ 5.]
 [ 6.]
 [ 7.]
 [ 8.]
 [ 9.]
 [10.]]
New shape  (10, 1)


In [62]:
m = np.random.randint(0, 10, (5, 10))

In [63]:
m @ a

array([300., 183., 200., 220., 349.])

In [64]:
m @ a[:, np.newaxis]

array([[300.],
       [183.],
       [200.],
       [220.],
       [349.]])

In [65]:
m = a.reshape((5, 2))
print(m)
print()
print(m[..., np.newaxis, np.newaxis])
print()
print(m[:, np.newaxis, np.newaxis])
print("New shape ", m[:, np.newaxis, np.newaxis].shape)

[[ 1.  2.]
 [ 3.  4.]
 [ 5.  6.]
 [ 7.  8.]
 [ 9. 10.]]

[[[[ 1.]]

  [[ 2.]]]


 [[[ 3.]]

  [[ 4.]]]


 [[[ 5.]]

  [[ 6.]]]


 [[[ 7.]]

  [[ 8.]]]


 [[[ 9.]]

  [[10.]]]]

[[[[ 1.  2.]]]


 [[[ 3.  4.]]]


 [[[ 5.  6.]]]


 [[[ 7.  8.]]]


 [[[ 9. 10.]]]]
New shape  (5, 1, 1, 2)


- **any all**

`Any` возвращает True, если хотя бы один элемент `True`   
`All` возвращает True, если все эедементы `True`

In [66]:
any([True, True, False, True, False, False, False])

True

In [67]:
all([True, True, False, True, False, False, False])

False

In [68]:
np.array([1, 1, 0, 2]) == np.array([1, 1, 0, 2])

array([ True,  True,  True,  True])

In [69]:
# сравнение векторов
all(np.array([1, 1, 0, 2]) == np.array([1, 1, 0, 2]))

True

In [70]:
all(np.array([1, 1, 0, 0]) == np.array([1, 1, 0, 2]))

False

In [71]:
any(np.array([1, 1, 0, 0]) == np.array([1, 1, 0, 2]))

True

- Методы all и any

In [72]:
a = (np.array([1, 1, 0, 8, 1, 5, 1, 1]) == np.array([1, 1, 3, 2, 1, 5, 1, 1])).reshape((2, 4))
print(a)

[[ True  True False False]
 [ True  True  True  True]]


In [73]:
# any по строкам
a.any(axis=1)

array([ True,  True])

In [74]:
# any по столбцам
a.any(axis=0)

array([ True,  True,  True,  True])

In [75]:
# По строкам и столбцам
a.all((0, 1))

False

- diff   
out[n] = a[n+1] - a[n]

In [76]:
a = np.array([1, 2, 4, 7, 0])
print(a)
print(np.diff(a))

[1 2 4 7 0]
[ 1  2  3 -7]


- split (забиение на части)

In [77]:
a = np.arange(10)
print(a)

[0 1 2 3 4 5 6 7 8 9]


In [78]:
np.split(a, [2, 7]) # разбивает по элементам 2 и 7

[array([0, 1]), array([2, 3, 4, 5, 6]), array([7, 8, 9])]

## <a id="Вычисление статистик"><span style="color:green">Вычисление статистик</span></a>

In [79]:
a = np.random.randint(-10, 70, (5, 4))
print(a)

[[54 15 68 37]
 [29 -5 33  8]
 [29 -6 24 40]
 [47  6 -9 41]
 [-9 17 23 22]]


- среднее

In [80]:
a.mean()

23.2

In [81]:
# среднее по столбцам
a.mean(axis=0)

array([30. ,  5.4, 27.8, 29.6])

In [82]:
# среднее по строкам
a.mean(axis=1)

array([43.5 , 16.25, 21.75, 21.25, 13.25])

- медиана

In [83]:
print(np.median(a))
print(np.median(a, axis=0))
print(np.median(a, axis=1))

23.5
[29.  6. 24. 37.]
[45.5 18.5 26.5 23.5 19.5]


- максимум и минимум

In [84]:
print(a)

[[54 15 68 37]
 [29 -5 33  8]
 [29 -6 24 40]
 [47  6 -9 41]
 [-9 17 23 22]]


In [85]:
print(a.max())              # максимальный элемент
print(a.max(axis=0))        # максимумы по столбцам
print(a.argmax(axis=0))     # индексы строк максимумов по столбцам
print(a.max(axis=1))        # максимумы по строкам
print(a.argmax(axis=1))     # индексы столбцов максимумов по строкам

68
[54 17 68 41]
[0 4 0 3]
[68 33 40 47 23]
[2 2 3 0 2]


- счетчик

In [86]:
np.bincount(np.arange(5))

array([1, 1, 1, 1, 1])

In [87]:
np.bincount(np.array([0, 1, 1, 3, 2, 1, 7]))

array([1, 3, 1, 1, 0, 0, 0, 1])

Как это получилось? Получили массив соответсвующий диапазону от 0 до max. И посчитали кол-во попаданий в 0, 1, 2, ... max.

In [88]:
# с помощью аргумента weights можно посчитать сумму части эелемента массива
sub_sums = np.bincount(np.array([2, 0, 2, 1, 0, 0, 2, 2, 0, 1]), 
                        weights=[4, 4, 2, 3, 5, 1, 6, 1, 7, 5])

# 0 -> 4 + 5 + 1 + 7 = 17
# 1 -> 3 + 5 = 8
# 2 -> 4 + 2 + 6 + 1 = 13
print(sub_sums)

[17.  8. 13.]


<span style="color:blue">Как найти наиболее частое значение в массиве?</span>

In [89]:
z = np.random.randint(0, 10, 50)
print(z)
print(np.bincount(z).argmax())

[2 6 9 1 3 1 1 1 1 1 6 5 7 5 4 6 1 9 1 3 6 8 1 9 1 0 9 8 3 9 4 0 2 9 0 8 1
 1 4 6 8 5 0 3 5 7 0 8 5 3]
1
