# NumPy
[(**Num**eric **Py**thon)](http://www.numpy.org/)

## Содержание
 - Особенности Numpy
 - Некоторые функции
 - Массивы ndarray и операции с ними
 - Cпособы создания массива
 - Индексация
 - Операции с матрицами и векторами
 - Полезные функций и методы
 - Вычисление статистик

# <a id="Особенности Numpy"><span style="color:green">Особенности</span></a>

**NumPy** - это open-source модуль для Python, который предоставляет общие математические и числовые операции в виде пре-скомпилированных, быстрых функций (использует типы из C, которые существенно быстрее чем Python типы). Они обеспечивают функционал, который можно сравнить с функционалом MatLab.  

Возможности:
   - поддержка многомерных массивов (включая матрицы);
   - поддержка высокоуровневых математических функций, предназначенных для работы с многомерными массивами.  

**Типы данных в NumPy**

В `Python` к числовым типам относятся:
   - int
   - float
   - bool
   - complex   
   
В `numpy` имеются эти типы, а также обёртки над этими типами, которые **используют реализацию типов на C**, например, `int8`, `int16`, `int32`, `int64` (подробнее о типах данных `numpy` можно прочитать [здесь](https://www.numpy.org/devdocs/user/basics.types.html)). За счёт того, что используются типы данных из C, numpy получает ускорение операций.

In [1]:
import numpy as np
from tqdm import tqdm_notebook  # посмотрите, что делает tqdm_notebook

# <a id="Некоторые функции"><span style="color:green">Некоторые функции</span></a>

В numpy реализовано огромное число функций.
Вот некоторые из них:

- np.log(x) - натуральный логарифм x
- np.log10(x) - десятичный логарифм x
- np.log2(x)
- np.sqrt(x) - квадратный корень из x
- np.power(x, n) - возведение x в степень n
- np.abs(x) - модуль x
- np.round(x, n) - математическое округление x
- np.floor(x) - округление вниз
- np.ceil(x) - округление вверх
- np.int(x) - округление к нулю
- sin(x) - синус
- cos(x) - косинус
- ... и т. д..

**Примеры**

Все аргументы, описание функций легко найти:

In [2]:
# справка
np.log?

Также используйте сочетаия клавиш `Shift + Tab` для получения короткой справки (Работает только в Jupyter Notebook)

In [3]:
np.log(10, dtype=np.float64)

2.302585092994046

In [4]:
np.log(10, dtype=np.float16)

2.303

In [5]:
np.log(0.)

  np.log(0.)


-inf

In [6]:
0 == 0.

True

In [7]:
1.

1.0

In [8]:
print(np.log10(10))
print(np.log10(100))

1.0
2.0


In [9]:
np.__version__

'1.21.4'

In [10]:
np.round(4.5), np.floor(4.5), np.ceil(4.5), np.int(4.5)

Deprecated in NumPy 1.20; for more details and guidance: https://numpy.org/devdocs/release/1.20.0-notes.html#deprecations
  np.round(4.5), np.floor(4.5), np.ceil(4.5), np.int(4.5)


(4.0, 4.0, 5.0, 4)

In [11]:
np.round(-4.5), np.floor(-4.5), np.ceil(-4.5), np.int(-4.5)

Deprecated in NumPy 1.20; for more details and guidance: https://numpy.org/devdocs/release/1.20.0-notes.html#deprecations
  np.round(-4.5), np.floor(-4.5), np.ceil(-4.5), np.int(-4.5)


(-4.0, -5.0, -4.0, -4)

In [14]:
# переполнение!
np.power(2, 1000), type(np.power(2, 1000))

(0, numpy.int64)

То же самое но с помощью Python-типа int

In [15]:
2 ** 1000, type(2 ** 1000) # питоновское возведение в степень

(10715086071862673209484250490600018105614048117055336074437503883703510511249361224931983788156958581275946729175531468251871452856923140435984577574698574803934567774824230985421074605062371141877954182153046474983581941267398767559165543946077062914571196477686542167660429831652624386837205668069376,
 int)

In [16]:
np.cos(np.pi)

-1.0

In [17]:
np.e

2.718281828459045

# <a id="Массивы ndarray и операции с ними"><span style="color:green">Массивы ndarray и операции с ними</span></a>

Основным объектом `NumPy` является *однородный* многомерный массив, в numpy он реализован через объект `ndarray`. Массивы (`ndarray`) похожи на списки (`list`), но могут хранить только элементы одного типа. Производить вычисления с массивами гораздо быстрее и эффективнее чем со списками.

Наиболее важные атрибуты объектов ndarray:
1. **`ndarray.ndim`** - число измерений (чаще их называют "оси") массива.
  
2. **`ndarray.shape`** - размеры массива, его форма. Это кортеж натуральных чисел, показывающий длину массива по каждой оси. Для матрицы из n строк и m столбов, shape будет (n,m). Число элементов кортежа shape равно ndim.
3. **`ndarray.size`** - количество элементов массива. Очевидно, равно произведению всех элементов атрибута shape.
4. **`ndarray.dtype`** - объект, описывающий тип элементов массива. Можно определить dtype, используя стандартные типы данных Python. Можно хранить и numpy типы, например: bool, int16, int32, int64, float16, float32, float64, complex64
5. **`ndarray.itemsize`** - размер каждого элемента массива в байтах.
6. **`ndarray.data`** - буфер, содержащий фактические элементы массива. Обычно не нужно использовать этот атрибут, так как обращаться к элементам массива проще всего с помощью индексов.

In [18]:
print(len([name for name in dir(np.ndarray) if not name.startswith('_')]),
      *[name for name in dir(np.ndarray) if not name.startswith('_')], sep='\n')

71
T
all
any
argmax
argmin
argpartition
argsort
astype
base
byteswap
choose
clip
compress
conj
conjugate
copy
ctypes
cumprod
cumsum
data
diagonal
dot
dtype
dump
dumps
fill
flags
flat
flatten
getfield
imag
item
itemset
itemsize
max
mean
min
nbytes
ndim
newbyteorder
nonzero
partition
prod
ptp
put
ravel
real
repeat
reshape
resize
round
searchsorted
setfield
setflags
shape
size
sort
squeeze
std
strides
sum
swapaxes
take
tobytes
tofile
tolist
tostring
trace
transpose
var
view


Одномерный массив

In [19]:
# создание массива из списка
a = np.array([1, 2, 3, 1, 0])
type(a)

numpy.ndarray

In [None]:
np.array?

In [24]:
print(a)
print("a.shape = ", a.shape)
print("a.ndim =", a.ndim)
print("a.size =", a.size)
print("a.dtype =", a.dtype)
print("Размер каждого элемента массива в байтах a.itemsize =", a.itemsize)
print("Обращение к элементу a[0] =", a[0])
a

[1 2 3 1 0]
a.shape =  (5,)
a.ndim = 1
a.size = 5
a.dtype = int64
Размер каждого элемента массива в байтах a.itemsize = 8
Обращение к элементу a[0] = 1


array([1, 2, 3, 1, 0])

Двумерный массив

In [21]:
b = np.array([[1, 8, 3], 
              [3, 2, 1], 
              [3, 5, 6]])

In [23]:
print(b)
print("a.shape = ", b.shape)
print("a.ndim =", b.ndim)
print("a.size =", b.size)
print("a.dtype =", b.dtype)
print("Размер каждого элемента массива в байтах a.itemsize =", b.itemsize)
print("Нулевая строка b[0] =", b[0])
print("Обращение к элементу b[строка][столбец]: b[0][1] =", b[0][1])
print("Обращение к элементу b[строка, столбец]: b[0, 1] =", b[0, 1])
b

[[1 8 3]
 [3 2 1]
 [3 5 6]]
a.shape =  (3, 3)
a.ndim = 2
a.size = 9
a.dtype = int64
Размер каждого элемента массива в байтах a.itemsize = 8
Нулевая строка b[0] = [1 8 3]
Обращение к элементу b[строка][столбец]: b[0][1] = 8
Обращение к элементу b[строка, столбец]: b[0, 1] = 8


array([[1, 8, 3],
       [3, 2, 1],
       [3, 5, 6]])

Индексация n-мерных массивов такая же как и для n-мерных списоков.

## <a id="Cпособы создания массива"><span style="color:green">Cпособы создания массива</span></a>

- Из списка

In [25]:
# из списка
m = np.array([[1, 8, 3], 
              [3, 2, 1], 
              [3, 5, 6]])
print(m)

[[1 8 3]
 [3 2 1]
 [3 5 6]]


- Создание единичной матрицы

In [26]:
# создание единичной матрицы
m = np.eye(3)
print(m)

[[1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]]


In [29]:
m = np.eye(N=3, M=4) 
m = np.eye(3, 4) # аналог первой строчки
m = np.eye(M=4, N=3) # аналог первой строчки
print(m)

[[1. 0. 0. 0.]
 [0. 1. 0. 0.]
 [0. 0. 1. 0.]]


In [30]:
np.eye?

- Создание матрицы из единиц

In [31]:
np.ones?

In [36]:
# создание матрицы из единиц
# m = np.ones(3, 2) # ошибка 
m = np.ones((3, 2))
print(m)

[[1. 1.]
 [1. 1.]
 [1. 1.]]


In [40]:
m = np.ones(5)
print(m)
print(m.shape)
print(m.ndim)
print(type(m[1]))

[1. 1. 1. 1. 1.]
(5,)
1
<class 'numpy.float64'>


- Создание матрицы из нулей

In [39]:
# создание матрицы из нулей
m = np.zeros((5, 1))
print(m)
print(m.shape)
print(m.ndim)

[[0.]
 [0.]
 [0.]
 [0.]
 [0.]]
(5, 1)
2


In [41]:
# создание вектора из нулей
v = np.zeros(4)
print(v)

[0. 0. 0. 0.]


- **Создание массива из диапазона**

   - создание массива из диапазона значений [start, end)

In [42]:
# np.arrange(start=0, stop, step=1)
m = np.arange(0, 10, 2)
print(m)
m = np.arange(10)
print(m)

[0 2 4 6 8]
[0 1 2 3 4 5 6 7 8 9]


<span style="color:blue">Создайте матрицу 5x5 со значениями строк в диапазоне от 0 до 4</span>

In [43]:
m = np.zeros((5, 5))
m

array([[0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.]])

In [44]:
np.arange(5)

array([0, 1, 2, 3, 4])

In [45]:
m = np.zeros((5, 5))
m += np.arange(5)
print(m)

[[0. 1. 2. 3. 4.]
 [0. 1. 2. 3. 4.]
 [0. 1. 2. 3. 4.]
 [0. 1. 2. 3. 4.]
 [0. 1. 2. 3. 4.]]


- создание массива из диапазона значений [start, stop] с заданием кол-ва точек

In [46]:
m = np.linspace(0, 3, 5)
print(m)

[0.   0.75 1.5  2.25 3.  ]


In [47]:
np.linspace?

- создание массива из диапазона [$base^{start}$, $base^{end}$]

In [48]:
# np.logspace(start, end, num=50, base=10)
m = np.logspace(2.0, 5.0, num=4, base=2.0)
print(m)

[ 4.  8. 16. 32.]


- **Создание массива из случайных чисел**

In [49]:
np.random.seed(42)
print(np.random.rand(2, 2))

[[0.37454012 0.95071431]
 [0.73199394 0.59865848]]


In [50]:
print(np.random.rand(2, 2))

[[0.15601864 0.15599452]
 [0.05808361 0.86617615]]


In [51]:
np.random.seed(42)
print(np.random.rand(2, 2))
np.random.seed(42)
print(np.random.rand(2, 2))

[[0.37454012 0.95071431]
 [0.73199394 0.59865848]]
[[0.37454012 0.95071431]
 [0.73199394 0.59865848]]


В `numpy` есть аналог модуля `random` - `numpy.random`. Используя типизацию из C, он как и свой аналог генерирует случайные данные.

In [54]:
# массив чисел из равномерного (uniform) распределения в диапазоне [0, 1)
# np.random.rand(d0, d1, d2, ...) d0, d1,... - pазмеры возвращаемого массива
print(np.random.rand(2, 2))
print(np.random.rand(2, 2).shape)

[[0.83244264 0.21233911]
 [0.18182497 0.18340451]]
(2, 2)


In [55]:
np.random.rand?

In [56]:
# массив чисел из стандартного нормального (norm) распределения
# нормальное распределение в заданном shape
np.random.randn(2, 3, 2)

array([[[-1.01283112,  0.31424733],
        [-0.90802408, -1.4123037 ],
        [ 1.46564877, -0.2257763 ]],

       [[ 0.0675282 , -1.42474819],
        [-0.54438272,  0.11092259],
        [-1.15099358,  0.37569802]]])

In [57]:
# массив из случайно выбранных чисел
# size - размер возвращаемого массива, reaplce=False без замещения
np.random.choice(a=np.arange(20), size=10, replace=False)

array([16,  5, 10,  7,  0,  2, 11, 12, 19, 18])

In [58]:
np.random.choice?

In [59]:
np.random.choice(a=np.arange(20), size=(5, 3), replace=True)

array([[ 3,  1,  5],
       [ 9,  3, 17],
       [11,  1,  9],
       [ 3, 13, 15],
       [14,  7, 13]])

**А что со временем?**

In [60]:
%%timeit
a = list(range(10 ** 8))
#  %%time - выводит время выполнения ячейки

954 ms ± 24.6 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


In [61]:
%%timeit
a_numpy = np.arange(10 ** 8)

93.6 ms ± 1.18 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [62]:
type(a_numpy)

NameError: name 'a_numpy' is not defined

In [63]:
# поскольку timeit не создает объекты, то сделаем это еще раз
a = list(range(10 ** 8))
a_numpy = np.arange(10 ** 8)

In [64]:
%%time
for idx, elem in enumerate(a):
    a[idx] = elem * 2

CPU times: user 8.62 s, sys: 559 ms, total: 9.18 s
Wall time: 9.43 s


In [66]:
%%time
a_numpy = np.arange(10 ** 8)
a_numpy = a_numpy * 2

CPU times: user 129 ms, sys: 222 ms, total: 350 ms
Wall time: 387 ms


In [65]:
lst = list(range(10))
lst * 2

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

**Вывод:** старайтесь использовать векторизированные вычисления!

## <a id="Индексация"> <span style="color:green">Индексация</span></a>

In [67]:
m = np.array([[1, 8, 3], 
              [3, 2, 1], 
              [3, 5, 6]])
print(m)

[[1 8 3]
 [3 2 1]
 [3 5 6]]


In [68]:
# третья строка (вторая если считать с 0)
m[2]

array([3, 5, 6])

In [69]:
# третья строка (вторая если считать с 0)
m[2, :]

array([3, 5, 6])

In [70]:
# второй столбец
m[:, 1]

array([8, 2, 5])

In [71]:
# как было со списками
a[:]

[0,
 2,
 4,
 6,
 8,
 10,
 12,
 14,
 16,
 18,
 20,
 22,
 24,
 26,
 28,
 30,
 32,
 34,
 36,
 38,
 40,
 42,
 44,
 46,
 48,
 50,
 52,
 54,
 56,
 58,
 60,
 62,
 64,
 66,
 68,
 70,
 72,
 74,
 76,
 78,
 80,
 82,
 84,
 86,
 88,
 90,
 92,
 94,
 96,
 98,
 100,
 102,
 104,
 106,
 108,
 110,
 112,
 114,
 116,
 118,
 120,
 122,
 124,
 126,
 128,
 130,
 132,
 134,
 136,
 138,
 140,
 142,
 144,
 146,
 148,
 150,
 152,
 154,
 156,
 158,
 160,
 162,
 164,
 166,
 168,
 170,
 172,
 174,
 176,
 178,
 180,
 182,
 184,
 186,
 188,
 190,
 192,
 194,
 196,
 198,
 200,
 202,
 204,
 206,
 208,
 210,
 212,
 214,
 216,
 218,
 220,
 222,
 224,
 226,
 228,
 230,
 232,
 234,
 236,
 238,
 240,
 242,
 244,
 246,
 248,
 250,
 252,
 254,
 256,
 258,
 260,
 262,
 264,
 266,
 268,
 270,
 272,
 274,
 276,
 278,
 280,
 282,
 284,
 286,
 288,
 290,
 292,
 294,
 296,
 298,
 300,
 302,
 304,
 306,
 308,
 310,
 312,
 314,
 316,
 318,
 320,
 322,
 324,
 326,
 328,
 330,
 332,
 334,
 336,
 338,
 340,
 342,
 344,
 346,
 348,
 350,

In [72]:
a = [[i for i in range(10)] for i in range(5)]
a

[[0, 1, 2, 3, 4, 5, 6, 7, 8, 9],
 [0, 1, 2, 3, 4, 5, 6, 7, 8, 9],
 [0, 1, 2, 3, 4, 5, 6, 7, 8, 9],
 [0, 1, 2, 3, 4, 5, 6, 7, 8, 9],
 [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]]

In [73]:
a[1, :]

TypeError: list indices must be integers or slices, not tuple

In [74]:
a_np = np.arange(50).reshape(5, -1)  # пока на reshape не смотрим
a_np

array([[ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14, 15, 16, 17, 18, 19],
       [20, 21, 22, 23, 24, 25, 26, 27, 28, 29],
       [30, 31, 32, 33, 34, 35, 36, 37, 38, 39],
       [40, 41, 42, 43, 44, 45, 46, 47, 48, 49]])

In [75]:
a_np[:3, 2:7:2]

array([[ 2,  4,  6],
       [12, 14, 16],
       [22, 24, 26]])

Выделение "подматрицы"

In [76]:
# a_np [список строк, список столбцов]
a_np[[0, 2, 1, 4], [0]]

array([ 0, 20, 10, 40])

In [77]:
m[[0, 2], [0, 1, 2]]

IndexError: shape mismatch: indexing arrays could not be broadcast together with shapes (2,) (3,) 

In [78]:
np.ix_([0, 2], [0, 2])

(array([[0],
        [2]]),
 array([[0, 2]]))

In [79]:
m_dop = m[np.ix_([0, 2], [0, 2])]

In [80]:
m_dop

array([[1, 3],
       [3, 6]])

## <a id="Операции с матрицами и векторами"><span style="color:green">Операции с матрицами и векторами</span></a>

В NumPy двумерный массив можно рассматривать и как матрицу, то есть для него определены все матричные операции. Одномерный массив также можно рассматривать как вектор.

**Транспонирование**

Транспонированной матрицей $A^{T}$ называется матрица, полученная из исходной матрицы $A$ путем замены строк на столбцы.

In [87]:
m = np.array([[1, 12, 3, 4], 
              [3, 2, 10, 2], 
              [3, 56, 6, 11]])
print(m)
print(type(m))
print()
print(m.T)

[[ 1 12  3  4]
 [ 3  2 10  2]
 [ 3 56  6 11]]
<class 'numpy.ndarray'>

[[ 1  3  3]
 [12  2 56]
 [ 3 10  6]
 [ 4  2 11]]


**Скалярное произведение векторов**

Рассмотрим два вектора $a$ и $b$ в n-мерном пространстве  
$a = (a_1, a_2, a_3, \dots a_n)$   
$b = (b_1, b_2, b_3, \dots b_n)$   
Скалярное произведение векторов $a$ и $b$ определяется следующим образом:  
$$\langle a, b \rangle = a_1 b_1 + a_2 b_2 + a_3 b_3 \dots + a_n b_n = \sum_{i = 1}^{n} a_i b_i$$

In [88]:
a = np.array([3, 1, 5, 2])
b = np.array([2, 5, 2, 4])
# <a, b> = 3*1 + 1*5 + 5*2 + 2*4
print(a @ b)    # python 3 style
print(a.dot(b)) 
print(np.dot(a, b))

29
29
29


**Умножение матриц**  
  
Операция умножения определена для двух матриц, таких что число столбцов первой равно числу строк второй. 

Пусть матрицы $A$ и $B$ таковы, что $A \in \mathbb{R}^{n \times k}$ и $B \in \mathbb{R}^{k \times m}$.    
__Произведением__ матриц $A$ и $B$ называется матрица $C$, такая что 
$$c_{ij} = \sum_{r=1}^{k} a_{ir}b_{rj}$$, 
где  $c_{ij}$ — элемент матрицы $C$, стоящий на пересечении строки с номером $i$ и столбца с номером $j$.

In [89]:
a = np.array([[1, 2], [0, 1]])
b = np.array([[4, 1], [2, 2]])
print(a @ b)    # python 3 style
print(a.dot(b)) 
print(np.dot(a, b))

[[8 5]
 [2 2]]
[[8 5]
 [2 2]]
[[8 5]
 [2 2]]


Также доступно *ПОКООРДИНАТНОЕ* умножение, не путать с матричным!

In [91]:
print(a)
print(b)
print(a * b)

[[1 2]
 [0 1]]
[[4 1]
 [2 2]]
[[4 2]
 [0 2]]


**Умножение матриц и векторов**

In [93]:
m = np.array([[1, 2], [0, 1], [2, 4]])
print(m)
v = np.array([2, 5])
print("v =", v)

[[1 2]
 [0 1]
 [2 4]]
v = [2 5]


In [94]:
m @ v

array([12,  5, 24])

### Rules of Broadcasting

Broadcasting in NumPy follows a strict set of rules to determine the interaction between the two arrays:

- Rule 1: If the two arrays differ in their number of dimensions, the shape of the one with fewer dimensions is *padded* with ones on its leading (left) side.
- Rule 2: If the shape of the two arrays does not match in any dimension, the array with shape equal to 1 in that dimension is stretched to match the other shape.
- Rule 3: If in any dimension the sizes disagree and neither is equal to 1, an error is raised.

In [184]:
a = np.arange(3)
a + 5

array([5, 6, 7])

a.shape = (3,)

5.shape = (,) --> (1,) --> (3,)

In [185]:
a = np.arange(3).reshape((3, 1))
b = np.arange(3)
print(a)
print(b)
a + b

[[0]
 [1]
 [2]]
[0 1 2]


array([[0, 1, 2],
       [1, 2, 3],
       [2, 3, 4]])

a.shape = (3, 1)          --> (3, 3)

b.shape = (3,) --> (1, 3) --> (3, 3)

In [186]:
arr = a + b
arr

array([[0, 1, 2],
       [1, 2, 3],
       [2, 3, 4]])

In [187]:
a = np.array(((0, 0, 0), (0, 0, 0)))
b = np.array(((0, 0), (0, 0)))

a, b

(array([[0, 0, 0],
        [0, 0, 0]]),
 array([[0, 0],
        [0, 0]]))

In [188]:
a + b

ValueError: operands could not be broadcast together with shapes (2,3) (2,2) 

#### Broadcasting (Расширение/адаптация размерностей)
Мощный механизм, позволяющий NumPy работать с массивами различной формы при выполнении арифметических операций. Часто у нас есть меньший массив и больший массив, и мы хотим использовать меньший массив несколько раз, чтобы выполнить некоторую операцию над большим массивом

[Наглядный туториал](https://scipy.github.io/old-wiki/pages/EricsBroadcastingDoc)

In [None]:
# прибавление вектора ко всем строкам матрицы

In [95]:
# без broadcasting
x = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9], [10, 11, 12]])
v = np.array([3, 4, 5])
# empty like создает пустую матрицу такого же размера как x
y = np.empty_like(x) # создаем пустую структуру, в нее мы будем складывать ответ

print(x)
print(v)
print(f'y: \n{y}')

for i in range(4):
    y[i, :] = x[i, :] + v

print(y)

[[ 1  2  3]
 [ 4  5  6]
 [ 7  8  9]
 [10 11 12]]
[3 4 5]
y: 
[[-4616131831826001543  4599332596597818911 -4617018063533177863]
 [-4614332767259061305  4609279514422218049 -4626069568062318375]
 [ 4589530340622677446 -4614276722281601182 -4620293453638862296]
 [ 4592657235602114101 -4615509603435743979  4600439593739607528]]
[[ 4  6  8]
 [ 7  9 11]
 [10 12 14]
 [13 15 17]]


`np.tile` повторяет массив v (n,m,...) n раз по 0-ой оси и m раз по 1-ой итд, получается новый массив

In [96]:
v

array([3, 4, 5])

In [97]:
vv = np.tile(v, (4, 1))
vv # получилась матрица такой же размерности как и матрица x

array([[3, 4, 5],
       [3, 4, 5],
       [3, 4, 5],
       [3, 4, 5]])

In [98]:
x

array([[ 1,  2,  3],
       [ 4,  5,  6],
       [ 7,  8,  9],
       [10, 11, 12]])

In [99]:
y = x + vv
print(y)

[[ 4  6  8]
 [ 7  9 11]
 [10 12 14]
 [13 15 17]]


In [100]:
v

array([3, 4, 5])

In [101]:
x + v

array([[ 4,  6,  8],
       [ 7,  9, 11],
       [10, 12, 14],
       [13, 15, 17]])

Бродкастинг двух массивов работает следующим образом:
*   Если массивы не имеют одинаковый ранг (кол-во размерностей), нужно выровнять кол-во размерностей, добавлением дополнительных "единичных" размерностей массиву меньшего ранга
*   Говорят, что два массива *совместимы* в i-ой размерности, если они имеют одинаковый по величине набор значений в этой размерности, или если один из массивов имеет ровно 1 элемент в этом измерении.
*   Массивы **broadcastable**, если они совместимы во всех размерностях.
*   После адаптации каждый массив ведет себя так, как будто он имеет форму, равную поэлементному максимуму форм двух входных массивов.
*   В любом измерении, где один массив имел размер 1, а другой массив имел размер больше 1, первый массив ведет себя так, как если бы он был скопирован "вдоль" этого измерения

Прибавим теперь не по строкам, а по столбцам

In [102]:
v

array([3, 4, 5])

Для этого нужно добавить "дополнительную" размерность 1.

Обратите внимание, что (4,) и (4,1) это разные numpy массивы по форме. Первое интерпретируется как строка матрицы, а второе как столбец. Проведите над этим утверждением пару минут.

In [104]:
np.arange(1, 5)

array([1, 2, 3, 4])

In [103]:
np.arange(1, 5).reshape(4, 1)

array([[1],
       [2],
       [3],
       [4]])

In [105]:
x

array([[ 1,  2,  3],
       [ 4,  5,  6],
       [ 7,  8,  9],
       [10, 11, 12]])

In [106]:
np.arange(1,5).reshape(4,1).shape

(4, 1)

In [107]:
x + np.arange(1,5).reshape(4,1) # у нас происходит сложение по столбцам

array([[ 2,  3,  4],
       [ 6,  7,  8],
       [10, 11, 12],
       [14, 15, 16]])

In [109]:
np.tile(v, (4, 2))

array([[3, 4, 5, 3, 4, 5],
       [3, 4, 5, 3, 4, 5],
       [3, 4, 5, 3, 4, 5],
       [3, 4, 5, 3, 4, 5]])

In [108]:
vv = np.tile(v, (4, 2))
x + vv

ValueError: operands could not be broadcast together with shapes (4,3) (4,6) 

In [110]:
vv = np.tile(v, (4, 2))
vv + x

ValueError: operands could not be broadcast together with shapes (4,6) (4,3) 

## <a id="Полезные функции и методы"><span style="color:green">Полезные функций и методы</span></a>

Все функции описанные в предыдущем разделе можно применять к массивам!

In [111]:
print(a, b, sep='\n')

[[1 2]
 [0 1]]
[[4 1]
 [2 2]]


In [112]:
np.log(b)

array([[1.38629436, 0.        ],
       [0.69314718, 0.69314718]])

In [113]:
np.log(b).shape == b.shape

True

In [114]:
np.sin(a)

array([[0.84147098, 0.90929743],
       [0.        , 0.84147098]])

Кроме математических функций есть также полезные функции для работы с массивами.

In [117]:
np.linspace(1, 50, 50) + 100

array([101., 102., 103., 104., 105., 106., 107., 108., 109., 110., 111.,
       112., 113., 114., 115., 116., 117., 118., 119., 120., 121., 122.,
       123., 124., 125., 126., 127., 128., 129., 130., 131., 132., 133.,
       134., 135., 136., 137., 138., 139., 140., 141., 142., 143., 144.,
       145., 146., 147., 148., 149., 150.])

In [115]:
a = np.random.choice(a=np.linspace(1, 50, 50) + 100, size=10, replace=False)
print(a)

[114. 149. 113. 127. 148. 106. 104. 130. 122. 147.]


- Замена элементов по индексу

In [118]:
np.put(a, ind=[0, 2], v=[-44, -55, -66])
a

array([-44., 131., -55., 149., 108., 116., 146., 118., 122., 140.])

- Выделение элементов по условию

In [119]:
a < 0

array([ True, False,  True, False, False, False, False, False, False,
       False])

In [120]:
np.where(a < 0, -1, a)

array([ -1., 131.,  -1., 149., 108., 116., 146., 118., 122., 140.])

In [None]:
# обязательно к прочтению
np.where?

In [121]:
a[np.where(a < 0)]  # a[array([ True, False,  True, False, False, False, False, False, False, False])]

array([-44., -55.])

- Сортировка

In [122]:
a[a < 0]

array([-44., -55.])

In [123]:
a

array([-44., 131., -55., 149., 108., 116., 146., 118., 122., 140.])

In [124]:
np.sort(a)

array([-55., -44., 108., 116., 118., 122., 131., 140., 146., 149.])

Индексы сортированного массива

In [125]:
np.argsort(a)

array([2, 0, 4, 5, 7, 8, 1, 9, 6, 3])

In [126]:
# создание матрицы для демонстрации примеров
m = np.round(np.random.rand(4, 5) * 10, 3)
print(m)

[[8.18  8.607 0.07  5.107 4.174]
 [2.221 1.199 3.376 9.429 3.232]
 [5.188 7.03  3.636 9.718 9.624]
 [2.518 4.972 3.009 2.848 0.369]]


In [127]:
# сортировка по столбцам
np.sort(m, axis=0)

array([[2.221, 1.199, 0.07 , 2.848, 0.369],
       [2.518, 4.972, 3.009, 5.107, 3.232],
       [5.188, 7.03 , 3.376, 9.429, 4.174],
       [8.18 , 8.607, 3.636, 9.718, 9.624]])

In [128]:
# сортировка по строкам
np.sort(m, axis=1)

array([[0.07 , 4.174, 5.107, 8.18 , 8.607],
       [1.199, 2.221, 3.232, 3.376, 9.429],
       [3.636, 5.188, 7.03 , 9.624, 9.718],
       [0.369, 2.518, 2.848, 3.009, 4.972]])

<span style="color:blue">Отсортируйте все столбцы по первому столбцу:</span>

In [129]:
np.random.seed(42)
a = np.random.randint(0, 10, (5, 3))
print(a)
print()
print(a[a[:, 1].argsort()])

[[6 3 7]
 [4 6 9]
 [2 6 7]
 [4 3 7]
 [7 2 5]]

[[7 2 5]
 [6 3 7]
 [4 3 7]
 [4 6 9]
 [2 6 7]]


In [130]:
a[:, 1].argsort()

array([4, 0, 3, 1, 2])

In [131]:
print(a[np.array([4, 0, 3, 1, 2])])

[[7 2 5]
 [6 3 7]
 [4 3 7]
 [4 6 9]
 [2 6 7]]


- **newaxis**

Добавление нового измерения

In [132]:
a = np.linspace(1, 10, 10)
print(a)
print(a.shape)

[ 1.  2.  3.  4.  5.  6.  7.  8.  9. 10.]
(10,)


In [133]:
print(a[:, np.newaxis])
print("New shape ", a[:, np.newaxis].shape)

[[ 1.]
 [ 2.]
 [ 3.]
 [ 4.]
 [ 5.]
 [ 6.]
 [ 7.]
 [ 8.]
 [ 9.]
 [10.]]
New shape  (10, 1)


In [134]:
print(a[np.newaxis, :])
print("New shape ", a[np.newaxis, :].shape)

[[ 1.  2.  3.  4.  5.  6.  7.  8.  9. 10.]]
New shape  (1, 10)


In [135]:
m = np.random.randint(0, 10, (5, 10))
m

array([[4, 1, 7, 5, 1, 4, 0, 9, 5, 8],
       [0, 9, 2, 6, 3, 8, 2, 4, 2, 6],
       [4, 8, 6, 1, 3, 8, 1, 9, 8, 9],
       [4, 1, 3, 6, 7, 2, 0, 3, 1, 7],
       [3, 1, 5, 5, 9, 3, 5, 1, 9, 1]])

In [136]:
m @ a

array([273., 235., 346., 189., 237.])

In [137]:
b = a[:, np.newaxis]

In [138]:
m @ b

array([[273.],
       [235.],
       [346.],
       [189.],
       [237.]])

In [139]:
m @ a[:, np.newaxis]

array([[273.],
       [235.],
       [346.],
       [189.],
       [237.]])

In [140]:
a

array([ 1.,  2.,  3.,  4.,  5.,  6.,  7.,  8.,  9., 10.])

In [148]:
m = a.reshape((5, 2, 1, 1))
print(m)
print(m.shape)
print('------------------------')
print(m[..., np.newaxis, np.newaxis].shape)  # print(m[*m.shape, np.newaxis, np.newaxis].shape)
print('------------------------')
# print(m[:, np.newaxis, np.newaxis])
print("New shape ", m[:, np.newaxis, np.newaxis].shape)

[[[[ 1.]]

  [[ 2.]]]


 [[[ 3.]]

  [[ 4.]]]


 [[[ 5.]]

  [[ 6.]]]


 [[[ 7.]]

  [[ 8.]]]


 [[[ 9.]]

  [[10.]]]]
(5, 2, 1, 1)
------------------------
(5, 2, 1, 1, 1, 1)
------------------------
New shape  (5, 1, 1, 2, 1, 1)


In [145]:
m[:, None, None].shape

(5, 1, 1, 2, 1, 1)

- **any all**

`Any` возвращает True, если хотя бы один элемент `True`   
`All` возвращает True, если все элементы `True`

In [149]:
any([True, True, False, True, False, False, False])

True

In [150]:
all([True, True, False, True, False, False, False])

False

In [151]:
np.array([1, 1, 0, 2]) == np.array([1, 1, 0, 2])

array([ True,  True,  True,  True])

In [152]:
# сравнение векторов
all(np.array([1, 1, 0, 2]) == np.array([1, 1, 0, 2]))

True

In [153]:
all(np.array([1, 1, 0, 0]) == np.array([1, 1, 0, 2]))

False

In [154]:
any(np.array([1, 1, 0, 0]) == np.array([1, 1, 0, 2]))

True

- Методы all и any

In [155]:
np.array([1, 1, 0, 8, 1, 5, 1, 1]) == np.array([1, 1, 3, 2, 1, 5, 1, 1])

array([ True,  True, False, False,  True,  True,  True,  True])

In [156]:
a = (np.array([1, 1, 0, 8, 1, 5, 1, 1]) == np.array([1, 1, 3, 2, 1, 5, 1, 1])).reshape((2, 4))
print(a)

[[ True  True False False]
 [ True  True  True  True]]


In [157]:
# any по строкам
a.any(axis=1)

array([ True,  True])

In [158]:
# any по столбцам
a.any(axis=0)

array([ True,  True,  True,  True])

In [159]:
# По строкам и столбцам
a.all((0, 1)) # берем элементы по осям исходной подматрицы с индексами 0 и 1

False

In [None]:
a.all?

- diff   
out[n] = a[n+1] - a[n]

In [160]:
a = np.array([1, 2, 4, 7, 0])
print(a)
print(np.diff(a))

[1 2 4 7 0]
[ 1  2  3 -7]


- split (забиение на части)

In [161]:
a = np.arange(10)
print(a)

[0 1 2 3 4 5 6 7 8 9]


In [162]:
np.split(a, [2, 7])  # разбивает по индексам 2 и 7

[array([0, 1]), array([2, 3, 4, 5, 6]), array([7, 8, 9])]

## <a id="Вычисление статистик"><span style="color:green">Вычисление статистик</span></a>

In [163]:
a = np.random.randint(-10, 70, (5, 4))
print(a)

[[63 51  3 37]
 [ 4 61 67 51]
 [29 69 42 13]
 [15 49 30 18]
 [ 4 34 54 60]]


- среднее

In [164]:
a.mean()

37.7

In [165]:
# среднее по столбцам
a.mean(axis=0)

array([23. , 52.8, 39.2, 35.8])

In [166]:
# среднее по строкам
a.mean(axis=1)

array([38.5 , 45.75, 38.25, 28.  , 38.  ])

- медиана

In [167]:
print(np.median(a))
print(np.median(a, axis=0))
print(np.median(a, axis=1))

39.5
[15. 51. 42. 37.]
[44.  56.  35.5 24.  44. ]


- максимум и минимум

In [168]:
print(a)

[[63 51  3 37]
 [ 4 61 67 51]
 [29 69 42 13]
 [15 49 30 18]
 [ 4 34 54 60]]


In [170]:
print(a.max())              # максимальный элемент
print(a.max(axis=0))        # максимумы по столбцам
print(a.argmax(axis=0))     # индексы строк максимумов по столбцам
print(a.max(axis=1))        # максимумы по строкам
print(a.argmax(axis=1))     # индексы столбцов максимумов по строкам

69
[63 69 67 60]
[0 2 1 4]
[63 67 69 49 60]
[0 2 1 1 3]


- счетчик

In [171]:
np.bincount(np.arange(5))
# np.arange(5) == array([0, 1, 2, 3, 4])
# [0, 1, 2, 3, 4]

array([1, 1, 1, 1, 1])

In [172]:
np.bincount(np.array([0, 1, 1, 3, 2, 1, 7]))
# [0, 1, 2, 3, 4, 5, 6, 7]

array([1, 3, 1, 1, 0, 0, 0, 1])

Как это получилось? Получили массив соответсвующий диапазону от 0 до max. И посчитали кол-во попаданий в 0, 1, 2, ... max.

In [173]:
# с помощью аргумента weights можно посчитать сумму части эелемента массива
sub_sums = np.bincount(np.array([2, 0, 2, 1, 0, 0, 2, 2, 0, 1]), 
                        weights=[4, 4, 2, 3, 5, 1, 6, 1, 7, 5])
# [0, 1, 2]
# 0 -> 4 + 5 + 1 + 7 = 17
# 1 -> 3 + 5 = 8
# 2 -> 4 + 2 + 6 + 1 = 13
print(sub_sums)

[17.  8. 13.]


<span style="color:blue">Как найти наиболее частое значение в массиве?</span>

In [174]:
z = np.random.randint(0, 10, 50)
print(z)
print(np.bincount(z).argmax())

[8 7 0 7 7 2 0 7 2 2 0 4 9 6 9 8 6 8 7 1 0 6 6 7 4 2 7 5 2 0 2 4 2 0 4 9 6
 6 8 9 9 2 6 0 3 3 4 6 6 3]
6


In [175]:
np.bincount(z)

array([7, 1, 8, 3, 5, 1, 9, 7, 4, 5])

In [None]:
# Задачи

Создайте массив из 100 элементов (от 1 до 100), переформатируйте в формат (10 * 10), сделайте слайсинг с шагом 2 по каждой оси.

In [176]:
z = np.random.randint(0, 100, 100) 
z

array([12, 31, 70, 58, 85, 27, 65, 41, 44, 61, 56,  5, 27, 27, 43, 83, 29,
       61, 74, 91, 88, 61, 96,  0, 26, 61, 76,  2, 69, 71, 26,  8, 61, 36,
       96, 50, 43, 23, 78, 58, 31, 95, 87, 51, 61, 57, 51, 11, 38,  1,  2,
       55, 80, 58,  1,  1, 91, 53, 86, 95, 96,  0, 18,  1, 52, 43, 89, 31,
       69, 31, 67, 54, 74, 55, 16, 37, 23, 68, 97, 69, 85, 10, 15, 96, 72,
       58, 69, 79, 92,  2, 19, 58, 35, 18, 89, 66, 18, 19, 95, 70])

In [177]:
arr = np.arange(1, 101)
arr

array([  1,   2,   3,   4,   5,   6,   7,   8,   9,  10,  11,  12,  13,
        14,  15,  16,  17,  18,  19,  20,  21,  22,  23,  24,  25,  26,
        27,  28,  29,  30,  31,  32,  33,  34,  35,  36,  37,  38,  39,
        40,  41,  42,  43,  44,  45,  46,  47,  48,  49,  50,  51,  52,
        53,  54,  55,  56,  57,  58,  59,  60,  61,  62,  63,  64,  65,
        66,  67,  68,  69,  70,  71,  72,  73,  74,  75,  76,  77,  78,
        79,  80,  81,  82,  83,  84,  85,  86,  87,  88,  89,  90,  91,
        92,  93,  94,  95,  96,  97,  98,  99, 100])

In [178]:
arr = np.arange(1, 101, 1).reshape((10, 10))
arr

array([[  1,   2,   3,   4,   5,   6,   7,   8,   9,  10],
       [ 11,  12,  13,  14,  15,  16,  17,  18,  19,  20],
       [ 21,  22,  23,  24,  25,  26,  27,  28,  29,  30],
       [ 31,  32,  33,  34,  35,  36,  37,  38,  39,  40],
       [ 41,  42,  43,  44,  45,  46,  47,  48,  49,  50],
       [ 51,  52,  53,  54,  55,  56,  57,  58,  59,  60],
       [ 61,  62,  63,  64,  65,  66,  67,  68,  69,  70],
       [ 71,  72,  73,  74,  75,  76,  77,  78,  79,  80],
       [ 81,  82,  83,  84,  85,  86,  87,  88,  89,  90],
       [ 91,  92,  93,  94,  95,  96,  97,  98,  99, 100]])

In [179]:
arr = np.arange(1, 101, 1).reshape((10, 10))[::2, ::2]
arr

array([[ 1,  3,  5,  7,  9],
       [21, 23, 25, 27, 29],
       [41, 43, 45, 47, 49],
       [61, 63, 65, 67, 69],
       [81, 83, 85, 87, 89]])

In [180]:
shape = (720, 1080, 3)
ndim = 3
size = 720 * 1080 * 3

In [181]:
size

2332800

In [182]:
2332800 * 8

18662400