## Numpy

- библиотека в Питоне для создания многомерных массивов
- есть возсожность применять функции сразу ко многим элементам (режим broadcast, без использования циклов)
- в нее встроены функции и методы линала, статистич распределений, тригонометрии, случ чисел и тд
- структуры numpy очень похожи на обычные списки, но являются намного более эффективными структурами 

## Массивы Numpy

*Способы создания массивов в numpy:*
- конвертация обычных списков
- встроенные функции 
- создание случ данных 

In [3]:
import numpy as np # общепринятый стандарт импорта 
numpy.__version__

'1.18.1'

Shift + Tab -> просмотр docstring у функции 

### np.array()

In [6]:
sp = [1,2,3]
np.array(sp) # при этом исходный список никак не меняется 

array([1, 2, 3])

In [7]:
sp2 = [[1,2,3], [4,5,6], [7,8,9]]
np.array(sp2)

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

### np.arange()

In [8]:
np.arange(0, 10) # без шага 

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [9]:
np.arange(0, 10, 2) # c шагом 
# самое главное, что верхняя граница не входит в интервал  

array([0, 2, 4, 6, 8])

### np.zeros(), np.ones()

In [12]:
# создание массива/матрицы чисто из 0
# по умолчанию тип данных идет float 
np.zeros((3, 5))

array([[0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.]])

In [13]:
# создание массива/матрицы чисто из 1
np.ones((1, 8))

array([[1., 1., 1., 1., 1., 1., 1., 1.]])

### np.linspace()

In [16]:
# создание равноотстоящих друг от друга чисел 
np.linspace(0, 10, 9) # верхняя граница здесь включительна!

array([ 0.  ,  1.25,  2.5 ,  3.75,  5.  ,  6.25,  7.5 ,  8.75, 10.  ])

In [21]:
np.linspace(3, 18, 20)

array([ 3.        ,  3.78947368,  4.57894737,  5.36842105,  6.15789474,
        6.94736842,  7.73684211,  8.52631579,  9.31578947, 10.10526316,
       10.89473684, 11.68421053, 12.47368421, 13.26315789, 14.05263158,
       14.84210526, 15.63157895, 16.42105263, 17.21052632, 18.        ])

### np.eye()

In [22]:
# создание единичной (квадратной) матрицы 
np.eye(5) 

array([[1., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0.],
       [0., 0., 1., 0., 0.],
       [0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 1.]])

### Создание случайно распределенных чисел 

### np.random.rand()

In [24]:
# uniform distribution - равномерное распределение (числа [0, 1) )

# то есть каждое число мж выпасть с одинаковой вероятностью 
np.random.rand()

0.2610191350258819

In [27]:
# создание массива из 5 случ чисел 
# аргументом указывается кол-во чисел 
np.random.rand(5)

array([0.64993524, 0.90645732, 0.33289792, 0.40383189, 0.47816349])

In [28]:
# создание двумерной матрицы из случ чисел 
# здесь числа размерности НЕ в кортеже пишем 
np.random.rand(4, 5)

array([[0.73420236, 0.98274933, 0.96950824, 0.24958645, 0.17942953],
       [0.02484118, 0.40052082, 0.1010713 , 0.28649743, 0.35902401],
       [0.85444141, 0.03611113, 0.28796936, 0.52632194, 0.8687005 ],
       [0.48817004, 0.6684805 , 0.86653347, 0.69812686, 0.98359992]])

### np.random.randn()

In [30]:
# нормальное распределение - распределение Гаусса 
# стандратное нормальное распределение (M = 0, D = 1)
# (standard normal distribution)
np.random.randn(10)

array([-0.15043241,  0.30741068, -0.51149107, -1.25862439, -0.1152625 ,
       -1.57614555,  1.21541209, -0.22027338, -0.38606967, -1.23729967])

In [31]:
# чем ближе числа к 0, тем выше вероятность их получить 
np.random.randn(2, 3)

array([[ 0.64057873,  0.33873021,  2.24091081],
       [-1.18924812, -0.76991397,  0.12761147]])

### np.random.randint()

In [33]:
# верхняя граница не включительна 
np.random.randint(0, 101, 10)

array([21, 41, 64, 67, 51, 40, 99, 58, 10, 76])

In [34]:
# генерация из равномерного распределения 
np.random.randint(0, 101, (3, 7))

array([[41, 61, 76, 89, 27, 60, 69],
       [44, 81, 54, 91, 94, 51, 29],
       [89, 89, 83, 80, 52, 70, 36]])

### Воспроизводимость случайных чисел 

In [39]:
np.random.seed(42) # начальное состояние генератора случ чисел
np.random.rand(4)
# то есть при такой постановке задаче - всегда одни и те же случ числа 

array([0.37454012, 0.95071431, 0.73199394, 0.59865848])

In [41]:
np.random.rand(4)

array([0.60111501, 0.70807258, 0.02058449, 0.96990985])

### Полезные функции при работе с numpy-массивами 

In [44]:
arr = np.arange(0, 25)
arr

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19, 20, 21, 22, 23, 24])

In [46]:
# преобразование массива в матрицу 
# размерность обязательно дж соотв кол-ву чисел (иначе, ValueError)
arr.reshape(5, 5)

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19],
       [20, 21, 22, 23, 24]])

In [48]:
randarr = np.random.randint(0, 101, 10)
randarr

array([88, 48, 90, 58, 41, 91, 59, 79, 14, 61])

In [49]:
randarr.argmax() # позиция (индекс) максимума в массиве 

5

In [50]:
# атрибут dtype указывает - какие числа хранятся в массиве 
randarr.dtype

# тут получаются 32-битные целые числа 

dtype('int32')

In [51]:
arr

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19, 20, 21, 22, 23, 24])

In [52]:
# атрибут показывает размерности объекта 
arr.shape

# в данном случае это просто массив одномерный - поэтому кортеж из 1 эл

(25,)

In [53]:
arr = arr.reshape(5, 5)
arr

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19],
       [20, 21, 22, 23, 24]])

In [54]:
arr.shape

(5, 5)

In [59]:
arr = arr.reshape(1, 25)
arr

array([[ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15,
        16, 17, 18, 19, 20, 21, 22, 23, 24]])

In [58]:
arr.shape 

# в данном случае это двумерная матрица с 1 строкой из 25 элементов 

(1, 25)

## NumPy - индексация и выборки 

In [60]:
import numpy as np

In [61]:
arr = np.arange(0, 11)
arr

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10])

In [62]:
# получение 1 элемента 
arr[8]

8

In [63]:
# срезы такие же как в списках 
arr[1:5]

array([1, 2, 3, 4])

### Операции broadcast 

Это отличительная особенность numpy-списков по сравнению с обычными;

в обычных массивах мы мж менять только по 1 элементу или передать объект, соразмерный размеру заменяемого куска;

в numpy мы 1 элементом мж заменить сразу все.

#### Одномерные массивы 

In [64]:
arr

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10])

In [65]:
# broadcasting - присвоение 1 значения сраз многим 
arr[0:5] = 100
arr

array([100, 100, 100, 100, 100,   5,   6,   7,   8,   9,  10])

In [66]:
arr = np.arange(0, 11)

# slice_of_arr содержит ссылку на исходный массив 
slice_of_arr = arr[0:5]

In [67]:
slice_of_arr[:] = 99
slice_of_arr

array([99, 99, 99, 99, 99])

In [68]:
arr

# любые изменения по ссылку будут приводить к изменениям в исходном массиве 

array([99, 99, 99, 99, 99,  5,  6,  7,  8,  9, 10])

In [70]:
# как не менять исходный объект? - только через копию copy()

arr_copy = arr.copy()
slice2 = arr_copy[0:5]
slice2[1:] = 60
print(slice2)
print(arr)

[99 60 60 60 60]
[99 99 99 99 99  5  6  7  8  9 10]


#### Двумерные массивы 

In [73]:
arr_2d = np.array([[5,10,15], [20,25,30], [35,40,45]])
arr_2d

array([[ 5, 10, 15],
       [20, 25, 30],
       [35, 40, 45]])

In [74]:
arr_2d.shape

(3, 3)

In [76]:
arr_2d[2][2]

45

In [77]:
arr_2d[2,2]

# и та, и другая записи валидны 

45

In [78]:
# получение среза из матрицы 
# сначала надо срез по строкам, потом срез по столбцам 

arr_2d[:2, 1:]

array([[10, 15],
       [25, 30]])

### Conditional selection 

In [80]:
# выбор по условию

arr = np.arange(1, 11)
arr

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10])

In [81]:
# офигеть!
arr > 4

array([False, False, False, False,  True,  True,  True,  True,  True,
        True])

In [82]:
bool_arr = arr > 4
arr[bool_arr]

# это нужно для фильтрации данных (МАГИЯ!)

array([ 5,  6,  7,  8,  9, 10])

In [83]:
arr[arr >= 5]

array([ 5,  6,  7,  8,  9, 10])

## Операции с массивами NumPy

In [84]:
import numpy as np

In [85]:
arr = np.arange(0, 10)
arr

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [86]:
# прибавление произойдет ко всем элементам массива 
arr + 5

array([ 5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

In [87]:
# массивы могут +, -, * и тп только в случае одинаковой размерости 
arr + arr

array([ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18])

In [88]:
# здесь 0/0 выдает nan = not a number + предупреждение 
# хотя в целом операция выполняется 
arr / arr

  """Entry point for launching an IPython kernel.


array([nan,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.])

### Особенности при делениии на 0 (inf, nan)

In [89]:
# в обычном питоне при делении на 0 происходит ошибка 
1 / 0

ZeroDivisionError: division by zero

In [90]:
# здесь при делении 1 на 0 - будет inf (бесконечность)
1 / arr

  """Entry point for launching an IPython kernel.


array([       inf, 1.        , 0.5       , 0.33333333, 0.25      ,
       0.2       , 0.16666667, 0.14285714, 0.125     , 0.11111111])

### Спец функции 

In [91]:
# взятие корня из каждого элемента 
np.sqrt(arr)

array([0.        , 1.        , 1.41421356, 1.73205081, 2.        ,
       2.23606798, 2.44948974, 2.64575131, 2.82842712, 3.        ])

In [92]:
# взятие логарифма от каждого элемента 
np.log(arr)

# здесь тоже возникает предупреждение, связанное с 0

  


array([      -inf, 0.        , 0.69314718, 1.09861229, 1.38629436,
       1.60943791, 1.79175947, 1.94591015, 2.07944154, 2.19722458])

### Статистич функции 

In [94]:
arr

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [93]:
# взятие среднего от всех элементов 
arr.mean()

4.5

In [95]:
# дисперсия 
arr.var()

8.25

In [96]:
# среднекв отклонение 
arr.std()

2.8722813232690143

### Работа с двумерными массивами (матрицами)

In [97]:
mtr = np.arange(0,25).reshape(5, 5)
mtr

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19],
       [20, 21, 22, 23, 24]])

In [98]:
# сумма всех элементов матрицы 
mtr.sum()

300

In [99]:
# сумма по каждой колонке 
mtr.sum(axis = 0) # указываем 0, так как тип строки исчезают 

array([50, 55, 60, 65, 70])

In [100]:
# сумма по каждой строке 
mtr.sum(axis = 1) 

array([ 10,  35,  60,  85, 110])