# ОСНОВЫ NumPy 


 Почему NumPy?
 - быстрее по памяти
 - быстрее по времени
 - дополнительные математические операции и расчёты

In [1]:
import numpy as np

## Создание многомерных массивов ndarray 

![image.png](attachment:image.png)

In [2]:
list1 = [1,2,3,4,5]  # список Python
list1

[1, 2, 3, 4, 5]

In [3]:
array1 = np.array(list1)  # cоздание объекта ndarray c помощью списка

array1  # хранит данные одного типа

array([1, 2, 3, 4, 5])

In [4]:
type(array1)  # объект ndarray

numpy.ndarray

In [5]:
array2 = np.array([10,20,30,40,50])
array2

array([10, 20, 30, 40, 50])

In [6]:
array_2d = np.array([[1,2,3],[10,20,30],[100,200,300]])  # двумерный массив 
array_2d

array([[  1,   2,   3],
       [ 10,  20,  30],
       [100, 200, 300]])

- shape - размер массива


In [8]:
print(array1.shape)
print(array_2d.shape)

(5,)
(3, 3)


- dtype - тип данных в массиве

In [9]:
print(array_2d.dtype)

int32


- size - общее количество элементов массива

In [10]:
print(array_2d.size)

9


- ndim - количество измерений

In [11]:
print(array_2d.ndim)

2


- функции создания разных массивов (матриц) NumPy:


In [12]:
np.zeros((3,3)) # нулевая матрица

array([[0., 0., 0.],
       [0., 0., 0.],
       [0., 0., 0.]])

In [13]:
np.ones((3,2)) # матрица из единиц

array([[1., 1.],
       [1., 1.],
       [1., 1.]])

In [14]:
np.empty((2,2)) # неинициализированный мусор (когда нужно чем либо заполнить массив для резервирования места)

array([[2.12199579e-314, 8.63652287e-312],
       [2.84581812e-321, 6.95165821e-310]])

In [15]:
np.eye(4) # единичная матрица

array([[1., 0., 0., 0.],
       [0., 1., 0., 0.],
       [0., 0., 1., 0.],
       [0., 0., 0., 1.]])

In [16]:
np.full((3,2),7,float) # cоздать матрицу np.full(shape, fill_value, dtype=None)

array([[7., 7.],
       [7., 7.],
       [7., 7.]])

In [17]:
np.arange(1,10) # создание в диапазоне (аналогично с range, но шаги могут быть float)

array([1, 2, 3, 4, 5, 6, 7, 8, 9])

In [18]:
[i for i in range(1,10)]  # создание списка через range()

[1, 2, 3, 4, 5, 6, 7, 8, 9]

In [19]:
np.arange(1,3.25,0.25)

array([1.  , 1.25, 1.5 , 1.75, 2.  , 2.25, 2.5 , 2.75, 3.  ])

## Типы данных в ndarray

Различные типы данных позволяют эффективнее хранить данные. 

In [21]:
array1 = np.array([1,2,3,127,255], dtype=np.uint8)
print(array1)
array1_new = array1.astype(np.int8)
print(array1_new)

[  1   2   3 127 255]
[  1   2   3 127  -1]


## Операции с массивами NumPy
- не нужны циклы (векторизация)
- поэлементное выполнение операций между равными массивами
- укладывание* - между неравными массивами

In [22]:
array1 = np.array([11,22,33,44,55])
array2 = np.array([10,20,30,40,100])
print(array1)
print(array2)

[11 22 33 44 55]
[ 10  20  30  40 100]


In [23]:
array1 - array2 # вычитание

array([  1,   2,   3,   4, -45])

In [24]:
array1 + array2 # сложение

array([ 21,  42,  63,  84, 155])

In [25]:
array1 / array2 # деление и тд

array([1.1 , 1.1 , 1.1 , 1.1 , 0.55])

In [26]:
array1 ** 2

array([ 121,  484, 1089, 1936, 3025])

In [27]:
array1 * array2 # поэлементное умножение (не произведение матриц!)

array([ 110,  440,  990, 1760, 5500])

Сравнение массисвов выдаёт маску (буллев массив)

In [29]:
array1 > array2

array([ True,  True,  True,  True, False])

## Индексирование и слайсы

In [30]:
arr1 = np.array([[1,2,3],[10,100,1000],[11,22,33]])
arr1

array([[   1,    2,    3],
       [  10,  100, 1000],
       [  11,   22,   33]])

In [31]:
arr1[2] # третья строчка массива 

array([11, 22, 33])

In [32]:
arr1[2][1] # третья строка второй элемент, аналогично arr1[2,1]
arr1[2,1]

22

In [33]:
arr1[0:2] # первые две строки

array([[   1,    2,    3],
       [  10,  100, 1000]])

In [34]:
arr1[: ,2] # третий столбец

array([   3, 1000,   33])

In [35]:
arr1_new = arr1.copy() # срезы являются ПРЕДСТАВЛЕНИЕМ массива, чтобы создать отдельный массив, нужно использовать .copy()
arr1_new[:,1]=0  
print(arr1_new)
print('Старый не изменился, так как явно указали копирование:')
print(arr1)

[[   1    0    3]
 [  10    0 1000]
 [  11    0   33]]
Старый не изменился, так как явно указали копирование:
[[   1    2    3]
 [  10  100 1000]
 [  11   22   33]]


![image.png](attachment:image.png)

- булевые маски и индексирование 

In [37]:
names = np.array([['Alex','Bob','Slavik','Greg','Ivan']])
old = np.array([[14,16,18,19,20]])
iq = np.array([[71,100,127,64,140]])
data1 = np.concatenate((names,old,iq),axis=0)
print(data1)

[['Alex' 'Bob' 'Slavik' 'Greg' 'Ivan']
 ['14' '16' '18' '19' '20']
 ['71' '100' '127' '64' '140']]


In [38]:
bool_mask = old>=18
bool_mask

array([[False, False,  True,  True,  True]])

In [39]:
old[bool_mask]  # отбор значений в массиве по маске 

array([18, 19, 20])

In [40]:
names[bool_mask] # отбор по маске в другом массиве c такой же формой

array(['Slavik', 'Greg', 'Ivan'], dtype='<U6')

In [41]:
data1[:,0] # столбец с Алексом

array(['Alex', '14', '71'], dtype='<U11')

In [42]:
data1[0:,:2] # первый два стобца

array([['Alex', 'Bob'],
       ['14', '16'],
       ['71', '100']], dtype='<U11')

In [43]:
data1[0,:] # первая срока (имена)

array(['Alex', 'Bob', 'Slavik', 'Greg', 'Ivan'], dtype='<U11')

In [44]:
nums = np.array([[[1,1],[2,2],[3,3],[4,4],[5,5]]])
nums

array([[[1, 1],
        [2, 2],
        [3, 3],
        [4, 4],
        [5, 5]]])

In [45]:
data1[0,:][(old[0]>=18) & ~(old[0]==19)] # & (and) ,  | (or) , ~ (not) 

array(['Slavik', 'Ivan'], dtype='<U11')

In [46]:
data1[[2,0],[0,1]]  # прихотливое индексирование (получение нужных строк) в нужном порядке

array(['71', 'Bob'], dtype='<U11')

In [47]:
data1

array([['Alex', 'Bob', 'Slavik', 'Greg', 'Ivan'],
       ['14', '16', '18', '19', '20'],
       ['71', '100', '127', '64', '140']], dtype='<U11')

In [48]:
data1.reshape((5,3))  # изменение формы массива, если это можно сделать

array([['Alex', 'Bob', 'Slavik'],
       ['Greg', 'Ivan', '14'],
       ['16', '18', '19'],
       ['20', '71', '100'],
       ['127', '64', '140']], dtype='<U11')

## Псевдослучайные числа

In [49]:
np.random.randint(1,11, size=(3,2))  # случайное число от 1 до 5, size - формат массива

array([[ 9,  4],
       [ 8,  5],
       [10,  9]])

In [50]:
np.random.standard_normal(5)  

array([-0.61312068,  0.39585067, -0.27208184, -0.25225139,  0.31924544])

![image.png](attachment:image.png)

In [60]:
np.random.binomial(3,0.5,size=1) # число успешных исходов с кол-вом испытаний n и вероятностью успеха p

array([1])

In [73]:
np.mean([k for k in np.random.binomial(10,0.5, size=1000)])

4.983

## Универсальные функции (поэлементные расчёты и операции)

In [74]:
scores = np.array([7, 5, 4, 6, 6, 5, 8, 9,10, 9, 6, 7, 7, 3, 9, 2])
scores

array([ 7,  5,  4,  6,  6,  5,  8,  9, 10,  9,  6,  7,  7,  3,  9,  2])

In [75]:
scores.max() # максимум (min) это атрибут

10

In [76]:
scores.std()  # стандартное отклонение

2.207055447876197

In [77]:
scores.var()  # дисперсия

4.87109375

In [78]:
scores.mean() # среднее (и это атрибут)

6.4375

In [79]:
np.max(scores) # а это функция (максимум)

10

In [80]:
np.square(scores)  # квадраты

array([ 49,  25,  16,  36,  36,  25,  64,  81, 100,  81,  36,  49,  49,
         9,  81,   4])

In [81]:
np.sin(scores) # синусы

array([ 0.6569866 , -0.95892427, -0.7568025 , -0.2794155 , -0.2794155 ,
       -0.95892427,  0.98935825,  0.41211849, -0.54402111,  0.41211849,
       -0.2794155 ,  0.6569866 ,  0.6569866 ,  0.14112001,  0.41211849,
        0.90929743])

![image.png](attachment:image.png)

## Запись логических условий в виде операций с массивами

In [82]:
nums = np.array([12,14,15,17,18,18,20,3])
mask = nums>=18
mask

array([False, False, False, False,  True,  True,  True, False])

In [83]:
new_nums = np.where(mask,'yes','no')  # тернарный оператор в массивах numpy, np.where(mask, если истинно, если ложно)
new_nums

array(['no', 'no', 'no', 'no', 'yes', 'yes', 'yes', 'no'], dtype='<U3')

In [84]:
mask.sum()  # сколько элементов соотсвествует логическому условию

3

In [85]:
(nums==18).sum()  # количество элементов, равных 18

2

In [86]:
mask.any()  # есть ли хотя бы одно True среди всех элементов

True

In [87]:
mask.all() # все ли значений True

False

## Сортировка массивов NumPy

In [88]:
scores

array([ 7,  5,  4,  6,  6,  5,  8,  9, 10,  9,  6,  7,  7,  3,  9,  2])

In [89]:
scores.sort()
scores

array([ 2,  3,  4,  5,  5,  6,  6,  6,  7,  7,  7,  8,  9,  9,  9, 10])

In [100]:
arr_2d = np.random.randint(1,100, size=(3,3))
arr_2d

array([[94, 63, 41],
       [66, 39, 31],
       [ 7, 82, 98]])

In [103]:
arr_2d.sort(axis=0)  # сортировка по столбцам (элементы остаются в том же столбце) axis=1 по строкам
arr_2d


array([[ 7, 31, 39],
       [41, 63, 66],
       [82, 94, 98]])

In [104]:
np.sort(arr_2d,axis=1)  # не сортирует на месте, а возвращает отсортированную копию

array([[ 7, 31, 39],
       [41, 63, 66],
       [82, 94, 98]])

## Множественные операции

In [105]:
scores

array([ 2,  3,  4,  5,  5,  6,  6,  6,  7,  7,  7,  8,  9,  9,  9, 10])

In [106]:
np.unique(scores)  # отсортированный массив уникальных значений

array([ 2,  3,  4,  5,  6,  7,  8,  9, 10])

In [107]:
np.in1d(scores, [1,10]) # проверка, есть ли элементы массивa 1 в массиве 2 (булевая маска)

array([False, False, False, False, False, False, False, False, False,
       False, False, False, False, False, False,  True])

![image.png](attachment:image.png)

## Линейная алгебра

In [108]:
matrix1 = np.random.randint(1,100,size=[3,3])
matrix2 = np.random.randint(1,10,size=(3,3))
print(matrix1, matrix2, sep='\n\n')

[[90 66  3]
 [80 41 71]
 [50 41  6]]

[[4 3 1]
 [2 6 9]
 [2 9 6]]


In [109]:
matrix1+matrix2

array([[94, 69,  4],
       [82, 47, 80],
       [52, 50, 12]])

In [110]:
matrix1.dot(matrix2)  # произведение матриц

array([[ 498,  693,  702],
       [ 544, 1125,  875],
       [ 294,  450,  455]])

In [111]:
np.dot(matrix1,matrix2) # аналогично

array([[ 498,  693,  702],
       [ 544, 1125,  875],
       [ 294,  450,  455]])

In [112]:
matrix1 @ matrix2  # аналогично

array([[ 498,  693,  702],
       [ 544, 1125,  875],
       [ 294,  450,  455]])

In [113]:
matrix1_t = matrix1.T  # транспонирование
print(matrix1)

[[90 66  3]
 [80 41 71]
 [50 41  6]]


In [114]:
print(matrix1_t)

[[90 80 50]
 [66 41 41]
 [ 3 71  6]]


-  numpy.linalg - модуль стандартных матричных алгоритмов 

In [115]:
import numpy.linalg as linal

In [116]:
linal.inv(matrix1)  # обратная матрица



array([[ 0.07945736,  0.00813953, -0.13604651],
       [-0.0915325 , -0.01162791,  0.18336315],
       [-0.03667263,  0.01162791,  0.04740608]])

In [117]:
linal.det(matrix1) # детерминант матрицы

-33539.99999999999

![image.png](attachment:image.png)

##  Файловый ввод-вывод массивов

In [118]:
arr1 = np.array([1,2,3,4,5, 7])
np.save('file_arr',arr1)  # сохранение массива в файл 

In [119]:
arr2 = np.load('file_arr.npy')  # загрузка массива из файла в переменную

In [120]:
arr2 

array([1, 2, 3, 4, 5, 7])

![image.png](attachment:image.png)

## Дополнительно

In [121]:
import numpy as np

In [122]:
my_array = np.arange(1,10) # array([1, 2, 3, 4, 5, 6, 7, 8, 9])

In [123]:
my_array.tolist()  # преобразование массива numpy в список python

[1, 2, 3, 4, 5, 6, 7, 8, 9]

In [124]:
np.linspace(0,1,7)  # создание массива от 0 до 1 (7 чисел) в равных долях

array([0.        , 0.16666667, 0.33333333, 0.5       , 0.66666667,
       0.83333333, 1.        ])

In [125]:
arr = np.arange(10)
arr

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [126]:
np.insert(arr, 2, -20) # вставляем 20 в позицию 2 

array([  0,   1, -20,   2,   3,   4,   5,   6,   7,   8,   9])

In [127]:
np.delete(arr, 2) # удаляем элемент во 2 позиции, с матрицами можно укзывать строки или столбцы 

array([0, 1, 3, 4, 5, 6, 7, 8, 9])

In [128]:
arr2 = np.array([0, 0, 0])
arr = np.concatenate((arr, arr2))
arr

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 0, 0, 0])

In [129]:
np.array_split(arr, 2) #hsplit, vsplit

[array([0, 1, 2, 3, 4, 5, 6]), array([7, 8, 9, 0, 0, 0])]

## Полезные ссылки

https://www.dataquest.io/blog/numpy-cheat-sheet/
    
https://vk.com/doc114954319_556487793?hash=a4aeb3c8f00331ca46&dl=ce3a2e019cd32c83ee
    
https://towardsdatascience.com/numpy-cheat-sheet-4e3858d0ff0e