### NumPy Library

In [None]:
#     1. Создание массивов и доступ к элементам массива
#     2. Работа с векторами, скалярное произведение
#     3. Работа с матрицами, определитель и ранг
#     4. Генерирование массивов с заданными свойстами
#     5. Массивы случайных чисел
#     6. Изменение размеров массива
#     7. Соединение массивов
#     8. Сортировка и перемешивание массивов
#     9. Математические операции над массивами
#     10. Статистические функции
#     11. Запись и чтение массивов

In [1]:
# NumPy - Python library used for working with arrays
# (the array is faster in case of access to an element O(1), while List is faster in case of adding/deleting an elemnt from the 
#  collection)

#Библиотека написана не только на Python, но и на языке C, который является более низкоуровневым и работает значительно быстрее,
#поэтому расчёты в numpy производятся во много раз быстрее, чем если бы мы использовали для этого стандартные структуры данных.

# Установить библиотеку numpy можно следующим образом:

# Если вы используете Python в составе дистрибутива Anaconda, то достаточно в командной строке ввести:
# conda install numpy

# Если вы используете Python отдельно, то же самое можно сделать с помощью пакетного менеджера pip:
# pip install numpy

### Работа с массивами

In [2]:
#Создание numpy массива
import numpy as np
a = np.array([1, 2, 3])
print(type(a))

#ndarray - n -dimensional array

<class 'numpy.ndarray'>


In [5]:
b = np.array((1, 2, 3))
print(type(b))

<class 'numpy.ndarray'>


In [7]:
a = np.array([1, 2, 3.6], dtype=str)
print(a[1:3])

['2' '3.6']


In [14]:
#Двумерный массив - это массив, каждый элемент из которого - это снова массив.

A = np.array([[1, 2, 3, 1], 
              [4, 5, 6, 4], 
              [7, 8, 9, 7]])

print(f"Количество элементов массива A: {A.size}. \nРазмерность массива A: {A.shape}")

# Атрибут shape - это всегда кортеж, размер которого равен размерности массива. Каждый элемент этого кортежа - это размер
# в каждом измерении.

количество элементов массива A: 12. 
Размерность массива A: (3, 4)


In [15]:
#Доступ к элементам двумерного массива
A[0, 0]

1

In [16]:
A[1:, :3]

array([[4, 5, 6],
       [7, 8, 9]])

In [17]:
#!!!В случае срезов для numpy-массивов важно отметить, что, записывая срез numpy-массива, мы ничего нового не создаём, мы лишь
#получаем представление (view) - ссылку на какие-то отдельные элементы оригинального массива. Это означает, что если мы
#"создали" срез из numpy-массива, а затем поменяли в нём что-то - эти изменения коснутся и оригинального массива.
B = A[0:, 1]
B

array([2, 5, 8])

In [19]:
B[0] = 1
A

array([[1, 1, 3, 1],
       [4, 5, 6, 4],
       [7, 8, 9, 7]])

In [21]:
#Если мы хотим всего этого избежать и создать действительно новый массив, нужно использовать метод copy:
C = A[1:3, 2:4].copy()
C

array([[6, 4],
       [9, 7]])

### Работа с векторами

In [23]:
a = np.array([0, 1, 2, 3, 4])
b = np.array([5, 6, 7, 8, 9])

In [24]:
c = np.add(a, b)
c

array([ 5,  7,  9, 11, 13])

In [25]:
d = np.subtract(a, b)
d

array([-5, -5, -5, -5, -5])

In [28]:
#Умножение на скаляр. При умножении на скаляр, каждая координата вектора умножается на этот скаляр.
#с помощью функции
np.dot(a, 3)

array([ 0,  3,  6,  9, 12])

In [29]:
#с помощью функции
p.multiply(a, 3)

array([ 0,  3,  6,  9, 12])

In [31]:
#с помощью метода
a.dot(3)

array([ 0,  3,  6,  9, 12])

In [32]:
#Cкалярное произведение векторов a и b. Чтобы вычислить скалярное произведение двух векторов, нужно попарно перемножить их
#координаты (первую с первой, вторую со второй и т.д.), а затем сложить результаты.
sp = a.dot(b)
sp

80

### Работа с матрицами

In [33]:
A = np.array([[0, 1],
              [2, 3],
              [4, 5]])

B = np.array([[6, 7],
              [8, 9],
              [10, 11]])

In [34]:
C = A + B

print(C)

[[ 6  8]
 [10 12]
 [14 16]]


In [35]:
E = A * 3

print(E)

[[ 0  3]
 [ 6  9]
 [12 15]]


In [36]:
#Умножение матриц
#Матрицы  A  и  B  можно умножить друг на друга, если число столбцов первой матрицы равняется числу строк второй матрицы.
#То есть если  A  - матрица размера  n×k , то матрица  B  должна иметь размер  k×m  для некоторого  m .
#В таком случае результатом умножения будет матрица  C  размера  n×m  (т.е. у неё будет строк как у первой матрицы, а столбцов
#- как у второй).

A = np.array([[1, 0, -1],
              [3, 5, -4]])

B = np.array([[1, 2, 3],
              [4, 5, 6],
              [7, 8, 9]])

C = A.dot(B)

print(C)

[[-6 -6 -6]
 [-5 -1  3]]


In [37]:
#Если перемножаемые матрицы являются квадратными, то результат их умножения будет снова квадратной матрицей, причём, того же
#размера. Это означает, что квадратную матрицу можно возводить в степень. В numpy это можно делать с помощью функции
#matrix_power из модуля numpy.linalg:

D = np.linalg.matrix_power(B, 3)

print(D)

[[ 468  576  684]
 [1062 1305 1548]
 [1656 2034 2412]]


In [38]:
# Единичной матрицей называется квадратная матрица, у которого на главной диагонали стоят  1 , а в остальных местах -  0 .
# (Под главной диагональю мы понимаем диагональ матрицы, которая начинается в левом верхнем углу и заканчивается в правом нижнем.
# Единичную матрицу можно задать с помощью функции np.eye

I = np.eye(3)

print(I)

[[1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]]


In [39]:
E = A.dot(I)

print(E)

[[ 1.  0. -1.]
 [ 3.  5. -4.]]


In [41]:
# Пусть дана матрица  A . Транспонированной матрицей называется матрица  A⊤ , полученная "отражением" матрицы  A  относительно
#её главной диагонали. Другими словами, столбцы матрицы  A  становятся строками матрицы  A⊤ , а строки матрицы  A  - столбцами
#матрицы  A⊤ .

#с помощью функции:
np.transpose: A_t = np.transpose(A)
#с помощью метода:
A.transpose: A_t = A.transpose()
#с помощью атрибута A.T:
A_t = A.T

NameError: name 'A_t' is not defined

In [42]:
#Определитель
#Определитель матрицы - это число, которое в каком-то смысле "определяет" её свойства. Например, обратную матрицу можно
#посчитать только для матрицы, определитель которой не равен  0  (по аналогии с тем, что делить можно только на числа,
#не равные  0 ).

#Посчитать определитель можно с помощью функции det из модуля numpy.linalg:
d = np.linalg.det(B)

print(d)

6.66133814775094e-16


In [43]:
#Также с помощью функции matrix_rank из модуля numpy.linalg можно посчитать ранг матрицы. Ранг матрицы - это число линейно
#независимых строк данной матрицы.
r = np.linalg.matrix_rank(B)

print(r)

2


In [44]:
# Если матрица квадратная, то её ранг и определитель связаны следующим образом: определитель матрицы отличен от  0  тогда и
#только тогда, когда все её строки являются линейно независимыми. Это, в свою очередь, означает, что её ранг равен её размеру.
B

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [45]:
np.linalg.matrix_rank(B)

2

In [47]:
round(np.linalg.det(B))

0.0

In [49]:
#Если определитель квадратной матрицы не равен  0 , то мы можем посчитать для неё обратную матрицу. Это матрица, которая при
#умножении на исходную матрицу даёт единичную матрицу:
F = np.array([[7, 4, 5],
              [8, 3, 2],
              [6, 10, 12]])

np.linalg.inv(F)
#Если определитель матрицы  A  равен  d , то определитель обратной матрицы всегда будет равен  1/d .

array([[ 0.18604651,  0.02325581, -0.08139535],
       [-0.97674419,  0.62790698,  0.30232558],
       [ 0.72093023, -0.53488372, -0.12790698]])

### Генерирование массивов с заданными свойствами

In [3]:
a = np.zeros((3, 4))

print(a)

[[0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]]


In [4]:
b = np.ones((3, 4))

print(b)

[[1. 1. 1. 1.]
 [1. 1. 1. 1.]
 [1. 1. 1. 1.]]


In [3]:
# Последовательности чисел можно создавать с помощью функции np.arange. Вот три способа использовать эту функцию:

# 1. Если задать только один аргумент, то вернётся последовательность чисел от  0  до этого аргумента невключительно:
ar1 = np.arange(10)

print(ar1)

[0 1 2 3 4 5 6 7 8 9]


In [6]:
type(ar1)

numpy.ndarray

In [6]:
# 2. Если подать два аргумента, то вернётся последовательность чисел от первого аргумента до второго (включая первый, не включая
#    второй):
ar2 = np.arange(2, 13)

print(ar2)

[ 2  3  4  5  6  7  8  9 10 11 12]


In [7]:
# 3. Если подать три аргумента, то третий аргумент будет обозначать шаг, с которым берутся числа в последовательности:
ar3 = np.arange(2, 13, 2)

print(ar3)

[ 2  4  6  8 10 12]


In [8]:
#Шаг в функции np.arange может быть дробным:
ar4 = np.arange(2, 3, 0.1)

print(ar4)

[2.  2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9]


In [11]:
#Если шаг отрицательный, то последовательность будет возвращена в обратном порядке:
ar5 = np.arange(3, 2, -0.1)

ar5

array([3. , 2.9, 2.8, 2.7, 2.6, 2.5, 2.4, 2.3, 2.2, 2.1])

In [12]:
#Ещё одна полезная функция здесь - это функция np.linspace. Она позволяет вернуть заданное количество значений, равномерно
#расставленных между заданными началом и концом отрезка. Отметим, что здесь и левый, и првый концы отрезка включаются в массив:
c = np.linspace(2, 3, 10)
c

array([2.        , 2.11111111, 2.22222222, 2.33333333, 2.44444444,
       2.55555556, 2.66666667, 2.77777778, 2.88888889, 3.        ])

In [13]:
#Функция np.logspace имеет похожий эффект, отличие лишь в том, что в качестве начала и конца отрезка мы подаём не сами числа,
#а степени числа  10 . Например, в ячейке ниже мы задаём массив, содержащий  4  значения, расставленных равномерно в пределах
#от  100=1  до  103=1000 .

d = np.logspace(0, 3, 4)
d

array([   1.,   10.,  100., 1000.])

### Массивы случайных значений

In [15]:
# Функция sample из модуля numpy.random возвращает массив заданной формы, состоящий из чисел, взятых из равномерного
# распределения на отрезке  [0,1) .
a = np.random.sample((3, 4))
a
#в эту и другие представленные ниже функции можно подавать также не кортеж, а какое-то одно целое число. В этом случае вернётся
#одномерный массив заданного размера. Также в эти функции можно не подавать аргументы вовсе - в этом случае вернётся лишь одно
#число.

array([[0.8630359 , 0.85862402, 0.89264647, 0.83975967],
       [0.12155443, 0.31569418, 0.96012929, 0.43599345],
       [0.0344649 , 0.6219051 , 0.67338072, 0.62782367]])

In [16]:
print("Одно значение: {}".format(np.random.sample()))

print("Три значения: {}".format(np.random.sample(3)))

Одно значение: 0.2934159773025078
Три значения: [0.47963176 0.59066978 0.11788589]


In [9]:
# Функция randn из модуля numpy.random возвращает аналогичный массив, но уже взятый из нормального распределения (со средним
#0  и среднеквадратическим отклонением  1 ):
b = np.random.randn(3, 4)
b

array([[-0.69081836, -1.02949603, -1.19744115, -1.22076223],
       [ 1.42754058,  0.41096657,  0.00244813, -0.55896063],
       [-0.41817494,  1.15703407, -0.33556161, -0.45631976]])

In [18]:
# Функция randint возвращает массив из целых чисел в указанном диапазоне:
c = np.random.randint(0, 100, (3, 4))
c

array([[47, 24, 77, 20],
       [88, 16, 16, 79],
       [46,  1, 12, 49]])

In [20]:
# Функция choice возвращает случайно выбранные элементы из заранее заданного массива:
A = np.arange(-10, 0)

d = np.random.choice(A, (3, 4))
d

array([[ -4,  -6,  -2,  -4],
       [ -5,  -4, -10,  -8],
       [ -3,  -6, -10,  -6]])

### Изменение размеров массива

In [22]:
ar = np.arange(12)
ar

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [23]:
a = ar.reshape(3, 4)
a

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [24]:
b = ar.reshape(3, -1)
b

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [25]:
# Метод ar.reshape не меняет сам массив ar, он лишь возвращает новый. Есть также метод ar.resize, который делает то же самое,
# что и ar.reshape, но не возвращает ничего и меняет исходный массив:
ar.resize(3, 4)
ar

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [26]:
# Обратно, чтобы получить из многомерного массива одномерный, можно воспользоваться методом ar.flatten:
c = ar.flatten()
c

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

### Соединение массивов

In [27]:
a = np.zeros((2, 3))

b = np.ones((2, 3))

# Мы можем соединить эти массивы вертикально (т.е. дописать один под другим). Вот несколько способов это сделать:

# с помощью функции np.vstack: c = np.vstack((a, b)) (получает на вход кортеж из массивов)
# с помощью функции np.concatenate: c = np.concatenate((a, b), axis=0) (тоже получает на вход кортеж, также нужно указать,
# вдоль какой оси производится конкатенация)

c = np.vstack((a, b))
c

array([[0., 0., 0.],
       [0., 0., 0.],
       [1., 1., 1.],
       [1., 1., 1.]])

In [28]:
# Также несколько способов это соединить массивы горизонтально (т.е. дописать один правее другого):

# с помощью функции np.hstack: c = np.hstack((a, b))
# с помощью функции np.concatenate: c = np.concatenate((a, b), axis=1) (производится теперь вдоль оси  1 )

d = np.concatenate((a, b), axis=1)
d

array([[0., 0., 0., 1., 1., 1.],
       [0., 0., 0., 1., 1., 1.]])

### Функции для работы с данными

In [10]:
a = np.random.randint(0, 20, 10)
a

array([13,  0,  5, 11,  3,  5, 15, 14,  1, 16])

In [11]:
a > 10

array([ True, False, False,  True, False, False,  True,  True, False,
        True])

In [30]:
# Допустим, мы хотим выбрать все значения этого массива, которые больше  10 . Вот как это можно сделать:
b = a[a > 10]
b

array([17, 17, 13, 19, 16, 18, 11, 16])

In [31]:
# Условия можно комбинировать, используя логические операторы "и" (обозначается символом  & ), "или" (символ  ∣ ) и оператор
# отрицания "не" (символ  ∼ ). При этом каждое условие необходимо поставить в круглые скобки:

c = a[(a > 0) & (a % 2 == 0)]
c

array([16, 18, 16])

In [32]:
# Такая конструкция в numpy называется булевой индексацией. Разберёмся с ней поподробнее. Что из себя представляет объект a > 0?
print(a > 10)

# Как мы видим, это просто numpy-массив из булевых значений True и False. Когда мы подставляем такой массив в качестве индекса
# массива a, нам возвращаются все элементы, на позиции которых в этом массиве стоит значение True.

# Можно просто создать такой массив вручную и передать его в качестве индекса:

[ True False  True  True  True False  True  True  True  True]


In [34]:
ind = np.array([True, False, True, True, False, False, False, True, True, False])
a[ind]

array([17, 17, 13, 18, 11])

In [35]:
# Другой способ выбрать значения из массива - с помощью функции np.where. Она берёт массив из булевых значений и возвращает
# индексы истинных значений:
ind1 = np.where(a > 10)
ind1

(array([0, 2, 3, 4, 6, 7, 8, 9], dtype=int64),)

In [36]:
#Такой список индексов можно также передать в массив a чтобы получить конкретные значения:
d = a[ind1]
d

array([17, 17, 13, 19, 16, 18, 11, 16])

In [37]:
#То же самое можно сделать и вручную: передать в квадратные скобки массива a какой-нибудь список из индексов:
e = a[[0, 4, 7]]
e

array([17, 19, 18])

In [38]:
# Отметим также, что если массив a является многомерным, то чтобы выбрать таким образом из него значения, нужно указать внутри
# квадратных скобок через запятую столько списков, сколько имеется у массива измерений:
a.resize((5, 2))
a

array([[17,  3],
       [17, 13],
       [19,  5],
       [16, 18],
       [11, 16]])

In [40]:
f = a[[1, 4], :]
f

array([[17, 13],
       [11, 16]])

In [42]:
### Сортировка
a = np.random.randint(0, 6, (3, 4))
a

array([[3, 1, 1, 2],
       [1, 4, 2, 4],
       [1, 0, 4, 1]])

In [43]:
# Допустим, мы хотим отсортировать строки этого массива по второму столбцу. Мы можем сделать это вручную, задав индексы строк в нужном нам
# порядке:
b = a[[1, 2, 0], :]
b

array([[1, 4, 2, 4],
       [1, 0, 4, 1],
       [3, 1, 1, 2]])

In [44]:
# Этот процесс можно автоматизировать с помощью метода a.argsort. Данный метод возвращает массив из индексов массива a в
# порядке их возрастания по заданной оси:
ind = a.argsort(axis=0)
ind

array([[1, 2, 0, 2],
       [2, 0, 1, 0],
       [0, 1, 2, 1]], dtype=int64)

In [47]:
# В каждом столбце этого массива стоят индексы строк массива a, расположенные в том порядке, в котором они бы отсортировали
# данный столбец по возрастанию. Автоматизируем процесс сортировки массива a по второму столбцу. Для этого нужно получить
# второй столбец из массива, полученного с помощью метода a.argsort:
ind1 = a[:, 1].argsort()
ind1

array([2, 0, 1], dtype=int64)

In [48]:
#Итоговая конструкция будет выглядеть так:
c = a[a[:, 1].argsort(), :]
c

array([[1, 0, 4, 1],
       [3, 1, 1, 2],
       [1, 4, 2, 4]])

### Перемешивание

In [53]:
# Иногда оказывается нужно перемешать значения массива. Это можно сделать с помощью функции shuffle из модуля numpy.random.
# Эта функция ничего не возвращает, лишь перемешивает случайным образом элементы данного массива. Отметим, что она перемешивает
# массив только в первом измерении. Другими словами, если массив двумерный, она лишь переставит его строки местами. Содержимое
# самих строк при этом не изменится:
np.random.shuffle(c)
c

array([[3, 1, 1, 2],
       [1, 0, 4, 1],
       [1, 4, 2, 4]])

### Математические операции над массивами

In [56]:
# Некоторые математические операции можно выполнять с массивами целиком. Например, мы уже знаем, что массивы можно умножать на
# число и что массивы одинаковой формы можно складывать.
a = np.arange(0, 6).reshape(2, 3)
a

array([[0, 1, 2],
       [3, 4, 5]])

In [57]:
print("Сумма всех элементов: {}".format(a.sum()))

print('Сумма по столбцам ("вдоль" строк): {}'.format(a.sum(axis=0)))

print('Сумма по строкам ("вдоль" столбцов): {}'.format(a.sum(axis=1)))

Сумма всех элементов: 15
Сумма по столбцам ("вдоль" строк): [3 5 7]
Сумма по строкам ("вдоль" столбцов): [ 3 12]


### Статистические функции

In [58]:
# Вот несколько методов, позволяющих вычислить различные статистики массива a:

# a.min - минимальное значение
# a.max - максимальное значение
# a.mean - среднее значение
# a.std - среднее квадратическое отклонение
# Все эти значения считаются по всему массиву, либо вдоль определённой оси, если задан параметр axis

print("Минимальное значение: {}".format(a.min()))

print("Средние значения строк: {}".format(a.mean(axis=1)))

print("Средние квадратические отклонения столбцов: {}".format(a.mean(axis=0)))

Минимальное значение: 0
Средние значения строк: [1. 4.]
Средние квадратические отклонения столбцов: [1.5 2.5 3.5]


### Запись и чтение массивов из файла

In [59]:
# Массивы numpy можно сохранять в файлы с расширением .npy и читать из таких файлов.

# Для записи массива в файл используется функция np.save:
np.save("a.npy", a)

# Для чтения из файла используется функция np.load:
a = np.load("a.npy")