# numpy - библиотека для векторизации вычислений



для того, чтобы работать с библиотекой, нужно ее импортировать. это делается с помощью команды **import**. так вы получаете доступ ко всем командам библиотеки, но обращаться к ним надо по-особенному: сначала прописывается библиотека, а потом, через точку, сама команда. выглядеть это будет как

numpy.arange()

но бывают библиотеки с длинными названиями, прописывать их целиком перед каждой командой просто лень, поэтому можно непосредственно в строчке импорта библиотеку переназвать - numpy все привыкли называть np


![image.png](https://pics.me.me/1-import-numpy-1-import-numpy-as-np-there-is-31232276.png)

In [1]:
import numpy as np

на самом деле вместо np можно написать что угодно, просто как-то сложилось, что все пишут np. называйте библиотеки как хотите, главное не путайтесь!

![image.png](https://pics.me.me/import-pandas-as-np-import-numpy-as-p-i-dont-22440858.png)

документация: http://www.numpy.org/

## зачем использовать нампай

нампай нужен для быстрой работы со списками. если раньше для того, чтобы попарно сложить элементы двух списков нам приходилось пользоваться циклом, нампай дает возможность сделать это в одну команду!

плюс нампая не сколько быстрая запись, а значительное ускорение процесса вычислений. на прошлом занятии мы смотрели, как важно бывает ускорение программы и как сильно трудятся над этим программисты. попробуем написать одинаковую программу используя списки и используя нампай и посчитаем время:

In [4]:
n = 300
A = np.random.rand(n, n)
B = np.random.rand(n, n)

In [5]:
%%time
C = np.zeros((n, n))
for i in range(n):
    for j in range(n):
        for k in range(n):
            C[i, j] += A[i, k] * B[k, j]

CPU times: user 27.7 s, sys: 17.1 ms, total: 27.7 s
Wall time: 27.8 s


In [6]:
%%time
C = A @ B

CPU times: user 6.93 ms, sys: 0 ns, total: 6.93 ms
Wall time: 9.6 ms


### почему такая разница во времени? дело в том, что:

1. Питон - язык с динамической типизацией. Это значит, что в течение одной программы в одной и той же переменной могут лежать значения разных типов (строчки, списки, числа). В языках со статической типизацией тип переменной определяется еще до тела самой программы, поэтому если мы где-то в переменную, в которую должны класться числа положим строку, программа выдаст ошибку.

In [7]:
a = 1
a = 'i'
a = [1, 2, 'k']

Из-за этого каждый раз когда мы входим в цикл и хотим провести операцию над переменной-итератором, приходится узнавать тип значения, лежащего в итераторе. Одна такая проверка много времени не занимает, но если таких проверок много, это может сильно сказаться на длительности выполнения программы. В массивы numpy можно положить только переменные одного типа, а циклы, стоящие за командами нампая, написаны на C - языке со статической типизацией. Оттого проверок нету и циклы гонятся быстрее.

2. Когда мы идем циклом по списку, итерации цикла идут одна за другой. Нампай параллелизует однотипные вычисления: он может выполнять не одно вычисление, а несколько одновременно. Это тоже сильно сказывается на времени!

3. Списки в питоне - это ссылки на объекты, которые могут находиться далеко друг от друга в памяти. В C (и, соответственно, в нампае), массивы это не ссылки, а непосредственно сами элементы, которые в памяти упакованы очень плотно. Из-за того, что нам не нужно бегать по ссылкам и активно перемещаться по памяти, все происходит быстрее

Проблема нампая в том, что он работает только с массивами из чисел. Такие массивы называются векторами (и они поддерживают векторные операции типа вычисления скалярного произведения)

## работа в numpy

### создание массива numpy

Есть несколько способов создать массив numpy. Можно, например, сделать его из заранее созданного списка:

In [9]:
arr = [1, 2, 3, 4]
numarr = np.array(arr)
type(numarr)

numpy.ndarray

Но иногда оказывается полезным создание специфических массивов, например массивов из нулей или массивов из единиц. 

In [10]:
np.zeros(4)

array([0., 0., 0., 0.])

In [11]:
np.ones(4)

array([1., 1., 1., 1.])

In [16]:
# а это единичная матрица - то есть матрица, где все нолики, но на главной диагонали единицы
np.identity(5)

array([[1., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0.],
       [0., 0., 1., 0., 0.],
       [0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 1.]])

Или сделать массив из последовательно идущих чисел:

In [51]:
np.arange(1, 10, 2) #первый аргумент - начало, второй - конец, третий - шаг. все как в цикле for

array([1, 3, 5, 7, 9])

In [52]:
np.linspace(1, 10, 50) #третий аргумент - сколько у нас должно быть элементов, расположенных на отрезке между первым и вторым аргументом

array([ 1.        ,  1.18367347,  1.36734694,  1.55102041,  1.73469388,
        1.91836735,  2.10204082,  2.28571429,  2.46938776,  2.65306122,
        2.83673469,  3.02040816,  3.20408163,  3.3877551 ,  3.57142857,
        3.75510204,  3.93877551,  4.12244898,  4.30612245,  4.48979592,
        4.67346939,  4.85714286,  5.04081633,  5.2244898 ,  5.40816327,
        5.59183673,  5.7755102 ,  5.95918367,  6.14285714,  6.32653061,
        6.51020408,  6.69387755,  6.87755102,  7.06122449,  7.24489796,
        7.42857143,  7.6122449 ,  7.79591837,  7.97959184,  8.16326531,
        8.34693878,  8.53061224,  8.71428571,  8.89795918,  9.08163265,
        9.26530612,  9.44897959,  9.63265306,  9.81632653, 10.        ])

### многомерные массивы

Массивы в нампае не обязаны быть одномерными, можно делать столько измерений, сколько душа пожелает. Нам скорее не придется использовать что-то больше двумерного. Попробуем создать двумерный массив:

In [14]:
np.zeros((4, 3)) #скобочки тут двойные, а не одинарные, потому что аргумент к  zeros можно подать только один - и этот аргумент в нашем случае кортеж

array([[0., 0., 0.],
       [0., 0., 0.],
       [0., 0., 0.],
       [0., 0., 0.]])

Или перевести одномерный массив в двумерный (а потом снова сделать его одномерным)

In [18]:
vec = np.ones(6)
vec

array([1., 1., 1., 1., 1., 1.])

In [21]:
vec = vec.reshape(2, 3)
vec

array([[1., 1., 1.],
       [1., 1., 1.]])

In [28]:
vec.reshape(1, 6)

# или
#vec.flatten()

array([[1., 1., 1., 1., 1., 1.]])

Когда мы переводили наш двумерный массив в одномерный, нам было важно знать число элементов массива. Иногда мы заранее не знаем их, поэтому для поиска есть специальная команда **shape**. Она выдает кортеж, в котором на первом месте показано количество строк, а на втором количество столбцов

In [30]:
vec.shape

(2, 3)

**ndim** - команда для того, чтобы узнать сколько измерений есть в массиве

In [31]:
vec.ndim

2

### операции с векторами

Естественно, с векторами можно проводить различные операции. Можно проводить их над всем вектором целиком, а можно выполнять их вдоль определенной оси, скажем, суммировать только строки или только столбцы

In [33]:
vec

array([[1., 1., 1.],
       [1., 1., 1.]])

In [32]:
np.sum(vec)

6.0

In [36]:
np.sum(vec, axis=0) #суммируем по столбцам, результат - не три столбца, а одномерный массив!

array([2., 2., 2.])

In [37]:
np.sum(vec, axis=1)

array([3., 3.])

In [39]:
vec.sum() #так типа тоже можно

6.0

Вообще зачастую специальные функции типа суммирования нам не нужны, нужно просто числа складывать и вычитать. Это тоже поддерживается в простой форме:

In [41]:
vec + 1

array([[2., 2., 2.],
       [2., 2., 2.]])

In [44]:
vec * 5

array([[5., 5., 5.],
       [5., 5., 5.]])

In [43]:
vec ** 2 #возведение в квадрат

array([[1., 1., 1.],
       [1., 1., 1.]])

In [None]:
vec + vec ** 2

In [None]:
'''
cинус - его в стандартном питоне нет, поэтому приходится использовать команду нампая. 
для того, чтобы синус числа взять приходится библиотеку math импортировать
'''
np.sin(vec)

In [40]:
vec + vec

array([[2., 2., 2.],
       [2., 2., 2.]])

### срезы и индексирование

Как и со списков, с массивов нампая можно брать срезы и элементы по индексу!

In [63]:
vec = np.arange(1, 13).reshape((3, 4))
vec

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [64]:
vec[:, 1] #берем второй столбец

array([ 2,  6, 10])

In [65]:
vec[1, :] #берем вторую строку

array([5, 6, 7, 8])

In [76]:
vec[0:2, 2] #отбираем с 0 по 3(не включительно) строчки, выбираем там 3 элемент

array([3, 7])

In [78]:
vec[:, ::2] #выбираем все строчки, в этих строчках берем только нечетные столбцы

array([[ 1,  3],
       [ 5,  7],
       [ 9, 11]])

In [79]:
vec[vec % 2 == 0] #оставляем только четные элементы массива

array([ 2,  4,  6,  8, 10, 12])

#### условия с масками :):

Про последний пример стоит сказать подробнее, он важный! Штука, которой мы срез брали называется маска. Давайте разберемся, как она работает.

Если мы напишем условие, которое в нормальном случае написали бы в if просто как отдельно стоящий кусок программы, мы получим булево число - True или False.

In [81]:
5 == 0

False

In [82]:
5!= 0

True

Это значение можно занести в отдельную переменную и подставить ее в if)

In [85]:
a = (5>0)
print(a)
if a:
  print('ежи дурак')

True
ежи дурак


Если же у нас в переменной лежит много чисел (читать как: массив), то условие будет проверяться для всех элементов массива. И результат проверки будет лежать в массиве того же размера, только там не наши числа будут, а True и False

In [86]:
vec % 2 == 0

array([[False,  True, False,  True],
       [False,  True, False,  True],
       [False,  True, False,  True]])

Таким массивом из True и False можно брать срезы: если элементу массива соответствует True в таблице результата проверки, то элемент остается, если False, то игнорируеся

In [87]:
vec[vec % 2 == 0]

array([ 2,  4,  6,  8, 10, 12])

По маске можно не только срезы брать, но и менять значения массива! Так, например:

In [106]:
vec[vec % 2 == 0] *=2

In [107]:
vec

array([[ 1,  4,  3,  8],
       [ 5, 12,  7, 16],
       [ 9, 20, 11, 24]])

В полученном массиве все четные числа умножены на два

### штуки прикольные

Вообще в нампае много приколов, оценить их в полной мере можно только хорошо зная линейную алгебру) Некоторые из них нам понадобятся, подходящие всегда можно найти в [документации](http://www.numpy.org/). Не бойтесь гуглить, работая с numpy, наверняка ваши задачи уже были решены за вас на stackoverflow!

Но вот некоторые, которые могут пригодиться в вашей работе:


In [89]:
vec

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [90]:
vec.transpose() #транспонирование массива

array([[ 1,  5,  9],
       [ 2,  6, 10],
       [ 3,  7, 11],
       [ 4,  8, 12]])

In [91]:
vec.T #то же самое ток короче) многие команды дублируются в нампае, привыкайте

array([[ 1,  5,  9],
       [ 2,  6, 10],
       [ 3,  7, 11],
       [ 4,  8, 12]])

In [92]:
np.hstack((vec, np.zeros(vec.shape))) #объединение двух массивов по горизонтали. опять же, аргумент должен быть один, поэтому на вход кортеж

array([[ 1.,  2.,  3.,  4.,  0.,  0.,  0.,  0.],
       [ 5.,  6.,  7.,  8.,  0.,  0.,  0.,  0.],
       [ 9., 10., 11., 12.,  0.,  0.,  0.,  0.]])

In [93]:
np.vstack((vec, np.zeros(vec.shape))) #объединение по вертикали

array([[ 1.,  2.,  3.,  4.],
       [ 5.,  6.,  7.,  8.],
       [ 9., 10., 11., 12.],
       [ 0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.]])

In [99]:
np.random.rand(2, 3) #генерация рандомных чисел! попробуйте перезапустить ячейку

array([[0.51736902, 0.59173022, 0.46016881],
       [0.69640073, 0.60829555, 0.0254781 ]])

In [100]:
np.random.randint(5, 10, size=3) #а тут рандомные целые числа, 3 штуки на отрезке от 5 до 10

array([7, 5, 9])

# задания для самостоятельной работы

1. Развернуть одномерный массив (сделать так, чтобы его элементы шли в обратном порядке).


In [105]:
arr = np.random.randint(1, 100, size=10)
print(arr)

[ 6 21 66 15 22 91 34  2 15 31]


In [None]:
# ваш код

2. Найти максимальный нечетный элемент в массиве.

In [104]:
arr = np.random.randint(1, 100, size=10)
print(arr)

In [None]:
# ваш код

3. Замените все нечетные элементы массива на ваше любимое число.

In [103]:
arr = np.random.randint(1, 100, size=10)
print(arr)

In [None]:
# ваш код

4. Создайте массив первых n нечетных чисел, записанных в порядке убывания. Например, если n=5, то ответом будет array([9, 7, 5, 3, 1]). Функции, которые могут пригодиться при решении: .arange()


In [None]:
n = int(input())

In [None]:
# ваш код

5. Вычислите самое близкое и самое дальнее числа к данному в рассматриваемом массиве чисел. Например, если на вход поступают массив array([0, 1, 2, 3, 4]) и число 1.33, то ответом будет (1, 4). Функции, которые могут пригодиться при решении: .abs(), .argmax(), .argmin()


In [None]:
# ваш код