# NumPy 

NumPy (или Numpy) - Библиотека линейной алгебры для Python. Это очень важная библиотека для анализа данных на Python, так как  почти все библиотеки в экосистеме PyData (анализ данных на Python) полагаются на NumPy как на один из своих основных строительных блоков.

Numpy также невероятно быстра, так как имеет непосредственную привязку к C-библиотекам.

## Использование Numpy

После установки Numpy можно импортировать как библиотеку:

In [1]:
import numpy as np

# Массивы Numpy

Массивы Numpy по существу имеют два вида: векторы и матрицы. Векторы строго одномерные и двумерные матрицы (матрица может иметь только одну строку или один столбец, но элементом матрицы так же может быть массив).

Начнем с того, как создавать массивы NumPy.

## Создание Numpy массива

### 1.2.-From-list

Можно создать массив, непосредственно преобразовав список или список списков

In [2]:
my_list = [1,2,3]
my_list

[1, 2, 3]

In [3]:
np.array(my_list)

array([1, 2, 3])

In [4]:
my_matrix = [[1,2,3],[4,5,6],[7,8,9]]
my_matrix

[[1, 2, 3], [4, 5, 6], [7, 8, 9]]

In [5]:
np.array(my_matrix)

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

### Встроенные методы

Существует множество встроенных способов генерации массивов

#### arange

Возвращает равномерно распределенные значения в пределах заданного интервала.

In [6]:
np.arange(0,10)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [7]:
np.arange(0,11,2)

array([ 0,  2,  4,  6,  8, 10])

#### zeros and ones

Генерирует массив нулей или единиц

In [8]:
np.zeros(3)

array([0., 0., 0.])

In [9]:
np.zeros((5,5))

array([[0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.]])

In [10]:
np.ones(3)

array([1., 1., 1.])

In [11]:
np.ones((3,3))

array([[1., 1., 1.],
       [1., 1., 1.],
       [1., 1., 1.]])

#### linspace
Возвращает равномерно расположенные числа через указанный интервал.

In [12]:
np.linspace(0,10,3)

array([ 0.,  5., 10.])

In [13]:
np.linspace(0,10,50)

array([ 0.        ,  0.20408163,  0.40816327,  0.6122449 ,  0.81632653,
        1.02040816,  1.2244898 ,  1.42857143,  1.63265306,  1.83673469,
        2.04081633,  2.24489796,  2.44897959,  2.65306122,  2.85714286,
        3.06122449,  3.26530612,  3.46938776,  3.67346939,  3.87755102,
        4.08163265,  4.28571429,  4.48979592,  4.69387755,  4.89795918,
        5.10204082,  5.30612245,  5.51020408,  5.71428571,  5.91836735,
        6.12244898,  6.32653061,  6.53061224,  6.73469388,  6.93877551,
        7.14285714,  7.34693878,  7.55102041,  7.75510204,  7.95918367,
        8.16326531,  8.36734694,  8.57142857,  8.7755102 ,  8.97959184,
        9.18367347,  9.3877551 ,  9.59183673,  9.79591837, 10.        ])

#### eye

Создает единичную матрицу

In [14]:
np.eye(4)

array([[1., 0., 0., 0.],
       [0., 1., 0., 0.],
       [0., 0., 1., 0.],
       [0., 0., 0., 1.]])

## Random 

В Numpy также есть множество способов создания случайных чисел:

### rand
Создает массив заданной формы и заполняет его случайной выборкой из равномерного распределения над [0, 1).

In [15]:
np.random.rand(2)

array([0.2842224 , 0.24170706])

In [16]:
np.random.rand(5,5)

array([[0.1605154 , 0.00303074, 0.96337763, 0.08782573, 0.40543914],
       [0.61430972, 0.87637404, 0.51492435, 0.92936585, 0.54006992],
       [0.0266769 , 0.03390636, 0.8977535 , 0.05208434, 0.34126158],
       [0.8375494 , 0.5454795 , 0.48279041, 0.27780823, 0.08096548],
       [0.13696287, 0.69156735, 0.31421235, 0.96480223, 0.05208679]])

### randn

Создает массив заданной формы и заполняет его случайной выборкой из "стандартного нормального" распределения. В отличие от rand, который возвращает равномерное:

In [17]:
np.random.randn(2)

array([1.12380192, 0.80290424])

In [18]:
np.random.randn(5,5)

array([[ 0.70753123, -0.26913163, -0.38953535, -1.50802726, -0.57054978],
       [ 0.34929301,  0.82046114,  0.64293898,  1.05379636,  1.43958148],
       [-0.82154486, -0.10875859, -0.26395267, -0.64692945, -0.17387474],
       [-2.22099703, -0.57845084, -2.20021308,  0.74815409,  0.6616375 ],
       [ 0.9053311 , -0.41407416,  0.5030481 , -1.61049178, -0.06984005]])

### randint
Возвращает случайные целые числа в диапазоне от `low` до `high`.

In [19]:
np.random.randint(1,100)

22

In [20]:
np.random.randint(1,100,10)

array([97, 17, 62, 65, 55, 60, 91, 52, 85, 30])

## Поля и методы массивов

In [21]:
arr = np.arange(25)
ranarr = np.random.randint(0,50,10)

In [22]:
arr

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19, 20, 21, 22, 23, 24])

In [23]:
ranarr

array([14, 10, 13,  5, 23, 26, 47, 29, 11, 36])

## Reshape
Изменяет размерность массива.

In [24]:
arr.reshape(5,5)

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19],
       [20, 21, 22, 23, 24]])

### max,min,argmax,argmin

Полезные методы для поиска минимального и максимального значения. Или найти их индексы.

In [25]:
ranarr

array([14, 10, 13,  5, 23, 26, 47, 29, 11, 36])

In [26]:
ranarr.max()

47

In [27]:
ranarr.argmax()

6

In [28]:
ranarr.min()

5

In [29]:
ranarr.argmin()

3

## Shape

Атрибут, который хранит форму (размерность) массива.

In [30]:
# Вектор
arr.shape

(25,)

In [31]:
# Обратите внимание на два набора скобок 
arr.reshape(1,25)

array([[ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15,
        16, 17, 18, 19, 20, 21, 22, 23, 24]])

In [32]:
arr.reshape(1,25).shape

(1, 25)

In [33]:
arr.reshape(25,1)

array([[ 0],
       [ 1],
       [ 2],
       [ 3],
       [ 4],
       [ 5],
       [ 6],
       [ 7],
       [ 8],
       [ 9],
       [10],
       [11],
       [12],
       [13],
       [14],
       [15],
       [16],
       [17],
       [18],
       [19],
       [20],
       [21],
       [22],
       [23],
       [24]])

In [34]:
arr.reshape(25,1).shape

(25, 1)

### dtype

Можно также узнать тип данных объектов массива:

In [35]:
arr.dtype

dtype('int64')

# Индексы и выбор диапазона в Numpy

В этой части рассказывается, как выбрать элементы или группы элементов массива.

In [36]:
import numpy as np

In [37]:
# Создание массива
arr = np.arange(0,11)

In [38]:
# Отображение
arr

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10])

## Индексация и выбор элементов с помощью скобок
Самый простой способ выбрать один иди несколько элементов массива очень похож на работу со списками в python:

In [39]:
# Получить значение по индексу
arr[8]

8

In [40]:
# Получить значения из диапазона индексов (срез)
arr[1:5]

array([1, 2, 3, 4])

In [41]:
# Получить значение в диапазоне
arr[0:5]

array([0, 1, 2, 3, 4])

## Изменение массивов (трансляция)

Массивы Numpy отличаются от обычного списка Python своей способностью к трансляции:

In [42]:
# Установка значений по диапазону индексов
arr[0:5]=100

# Отображение
arr

array([100, 100, 100, 100, 100,   5,   6,   7,   8,   9,  10])

In [43]:
# Сброс массива
arr = np.arange(0,11)

# Отображение
arr

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10])

In [44]:
# Срез массива
slice_of_arr = arr[0:6]

# Отобразить срез
slice_of_arr

array([0, 1, 2, 3, 4, 5])

In [45]:
# Изменить срез
slice_of_arr[:]=99

# Отобразить срез
slice_of_arr

array([99, 99, 99, 99, 99, 99])

Заметьте, что изменения также произошли в оригинальном массиве

In [46]:
arr

array([99, 99, 99, 99, 99, 99,  6,  7,  8,  9, 10])

Данные не копируются, это представление исходного массива. Этот прием помогает избежать проблем с памятью

In [47]:
# Чтобы получить копию, не изменяющую оригинал
arr_copy = arr.copy()

arr_copy

array([99, 99, 99, 99, 99, 99,  6,  7,  8,  9, 10])

## Индексация матриц

Общий формат **arr_2d[строка][столбец]** или **arr_2d[строка, столбец**. Красивее использовать запятую.

In [48]:
arr_2d = np.array(([5,10,15],[20,25,30],[35,40,45]))

# Отображение
arr_2d

array([[ 5, 10, 15],
       [20, 25, 30],
       [35, 40, 45]])

In [49]:
# Индекс строки
arr_2d[1]

array([20, 25, 30])

In [50]:
# Получить конкретный элемент так
arr_2d[1][0]

20

In [51]:
# Или так
arr_2d[1,0]

20

In [52]:
# Срезы двумерного массива
# (2, 2) от верхнего правого угла
arr_2d[:2,1:]

array([[10, 15],
       [25, 30]])

In [53]:
# Нижняя строка
arr_2d[2]

array([35, 40, 45])

In [54]:
# Также нижняя строка
arr_2d[2,:]

array([35, 40, 45])

### Необычная индексация (Fancy Indexing)

Необычная индексация позволяет вам выбирать целые строки или столбцы

In [55]:
# Создание матрицы
arr2d = np.zeros((10,10))

In [56]:
# Длина
arr_length = arr2d.shape[1]

In [57]:
# Заполнение массива

for i in range(arr_length):
    arr2d[i] = i
    
arr2d

array([[0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [1., 1., 1., 1., 1., 1., 1., 1., 1., 1.],
       [2., 2., 2., 2., 2., 2., 2., 2., 2., 2.],
       [3., 3., 3., 3., 3., 3., 3., 3., 3., 3.],
       [4., 4., 4., 4., 4., 4., 4., 4., 4., 4.],
       [5., 5., 5., 5., 5., 5., 5., 5., 5., 5.],
       [6., 6., 6., 6., 6., 6., 6., 6., 6., 6.],
       [7., 7., 7., 7., 7., 7., 7., 7., 7., 7.],
       [8., 8., 8., 8., 8., 8., 8., 8., 8., 8.],
       [9., 9., 9., 9., 9., 9., 9., 9., 9., 9.]])

Необычная индексация позволяет сделать следующее:

In [58]:
arr2d[[2,4,6,8]]

array([[2., 2., 2., 2., 2., 2., 2., 2., 2., 2.],
       [4., 4., 4., 4., 4., 4., 4., 4., 4., 4.],
       [6., 6., 6., 6., 6., 6., 6., 6., 6., 6.],
       [8., 8., 8., 8., 8., 8., 8., 8., 8., 8.]])

In [59]:
# Может быть взято в любом порядке
arr2d[[6,4,2,7]]

array([[6., 6., 6., 6., 6., 6., 6., 6., 6., 6.],
       [4., 4., 4., 4., 4., 4., 4., 4., 4., 4.],
       [2., 2., 2., 2., 2., 2., 2., 2., 2., 2.],
       [7., 7., 7., 7., 7., 7., 7., 7., 7., 7.]])

## Больше информации о двумерной индексации

Работа с двумерными индексами может немного запутать новичка. Для выработки абстрактного представления можно погуглить в картинках NumPy indexing. Например:

<img src= 'http://www.scipy-lectures.org/_images/numpy_indexing.png' width=500/>

## Выбор элементов

Краткий экскурс в использование операторов сравнения для выбора элементов через квадратные скобки

In [60]:
arr = np.arange(1,11)
arr

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10])

In [61]:
arr > 4

array([False, False, False, False,  True,  True,  True,  True,  True,
        True])

In [62]:
bool_arr = arr>4

In [63]:
bool_arr

array([False, False, False, False,  True,  True,  True,  True,  True,
        True])

In [64]:
arr[bool_arr]

array([ 5,  6,  7,  8,  9, 10])

In [65]:
arr[arr>2]

array([ 3,  4,  5,  6,  7,  8,  9, 10])

In [66]:
x = 2
arr[arr>x]

array([ 3,  4,  5,  6,  7,  8,  9, 10])

# Операции в NumPy 

## Арифметические

Можно выполнять арифметические операции между массивами и между массивом и скаляром.

In [67]:
import numpy as np
arr = np.arange(0,10)

In [68]:
arr + arr

array([ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18])

In [69]:
arr * arr

array([ 0,  1,  4,  9, 16, 25, 36, 49, 64, 81])

In [70]:
arr - arr

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0])

In [71]:
# При делении на ноль вылетает предупреждение, а не ошибка
# Результатом деления будет являться nan
arr/arr

  This is separate from the ipykernel package so we can avoid doing imports until


array([nan,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.])

In [72]:
# Тоже предупреждение, но результат бесконечность
1/arr

  


array([       inf, 1.        , 0.5       , 0.33333333, 0.25      ,
       0.2       , 0.16666667, 0.14285714, 0.125     , 0.11111111])

In [73]:
arr**3

array([  0,   1,   8,  27,  64, 125, 216, 343, 512, 729])

## Универсальные функции для работы с массивами

В numpy существует большое количество [универсальных функций для массивов](http://docs.scipy.org/doc/numpy/reference/ufuncs.html), которые по сути являются просто математическими операциями, которые можно использовать для выполнения операции над массивами. Давайте покажем некоторые общеупотребляемые:

In [74]:
# Взятие квадратного корня
np.sqrt(arr)

array([0.        , 1.        , 1.41421356, 1.73205081, 2.        ,
       2.23606798, 2.44948974, 2.64575131, 2.82842712, 3.        ])

In [75]:
# Вычисление экспоненты
np.exp(arr)

array([1.00000000e+00, 2.71828183e+00, 7.38905610e+00, 2.00855369e+01,
       5.45981500e+01, 1.48413159e+02, 4.03428793e+02, 1.09663316e+03,
       2.98095799e+03, 8.10308393e+03])

In [76]:
np.max(arr) # Так же как arr.max()

9

In [77]:
np.sin(arr)

array([ 0.        ,  0.84147098,  0.90929743,  0.14112001, -0.7568025 ,
       -0.95892427, -0.2794155 ,  0.6569866 ,  0.98935825,  0.41211849])

In [78]:
np.log(arr)

  """Entry point for launching an IPython kernel.


array([      -inf, 0.        , 0.69314718, 1.09861229, 1.38629436,
       1.60943791, 1.79175947, 1.94591015, 2.07944154, 2.19722458])