In [None]:
import numpy as np

# Массивы NumPy

Массивы NumPy бывают двух типов: векторы (vectors) и матрицы (matrices). Векторы - это строго одноразмерные массивы (1D), а матрицы - двумерные массивы (2D). 
Матрица может состоять только из одной строки или только из одного столбца.

Зачем использовать массивы Numpy? Почему нельзя просто использовать список?

Есть много причин, по которым массивы Numpy могут быть лучше "стандартного" списка List в Python.
основные причины:

- Эффективное управление памятью
- Легко расширяется до N-размерных объектов
- Скорость вычислений для массивов numpy
- Возможность применять операции и функции сразу для всех элементов массива (broadcasting)
- Все библиотеки data science и машинного обучения, которые мы будем использовать, построены на основе Numpy

In [2]:
# создание массивов на основе списка Python
my_list = [1,2,3]
my_list

[1, 2, 3]

In [3]:
np.array(my_list)

array([1, 2, 3])

In [4]:
my_matrix = [[1,2,3],[4,5,6],[7,8,9]]
my_matrix

[[1, 2, 3], [4, 5, 6], [7, 8, 9]]

In [5]:
np.array(my_matrix)

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

## Встроенные методы для создания списков

### arange
Возвращает равноудалённые друг от друга значения в заданном интервале

In [6]:
np.arange(0,10)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [7]:
np.arange(0,11,2)

array([ 0,  2,  4,  6,  8, 10])

### zeros и ones - нули и единицы
Создание массивов из нулей или единиц

In [8]:
np.zeros(3)

array([0., 0., 0.])

In [9]:
np.zeros((5,5))

array([[0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.]])

In [10]:
np.ones(3)

array([1., 1., 1.])

In [11]:
np.ones((3,3))

array([[1., 1., 1.],
       [1., 1., 1.],
       [1., 1., 1.]])

### linspace
Возвращает равноудалённые друг от друга числа в заданном интервале

Этот метод очень похож на arange, но если в arange мы указывали шаг между числами, то в linspace мы указываем количество чисел. Это особенно полезно для чисел float.

In [12]:
np.linspace(0,10,3)

array([ 0.,  5., 10.])

In [13]:
np.linspace(0,5,20)

array([0.        , 0.26315789, 0.52631579, 0.78947368, 1.05263158,
       1.31578947, 1.57894737, 1.84210526, 2.10526316, 2.36842105,
       2.63157895, 2.89473684, 3.15789474, 3.42105263, 3.68421053,
       3.94736842, 4.21052632, 4.47368421, 4.73684211, 5.        ])

.linspace() включает верхнюю границу диапазона. 
Поэтому если, например,мы хотим разделить интервал от 0 до 5 на 20 отрезков, то нужно указать количество чисел 21:

In [15]:
np.linspace(0,5,21)

array([0.  , 0.25, 0.5 , 0.75, 1.  , 1.25, 1.5 , 1.75, 2.  , 2.25, 2.5 ,
       2.75, 3.  , 3.25, 3.5 , 3.75, 4.  , 4.25, 4.5 , 4.75, 5.  ])

### eye

Создаёт единичную матрицу - единицы на главной диагонали, остальные нули

In [16]:
np.eye(4)

array([[1., 0., 0., 0.],
       [0., 1., 0., 0.],
       [0., 0., 1., 0.],
       [0., 0., 0., 1.]])

## Случайные числа (Random Numbers)

В Numpy есть много разных способов создавать массивы со случайными числами:

### rand

Создаёт массив указанной размерности, и заполняет его случайными числами с равномерным распределением вероятности на отрезке [0, 1)

In [17]:
np.random.rand(2)

array([0.19890744, 0.7056066 ])

In [18]:
np.random.rand(5,5)

array([[0.10181579, 0.69239072, 0.6630276 , 0.23245994, 0.51353417],
       [0.18964398, 0.18636004, 0.65924629, 0.48548985, 0.72680091],
       [0.9026436 , 0.37011474, 0.67904754, 0.58668387, 0.92127275],
       [0.149376  , 0.1621946 , 0.61461124, 0.26587615, 0.27496911],
       [0.10358653, 0.7635462 , 0.01353765, 0.54354587, 0.43379738]])

### randn

Возвращает сэмпл (или сэмплы) из стандартного нормального распределения [σ = 1] в диапазоне от -1 до +1. В отличие от rand , в котором распределение равномерное, здесь более вероятны значения в середине диапазона (около нуля).

In [19]:
np.random.randn(2)

array([ 0.58414549, -0.56060848])

In [20]:
np.random.randn(5,5)

array([[ 1.15883173,  0.28715293,  0.77566788,  1.72037123, -0.69390086],
       [-0.3900153 , -2.28601311,  1.153304  ,  0.35112744,  0.21019217],
       [-0.27172106, -0.14522004, -1.70278229, -0.28879479,  0.18739576],
       [ 0.85465809,  0.65532457, -2.19824026, -1.61062649,  0.35685207],
       [-0.72109822, -0.49076826, -0.61107713, -0.13032808,  0.91431071]])

### randint

Возвращает случайные целые числа в диапазоне от low (включительно) до high (не включая это значение)

In [21]:
np.random.randint(1,100)

73

In [22]:
np.random.randint(1,100,10)

array([31, 50, 79, 94, 55, 53, 65, 59, 69, 75])

### seed

Эту функцию можно использовать для задания начальной точки генерации случайных чисел, чтобы можно было воспроизвести одни и те же "случайные" числа

In [23]:
np.random.seed(42)
np.random.rand(4)

array([0.37454012, 0.95071431, 0.73199394, 0.59865848])

In [24]:
np.random.seed(42)
np.random.rand(4)

array([0.37454012, 0.95071431, 0.73199394, 0.59865848])

## Атрибуты и методы массивов

Давайте обсудим некоторые полезные атрибуты и методы для массивов:

In [27]:
arr = np.arange(25)
ranarr = np.random.randint(0,50,10)
arr

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19, 20, 21, 22, 23, 24])

In [28]:
ranarr

array([21, 43, 24, 48, 26, 41, 27, 15, 14, 46])

### Reshape

Возвращает массив с теми же данными, но с новой размерностью массива

In [29]:
arr.reshape(5,5)

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19],
       [20, 21, 22, 23, 24]])

### max, min, argmax, argmin

Это полезные методы для поиска максимального и минимального значения, а также их местоположения с помощью argmax и argmin

In [30]:
ranarr

array([21, 43, 24, 48, 26, 41, 27, 15, 14, 46])

In [31]:
ranarr.max()

48

In [32]:
ranarr.argmax()

3

### Shape

Shape - это атрибут массивов (не метод)

In [33]:
# Вектор
arr.shape

(25,)

In [34]:
# два набора скобок
arr.reshape(1,25)

array([[ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15,
        16, 17, 18, 19, 20, 21, 22, 23, 24]])

In [35]:
arr.reshape(1,25).shape

(1, 25)

In [36]:
arr.reshape(25,1)

array([[ 0],
       [ 1],
       [ 2],
       [ 3],
       [ 4],
       [ 5],
       [ 6],
       [ 7],
       [ 8],
       [ 9],
       [10],
       [11],
       [12],
       [13],
       [14],
       [15],
       [16],
       [17],
       [18],
       [19],
       [20],
       [21],
       [22],
       [23],
       [24]])

In [37]:
arr.reshape(25,1).shape

(25, 1)

### dtype

Вы можете также посмотреть тип данных объектов внутри массива

In [38]:
arr.dtype

dtype('int32')

In [39]:
arr2 = np.array([1.2, 3.4, 5.6])
arr2.dtype

dtype('float64')