### Основы Numpy: массивы и векторные вычисления

In [2]:
import numpy as np

my_arr = np.arange(1_000_000)
my_list = list(range(1_000_000))

In [4]:
%timeit my_arr * 2

2.17 ms ± 41.1 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [5]:
%timeit [x * 2 for x in my_list]

99.1 ms ± 2.54 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


## 4.1 Numpy ndarray

In [8]:
data = np.array([[1.5,0,-0.1],[0,-3,6.5]])
data * 10, data + data

(array([[ 15.,   0.,  -1.],
        [  0., -30.,  65.]]),
 array([[ 3. ,  0. , -0.2],
        [ 0. , -6. , 13. ]]))

In [10]:
# dtype, shape
data.shape, data.dtype

((2, 3), dtype('float64'))

### Создание ndarray

In [12]:
data1 = [11,43,52,0,4.5]
arr1 = np.array(data1)
type(data1), type(arr1)
data1, arr1 

([11, 43, 52, 0, 4.5], array([11. , 43. , 52. ,  0. ,  4.5]))

In [22]:
data2 = [[1,2,3,4],[5,6,7,8]]
arr2 = np.array(data2)
arr2 

array([[1, 2, 3, 4],
       [5, 6, 7, 8]])

In [23]:
# ndim
arr1.ndim, arr2.ndim

(1, 2)

функция np.array() сасмостоятельно определяет тип, если не указать самому

In [24]:
arr1.dtype, arr2.dtype

(dtype('float64'), dtype('int32'))

np.zeros, np.ones, np.empty

In [28]:
np.zeros(10)
np.zeros((2,3))
np.empty((3,5))

array([[6.23042070e-307, 7.56587584e-307, 1.37961302e-306,
        6.23053614e-307, 1.69121639e-306],
       [9.34613185e-307, 1.24610383e-306, 1.11259940e-306,
        1.60220393e-306, 8.01097889e-307],
       [1.37961234e-306, 1.78021527e-306, 8.34450230e-308,
        3.91792476e-317, 0.00000000e+000]])

 Функция numpy.arange – вариант встроенной в Python функции range, только 
возвращаемым значением является массив:

In [30]:
np.arange(10)
type(range(10)), type(np.arange(10))

(range, numpy.ndarray)

asarray, ones_like, zeros_like, empty_like, full, eye, identity

In [32]:
# np.eye(n, m=None, k=0)
np.eye(3)
#  То же, что np.eye(n), но только квадратную и без сдвигов.
np.identity(3) 

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

### Типы данных для ndarray

In [35]:
arr1 = np.array([1,2,3], dtype = np.float64)
arr2 = np.array([1,2,3], dtype = np.int32)
arr1.dtype, arr2.dtype

(dtype('float64'), dtype('int32'))

int32 --> float64

In [38]:
arr = np.array([1,2,3,4,5])
float_arr = arr.astype(np.float64)
arr.dtype, float_arr.dtype

(dtype('int32'), dtype('float64'))

float64 --> int32

In [43]:
arr = np.array([3.7,-1.2,-2.6,4.5])
arr.astype(np.int32)

array([ 3, -1, -2,  4])

 Если имеется массив строк, представляющих целые числа, то astype позволит 
преобразовать их в числовую форму:

In [55]:
numeric_strings = np.array(['1.25','-9.6','42'],dtype = np.string_)
numeric_strings.astype(np.float64)

array([ 1.25, -9.6 , 42.  ])

Можно также использовать атрибут dtype другого массива

In [59]:
int_array = np.arange(10)
calibers = np.array([.22,.270,.357,.380,.44,.50], dtype=np.float64)

int_array.astype(calibers.dtype)

array([0., 1., 2., 3., 4., 5., 6., 7., 8., 9.])

!!  При вызове astype всегда создается новый массив (данные копи
руются), даже если новый dtype не отличается от старого

### Арифметические операции с массивами Numpy
Массивы важны, потому что позволяют выразить операции над совокупностя
ми данных без выписывания циклов for. Обычно это называется векториза
цией. Любая арифметическая операция над массивами одинакового размера 
применяется к соответственным элементам

In [62]:
arr = np.array([[1,2,3],[4,5,6]])
arr * arr 
arr - arr

array([[0, 0, 0],
       [0, 0, 0]])

 Арифметические операции, в которых участвует скаляр, применяются 
к каждому элементу массива:

In [65]:
1 / arr
arr ** 2

array([[ 1,  4,  9],
       [16, 25, 36]])

Сравнение массивов одинакового размера дает булев массив

In [66]:
arr2 = np.array([[0,4,1],[7,2,12]])
arr2 > arr

array([[False,  True, False],
       [ True, False,  True]])

 Индексирование массивов NumPy – обширная тема, поскольку подмножество 
массива или его отдельные элементы можно выбрать различными способами. 
С одномерными массивами все просто; на поверхностный взгляд, они ведут 
себя как списки Python

In [72]:
arr = np.arange(10)
arr[5]
arr[5:8]
arr[5:8] = 12
arr

array([ 0,  1,  2,  3,  4, 12, 12, 12,  8,  9])

 Важнейшее отличие от встроенных в Python списков состоит 
в том, что срез массива является представлением исходного мас
сива. Это означает, что данные на самом деле не копируются, 
а любые изменения, внесенные в представление, попадают и в 
исходный массив.

In [77]:
arr_slice = arr[5:8]
# если теперь изменить значения в arr_slice, то изменения отразятся и на исходном массиве arr
arr_slice[1] = 12345
arr

array([    0,     1,     2,     3,     4,    12, 12345,    12,     8,
           9])

Чтобы получить копию, а не представление среза массива, 
нужно выполнить операцию копирования явно, например 
arr[5:8].copy(). Ниже мы увидим, что pandas работает так же.

 Для массивов большей размерности и вариантов тоже больше. В случае дву
мерного массива элемент с заданным индексом является не скаляром, а одно
мерным массивом

In [80]:
arr2d = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
arr2d[2]

array([7, 8, 9])

 К отдельным элементам можно обращаться рекурсивно. Но это слишком 
громоздко, поэтому для выбора одного элемента можно указать список ин
дексов через запятую. Таким образом, следующие две конструкции эквива
лентны

In [85]:
arr2d[0][2]
arr2d[0,2]

3

 Если при работе с многомерным массивом опустить несколько последних 
индексов, то будет возвращен объект ndarray меньшей размерности, содержа
щий данные по указанным при индексировании осям. Так, пусть имеется мас
сив arr3d размерности 2×2×3:

In [89]:
arr3d = np.array([[[1,2,3],[4,5,6]],[[7,8,9],[10,11,12]]])
arr3d

array([[[ 1,  2,  3],
        [ 4,  5,  6]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

Тогда arr3d[0] – массив размерности 2×3

In [90]:
arr3d[0]

array([[1, 2, 3],
       [4, 5, 6]])

### Индексирование и срезы

In [92]:
# arr2d
arr2d[:2]
# можно указать несколько срезов - как несколько индексов
arr2d[:2,1:]

array([[2, 3],
       [5, 6]])

### Транспонирование массивов и перестановка осей

In [7]:
arr = np.arange(15).reshape((3,5))
arr.T

array([[ 0,  5, 10],
       [ 1,  6, 11],
       [ 2,  7, 12],
       [ 3,  8, 13],
       [ 4,  9, 14]])

In [14]:
# Скалярное произведение двух матриц методом np.dot
arr = np.array([[0, 1, 0], [1, 2, -2], [6, 3, 2], [-1, 0, -1], [1, 0, 1]])
np.dot(arr.T,arr)
# другой способ с исп инфиксным оператором @
arr.T @ arr

array([[39, 20, 12],
       [20, 14,  2],
       [12,  2, 10]])

In [21]:
# Транспонирование с помощью swapaxes (также как и метод .T возвращает без копирование данных)
arr.swapaxes(0,1)
# arr.T

array([[ 0,  1,  6, -1,  1],
       [ 1,  2,  3,  0,  0],
       [ 0, -2,  2, -1,  1]])

## 4.2. Генерирование псевдослучайных чисел

 Модуль numpy.random дополняет встроенный модуль random функциями, которые 
генерируют целые массивы случайных чисел с различными распределениями 
вероятности. Например, с помощью функции numpy.random.standard_normal можно 
получить случайный массив 4×4, выбранный из стандартного нормального 
распределения:

In [28]:
samples = np.random.standard_normal(size=(4,4))

 Встроенный в Python модуль random умеет выдавать только по одному слу
чайному числу за одно обращение. Ниже видно, что numpy.random более чем на 
порядок быстрее стандартного модуля при генерации очень больших вы
борок:

In [None]:
from random import normalvariate
N = 1_000_000

%timeit samples = [normalvariate(0,1) for _ in range(N)]

1.23 s ± 41.9 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


In [30]:
%timeit np.random.standard_normal(N)

32.8 ms ± 279 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)


## 4.3. Универсальные функции: быстрые поэлементные операции над массивами

In [55]:
arr = np.arange(10)
# унарные функции
np.sqrt(arr)
np.exp(arr)
# бинарные функции
# конфиг генератор явно
rng = np.random.default_rng(seed=123)
x = rng.standard_normal(8)
y = rng.standard_normal(8)
np.maximum(x,y)

array([-0.31659545, -0.32238912,  1.28792526,  0.19397442,  1.1921661 ,
        0.57710379,  1.00026942,  0.54195222])

In [59]:
arr1 = rng.standard_normal(size=(4,4))
arr2 = rng.standard_normal(size=(4,4))
addition = np.add(arr1,arr2)
addition

array([[ 1.62347258, -3.03369361, -1.18615959,  2.52873505],
       [-1.54891174,  1.08320104,  0.13193636,  0.86115602],
       [ 0.3773149 ,  0.95729752,  1.80598035,  0.05042333],
       [-0.65171561,  0.66197614,  0.21084058, -0.38764018]])

### Сортировка

In [60]:
arr = rng.standard_normal(6)
arr

array([ 0.41072807,  0.99411962,  0.1665067 ,  1.56399972,  0.41030213,
       -0.155813  ])

In [62]:
arr.sort()
arr

array([-0.155813  ,  0.1665067 ,  0.41030213,  0.41072807,  0.99411962,
        1.56399972])

In [65]:
arr = rng.standard_normal(size=(5,3))
arr

array([[ 0.80482429,  0.22033027,  0.5057598 ],
       [-1.4884082 ,  0.19486747,  0.62451078],
       [-0.70612729,  0.4049876 , -0.38082625],
       [ 1.00050675,  1.10841879, -0.53478309],
       [ 1.46292259, -0.1900803 ,  2.06194456]])

In [None]:
# axis=0 сортирует по стобце, а axis=1 по строкам
arr.sort(axis = 0)
arr

array([[-1.4884082 , -0.1900803 , -0.53478309],
       [-0.70612729,  0.19486747, -0.38082625],
       [ 0.80482429,  0.22033027,  0.5057598 ],
       [ 1.00050675,  0.4049876 ,  0.62451078],
       [ 1.46292259,  1.10841879,  2.06194456]])

 Метод верхнего уровня numpy.sort возвращает отсортированную копию 
массива (как встроенная функция sorted), а не сортирует массив на месте. 

In [None]:
arr2 = np.array([5,-10,7,1,0,-3])
sorted_arr2 = np.sort(arr2)
sorted_arr2

array([-10,  -3,   0,   1,   5,   7])

### Устранение дубликатов и другие операции

In [70]:
names = np.array(["Bob", "Will", "Joe", "Bob", "Will", "Joe", "Joe"])
np.unique(names)

array(['Bob', 'Joe', 'Will'], dtype='<U4')