# Numpy

В Python есть встроенные:
    1. списки и словари
    2. числовые объекты (целые числа, числа с плавующей точкой)

Numpy это дополнительный модуль для Python для многомерных массивов и эффективных вычислений над числами.
Эта библиотека ближе к hardware (использует типы из C, которые существенно быстрее чем Python типы), за счёт чего более эффективна при вычислениях.

In [12]:
import numpy as np

## Основные типы данных

В Python есть типы: bool, int, float, complex

В numpy имеются эти типы, а также обёртки над этими типами, которые используют реализацию типов на C, например, int8, int16, int32, int64.

Число означает сколько бит используется для хранения числа.

За счёт того, что используются типы данных из C, numpy получает ускорение операций.

In [None]:
type(np.bool)

In [None]:
np.bool()

np.int - тип из Python

np.int32 и np.int64 - типы из C 32-битный и 64-битный

In [None]:
type(np.int), type(np.int32), type(np.int64)

In [None]:
np.int(), np.int32(), np.int64()

In [None]:
type(np.int()), type(np.int32()), type(np.int64())

В Python есть длинная арифметика, поэтому можно любые числа хранить

In [None]:
print(np.int(1e18)) # обёртка питоновского типа

32-битный int в C хранит числа от −2147483648 до 2147483647 на $10^{18}$ не хватит, чтобы хранить

In [None]:
print(np.int32(1e18))

64-битный int в С хранит числа от -9223372036854775808 до 9223372036854775807 на $10^{18}$ уже хватает

In [None]:
print(np.int64(1e18))

аналогичная градация и для float

float - обёртка питоновского типа
float32 и float64 - обёртки чисел соответствующей битности (в стиле С)

In [None]:
type(np.float), type(np.float32), type(np.float64)

In [None]:
np.float(), np.float32(), np.float64()

In [None]:
type(np.float()), type(np.float32()), type(np.float64())

In [None]:
type(np.sqrt(np.float(2))) # np.sqrt  возвращает максимально близкий тип, для питоновского float это float64

In [None]:
type(np.sqrt(np.float32(2)))

In [None]:
type(np.sqrt(np.float64(2)))

специальные классы для хранения комплексных чисел - по сути это два float-а

In [None]:
type(np.complex), type(np.complex64), type(np.complex128)

In [None]:
np.complex(), np.complex64(), np.complex128()

In [None]:
type(np.complex()), type(np.complex64()), type(np.complex128())

по умолчанию корень из -1 не получится взять

In [None]:
np.sqrt(-1.)

но если указать, что тип данных complex, то всё сработает

In [None]:
np.sqrt(-1 + 0j)

In [None]:
type(np.sqrt(-1 + 0j))

In [None]:
type(np.sqrt(np.complex(-1 + 0j)))

In [None]:
type(np.sqrt(np.complex64(-1 + 0j)))

In [None]:
type(np.sqrt(np.complex128(-1 + 0j)))

### Вывод:

В numpy присутсвуют обёртки всех типов из C, а также перенесены типы из Python

## Основные численные функции

numpy предоставляет широкий спектр математических функций

опишем основные их виды

##### Округления чисел

np.round - математическое округление

np.floor - округление вниз

np.ceil - округление вверх

np.int - округление к нулю

In [None]:
np.round(4.1), np.floor(4.1), np.ceil(4.1), np.int(4.1)

In [None]:
np.round(-4.1), np.floor(-4.1), np.ceil(-4.1), np.int(-4.1)

In [None]:
np.round(4.5), np.floor(4.5), np.ceil(4.5), np.int(4.5)

In [None]:
np.round(-4.5), np.floor(-4.5), np.ceil(-4.5), np.int(-4.5)

In [None]:
np.round(4.7), np.floor(4.7), np.ceil(4.7), np.int(4.7)

In [None]:
np.round(-4.7), np.floor(-4.7), np.ceil(-4.7), np.int(-4.7)

##### Математические операции

Подсчитаем логарифм

In [None]:
np.log(1000.), type(np.log(1000.))

In [None]:
np.log(np.float32(1000.)), type(np.log(np.float32(1000.))) # меньше бит на хранение - меньше точность

In [None]:
np.log(1000.) / np.log(10.), type(np.log(1000.) / np.log(10.))

Если брать значение не из области определения, то исключение не выкидывается, но будет warning  и вернётся inf или nan

In [None]:
np.log(0.)

In [None]:
np.log(-1.)

Функции работают и с комплексными числами

In [None]:
np.log(-1 + 0j)

In [None]:
np.log(1j)

Есть специальные функции для двоичного и десятичного логарифмов

In [None]:
print(np.log10(10))
print(np.log10(100))
print(np.log10(1000))
print(np.log10(1e8))
print(np.log10(1e30))
print(np.log10(1e100))
print(np.log10(1e1000))

у больших int-ов уже не получается взять логарифм, так как np.log2 приводит к сишному типу

In [None]:
print(np.log2(2))
print(np.log2(2 ** 2))
print(np.log2(2 ** 3))
print(np.log2(2 ** 8))
print(np.log2(2 ** 30))
print(np.log2(2 ** 100))
print(np.log2(2 ** 1000))

функции работают с типами С, поэтому может быть переполнение

In [None]:
np.exp(10.), type(np.exp(10.))

In [None]:
np.exp(100.), type(np.exp(100.))

In [None]:
np.exp(1000.), type(np.exp(1000.))

##### Константы

в numpy есть математические константы 

In [None]:
np.pi, type(np.pi)

In [None]:
np.e, type(np.e)

In [None]:
np.exp(np.pi * 1j)

In [None]:
np.exp(np.pi * 1j).astype(np.float64)

##### Ещё примеры переполнения типов данных

Использование чисел определённой битности накладывает ограничения на их максимальные значения

In [None]:
2 ** 60, type(2 ** 60) # питоновское умножение

In [None]:
2 ** 1000, type(2 ** 1000) # питоновское умножение

In [None]:
np.power(2, 60), type(np.power(2, 60))

In [None]:
np.power(np.int64(2), 60), type(np.power(np.int64(2), 60))

In [None]:
np.power(2, 1000), type(np.power(2, 1000))

##### Функция модуль

In [13]:
np.abs(-10000)

10000

In [14]:
np.abs(1j) # возвращает модуль комплексного числа

1.0

In [15]:
np.abs(1 + 1j)

1.4142135623730951

##### Тригонометрические функции

In [16]:
np.cos(np.pi)

-1.0

In [17]:
np.log(np.e)

1.0

In [18]:
np.sin(np.pi / 2)

1.0

In [19]:
np.arccos(0.)

1.5707963267948966

In [20]:
np.rad2deg(1.)

57.29577951308232

In [21]:
np.deg2rad(180.)

3.141592653589793

Более подробно можно посмотреть здесь: https://docs.scipy.org/doc/numpy-1.9.2/reference/routines.math.html

### Вывод:
В numpy реализовано огромное число математических функций

### Чем это лучше модуля math?

In [None]:
import math

In [None]:
%timeit math.exp(10.)
%timeit np.exp(10.)

In [None]:
%timeit math.sqrt(10.)
%timeit np.sqrt(10.)

In [None]:
%timeit math.log(10.)
%timeit np.log(10.)

In [None]:
%timeit math.cos(10.)
%timeit np.cos(10.)

### Вывод:
Арифметические функции из numpy не работают существенно быстрее, чем функции из math, если считаете для одного значения

Если вам нужно вычислить значение некоторой функции из математики, то скорее всего она уже реализована в numpy

### Арифметические функции хороши, но, тем не менее, основным объектом NumPy является однородный многомерный массив

In [None]:
type(np.array([]))

Наиболее важные атрибуты объектов ndarray:

    1. ndarray.ndim - число измерений (чаще их называют "оси") массива.

    2. ndarray.shape - размеры массива, его форма. Это кортеж натуральных чисел, показывающий длину массива по каждой оси. Для матрицы из n строк и m столбов, shape будет (n,m). Число элементов кортежа shape равно ndim.

    3. ndarray.size - количество элементов массива. Очевидно, равно произведению всех элементов атрибута shape.

    4. ndarray.dtype - объект, описывающий тип элементов массива. Можно определить dtype, используя стандартные типы данных Python. Можно хранить и numpy типы, например: bool, int16, int32, int64, float16, float32, float64, complex64

    5. ndarray.itemsize - размер каждого элемента массива в байтах.

    6. ndarray.data - буфер, содержащий фактические элементы массива. Обычно не нужно использовать этот атрибут, так как обращаться к элементам массива проще всего с помощью индексов.

##### Обычные одномерные массивы

In [None]:
arr = np.array([1, 2, 4, 8, 16, 32])

print(arr.ndim)
print(arr.shape)
print(arr.size)
print(arr.dtype)
print(arr.itemsize)
print(arr.data)

In [None]:
arr = np.array([1, 2, 4, 8, 16, 32], dtype=int)

print(arr.ndim)
print(arr.shape)
print(arr.size)
print(arr.dtype)
print(arr.itemsize)
print(arr.data)

In [None]:
arr = np.array([1, 2, 4, 8, 16, 32], dtype=object)

print(arr.ndim)
print(arr.shape)
print(arr.size)
print(arr.dtype)
print(arr.itemsize)
print(arr.data)

In [None]:
arr = np.array([1, 2, 4, 8, 16, 32], dtype=np.int64)

print(arr.ndim)
print(arr.shape)
print(arr.size)
print(arr.dtype)
print(arr.itemsize)
print(arr.data)

In [None]:
arr = np.array([1, 2, 4, 8, 16, 32], dtype=np.complex128)

print(arr.ndim)
print(arr.shape)
print(arr.size)
print(arr.dtype)
print(arr.itemsize)
print(arr.data)

##### Обычные двухмерные массивы

In [None]:
arr = np.array([[1], [2], [4], [8], [16], [32]], dtype=np.complex128)

print(arr.ndim)
print(arr.shape)
print(arr.size)
print(arr.dtype)
print(arr.itemsize)
print(arr.data)

In [None]:
arr = np.array([[1, 0], [2, 0], [4, 0], [8, 0], [16, 0], [32, 0]], dtype=np.complex128)

print(arr.ndim)
print(arr.shape)
print(arr.size)
print(arr.dtype)
print(arr.itemsize)
print(arr.data)

In [None]:
# указываем строчки с разным числом элементов
arr = np.array([[1, 0], [2, 0], [4, 0], [8, 0], [16, 0], [32]], dtype=np.complex128)

print(arr.ndim)
print(arr.shape)
print(arr.size)
print(arr.dtype)
print(arr.itemsize)
print(arr.data)

##### Индексация одномерных массивов

In [None]:
arr = np.array([1, 2, 4, 8, 16, 32], dtype=np.int64)

In [None]:
arr[0], arr[1], arr[4], arr[-1]

In [None]:
arr[0:4]

In [None]:
arr[[0, 3, 5]]

##### Индексация двухмерных массивов

In [None]:
arr = np.array(
    [
        [1, 0, 4], 
        [2, 0, 4], 
        [4, 0, 4], 
        [8, 0, 4], 
        [16, 0, 4], 
        [32, 0, 4]
    ],
    dtype=np.int64
)

In [None]:
print(arr[0])
print(arr[1])
print(arr[4])
print(arr[-1])

In [None]:
arr[0, 0], arr[1, 0], arr[4, 0], arr[-1, 0]

In [None]:
arr[0][0], arr[1][0], arr[4][0], arr[-1][0]

Первый способ быстрее

In [None]:
%timeit arr[0, 0], arr[1, 0], arr[4, 0], arr[-1, 0]

In [None]:
%timeit arr[0][0], arr[1][0], arr[4][0], arr[-1][0]

##### Более сложная индексация

Можем взять строчку или столбец

In [None]:
arr[0, :], arr[0, :].shape

In [None]:
arr[:, 0], arr[:, 0].shape

In [None]:
arr[[1, 3, 5], :], arr[[1, 3, 5], :].shape

In [None]:
arr[[1, 3, 5], 0]

In [None]:
arr[1::2, 0]

In [None]:
arr[[1, 3, 5], :2]

In [None]:
arr[[1, 3, 5], 1:]

In [None]:
arr[[1, 3, 5], [0, 2]]

In [None]:
arr[[1, 3], [0, 2]] # взяли элементы arr[1, 0] и arr[3, 2]

In [None]:
arr[np.ix_([1, 3, 5], [0, 2])]

In [None]:
np.ix_([1, 3, 5], [0, 2])

### Выводы

Картинки взяты с http://www.scipy-lectures.org/intro/numpy/numpy.html

![title](numpy_indexing.png)

![title](numpy_fancy_indexing.png)

##### Операции с массивами

Над массивами можно делать арифметические операции. При этом не нужно обращаться отдельно к каждому элементы, можно выполнять операции с массивами в целом.

In [22]:
a = np.array([1, 2, 4, 8, 16])
b = np.array([1, 3, 9, 27, 81])

In [23]:
a - 1

array([ 0,  1,  3,  7, 15])

In [24]:
a + b

array([ 2,  5, 13, 35, 97])

In [25]:
a * b

array([   1,    6,   36,  216, 1296])

In [26]:
b / a

array([1.    , 1.5   , 2.25  , 3.375 , 5.0625])

In [27]:
b // a

array([1, 1, 2, 3, 5])

In [28]:
np.log2(a)

array([0., 1., 2., 3., 4.])

In [29]:
np.log(a) / np.log(2)

array([0., 1., 2., 3., 4.])

In [30]:
np.log(b) / np.log(3)

array([0., 1., 2., 3., 4.])

##### Преимущество по скорости

In [None]:
a = list(range(10000))
b = list(range(10000))

In [None]:
%%timeit
c = [
    x * y
    for x, y in zip(a, b)
]

In [None]:
a = np.array(a)
b = np.array(b)

In [None]:
%%timeit
c = a * b

In [None]:
%%timeit
c = [
    x * y
    for x, y in zip(a, b)
]

Операции с массивами в 100 раз быстрее, хотя если мы пробуем использовать обычный питоновский код поверх массивов, то получается существенно медленнее

### Выводы:

Для большей производительности лучше использовать арифметические операции над массивами

##### random

В numpy есть аналог модуля random - numpy.random. Используя типизацию из C, он как и свой аналог генерирует случайные данные.

In [31]:
np.random.rand(2, 3, 4) # равномерное от 0 до 1 распределение в заданном shape

array([[[0.8175136 , 0.77078567, 0.87454103, 0.17336117],
        [0.37306559, 0.3334027 , 0.63796893, 0.42849584],
        [0.04700558, 0.51279351, 0.22267211, 0.91020539]],

       [[0.64515575, 0.65825143, 0.90880479, 0.88388794],
        [0.82751777, 0.46026817, 0.67696989, 0.53016121],
        [0.06275625, 0.61376869, 0.14391625, 0.30392825]]])

In [32]:
np.random.rand(2, 3, 4).shape

(2, 3, 4)

In [33]:
np.random.randn(2, 3, 4) # нормальное распределение в заданном shape

array([[[ 0.51807114,  1.21877741,  0.53473039,  1.25560827],
        [ 1.95685262,  0.26716197,  1.09282955, -0.71969846],
        [ 2.2309445 ,  0.74894436, -0.07109792,  0.35245353]],

       [[-1.71500229,  0.3727462 , -0.86423839,  0.95929217],
        [ 1.38904054, -2.07292949, -0.41625269,  1.74899741],
        [ 0.75667197, -0.40825183,  0.16802865,  1.73164801]]])

In [34]:
np.random.bytes(10) # случайные байты

b'\x8ca\xba&\x96\xb7\xbc5Z\xfa'

Можно генерировать и другие распределения, подробности тут:

https://docs.scipy.org/doc/numpy-1.12.0/reference/routines.random.html

#### Ещё один пример эффективных вычислений

В заключение приведём ещё один пример, где использование numpy существенно ускоряет код

В математике определена операция перемножения матриц (двухмерных массивов)

$A \times B = C$

$C_{ij} = \sum_k A_{ik} B_{kj}$

сгенерируем случайные матрицы

In [35]:
A = np.random.randint(1000, size=(200, 100))
B = np.random.randint(1000, size=(100, 300))

умножение на основе numpy

In [36]:
def np_multiply():
    return np.dot(A, B)

In [37]:
%timeit np_multiply()

4.41 ms ± 639 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


если хранить матрицу не как двухмерный массив, а как список списков, то будет дольше работать

In [38]:
A = [list(x) for x in A]
B = [list(x) for x in B]

In [39]:
%timeit np_multiply()

10.1 ms ± 768 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


а это умножение на чистом питоновском коде

In [40]:
def python_multiply():
    res = []
    for i in range(200):
        row = []
        for j in range(300):
            val = 0
            for k in range(100):
                val += A[i][k] * B[k][j]
            row.append(val)
        res.append(row)
    return res

In [41]:
%timeit python_multiply()

2.06 s ± 235 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


Ускорение более чем в 100 раз