# Numpy

In [4]:
import numpy as np

## Основные типы данных

- ``bool_``  Boolean (True or False) stored as a byte
- ``int_ ``  	Default integer type (same as C long; normally either int64 or int32)
- ``intc``	Identical to C int (normally int32 or int64)
- ``intp``  	Integer used for indexing (same as C ssize_t; normally either int32 or int64)
- ``int8`` 	Byte (-128 to 127)
- ``int16``	Integer (-32768 to 32767)
- ``int32``	Integer (-2147483648 to 2147483647)
- ``int64``	Integer (-9223372036854775808 to 9223372036854775807)
- ``uint8``	Unsigned integer (0 to 255)
- ``uint16``	Unsigned integer (0 to 65535)
- ``uint32``	Unsigned integer (0 to 4294967295)
- ``uint64``	Unsigned integer (0 to 18446744073709551615)
- ``float_``	Shorthand for float64.
- ``float16``	Half precision float: sign bit, 5 bits exponent, 10 bits mantissa
- ``float32``	Single precision float: sign bit, 8 bits exponent, 23 bits mantissa
- ``float64``	Double precision float: sign bit, 11 bits exponent, 52 bits mantissa
- ``complex_``	Shorthand for complex128.
- ``complex64``	Complex number, represented by two 32-bit floats (real and imaginary components)
- ``complex128``	Complex number, represented by two 64-bit floats (real and imaginary components)

In [8]:
np.int(1e18) # обёртка питоновского типа

1000000000000000000

32-битный int в C хранит числа от −2147483648 до 2147483647 на $10^{18}$ не хватит, чтобы хранить

In [8]:
print(np.int32(1e18))

-1486618624


64-битный int в С хранит числа от -9223372036854775808 до 9223372036854775807 на $10^{18}$ уже хватает

In [9]:
print(np.int64(1e18))

1000000000000000000


аналогичная градация и для float

float - обёртка питоновского типа
float32 и float64 - обёртки чисел соответствующей битности (в стиле С)

In [10]:
type(np.float), type(np.float32), type(np.float64)

(type, type, type)

In [11]:
np.float(), np.float32(), np.float64()

(0.0, 0.0, 0.0)

In [12]:
type(np.float()), type(np.float32()), type(np.float64())

(float, numpy.float32, numpy.float64)

In [13]:
type(np.sqrt(np.float(2))) # np.sqrt  возвращает максимально близкий тип, для питоновского float это float64

numpy.float64

In [14]:
type(np.sqrt(np.float32(2)))

numpy.float32

In [15]:
type(np.sqrt(np.float64(2)))

numpy.float64

специальные классы для хранения комплексных чисел - по сути это два float-а

In [18]:
type(np.complex), type(np.complex64), type(np.complex128)

(type, type, type)

In [19]:
np.complex(), np.complex64(), np.complex128()

(0j, 0j, 0j)

In [21]:
type(np.complex()), type(np.complex64()), type(np.complex128())

(complex, numpy.complex64, numpy.complex128)

по умолчанию корень из -1 не получится взять

In [22]:
np.sqrt(-1.)

  """Entry point for launching an IPython kernel.


nan

но если указать, что тип данных complex, то всё сработает

In [23]:
np.sqrt(-1 + 0j)

1j

In [24]:
type(np.sqrt(-1 + 0j))

numpy.complex128

In [25]:
type(np.sqrt(np.complex(-1 + 0j)))

numpy.complex128

In [26]:
type(np.sqrt(np.complex64(-1 + 0j)))

numpy.complex64

In [27]:
type(np.sqrt(np.complex128(-1 + 0j)))

numpy.complex128

### Вывод:

В numpy присутсвуют обёртки всех типов из C, а также перенесены типы из Python

## Основные численные функции

numpy предоставляет широкий спектр математических функций

опишем основные их виды

##### Округления чисел

np.round - математическое округление

np.floor - округление вниз

np.ceil - округление вверх

np.int - округление к нулю

In [28]:
np.round(4.1), np.floor(4.1), np.ceil(4.1), np.int(4.1)

(4.0, 4.0, 5.0, 4)

In [26]:
np.round(-4.1), np.floor(-4.1), np.ceil(-4.1), np.int(-4.1)

(-4.0, -5.0, -4.0, -4)

In [27]:
np.round(4.5), np.floor(4.5), np.ceil(4.5), np.int(4.5)

(4.0, 4.0, 5.0, 4)

In [28]:
np.round(-4.5), np.floor(-4.5), np.ceil(-4.5), np.int(-4.5)

(-4.0, -5.0, -4.0, -4)

In [29]:
np.round(4.7), np.floor(4.7), np.ceil(4.7), np.int(4.7)

(5.0, 4.0, 5.0, 4)

In [30]:
np.round(-4.7), np.floor(-4.7), np.ceil(-4.7), np.int(-4.7)

(-5.0, -5.0, -4.0, -4)

##### Арифметические операции

Подсчитаем логарифм

In [31]:
np.log(1000.), type(np.log(1000.))

(6.907755278982137, numpy.float64)

In [32]:
np.log(np.float32(1000.)), type(np.log(np.float32(1000.))) # меньше бит на хранение - меньше точность

(6.9077554, numpy.float32)

In [33]:
np.log(1000.) / np.log(10.), type(np.log(1000.) / np.log(10.))

(2.9999999999999996, numpy.float64)

если брать значение не из области определение, то исключения не кинется, но будет warning  и вернётся inf или nan

In [34]:
np.log(0.)

  """Entry point for launching an IPython kernel.


-inf

In [35]:
np.log(-1.)

  """Entry point for launching an IPython kernel.


nan

Функции работают и с комплексными числами

In [30]:
np.log(-1 + 0j)

3.141592653589793j

In [37]:
np.log(1j)

1.5707963267948966j

Есть специальные функции для двоичного и десятичного логарифмов

In [31]:
print(np.log10(10))
print(np.log10(100))
print(np.log10(1000))
print(np.log10(1e8))
print(np.log10(1e30))
print(np.log10(1e100))
print(np.log10(1e1000))

1.0
2.0
3.0
8.0
30.0
100.0
inf


у больших int-ов уже не получается взять логарифм, так как np.log2 приводит к сишному типу

In [32]:
print(np.log2(2))
print(np.log2(2 ** 2))
print(np.log2(2 ** 3))
print(np.log2(2 ** 8))
print(np.log2(2 ** 30))
print(np.log2(2 ** 100))
print(np.log2(2 ** 1000))

1.0
2.0
3.0
8.0
30.0


AttributeError: 'long' object has no attribute 'log2'

функции работают с типами С, поэтому может быть переполнение

In [40]:
np.exp(10.), type(np.exp(10.))

(22026.465794806718, numpy.float64)

In [41]:
np.exp(100.), type(np.exp(100.))

(2.6881171418161356e+43, numpy.float64)

In [42]:
np.exp(1000.), type(np.exp(1000.))

  """Entry point for launching an IPython kernel.


(inf, numpy.float64)

##### Константы

в numpy есть математические константы 

In [43]:
np.pi, type(np.pi)

(3.141592653589793, float)

In [44]:
np.e, type(np.e)

(2.718281828459045, float)

In [45]:
np.exp(np.pi * 1j)

(-1+1.2246467991473532e-16j)

In [46]:
np.exp(np.pi * 1j).astype(np.float64)

  """Entry point for launching an IPython kernel.


-1.0

##### Ещё примеры переполнения типов данных

Использование чисел определённой битности накладывает ограничения на их максимальные значения

In [47]:
2 ** 60, type(2 ** 60) # питоновское умножение

(1152921504606846976, int)

In [48]:
2 ** 1000, type(2 ** 1000) # питоновское умножение

(10715086071862673209484250490600018105614048117055336074437503883703510511249361224931983788156958581275946729175531468251871452856923140435984577574698574803934567774824230985421074605062371141877954182153046474983581941267398767559165543946077062914571196477686542167660429831652624386837205668069376,
 int)

In [33]:
np.power(2, 60), type(np.power(2, 60))

(1152921504606846976, numpy.int64)

In [34]:
np.power(np.int64(2), 60), type(np.power(np.int64(2), 60))

(1152921504606846976, numpy.int64)

In [51]:
np.power(2, 1000), type(np.power(2, 1000))

(0, numpy.int64)

##### Функция модуль

In [52]:
np.abs(-10000)

10000

In [53]:
np.abs(1j) # возвращает модуль комплексного числа

1.0

In [54]:
np.abs(1 + 1j)

1.4142135623730951

##### Тригонометрические функции

In [55]:
np.cos(np.pi)

-1.0

In [56]:
np.log(np.e)

1.0

In [57]:
np.sin(np.pi / 2)

1.0

In [58]:
np.arccos(0.)

1.5707963267948966

In [41]:
np.rad2deg(1.)

57.29577951308232

In [60]:
np.deg2rad(180.)

3.141592653589793

Более подробно можно посмотреть здесь: https://docs.scipy.org/doc/numpy-1.9.2/reference/routines.math.html

### Вывод:
В numpy реализовано огромное число арифметических функций

### Чем это лучше чем модуль math?

In [61]:
import math

In [62]:
%timeit math.exp(10.)
%timeit np.exp(10.)

123 ns ± 1.59 ns per loop (mean ± std. dev. of 7 runs, 10000000 loops each)
640 ns ± 14.5 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)


In [63]:
%timeit math.sqrt(10.)
%timeit np.sqrt(10.)

99.4 ns ± 2.34 ns per loop (mean ± std. dev. of 7 runs, 10000000 loops each)
638 ns ± 9.27 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)


In [64]:
%timeit math.log(10.)
%timeit np.log(10.)

146 ns ± 2.06 ns per loop (mean ± std. dev. of 7 runs, 10000000 loops each)
708 ns ± 13.7 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)


In [65]:
%timeit math.cos(10.)
%timeit np.cos(10.)

208 ns ± 7.18 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)
735 ns ± 32.7 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)


### Вывод:
Арифметические функции из numpy не работают существенно быстрее, чем функции из math, если считаете для одного значения

Если вам нужно подсчитать какую-то арифметическую функцию, то скорее всего она уже реализована в numpy

### Арифметические функции хороши, но, тем не менее, основным объектом NumPy является однородный многомерный массив

In [66]:
type(np.array([]))

numpy.ndarray

Наиболее важные атрибуты объектов ndarray:

    1. ndarray.ndim - число измерений (чаще их называют "оси") массива.

    2. ndarray.shape - размеры массива, его форма. Это кортеж натуральных чисел, показывающий длину массива по каждой оси. Для матрицы из n строк и m столбов, shape будет (n,m). Число элементов кортежа shape равно ndim.

    3. ndarray.size - количество элементов массива. Очевидно, равно произведению всех элементов атрибута shape.

    4. ndarray.dtype - объект, описывающий тип элементов массива. Можно определить dtype, используя стандартные типы данных Python. Можно хранить и numpy типы, например: bool, int16, int32, int64, float16, float32, float64, complex64

    5. ndarray.itemsize - размер каждого элемента массива в байтах.

    6. ndarray.data - буфер, содержащий фактические элементы массива. Обычно не нужно использовать этот атрибут, так как обращаться к элементам массива проще всего с помощью индексов.

##### Обычные одномерные массивы

In [67]:
arr = np.array([1, 2, 4, 8, 16, 32])

print(arr.ndim)
print(arr.shape)
print(arr.size)
print(arr.dtype)
print(arr.itemsize)
print(arr.data)

1
(6,)
6
int64
8
<memory at 0x7f958c082888>


In [68]:
arr = np.array([1, 2, 4, 8, 16, 32], dtype=int)

print(arr.ndim)
print(arr.shape)
print(arr.size)
print(arr.dtype)
print(arr.itemsize)
print(arr.data)

1
(6,)
6
int64
8
<memory at 0x7f958c082708>


In [69]:
arr = np.array([1, 2, 4, 8, 16, 32], dtype=object)

print(arr.ndim)
print(arr.shape)
print(arr.size)
print(arr.dtype)
print(arr.itemsize)
print(arr.data)

1
(6,)
6
object
8
<memory at 0x7f958c082708>


In [70]:
arr = np.array([1, 2, 4, 8, 16, 32], dtype=np.int64)

print(arr.ndim)
print(arr.shape)
print(arr.size)
print(arr.dtype)
print(arr.itemsize)
print(arr.data)

1
(6,)
6
int64
8
<memory at 0x7f958c082708>


In [71]:
arr = np.array([1, 2, 4, 8, 16, 32], dtype=np.complex128)

print(arr.ndim)
print(arr.shape)
print(arr.size)
print(arr.dtype)
print(arr.itemsize)
print(arr.data)

1
(6,)
6
complex128
16
<memory at 0x7f958c082708>


##### Обычные двухмерные массивы

In [72]:
arr = np.array([[1], [2], [4], [8], [16], [32]], dtype=np.complex128)

print(arr.ndim)
print(arr.shape)
print(arr.size)
print(arr.dtype)
print(arr.itemsize)
print(arr.data)

2
(6, 1)
6
complex128
16
<memory at 0x7f9576e2e120>


In [73]:
arr = np.array([[1, 0], [2, 0], [4, 0], [8, 0], [16, 0], [32, 0]], dtype=np.complex128)

print(arr.ndim)
print(arr.shape)
print(arr.size)
print(arr.dtype)
print(arr.itemsize)
print(arr.data)

2
(6, 2)
12
complex128
16
<memory at 0x7f9576e2e120>


In [74]:
# указываем строчки с разным числом элементов
arr = np.array([[1, 0], [2, 0], [4, 0], [8, 0], [16, 0], [32]], dtype=np.complex128)

print(arr.ndim)
print(arr.shape)
print(arr.size)
print(arr.dtype)
print(arr.itemsize)
print(arr.data)

TypeError: must be real number, not list

##### Индексация одномерных массивов

In [75]:
arr = np.array([1, 2, 4, 8, 16, 32], dtype=np.int64)

In [76]:
arr[0], arr[1], arr[4], arr[-1]

(1, 2, 16, 32)

In [77]:
arr[0:4]

array([1, 2, 4, 8])

In [78]:
arr[[0, 3, 5]]

array([ 1,  8, 32])

##### Индексация двухмерных массивов

In [79]:
arr = np.array(
    [
        [1, 0, 4], 
        [2, 0, 4], 
        [4, 0, 4], 
        [8, 0, 4], 
        [16, 0, 4], 
        [32, 0, 4]
    ],
    dtype=np.int64
)

In [80]:
print(arr[0])
print(arr[1])
print(arr[4])
print(arr[-1])

[1 0 4]
[2 0 4]
[16  0  4]
[32  0  4]


In [81]:
arr[0, 0], arr[1, 0], arr[4, 0], arr[-1, 0]

(1, 2, 16, 32)

In [82]:
arr[0][0], arr[1][0], arr[4][0], arr[-1][0]

(1, 2, 16, 32)

Первый способ быстрее

In [83]:
%timeit arr[0, 0], arr[1, 0], arr[4, 0], arr[-1, 0]

515 ns ± 9.91 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)


In [84]:
%timeit arr[0][0], arr[1][0], arr[4][0], arr[-1][0]

1.19 µs ± 17.4 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)


##### Более сложная индексация

Можем взять строчку или столбец

In [85]:
arr[0, :], arr[0, :].shape

(array([1, 0, 4]), (3,))

In [86]:
arr[:, 0], arr[:, 0].shape

(array([ 1,  2,  4,  8, 16, 32]), (6,))

In [87]:
arr[[1, 3, 5], :], arr[[1, 3, 5], :].shape

(array([[ 2,  0,  4],
        [ 8,  0,  4],
        [32,  0,  4]]), (3, 3))

In [88]:
arr[[1, 3, 5], 0]

array([ 2,  8, 32])

In [89]:
arr[1::2, 0]

array([ 2,  8, 32])

In [90]:
arr[[1, 3, 5], :2]

array([[ 2,  0],
       [ 8,  0],
       [32,  0]])

In [91]:
arr[[1, 3, 5], 1:]

array([[0, 4],
       [0, 4],
       [0, 4]])

In [92]:
arr[[1, 3, 5], [0, 2]]

IndexError: shape mismatch: indexing arrays could not be broadcast together with shapes (3,) (2,) 

In [93]:
arr[[1, 3], [0, 2]] # взяли элементы arr[1, 0] и arr[3, 2]

array([2, 4])

In [94]:
arr[np.ix_([1, 3, 5], [0, 2])]

array([[ 2,  4],
       [ 8,  4],
       [32,  4]])

In [44]:
np.ix_([1, 3, 5], [0, 2])

(array([[1],
        [3],
        [5]]), array([[0, 2]]))

### Выводы

Картинки взяты с http://www.scipy-lectures.org/intro/numpy/numpy.html

![title](numpy_indexing.png)

![title](numpy_fancy_indexing.png)

##### Операции с массивами

Над массивами можно делать арифметические операции. При этом не нужно обращаться отдельно к каждому элементы, можно выполнять операции с массивами в целом.

In [12]:
a = np.array([1, 2, 4, 8, 16])
b = np.array([1, 3, 9, 27, 81])

In [13]:
a - 1

array([ 0,  1,  3,  7, 15])

In [97]:
a + b

array([ 2,  5, 13, 35, 97])

In [98]:
a * b

array([   1,    6,   36,  216, 1296])

In [99]:
b / a

array([1.    , 1.5   , 2.25  , 3.375 , 5.0625])

In [100]:
b // a

array([1, 1, 2, 3, 5])

In [101]:
np.log2(a)

array([0., 1., 2., 3., 4.])

In [102]:
np.log(a) / np.log(2)

array([0., 1., 2., 3., 4.])

In [103]:
np.log(b) / np.log(3)

array([0., 1., 2., 3., 4.])

##### Преимущество по скорости

In [104]:
a = list(range(10000))
b = list(range(10000))

In [105]:
%%timeit
c = [
    x * y
    for x, y in zip(a, b)
]

627 µs ± 32.9 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)


In [106]:
a = np.array(a)
b = np.array(b)

In [107]:
%%timeit
c = a * b

9.33 µs ± 142 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)


In [108]:
%%timeit
c = [
    x * y
    for x, y in zip(a, b)
]

1.73 ms ± 20.8 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)


Операции с массивами в 100 раз быстрее, хотя если мы пробуем использовать обычный питоновский код поверх массивов, то получается существенно медленнее

### Выводы:

Для большей производительности лучше использовать арифметические операции над массивами

##### random

В numpy есть аналог модуля random - numpy.random. Используя типизацию из C, он как и свой аналог генерирует случайные данные.

In [109]:
np.random.rand(2, 3, 4) # равномерное от 0 до 1 распределение в заданном shape

array([[[0.44899529, 0.07731866, 0.74353189, 0.52290705],
        [0.88900744, 0.25634679, 0.36258   , 0.35928442],
        [0.77574488, 0.16676176, 0.07117509, 0.13411664]],

       [[0.84807484, 0.78934982, 0.05938994, 0.92568269],
        [0.35299798, 0.43994326, 0.78013803, 0.29344605],
        [0.95543556, 0.27680551, 0.45926994, 0.87898804]]])

In [110]:
np.random.rand(2, 3, 4).shape

(2, 3, 4)

In [111]:
np.random.randn(2, 3, 4) # нормальное распределение в заданном shape

array([[[ 0.22292496,  0.28653811,  0.81459848,  1.13958412],
        [-0.75754095,  0.94550817, -0.51938754,  0.32389965],
        [-0.08349857, -0.22164213,  0.16984933, -3.95000068]],

       [[ 0.98529944, -0.43106272, -0.24007602,  0.84729188],
        [ 0.37178029,  0.09105803,  1.7843648 ,  0.75009264],
        [-0.33630069, -0.45136357,  0.02760019, -0.62439996]]])

In [112]:
np.random.bytes(10) # случайные байты

b'R\x89Us\xcf@M\xd4\x96\xbb'

Можно генерировать и другие распределения, подробности тут:

https://docs.scipy.org/doc/numpy-1.12.0/reference/routines.random.html

#### Ещё один пример эффективных вычислений

В заключение приведём ещё один пример, где использование numpy существенно ускоряет код

В математике определена операция перемножения матриц (двухмерных массивов)

$A \times B = C$

$C_{ij} = \sum_k A_{ik} B_{kj}$

сгенерируем случайные матрицы

In [113]:
A = np.random.randint(1000, size=(200, 100))
B = np.random.randint(1000, size=(100, 300))

умножение на основе numpy

In [114]:
def np_multiply():
    return np.dot(A, B)

In [115]:
%timeit np_multiply()

6.02 ms ± 101 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


если хранить матрицу не как двухмерный массив, а как список списков, то будет дольше работать

In [116]:
A = [list(x) for x in A]
B = [list(x) for x in B]

In [117]:
%timeit np_multiply()

12.3 ms ± 354 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


а это умножение на чистом питоновском коде

In [118]:
def python_multiply():
    res = []
    for i in range(200):
        row = []
        for j in range(300):
            val = 0
            for k in range(100):
                val += A[i][k] * B[k][j]
            row.append(val)
        res.append(row)
    return res

In [119]:
%timeit python_multiply()

1.67 s ± 53.2 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


Ускорение более чем в 100 раз

In [None]:
import numpy as np
import scipy

### Задача 1

Дан массив $arr$, требуется для каждой позиции $i$ найти номер элемента $arr_i$ в массиве $arr$, отсортированном по убыванию. Все значения массива $arr$ различны.

In [None]:
def function_1(arr):
    return #TODO

In [None]:
(function_1([1, 2, 3]) == [2, 1, 0]).all()

In [None]:
(function_1([-2, 1, 0]) == [2, 0, 1]).all()

In [None]:
(function_1([-2, 1, 0, -1]) == [3, 0, 1, 2]).all()

**Значение для формы**

In [None]:
np.random.seed(42)
arr = function_1(np.random.uniform(size=1000000))
print(arr[7] + arr[42] + arr[445677] + arr[53422])

### Задача 2

Дана матрица $X$, нужно найти след матрицы $X X^T$

In [None]:
def function_2(matrix):
    return #TODO

In [None]:
function_2(np.array([
    [1, 2],
    [3, 4]
])) == 30

In [None]:
function_2(np.array([
    [1, 0],
    [0, 1]
])) == 2

In [None]:
function_2(np.array([
    [2, 0],
    [0, 2]
])) == 8

In [None]:
function_2(np.array([
    [2, 1, 1],
    [1, 2, 1]
])) == 12

**Значение для формы**

In [None]:
np.random.seed(42)
arr1 = np.random.uniform(size=(1, 100000))
arr2 = np.random.uniform(size=(100000, 1))
print(int(function_2(arr1) + function_2(arr2)))

### Задача 3

Дан набор точек с координатам точек points_x и points_y. Нужно найти такую точку $p$ с нулевой координатой $y$ (то есть с координатами вида $(x, 0)$), что расстояние от неё до самой удалённой точки из исходного набора (растояние евклидово) минимально

In [None]:
def function_3(points_x, points_y):
    return #TODO

In [None]:
np.abs(function_3([0, 2], [1, 1]) - 1.) < 1e-3

In [None]:
np.abs(function_3([0, 2, 4], [1, 1, 1]) - 2.) < 1e-3

In [None]:
np.abs(function_3([0, 4, 4], [1, 1, 1]) - 2.) < 1e-3

**Значение для формы**

In [None]:
np.random.seed(42)
arr1 = np.random.uniform(-56, 100, size=100000)
arr2 = np.random.uniform(-100, 100, size=100000)
print(int(round((function_3(arr1, arr2) * 100))))