# Numpy

In [1]:
import numpy as np

## Основные типы данных

- ``bool_``  Boolean (True or False) stored as a byte
- ``int_ ``  	Default integer type (same as C long; normally either int64 or int32)
- ``intc``	Identical to C int (normally int32 or int64)
- ``intp``  	Integer used for indexing (same as C ssize_t; normally either int32 or int64)
- ``int8`` 	Byte (-128 to 127)
- ``int16``	Integer (-32768 to 32767)
- ``int32``	Integer (-2147483648 to 2147483647)
- ``int64``	Integer (-9223372036854775808 to 9223372036854775807)
- ``uint8``	Unsigned integer (0 to 255)
- ``uint16``	Unsigned integer (0 to 65535)
- ``uint32``	Unsigned integer (0 to 4294967295)
- ``uint64``	Unsigned integer (0 to 18446744073709551615)
- ``float_``	Shorthand for float64.
- ``float16``	Half precision float: sign bit, 5 bits exponent, 10 bits mantissa
- ``float32``	Single precision float: sign bit, 8 bits exponent, 23 bits mantissa
- ``float64``	Double precision float: sign bit, 11 bits exponent, 52 bits mantissa
- ``complex_``	Shorthand for complex128.
- ``complex64``	Complex number, represented by two 32-bit floats (real and imaginary components)
- ``complex128``	Complex number, represented by two 64-bit floats (real and imaginary components)

In [2]:
np.int(1e18) # обёртка питоновского типа

1000000000000000000

32-битный int в C хранит числа от −2147483648 до 2147483647 на $10^{18}$ не хватит, чтобы хранить

In [3]:
print(np.int32(1e18))

-1486618624


64-битный int в С хранит числа от -9223372036854775808 до 9223372036854775807 на $10^{18}$ уже хватает

In [4]:
print(np.int64(1e18))

1000000000000000000


аналогичная градация и для float

float - обёртка питоновского типа
float32 и float64 - обёртки чисел соответствующей битности (в стиле С)

In [5]:
type(np.float), type(np.float32), type(np.float64)

(type, type, type)

In [6]:
np.float(), np.float32(), np.float64()

(0.0, 0.0, 0.0)

In [7]:
type(np.float()), type(np.float32()), type(np.float64())

(float, numpy.float32, numpy.float64)

In [8]:
type(np.sqrt(np.float(2))) # np.sqrt  возвращает максимально близкий тип, для питоновского float это float64

numpy.float64

In [9]:
type(np.sqrt(np.float32(2)))

numpy.float32

In [10]:
type(np.sqrt(np.float64(2)))

numpy.float64

специальные классы для хранения комплексных чисел - по сути это два float-а

In [11]:
type(np.complex), type(np.complex64), type(np.complex128)

(type, type, type)

In [12]:
np.complex(), np.complex64(), np.complex128()

(0j, 0j, 0j)

In [13]:
type(np.complex()), type(np.complex64()), type(np.complex128())

(complex, numpy.complex64, numpy.complex128)

по умолчанию корень из -1 не получится взять

In [14]:
np.sqrt(-1.)

  """Entry point for launching an IPython kernel.


nan

но если указать, что тип данных complex, то всё сработает

In [15]:
np.sqrt(-1 + 0j)

1j

In [16]:
type(np.sqrt(-1 + 0j))

numpy.complex128

In [17]:
type(np.sqrt(np.complex(-1 + 0j)))

numpy.complex128

In [18]:
type(np.sqrt(np.complex64(-1 + 0j)))

numpy.complex64

In [19]:
type(np.sqrt(np.complex128(-1 + 0j)))

numpy.complex128

### Вывод:

В numpy присутсвуют обёртки всех типов из C, а также перенесены типы из Python

## Основные численные функции

numpy предоставляет широкий спектр математических функций

опишем основные их виды

##### Округления чисел

np.round - математическое округление

np.floor - округление вниз

np.ceil - округление вверх

np.int - округление к нулю

In [20]:
np.round(4.1), np.floor(4.1), np.ceil(4.1), np.int(4.1)

(4.0, 4.0, 5.0, 4)

In [21]:
np.round(-4.1), np.floor(-4.1), np.ceil(-4.1), np.int(-4.1)

(-4.0, -5.0, -4.0, -4)

In [22]:
np.round(4.5), np.floor(4.5), np.ceil(4.5), np.int(4.5)

(4.0, 4.0, 5.0, 4)

In [23]:
np.round(-4.5), np.floor(-4.5), np.ceil(-4.5), np.int(-4.5)

(-4.0, -5.0, -4.0, -4)

In [24]:
np.round(4.7), np.floor(4.7), np.ceil(4.7), np.int(4.7)

(5.0, 4.0, 5.0, 4)

In [25]:
np.round(-4.7), np.floor(-4.7), np.ceil(-4.7), np.int(-4.7)

(-5.0, -5.0, -4.0, -4)

##### Арифметические операции

Подсчитаем логарифм

In [26]:
np.log(1000.), type(np.log(1000.))

(6.907755278982137, numpy.float64)

In [27]:
np.log(np.float32(1000.)), type(np.log(np.float32(1000.))) # меньше бит на хранение - меньше точность

(6.9077554, numpy.float32)

In [28]:
np.log(1000.) / np.log(10.), type(np.log(1000.) / np.log(10.))

(2.9999999999999996, numpy.float64)

если брать значение не из области определение, то исключения не кинется, но будет warning  и вернётся inf или nan

In [29]:
np.log(0.)

  """Entry point for launching an IPython kernel.


-inf

In [30]:
np.log(-1.)

  """Entry point for launching an IPython kernel.


nan

Функции работают и с комплексными числами

In [31]:
np.log(-1 + 0j)

3.141592653589793j

In [32]:
np.log(1j)

1.5707963267948966j

Есть специальные функции для двоичного и десятичного логарифмов

In [33]:
print(np.log10(10))
print(np.log10(100))
print(np.log10(1000))
print(np.log10(1e8))
print(np.log10(1e30))
print(np.log10(1e100))
print(np.log10(1e1000))

1.0
2.0
3.0
8.0
30.0
100.0
inf


у больших int-ов уже не получается взять логарифм, так как np.log2 приводит к сишному типу

In [34]:
print(np.log2(2))
print(np.log2(2 ** 2))
print(np.log2(2 ** 3))
print(np.log2(2 ** 8))
print(np.log2(2 ** 30))
print(np.log2(2 ** 100))
print(np.log2(2 ** 1000))

1.0
2.0
3.0
8.0
30.0


AttributeError: 'int' object has no attribute 'log2'

функции работают с типами С, поэтому может быть переполнение

In [None]:
np.exp(10.), type(np.exp(10.))

In [None]:
np.exp(100.), type(np.exp(100.))

In [None]:
np.exp(1000.), type(np.exp(1000.))

##### Константы

в numpy есть математические константы 

In [None]:
np.pi, type(np.pi)

In [None]:
np.e, type(np.e)

In [None]:
np.exp(np.pi * 1j)

In [None]:
np.exp(np.pi * 1j).astype(np.float64)

##### Ещё примеры переполнения типов данных

Использование чисел определённой битности накладывает ограничения на их максимальные значения

In [None]:
2 ** 60, type(2 ** 60) # питоновское умножение

In [None]:
2 ** 1000, type(2 ** 1000) # питоновское умножение

In [None]:
np.power(2, 60), type(np.power(2, 60))

In [None]:
np.power(np.int64(2), 60), type(np.power(np.int64(2), 60))

In [None]:
np.power(2, 1000), type(np.power(2, 1000))

##### Функция модуль

In [None]:
np.abs(-10000)

In [None]:
np.abs(1j) # возвращает модуль комплексного числа

In [None]:
np.abs(1 + 1j)

##### Тригонометрические функции

In [None]:
np.cos(np.pi)

In [None]:
np.log(np.e)

In [None]:
np.sin(np.pi / 2)

In [None]:
np.arccos(0.)

In [None]:
np.rad2deg(1.)

In [None]:
np.deg2rad(180.)

Более подробно можно посмотреть здесь: https://docs.scipy.org/doc/numpy-1.9.2/reference/routines.math.html

### Вывод:
В numpy реализовано огромное число арифметических функций

### Чем это лучше чем модуль math?

In [None]:
import math

In [None]:
%timeit math.exp(10.)
%timeit np.exp(10.)

In [None]:
%timeit math.sqrt(10.)
%timeit np.sqrt(10.)

In [None]:
%timeit math.log(10.)
%timeit np.log(10.)

In [None]:
%timeit math.cos(10.)
%timeit np.cos(10.)

### Вывод:
Арифметические функции из numpy не работают существенно быстрее, чем функции из math, если считаете для одного значения

Если вам нужно подсчитать какую-то арифметическую функцию, то скорее всего она уже реализована в numpy

### Арифметические функции хороши, но, тем не менее, основным объектом NumPy является однородный многомерный массив

In [None]:
type(np.array([]))

Наиболее важные атрибуты объектов ndarray:

    1. ndarray.ndim - число измерений (чаще их называют "оси") массива.

    2. ndarray.shape - размеры массива, его форма. Это кортеж натуральных чисел, показывающий длину массива по каждой оси. Для матрицы из n строк и m столбов, shape будет (n,m). Число элементов кортежа shape равно ndim.

    3. ndarray.size - количество элементов массива. Очевидно, равно произведению всех элементов атрибута shape.

    4. ndarray.dtype - объект, описывающий тип элементов массива. Можно определить dtype, используя стандартные типы данных Python. Можно хранить и numpy типы, например: bool, int16, int32, int64, float16, float32, float64, complex64

    5. ndarray.itemsize - размер каждого элемента массива в байтах.

    6. ndarray.data - буфер, содержащий фактические элементы массива. Обычно не нужно использовать этот атрибут, так как обращаться к элементам массива проще всего с помощью индексов.

##### Обычные одномерные массивы

In [None]:
arr = np.array([1, 2, 4, 8, 16, 32])

print(arr.ndim)
print(arr.shape)
print(arr.size)
print(arr.dtype)
print(arr.itemsize)
print(arr.data)

In [None]:
arr = np.array([1, 2, 4, 8, 16, 32], dtype=int)

print(arr.ndim)
print(arr.shape)
print(arr.size)
print(arr.dtype)
print(arr.itemsize)
print(arr.data)

In [None]:
arr = np.array([1, 2, 4, 8, 16, 32], dtype=object)

print(arr.ndim)
print(arr.shape)
print(arr.size)
print(arr.dtype)
print(arr.itemsize)
print(arr.data)

In [None]:
arr = np.array([1, 2, 4, 8, 16, 32], dtype=np.int64)

print(arr.ndim)
print(arr.shape)
print(arr.size)
print(arr.dtype)
print(arr.itemsize)
print(arr.data)

In [None]:
arr = np.array([1, 2, 4, 8, 16, 32], dtype=np.complex128)

print(arr.ndim)
print(arr.shape)
print(arr.size)
print(arr.dtype)
print(arr.itemsize)
print(arr.data)

##### Обычные двухмерные массивы

In [None]:
arr = np.array([[1], [2], [4], [8], [16], [32]], dtype=np.complex128)

print(arr.ndim)
print(arr.shape)
print(arr.size)
print(arr.dtype)
print(arr.itemsize)
print(arr.data)

In [None]:
arr = np.array([[1, 0], [2, 0], [4, 0], [8, 0], [16, 0], [32, 0]], dtype=np.complex128)

print(arr.ndim)
print(arr.shape)
print(arr.size)
print(arr.dtype)
print(arr.itemsize)
print(arr.data)

In [None]:
# указываем строчки с разным числом элементов
arr = np.array([[1, 0], [2, 0], [4, 0], [8, 0], [16, 0], [32]], dtype=np.complex128)

print(arr.ndim)
print(arr.shape)
print(arr.size)
print(arr.dtype)
print(arr.itemsize)
print(arr.data)

##### Индексация одномерных массивов

In [None]:
arr = np.array([1, 2, 4, 8, 16, 32], dtype=np.int64)

In [None]:
arr[0], arr[1], arr[4], arr[-1]

In [None]:
arr[0:4]

In [None]:
arr[[0, 3, 5]]

##### Индексация двухмерных массивов

In [None]:
arr = np.array(
    [
        [1, 0, 4], 
        [2, 0, 4], 
        [4, 0, 4], 
        [8, 0, 4], 
        [16, 0, 4], 
        [32, 0, 4]
    ],
    dtype=np.int64
)

In [None]:
print(arr[0])
print(arr[1])
print(arr[4])
print(arr[-1])

In [None]:
arr[0, 0], arr[1, 0], arr[4, 0], arr[-1, 0]

In [None]:
arr[0][0], arr[1][0], arr[4][0], arr[-1][0]

Первый способ быстрее

In [None]:
%timeit arr[0, 0], arr[1, 0], arr[4, 0], arr[-1, 0]

In [None]:
%timeit arr[0][0], arr[1][0], arr[4][0], arr[-1][0]

##### Более сложная индексация

Можем взять строчку или столбец

In [None]:
arr[0, :], arr[0, :].shape

In [None]:
arr[:, 0], arr[:, 0].shape

In [None]:
arr[[1, 3, 5], :], arr[[1, 3, 5], :].shape

In [None]:
arr[[1, 3, 5], 0]

In [None]:
arr[1::2, 0]

In [None]:
arr[[1, 3, 5], :2]

In [None]:
arr[[1, 3, 5], 1:]

In [None]:
arr[[1, 3, 5], [0, 2]]

In [None]:
arr[[1, 3], [0, 2]] # взяли элементы arr[1, 0] и arr[3, 2]

In [None]:
arr[np.ix_([1, 3, 5], [0, 2])]

In [None]:
np.ix_([1, 3, 5], [0, 2])

### Выводы

Картинки взяты с http://www.scipy-lectures.org/intro/numpy/numpy.html

![title](numpy_indexing.png)

![title](numpy_fancy_indexing.png)

##### Операции с массивами

Над массивами можно делать арифметические операции. При этом не нужно обращаться отдельно к каждому элементы, можно выполнять операции с массивами в целом.

In [None]:
a = np.array([1, 2, 4, 8, 16])
b = np.array([1, 3, 9, 27, 81])

In [None]:
a - 1

In [None]:
a + b

In [None]:
a * b

In [None]:
b / a

In [None]:
b // a

In [None]:
np.log2(a)

In [None]:
np.log(a) / np.log(2)

In [None]:
np.log(b) / np.log(3)

##### Преимущество по скорости

In [None]:
a = list(range(10000))
b = list(range(10000))

In [None]:
%%timeit
c = [
    x * y
    for x, y in zip(a, b)
]

In [None]:
a = np.array(a)
b = np.array(b)

In [None]:
%%timeit
c = a * b

In [None]:
%%timeit
c = [
    x * y
    for x, y in zip(a, b)
]

Операции с массивами в 100 раз быстрее, хотя если мы пробуем использовать обычный питоновский код поверх массивов, то получается существенно медленнее

### Выводы:

Для большей производительности лучше использовать арифметические операции над массивами

##### random

В numpy есть аналог модуля random - numpy.random. Используя типизацию из C, он как и свой аналог генерирует случайные данные.

In [None]:
np.random.rand(2, 3, 4) # равномерное от 0 до 1 распределение в заданном shape

In [None]:
np.random.rand(2, 3, 4).shape

In [None]:
np.random.randn(2, 3, 4) # нормальное распределение в заданном shape

In [None]:
np.random.bytes(10) # случайные байты

Можно генерировать и другие распределения, подробности тут:

https://docs.scipy.org/doc/numpy-1.12.0/reference/routines.random.html

#### Ещё один пример эффективных вычислений

В заключение приведём ещё один пример, где использование numpy существенно ускоряет код

В математике определена операция перемножения матриц (двухмерных массивов)

$A \times B = C$

$C_{ij} = \sum_k A_{ik} B_{kj}$

сгенерируем случайные матрицы

In [None]:
A = np.random.randint(1000, size=(200, 100))
B = np.random.randint(1000, size=(100, 300))

умножение на основе numpy

In [None]:
def np_multiply():
    return np.dot(A, B)

In [None]:
%timeit np_multiply()

если хранить матрицу не как двухмерный массив, а как список списков, то будет дольше работать

In [None]:
A = [list(x) for x in A]
B = [list(x) for x in B]

In [None]:
%timeit np_multiply()

а это умножение на чистом питоновском коде

In [None]:
def python_multiply():
    res = []
    for i in range(200):
        row = []
        for j in range(300):
            val = 0
            for k in range(100):
                val += A[i][k] * B[k][j]
            row.append(val)
        res.append(row)
    return res

In [None]:
%timeit python_multiply()

Ускорение более чем в 100 раз

In [None]:
import numpy as np
import scipy

### Задача 1

Дан массив $arr$, требуется для каждой позиции $i$ найти номер элемента $arr_i$ в массиве $arr$, отсортированном по убыванию. Все значения массива $arr$ различны.

In [None]:
def function_1(arr):
    return #TODO

In [None]:
(function_1([1, 2, 3]) == [2, 1, 0]).all()

In [None]:
(function_1([-2, 1, 0]) == [2, 0, 1]).all()

In [None]:
(function_1([-2, 1, 0, -1]) == [3, 0, 1, 2]).all()

**Значение для формы**

In [None]:
np.random.seed(42)
arr = function_1(np.random.uniform(size=1000000))
print(arr[7] + arr[42] + arr[445677] + arr[53422])

### Задача 2

Дана матрица $X$, нужно найти след матрицы $X X^T$

In [None]:
def function_2(matrix):
    return #TODO

In [None]:
function_2(np.array([
    [1, 2],
    [3, 4]
])) == 30

In [None]:
function_2(np.array([
    [1, 0],
    [0, 1]
])) == 2

In [None]:
function_2(np.array([
    [2, 0],
    [0, 2]
])) == 8

In [None]:
function_2(np.array([
    [2, 1, 1],
    [1, 2, 1]
])) == 12

**Значение для формы**

In [None]:
np.random.seed(42)
arr1 = np.random.uniform(size=(1, 100000))
arr2 = np.random.uniform(size=(100000, 1))
print(int(function_2(arr1) + function_2(arr2)))

### Задача 3

Дан набор точек с координатам точек points_x и points_y. Нужно найти такую точку $p$ с нулевой координатой $y$ (то есть с координатами вида $(x, 0)$), что расстояние от неё до самой удалённой точки из исходного набора (растояние евклидово) минимально

In [None]:
def function_3(points_x, points_y):
    return #TODO

In [None]:
np.abs(function_3([0, 2], [1, 1]) - 1.) < 1e-3

In [None]:
np.abs(function_3([0, 2, 4], [1, 1, 1]) - 2.) < 1e-3

In [None]:
np.abs(function_3([0, 4, 4], [1, 1, 1]) - 2.) < 1e-3

**Значение для формы**

In [None]:
np.random.seed(42)
arr1 = np.random.uniform(-56, 100, size=100000)
arr2 = np.random.uniform(-100, 100, size=100000)
print(int(round((function_3(arr1, arr2) * 100))))

In [3]:
import numpy as np
import scipy
from scipy.sparse import csr_matrix

### Задача 1

Дан массив $arr$, требуется для каждой позиции $i$ найти номер элемента $arr_i$ в массиве $arr$, отсортированном по убыванию. Все значения массива $arr$ различны.

In [4]:
def function_1(arr):

    return np.array(sorted(range(len(arr)), key=lambda k: arr[k],reverse=True))

In [5]:
(function_1([1, 2, 3]) == [2, 1, 0]).all()

True

**Значение для формы**

In [6]:
np.random.seed(42)
arr = function_1(np.random.uniform(size=1000000))
print(arr[7] + arr[42] + arr[445677] + arr[53422])

2257315


### Задача 2

Дана матрица $X$, нужно найти след матрицы $X X^T$

In [37]:
def function_2(matrix):
    xt=np.matrix.transpose(matrix)
    return np.matrix.trace(np.matmul(matrix,xt))

In [39]:
function_2(np.array([
    [1, 2],
    [3, 4]
])) == 30

True

In [40]:
function_2(np.array([
    [1, 0],
    [0, 1]
])) == 2

True

In [41]:
function_2(np.array([
    [2, 0],
    [0, 2]
])) == 8

True

In [42]:
function_2(np.array([
    [2, 1, 1],
    [1, 2, 1]
])) == 12

True

In [43]:
def function_2h(k):
    x=np.matrix.transpose(k)
    return np.sum(x*x)


**Значение для формы**

In [44]:
np.random.seed(42)
arr1 = np.random.uniform(size=(1, 100000))
arr2 = np.random.uniform(size=(100000, 1))
print(int(function_2h(arr1) + function_2h(arr2)))

66730


In [45]:
function_2(arr1)

33262.84706176863

In [53]:
np.sum(arr1 ** 2)

33262.84706176863

In [52]:
np.sum(np.float16(arr1) ** 2)

33250.0

In [54]:
def function_2(matrix):
    matrix=np.float16(matrix)
    xt=np.matrix.transpose(matrix)
    a = matrix@xt
    return np.matrix.trace(a)

In [56]:
function_2(np.array([
    [1, 2],
    [3, 4]
])) == 30

True