# Пакет NumPy
## Массивы с фиксированным типом данных

In [2]:
import numpy as np

### Создание массива из списка

In [16]:
np.array([1, 4, 2, 5, 3])

array([1, 4, 2, 5, 3])

Если типы элементов не совпадают, NumPy попытается выполнить повышающее приведение типов (в данном случае целочисленные значения приводятся к числам с плавающей точкой).

In [17]:
np.array([3.14, 4, 2, 3])

array([3.14, 4.  , 2.  , 3.  ])

Если же необходимо явным образом задать **тип данных** для итогового массива:

In [18]:
 np.array([1, 2, 3, 4], dtype='float32')

array([1., 2., 3., 4.], dtype=float32)

In [26]:
# Создаем массив целых чисел длины 10, заполненный нулями
np.zeros(10, dtype=int)
# Создаем массив размером 3 x 5 значений с плавающей точкой, заполненный единицами
np.ones((3, 5), dtype=float)
# Создаем массив размером 3 x 5, заполненный значением 3.14
np.full((3, 5), 3.14)
# Создаем массив размером 3 x 3 равномерно распределенных случайных значений от 0 до 1
np.random.random((3, 3));

### Атрибуты массивов:
- **ndim** (размерность) (одномерный, двумерный и т.д.)
- **shape** (размер каждого измерения)
- **size** (общий размер массива)
- **dtype** (тип данных массива)
- **itemsize** (размер (в байтах) каждого элемента массива)
- **nbytes** (полный размер массива (в байтах))

In [32]:
x = np.random.randint(10, size=(3, 4, 5))
print("x ndim: ", x.ndim)
print("x shape:", x.shape)
print("x size: ", x.size)
print("dtype:", x.dtype)
print("itemsize:", x.itemsize, "bytes")
print("nbytes:", x.nbytes, "bytes")

x ndim:  3
x shape: (3, 4, 5)
x size:  60
dtype: int32
itemsize: 4 bytes
nbytes: 240 bytes


### Многомерные срезы

Срезы массивов возвращают **представления (views)**, а не копии (copies) данных массива.  
Этим срезы массивов библиотеки NumPy отличаются от срезов списков языка Python (в списках срезы являются копиями).  
Т.е. при выделении подмассива и изменении в нём элемента этот элемент *поменяется так же и в оригинальном массиве.*

In [38]:
x = np.array([[12, 5, 2, 4],
             [ 7, 6, 8, 9],
             [ 1, 6, 7, 8]])

x[:2, :3] # две строки, три столбца

array([[12,  5,  2],
       [ 7,  6,  8]])

In [45]:
x[::-1, ::-1] # перевернутый массив

array([[ 8,  7,  6,  1],
       [ 9,  8,  6,  7],
       [ 4,  2,  5, 12]])

In [46]:
x[:,0] # первый столбец

array([12,  7,  1])

Создание копии массива

In [49]:
x_copy = x.copy()
x_sub_copy = x[:2, :2].copy()

### Изменение формы массива
Размер исходного массива должен соответствовать размеру измененного.

In [50]:
np.arange(1, 10).reshape((3, 3))

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [54]:
x = np.array([1, 2, 3])
# Преобразование в вектор-строку с помощью reshape
x.reshape((1, 3))
# Преобразование в вектор-строку посредством newaxis
x[np.newaxis, :]

array([[1, 2, 3]])

In [55]:
# Преобразование в вектор-столбец с помощью reshape
x.reshape((3, 1))
# Преобразование в вектор-столбец посредством newaxis
x[:, np.newaxis]

array([[1],
       [2],
       [3]])

### Слияние массивов  
Метод **np.concatenate** принимает на входе кортеж или список массивов в качестве первого аргумента. Можно объединять более двух массивов одновременно. 

In [58]:
x = np.array([1, 2, 3])
y = np.array([4, 5, 6])
z = [99, 99, 99]
np.concatenate([x, y, z])

array([ 1,  2,  3,  4,  5,  6, 99, 99, 99])

Для объединения двумерных массивов можно также использовать **np.concatenate**:

In [59]:
grid = np.array([[1, 2, 3],
                [4, 5, 6]])
# слияние по первой оси координат
np.concatenate([grid, grid])

array([[1, 2, 3],
       [4, 5, 6],
       [1, 2, 3],
       [4, 5, 6]])

In [60]:
# слияние по второй оси координат (с индексом 0)
np.concatenate([grid, grid], axis=1)

array([[1, 2, 3, 1, 2, 3],
       [4, 5, 6, 4, 5, 6]])

Для работы с массивами с различающимися измерениями удобнее и понятнее использовать функции **np.vstack** (вертикальное объединение) и **np.hstack** (горизонтальное объединение):

In [61]:
x = np.array([1, 2, 3])
grid = np.array([[9, 8, 7],
                 [6, 5, 4]])
# Объединяет массивы по вертикали
np.vstack([x, grid])

array([[1, 2, 3],
       [9, 8, 7],
       [6, 5, 4]])

In [63]:
# Объединяет массивы по горизонтали
y = np.array([[10],
              [10]])
np.hstack([grid, y])

array([[ 9,  8,  7, 10],
       [ 6,  5,  4, 10]])

### Разбиение массивов
Противоположностью слияния является разбиение, выполняемое с помощью функций **np.split, np.hsplit и np.vsplit**. Каждой из них необходимо передавать список индексов, задающих точки раздела.   
  
*N точек раздела означают N + 1 подмассив*

In [66]:
x = [1, 2, 3, 99, 99, 3, 2, 1]
x1, x2, x3 = np.split(x, [3, 5])
print(x1, x2, x3)

[1 2 3] [99 99] [3 2 1]


In [70]:
grid = np.array([[ 0, 1, 2, 3],
                 [ 4, 5, 6, 7],
                 [ 8, 9, 10, 11],
                 [12, 13, 14, 15]])

upper, lower = np.vsplit(grid, [2])
print(upper, '\n')
print(lower)

[[0 1 2 3]
 [4 5 6 7]] 

[[ 8  9 10 11]
 [12 13 14 15]]


In [71]:
left, right = np.hsplit(grid, [2])
print(left, '\n')
print(right)

[[ 0  1]
 [ 4  5]
 [ 8  9]
 [12 13]] 

[[ 2  3]
 [ 6  7]
 [10 11]
 [14 15]]


### Универсальные (векторизированные функции)
Работают на порядок быстрее, чем циклы, применяющие операцию к каждому элементу массива.  
Существуют **унарные** (с одним аргументом) и **бинарные** (с двумя аргументами).

In [3]:
x = np.arange(4)
print("x =", x)
print("x + 5 =", x + 5)
print("x - 5 =", x - 5)
print("x * 2 =", x * 2)
print("x / 2 =", x / 2)
print("x // 2 =", x // 2)
print("-x = ", -x)
print("x ** 2 = ", x ** 2)
print("x % 2 = ", x % 2)

x = [0 1 2 3]
x + 5 = [5 6 7 8]
x - 5 = [-5 -4 -3 -2]
x * 2 = [0 2 4 6]
x / 2 = [0.  0.5 1.  1.5]
x // 2 = [0 0 1 1]
-x =  [ 0 -1 -2 -3]
x ** 2 =  [0 1 4 9]
x % 2 =  [0 1 0 1]


**Абсолютное значение**

In [15]:
x = np.array([-2, -1, 0, 1, 2])
%timeit np.abs(x)   # взять модуль через универсальную функцию быстрее

def take_abs(values):
    output = np.empty(len(values))
    for i in range(len(values)):
        output[i] = abs(values[i])
    return output

%timeit take_abs(x)   # через цикл намного дольше

950 ns ± 27.6 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)
6.36 µs ± 287 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)


In [6]:
x = np.array([3 - 4j, 4 - 3j, 2 + 0j, 0 + 1j]) # также модуль комплексных чисел
np.abs(x)

array([5., 5., 2., 1.])

**Тригонометрические функции**

In [9]:
theta = np.linspace(0, np.pi, 3)   # тригонометрические функции
print("theta = ", theta)
print("sin(theta) = ", np.sin(theta))
print("cos(theta) = ", np.cos(theta))
print("tan(theta) = ", np.tan(theta))

theta =  [0.         1.57079633 3.14159265]
sin(theta) =  [0.0000000e+00 1.0000000e+00 1.2246468e-16]
cos(theta) =  [ 1.000000e+00  6.123234e-17 -1.000000e+00]
tan(theta) =  [ 0.00000000e+00  1.63312394e+16 -1.22464680e-16]


**Показательные функции и логарифмы**

In [16]:
x = [1, 2, 3]
print("x =", x)
print("e^x =", np.exp(x))
print("2^x =", np.exp2(x))
print("3^x =", np.power(3, x))

x = [1, 2, 3]
e^x = [ 2.71828183  7.3890561  20.08553692]
2^x = [2. 4. 8.]
3^x = [ 3  9 27]


In [17]:
x = [1, 2, 4, 10]
print("x =", x)
print("ln(x) =", np.log(x))
print("log2(x) =", np.log2(x))
print("log10(x) =", np.log10(x))

x = [1, 2, 4, 10]
ln(x) = [0.         0.69314718 1.38629436 2.30258509]
log2(x) = [0.         1.         2.         3.32192809]
log10(x) = [0.         0.30103    0.60205999 1.        ]


In [18]:
x = [0, 0.001, 0.01, 0.1]  # при малых значениях эти функции работают точнее
print("exp(x) - 1 =", np.expm1(x))
print("log(1 + x) =", np.log1p(x))

exp(x) - 1 = [0.         0.0010005  0.01005017 0.10517092]
log(1 + x) = [0.         0.0009995  0.00995033 0.09531018]


**Специализированные универсальные функции**  
подмодуль scipy.special

In [20]:
from scipy import special

In [21]:
# Гамма-функции (обобщенные факториалы) и тому подобные функции
x = [1, 5, 10]
print("gamma(x) =", special.gamma(x))
print("ln|gamma(x)| =", special.gammaln(x))
print("beta(x, 2) =", special.beta(x, 2))

gamma(x) = [1.0000e+00 2.4000e+01 3.6288e+05]
ln|gamma(x)| = [ 0.          3.17805383 12.80182748]
beta(x, 2) = [0.5        0.03333333 0.00909091]


In [23]:
# Функция ошибок (интеграл от Гауссовой функции)
x = np.array([0, 0.3, 0.7, 1.0])
print("erf(x) =", special.erf(x))

erf(x) = [0.         0.32862676 0.67780119 0.84270079]


**Указание массива для вывода результата**

In [24]:
x = np.arange(5)
y = np.empty(5)
np.multiply(x, 10, out=y)
print(y)

[ 0. 10. 20. 30. 40.]


### Агрегирование: минимум, максимум и все, что посередине

Суммирование и умножение значений массива

In [34]:
L = np.random.random(100)
np.sum(L)

54.763069184868385

In [43]:
np.prod(L)

1.1613848574741958e-38

Минимум и максимум, их индексы, среднее и медиана, стандартное отклонение и дисперсия

In [45]:
print(np.min(L), np.max(L))
# или print(L.min(), L.max()) такая запись применима ко всем универсальным функциям
print(np.argmin(L), np.argmax(L))
print(np.mean(L), np.median(L))
print(np.std(L), np.var(L))

0.0019974572771433996 0.9875080475934341
92 34
0.5476306918486838 0.594968985615272
0.2715848916927365 0.0737583533957554


**Многомерные сводные показатели**

In [36]:
M = np.random.random((3, 4))
print(M)
M.sum()

[[0.8941412  0.64578039 0.3180769  0.37349763]
 [0.40158153 0.330569   0.46221498 0.63173847]
 [0.45116376 0.92767548 0.53932312 0.90049176]]


6.876254220886187

In [37]:
M.min(axis=0) # минимальное значение каждого из столбцов

array([0.40158153, 0.330569  , 0.3180769 , 0.37349763])

In [38]:
M.max(axis=1) # максимальное значение каждой из строк

array([0.8941412 , 0.63173847, 0.92767548])