In [59]:
import numpy as np
import timeit

Слияние массивов

In [60]:
# одномерные

x = np.array([1, 2, 3])
y = np.array([4, 5])
z = np.array([6])


xyz = np.concatenate([x, y, z])
print(xyz)

[1 2 3 4 5 6]


In [61]:
# двумерные
x = np.array([[1, 2, 3], [4, 5, 6]])
y = np.array([[7, 8, 9], [10, 11, 12]])

xy1 = np.concatenate([x, y])
xy = np.concatenate([x, y], axis = 0)
print(xy1, xy)

[[ 1  2  3]
 [ 4  5  6]
 [ 7  8  9]
 [10 11 12]] [[ 1  2  3]
 [ 4  5  6]
 [ 7  8  9]
 [10 11 12]]


In [62]:
xy2 = np.concatenate([x, y], axis = 1)
print(xy2)

[[ 1  2  3  7  8  9]
 [ 4  5  6 10 11 12]]


Типа что axis - ось, это направление размерности (0 - по размерности строк склейка, 1 - по размерности столбцов)

In [63]:
# многомерные

x = np.array([[1, 2, 3], [4, 5, 6]])
y = np.array([[7, 8, 9], [10, 11, 12]])

print(np.vstack([x, y]))

[[ 1  2  3]
 [ 4  5  6]
 [ 7  8  9]
 [10 11 12]]


In [64]:
print(np.hstack([x, y]))

[[ 1  2  3  7  8  9]
 [ 4  5  6 10 11 12]]


In [65]:
print(np.dstack([x, y])) #  вдоль 2-го измерения

[[[ 1  7]
  [ 2  8]
  [ 3  9]]

 [[ 4 10]
  [ 5 11]
  [ 6 12]]]


 Разбиение массивов

In [66]:
xy = np.vstack([x, y])
print(xy)

[[ 1  2  3]
 [ 4  5  6]
 [ 7  8  9]
 [10 11 12]]


In [67]:
print(np.split(xy, [1, 3]))

[array([[1, 2, 3]]), array([[4, 5, 6],
       [7, 8, 9]]), array([[10, 11, 12]])]


Так как мы это не указали, то бъём по 0-ой размерности - по строкам

При том указав n - мы бъём перед n-ым элементом

In [68]:
print(np.split(xy, [1], axis  = 1)) # тут бъём по строкам

[array([[ 1],
       [ 4],
       [ 7],
       [10]]), array([[ 2,  3],
       [ 5,  6],
       [ 8,  9],
       [11, 12]])]


In [69]:
print(np.vsplit(xy, [2]))

[array([[1, 2, 3],
       [4, 5, 6]]), array([[ 7,  8,  9],
       [10, 11, 12]])]


In [70]:
print(np.hsplit(xy, [2]))

[array([[ 1,  2],
       [ 4,  5],
       [ 7,  8],
       [10, 11]]), array([[ 3],
       [ 6],
       [ 9],
       [12]])]


In [71]:
z = np.dstack([x, y])
print(z)
print(np.dsplit(z, [1]))

[[[ 1  7]
  [ 2  8]
  [ 3  9]]

 [[ 4 10]
  [ 5 11]
  [ 6 12]]]
[array([[[1],
        [2],
        [3]],

       [[4],
        [5],
        [6]]]), array([[[ 7],
        [ 8],
        [ 9]],

       [[10],
        [11],
        [12]]])]


Универсальные функции (ufunc) — это высокопроизводительные векторизованные операции, выполняемые поэлементно над массивами данных. Они преобразуют многомерные массивы, поддерживая широковещательную передачу (broadcasting) и приведение типов, что значительно ускоряет вычисления по сравнению с циклами.

Векторизованные операции — это метод программирования, заменяющий явные циклы (for, while) на операции над массивами данных (векторами) одновременно.

Broadcasting — это механизм, позволяющий выполнять арифметические операции над массивами разных форм (shapes) без явного использования циклов. Меньший массив «растягивается» (виртуально) до размера большего, что обеспечивает высокую производительность и экономию памяти, делая код лаконичным. 

In [115]:
x = np.arange(1, 10, dtype = np.float64)
print(x)

def f(x):
    out = np.empty(len(x))
    for i in range(len(x)):
        out[i] = 1 / x[i]
        """NumPy умеет делить int на int и выдавать float, если напистаь 1 / x[i], то оно и будет и время выполнения будет быстрым,
        но если написать 1.0 / x[i], то NumPy будет преобразовывать x[i], который int64 к float64, а это очень долгая операция
        и общее время выполнения увеличиться примерно в 10 раз
        можно зарание указать для x тип данных float64 и тогда вренмя будет быстрым для обоих случаев
        (преобразование 1 int к 1.0 fliat при 1 / x[i], когда x.dtype = float64 быстрое, тк это преобразование типов Python, а не NumPy"""
    return out
print(f(x))
print(1.0 / x) #это универсальная функция

[1. 2. 3. 4. 5. 6. 7. 8. 9.]
[1.         0.5        0.33333333 0.25       0.2        0.16666667
 0.14285714 0.125      0.11111111]
[1.         0.5        0.33333333 0.25       0.2        0.16666667
 0.14285714 0.125      0.11111111]


In [116]:
print(timeit.timeit(stmt = "f(x)", globals  = globals()))
print(timeit.timeit(stmt = "1.0 / x", globals  = globals()))




1.9574407000036445
0.5555344999884255


Арифметические операции

In [117]:
x = np.arange(5)

In [118]:
print(x)
print(x + 1) #add
print(x - 1)
print(x * 2)
print(x / 2)
print(x // 2)

[0 1 2 3 4]
[1 2 3 4 5]
[-1  0  1  2  3]
[0 2 4 6 8]
[0.  0.5 1.  1.5 2. ]
[0 0 1 1 2]


In [119]:
print(-x)
print(x ** 2) #power
print(x % 2)
print(x * 2 - 2)

[ 0 -1 -2 -3 -4]
[ 0  1  4  9 16]
[0 1 0 1 0]
[-2  0  2  4  6]


Для всех них есть названия в NumPy

In [120]:
print(np.add(x, 2))

[2 3 4 5 6]


In [126]:
x = np.arange(-5, 5)
print(x)
print(abs(x)) #это вроде из Python 
print(np.abs(x))
print(np.absolute(x))

[-5 -4 -3 -2 -1  0  1  2  3  4]
[5 4 3 2 1 0 1 2 3 4]
[5 4 3 2 1 0 1 2 3 4]
[5 4 3 2 1 0 1 2 3 4]


In [129]:
x = np.array([3 + 4j, 4 - 3j])
print(abs(x))
print(np.abs(x))

[5. 5.]
[5. 5.]


есть sin, cos, tan, arcsin...

есть ещё показательные и логарифмы exp, power, log, log2, log10

In [139]:
x = [0, 0.0001, 0.001, 0.01, 0.1]
print("exp = ", np.exp(x))
print("exp - 1 = ", np.expm1(x)) #тут точность выше

exp =  [1.         1.00010001 1.0010005  1.01005017 1.10517092]
exp - 1 =  [0.00000000e+00 1.00005000e-04 1.00050017e-03 1.00501671e-02
 1.05170918e-01]


In [140]:
print("log(x) = ", np.log(x))
print("log(1+x) = ", np.log1p(x))

log(x) =  [       -inf -9.21034037 -6.90775528 -4.60517019 -2.30258509]
log(1+x) =  [0.00000000e+00 9.99950003e-05 9.99500333e-04 9.95033085e-03
 9.53101798e-02]


  print("log(x) = ", np.log(x))


Универсальных функций очень много

в scipy.special тоже много есть универсальных функций

In [146]:
x = np.arange(5)
print(x)
y = x * 10
print(y)

z = np.empty(len(x))
np.multiply(x, 10, out=z) #out - можно задать куда записать результат
print(z)

[0 1 2 3 4]
[ 0 10 20 30 40]
[ 0. 10. 20. 30. 40.]


In [149]:
z = np.zeros(10)
x = np.arange(5)
print(x)
print(z)
z[::2] = x * 10 #тут будет созадн временный массив и он скопируется в z, будет быстрее если...
print(z)

[0 1 2 3 4]
[0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
[ 0.  0. 10.  0. 20.  0. 30.  0. 40.  0.]


In [152]:
z = np.zeros(10)
np.multiply(x, 10, out=z[::2]) #если как тут, видимо тут не создается временного и не происходит лишнего копирования
print(z)

[ 0.  0. 10.  0. 20.  0. 30.  0. 40.  0.]


функции свёртки, помогают получить сводные показатели

In [159]:
x = np.arange(1, 5)
print(np.add.reduce(x)) #попарно применяет функцию add ко всем элементам и выдаёт результат
print(np.add.accumulate(x)) #попарно применяет функцию add ко всем элементам и записывает результат в массиве

print(np.multiply.reduce(x))
print(np.multiply.accumulate(x))

print(np.subtract.reduce(x))
print(np.subtract.accumulate(x))

10
[ 1  3  6 10]
24
[ 1  2  6 24]
-8
[ 1 -1 -4 -8]


In [163]:
print(np.sum(x))
print(np.cumsum(x))

print(np.prod(x))
print(np.cumprod(x))

10
[ 1  3  6 10]
24
[ 1  2  6 24]


In [169]:
x = np.arange(1, 10)
print(np.add(x, x))
print(np.add.outer(x, x))
print(np.multiply.outer(x, x))

[ 2  4  6  8 10 12 14 16 18]
[[ 2  3  4  5  6  7  8  9 10]
 [ 3  4  5  6  7  8  9 10 11]
 [ 4  5  6  7  8  9 10 11 12]
 [ 5  6  7  8  9 10 11 12 13]
 [ 6  7  8  9 10 11 12 13 14]
 [ 7  8  9 10 11 12 13 14 15]
 [ 8  9 10 11 12 13 14 15 16]
 [ 9 10 11 12 13 14 15 16 17]
 [10 11 12 13 14 15 16 17 18]]
[[ 1  2  3  4  5  6  7  8  9]
 [ 2  4  6  8 10 12 14 16 18]
 [ 3  6  9 12 15 18 21 24 27]
 [ 4  8 12 16 20 24 28 32 36]
 [ 5 10 15 20 25 30 35 40 45]
 [ 6 12 18 24 30 36 42 48 54]
 [ 7 14 21 28 35 42 49 56 63]
 [ 8 16 24 32 40 48 56 64 72]
 [ 9 18 27 36 45 54 63 72 81]]


Агрегирование данных

In [172]:
np.random.seed(1)
s = np.random.random(100)
print(sum(s)) #Python
print(np.sum(s)) #NumPy

48.58779276001459
48.587792760014565


In [178]:
a = np.array([[1,2,3,4,5], [6,7,8,9,10]])
print(sum(a))
print(np.sum(a))
print(np.sum(a, axis = 0)) #нулеая ось - строки, мы задали сложение по строкам, вот он и сложил две строки
print(np.sum(a, axis = 1))

[ 7  9 11 13 15]
55
[ 7  9 11 13 15]
[15 40]


In [181]:
print(type(a))
print(a.sum())
print(a.sum(0))

<class 'numpy.ndarray'>
55
[ 7  9 11 13 15]


In [184]:
print(sum(a, 10)) #в сумме из Python второй аргумент - начальное значение суммы

[17 19 21 23 25]


минимум и максимум

In [186]:
np.random.seed(1)
s = np.random.random(100)
print(min(s), max(s))
print(np.min(s), np.max(s))

0.00011437481734488664 0.9888610889064947
0.00011437481734488664 0.9888610889064947


mran - среднее значение\
std - стандартное отклонение\
var - дисперсия\
median - медиана\
argmin, argmax - индексы min и max\
percentile - квантили?\
any all - как в питоне вроде\

Nor a number - NaN
nanmean, nanvar... - адаптированные функций под работу с NaN

Транслирование (broadcasting) - набор правил, позволяющих делать бинарные операции с массивами разных форм

In [193]:
a = np.array([[1,2,3], [4,5,6]])
b = np.array([5,5,5])
print(a + b)
print(a + 5)

[[ 6  7  8]
 [ 9 10 11]]
[[ 6  7  8]
 [ 9 10 11]]


Массив меньшей размерностьи транслируется на размерность большего так:
пусть у нас есть массив [1, 2, 3] его размерность [1, 3] -одна срока и три столбца, и массив [5] у него [1,] одна строка и нет столбцов
1) если размерности массиов отличчаются, то у меньшей размерности слева дописывается единица: [1,] переходит в [1, 1]
2) если при сравнений размерностей двух массивов в том месте, где лни не совпадают у одгого из них стои 1, а у дргого n, \
то 1 переходит в n: [1, 1] в [1, 3]
3) если при сравнений есть пощиция, где размерности не равны и у обоих не единицы, то выдаётсчя ошибка