In [1]:
import numpy as np
np.__version__

'1.18.1'

Создание массивов из списков

In [2]:
np.array([1, 2, 3, 4 ,5])

array([1, 2, 3, 4, 5])

In [3]:
# при несовпадении типов выполняется повышающее преобразование
np.array([1., 2, 3, 4 ,5])

array([1., 2., 3., 4., 5.])

In [4]:
# тип явно задается через dtype
np.array([1, 2, 3, 4 ,5], dtype='float32')

array([1., 2., 3., 4., 5.], dtype=float32)

In [5]:
# естественно многомерность
np.array([range(i, i + 4) for i in [1, 2, 3]])

array([[1, 2, 3, 4],
       [2, 3, 4, 5],
       [3, 4, 5, 6]])

Создание массивов

In [6]:
# инициализация нулями
np.zeros(10, dtype=int)

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0])

In [7]:
# инициализация единицами
np.ones((3, 5), dtype=float)

array([[1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.]])

In [8]:
# инициализация значением
np.full((3, 5), 3.14)

array([[3.14, 3.14, 3.14, 3.14, 3.14],
       [3.14, 3.14, 3.14, 3.14, 3.14],
       [3.14, 3.14, 3.14, 3.14, 3.14]])

In [9]:
# инициализация через генератор последовательности 0, 20 с шагом 2
np.arange(0, 20, 2)

array([ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18])

In [10]:
# инициализируем, равномерно распределяя 5 значени в интервале 0, 1
np.linspace(0, 1, 5)

array([0.  , 0.25, 0.5 , 0.75, 1.  ])

In [11]:
# заполним рандомными значениями от 0 до 3 массив 3х3
np.random.random((3, 3))

array([[0.99798822, 0.28216611, 0.95003783],
       [0.88566909, 0.95145837, 0.91922595],
       [0.58364154, 0.6098852 , 0.97357634]])

In [12]:
# тоже самое, но нормальное распределение с медианой 0 и стандартным отклонением 1
np.random.normal(0, 1, (3, 3))

array([[ 0.73377464, -2.88112958,  0.31334717],
       [ 0.97705775,  0.39631058,  1.48102043],
       [ 0.4880444 , -0.20369644, -0.77699073]])

In [13]:
# случайне целые числа из промежутка 3, 7
np.random.randint(3, 7, (3, 3))

array([[6, 6, 6],
       [3, 6, 5],
       [4, 6, 5]])

In [14]:
# единичная матрица
np.eye(4)

array([[1., 0., 0., 0.],
       [0., 1., 0., 0.],
       [0., 0., 1., 0.],
       [0., 0., 0., 1.]])

In [15]:
# инициализация массива числами, произвольно оказавшимися в случайных ячейках памяти
np.empty((3, 3))

array([[ 0.73377464, -2.88112958,  0.31334717],
       [ 0.97705775,  0.39631058,  1.48102043],
       [ 0.4880444 , -0.20369644, -0.77699073]])

Типы данных в Numpy

| Data type	    | Description |
|---------------|-------------|
| ``bool_``     | Boolean (True or False) stored as a byte |
| ``int_``      | Default integer type (same as C ``long``; normally either ``int64`` or ``int32``)| 
| ``intc``      | Identical to C ``int`` (normally ``int32`` or ``int64``)| 
| ``intp``      | Integer used for indexing (same as C ``ssize_t``; normally either ``int32`` or ``int64``)| 
| ``int8``      | Byte (-128 to 127)| 
| ``int16``     | Integer (-32768 to 32767)|
| ``int32``     | Integer (-2147483648 to 2147483647)|
| ``int64``     | Integer (-9223372036854775808 to 9223372036854775807)| 
| ``uint8``     | Unsigned integer (0 to 255)| 
| ``uint16``    | Unsigned integer (0 to 65535)| 
| ``uint32``    | Unsigned integer (0 to 4294967295)| 
| ``uint64``    | Unsigned integer (0 to 18446744073709551615)| 
| ``float_``    | Shorthand for ``float64``.| 
| ``float16``   | Half precision float: sign bit, 5 bits exponent, 10 bits mantissa| 
| ``float32``   | Single precision float: sign bit, 8 bits exponent, 23 bits mantissa| 
| ``float64``   | Double precision float: sign bit, 11 bits exponent, 52 bits mantissa| 
| ``complex_``  | Shorthand for ``complex128``.| 
| ``complex64`` | Complex number, represented by two 32-bit floats| 
| ``complex128``| Complex number, represented by two 64-bit floats| 

Массивы

In [16]:
np.random.seed(0)
x1 = np.random.randint(10, size=6) # одномерный массив
x2 = np.random.randint(10, size=(3, 4)) # двумерный массив
x3 = np.random.randint(10, size=(3, 4, 5)) # трехмерный массив

In [17]:
# Атрибуты массивов
print('ndim(размерность масива): {0}\nshape(размер каждого измеренеия):\
{1}\nsize(общий размер массива): {2}'.format(x3.ndim, x3.shape, x3.size))

ndim(размерность масива): 3
shape(размер каждого измеренеия):(3, 4, 5)
size(общий размер массива): 60


In [18]:
print('dtype(тип данных): ', x3.dtype)

dtype(тип данных):  int64


In [19]:
print('itemsize:', x3.itemsize, 'bytes')

itemsize: 8 bytes


In [20]:
print('nbytes:', x3.nbytes, 'bytes')

nbytes: 480 bytes


In [21]:
x3.nbytes == x3.itemsize * x3.size

True

In [22]:
# индексация
x1[0]

5

In [23]:
x1[-1]

9

In [24]:
x2

array([[3, 5, 2, 4],
       [7, 6, 8, 8],
       [1, 6, 7, 7]])

In [25]:
x2[1, 1]

6

In [26]:
# изменение значений через индексацию (значение будет приведено к типу данных массива!)
x2[1, 1] = 66.6
x2[1, 1]

66

In [27]:
# срезы
x = np.arange(10)
x

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [28]:
x[:5]

array([0, 1, 2, 3, 4])

In [29]:
x[5:]

array([5, 6, 7, 8, 9])

In [30]:
x[4:7]

array([4, 5, 6])

In [31]:
x[::2]

array([0, 2, 4, 6, 8])

In [32]:
x[1::2]

array([1, 3, 5, 7, 9])

In [33]:
x[::-1]

array([9, 8, 7, 6, 5, 4, 3, 2, 1, 0])

In [34]:
x[5::-2]

array([5, 3, 1])

In [35]:
# многомерные срезы
x2

array([[ 3,  5,  2,  4],
       [ 7, 66,  8,  8],
       [ 1,  6,  7,  7]])

In [36]:
# апо вторую строку и по третий столбец
x2[:2, :3]

array([[ 3,  5,  2],
       [ 7, 66,  8]])

In [37]:
x2[:3, ::2]

array([[3, 2],
       [7, 8],
       [1, 7]])

In [38]:
x2[::-1, ::-1]

array([[ 7,  7,  6,  1],
       [ 8,  8, 66,  7],
       [ 4,  2,  5,  3]])

In [39]:
# доступ к столбцам и строкам массива
# первый столбец
print(x2[:, 0])

[3 7 1]


In [40]:
# первая строка
print(x2[0, :])

[3 5 2 4]


In [41]:
# или более просто для строки
print(x2[0])

[3 5 2 4]


**Важно!** Срезы массивов предоставляются не как копии, а как представления. Это отличие от простых списков в python. Соответственно меняем срез, меняется и массив

In [42]:
x2

array([[ 3,  5,  2,  4],
       [ 7, 66,  8,  8],
       [ 1,  6,  7,  7]])

In [43]:
x2_sub = x2[:2, :2]

In [44]:
x2_sub

array([[ 3,  5],
       [ 7, 66]])

In [45]:
x2_sub[0, 0] = 111
x2_sub

array([[111,   5],
       [  7,  66]])

In [46]:
x2

array([[111,   5,   2,   4],
       [  7,  66,   8,   8],
       [  1,   6,   7,   7]])

In [47]:
# необходимо использовать копирование
x2_sub_copy = x2[:2, :2].copy()

In [48]:
# форма массивов методом reshape(). Метод не изменяет на месте!!!
grid = np.arange(1, 10)
grid

array([1, 2, 3, 4, 5, 6, 7, 8, 9])

In [49]:
grid.reshape((3, 3))
grid

array([1, 2, 3, 4, 5, 6, 7, 8, 9])

In [50]:
np.arange(1, 10).reshape((3, 3))

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [51]:
np.reshape(grid, (3, 3))

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [52]:
# второй вариант - через newaxis (на месте)
x = np.array([1, 2, 3])
x

array([1, 2, 3])

In [53]:
np.reshape(x, (3, 1))

array([[1],
       [2],
       [3]])

In [54]:
x[:, np.newaxis]

array([[1],
       [2],
       [3]])

In [55]:
# слияние массивов (можно объединять более двух)
x = np.array([1, 2, 3])
y = np.array([3, 2, 1])
np.concatenate([x, y])

array([1, 2, 3, 3, 2, 1])

In [56]:
# для двумерных массивов
grid = np.array([[1, 2, 3], 
                 [4, 5, 6]])

In [57]:
np.concatenate([grid, grid], axis=0)

array([[1, 2, 3],
       [4, 5, 6],
       [1, 2, 3],
       [4, 5, 6]])

In [58]:
np.concatenate([grid, grid], axis=1)

array([[1, 2, 3, 1, 2, 3],
       [4, 5, 6, 4, 5, 6]])

In [59]:
# объединение по вериткали np.vstack и горизонтали np.hstack
np.vstack([x, grid])

array([[1, 2, 3],
       [1, 2, 3],
       [4, 5, 6]])

In [60]:
z = np.array([[88], 
              [99]])

In [61]:
np.hstack([z, grid])

array([[88,  1,  2,  3],
       [99,  4,  5,  6]])

In [62]:
# разбиение с помощью split, vsplit, hsplit - необходимо передать список индексов с точками раздела
x = np.arange(9)
x1, x2, x3 = np.split(x, (3, 5))

In [63]:
print(x1, x2, x3)

[0 1 2] [3 4] [5 6 7 8]


In [64]:
grid = np.arange(16).reshape((4, 4))
grid

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15]])

In [65]:
upper, lower = np.split(grid, [2])

In [66]:
print(upper, lower)

[[0 1 2 3]
 [4 5 6 7]] [[ 8  9 10 11]
 [12 13 14 15]]


In [67]:
left, right = np.hsplit(grid, [2])
print(left, right)

[[ 0  1]
 [ 4  5]
 [ 8  9]
 [12 13]] [[ 2  3]
 [ 6  7]
 [10 11]
 [14 15]]


In [68]:
# np.dsplit разделяет по третьей оси

## Универсальный функции

Векторизированные операции numpy - это интерфейс, предоставляющий доступ к компилированной процедурой со статической типизацией. Для этого выполняется операция с массивом, которая будет затем применена к каждому элементу.

Арифметические универсальные функции (применяют нативные арифметические операторы python)

The following table lists the arithmetic operators implemented in NumPy:

| Operator	    | Equivalent ufunc    | Description                           |
|---------------|---------------------|---------------------------------------|
|``+``          |``np.add``           |Addition (e.g., ``1 + 1 = 2``)         |
|``-``          |``np.subtract``      |Subtraction (e.g., ``3 - 2 = 1``)      |
|``-``          |``np.negative``      |Unary negation (e.g., ``-2``)          |
|``*``          |``np.multiply``      |Multiplication (e.g., ``2 * 3 = 6``)   |
|``/``          |``np.divide``        |Division (e.g., ``3 / 2 = 1.5``)       |
|``//``         |``np.floor_divide``  |Floor division (e.g., ``3 // 2 = 1``)  |
|``**``         |``np.power``         |Exponentiation (e.g., ``2 ** 3 = 8``)  |
|``%``          |``np.mod``           |Modulus/remainder (e.g., ``9 % 4 = 1``)|

Additionally there are Boolean/bitwise operators; we will explore these in [Comparisons, Masks, and Boolean Logic](02.06-Boolean-Arrays-and-Masks.ipynb).

In [69]:
# абсолютное значение
x = np.array([-2, -1, 0, 1, 2])
abs(x)

array([2, 1, 0, 1, 2])

In [70]:
# в numpy дв аналога
np.absolute(x)

array([2, 1, 0, 1, 2])

In [71]:
np.abs(x)

array([2, 1, 0, 1, 2])

In [72]:
# функция работает с комплексными числами
x = np.array([3 - 4j, 4 - 3j, 2 + 0j, 0 + 1j])
np.abs(x)

array([5., 5., 2., 1.])

Тригонометрические ф-ии - sin(), cos(), tan(), acsin(), arccos(), arctan()

Показательные функции - np.exp(x) - e^x, np.exp2(x) - 2^x, np.power(n, x) - n^x, np.log(x) - ln(x), np.log2(x) - log2(x), np.log10(x) - log10(x), np.expm1(x) - exp(x) - 1, np.log1p(x) - log(1 + x) (последние две возвращают значения с повышенной точностью)

In [73]:
# куча другиз специализированных функций импортируется из scipy
from scipy import special

x = [1, 5, 10]
special.gamma(x)

array([1.0000e+00, 2.4000e+01, 3.6288e+05])

### Дополнительные возможности универстальных функций

#### Указание массива для вывода результата

In [74]:
x = np.arange(5)
y = np.empty(5)
np.multiply(x, 10, out=y)
y

array([ 0., 10., 20., 30., 40.])

In [75]:
# можно работать со срезами
y = np.zeros(10)
np.power(2, x, out=y[::2])
y

array([ 1.,  0.,  2.,  0.,  4.,  0.,  8.,  0., 16.,  0.])

#### редуцирование

In [76]:
x = np.arange(1, 6)
np.add.reduce(x)

15

In [77]:
np.multiply.reduce(x)

120

In [78]:
# метод возвращает единственное значение, 
# полученное в результате многокартного применения универсальной функции

# если необходимо сохранить промежучтоные результаты, то accumulate()
np.add.accumulate(x)

array([ 1,  3,  6, 10, 15])

In [79]:
np.multiply.accumulate(x)

array([  1,   2,   6,  24, 120])

In [80]:
# векторыне произведения с помощью outer()
np.multiply.outer(x, x)

array([[ 1,  2,  3,  4,  5],
       [ 2,  4,  6,  8, 10],
       [ 3,  6,  9, 12, 15],
       [ 4,  8, 12, 16, 20],
       [ 5, 10, 15, 20, 25]])

### Агрегирование

In [82]:
# суммирование через массив
l = np.random.random(100)
np.sum(l)

52.12818058833702

In [83]:
# min max
np.min(l)

0.009356704856532616

In [84]:
np.max(l)

0.9952995676778876

In [85]:
# можно так
l.min()

0.009356704856532616

In [86]:
l.max()

0.9952995676778876

In [88]:
# агрегирование по столбцу или строке
m = np.random.random((3, 4))
m.min(axis=0)

array([0.13997259, 0.03322239, 0.36549611, 0.01662797])

In [89]:
m.max(axis=1)

array([0.8649333 , 0.98257496, 0.42007537])

Полный список агрегирующих функций, большинсто из которых nan-безопасны

|Function Name      |   NaN-safe Version  | Description                                   |
|-------------------|---------------------|-----------------------------------------------|
| ``np.sum``        | ``np.nansum``       | Compute sum of elements                       |
| ``np.prod``       | ``np.nanprod``      | Compute product of elements                   |
| ``np.mean``       | ``np.nanmean``      | Compute mean of elements                      |
| ``np.std``        | ``np.nanstd``       | Compute standard deviation                    |
| ``np.var``        | ``np.nanvar``       | Compute variance                              |
| ``np.min``        | ``np.nanmin``       | Find minimum value                            |
| ``np.max``        | ``np.nanmax``       | Find maximum value                            |
| ``np.argmin``     | ``np.nanargmin``    | Find index of minimum value                   |
| ``np.argmax``     | ``np.nanargmax``    | Find index of maximum value                   |
| ``np.median``     | ``np.nanmedian``    | Compute median of elements                    |
| ``np.percentile`` | ``np.nanpercentile``| Compute rank-based statistics of elements     |
| ``np.any``        | N/A                 | Evaluate whether any elements are true        |
| ``np.all``        | N/A                 | Evaluate whether all elements are true        |

## Транслирование

In [91]:
# во время транслирования производится оптимизированная процедура, похожаяна растягивание 
# скалера или вектора до недостающих измерений
a = np.array([0, 1, 2])
a + 5

array([5, 6, 7])

In [93]:
a = np.arange(3)
b = np.arange(3)[:, np.newaxis]
print(a)
print(b)

[0 1 2]
[[0]
 [1]
 [2]]


In [94]:
a + b

array([[0, 1, 2],
       [1, 2, 3],
       [2, 3, 4]])

**Правила транслирования**

- если у массивов разная размерность, форма меньшего дополняется единицей слева ( (2, 3) и (3,) -> (2, 3) и (1, 3)
- если форма не совпадаетв каком-то измерении, массив с формой 1 в этом измерении растягивается до нужной (2, 3) и (1, 3) -> (2, 3) и (2, 3)
- масивы разной формы, не имеющие размера 1 в каком либо из измерений, сгенерируют ошибку (2, 3) и (3, 3) несовпестимы

In [95]:
# пример 1 - центрирование
x = np.random.random((10, 3))
xmean = x.mean(0) # среднее по первому измерению
xcentred = x - xmean
xcentred.mean(0)

array([ 4.44089210e-17,  4.44089210e-17, -1.11022302e-16])

## Маскирование

In [96]:
x = np.array([1, 2, 3, 4, 5])

In [97]:
x < 3

array([ True,  True, False, False, False])

In [98]:
x > 3

array([False, False, False,  True,  True])

In [99]:
x <= 2

array([ True,  True, False, False, False])

In [100]:
x >= 2

array([False,  True,  True,  True,  True])

In [101]:
x != 1

array([False,  True,  True,  True,  True])

In [102]:
x == 1

array([ True, False, False, False, False])

In [103]:
(2 * x) == (x ** 2)

array([False,  True, False, False, False])

Эквиваленты операторов сравнения

| Operator	    | Equivalent ufunc    || Operator	   | Equivalent ufunc    |
|---------------|---------------------||---------------|---------------------|
|``==``         |``np.equal``         ||``!=``         |``np.not_equal``     |
|``<``          |``np.less``          ||``<=``         |``np.less_equal``    |
|``>``          |``np.greater``       ||``>=``         |``np.greater_equal`` |

#### методы работы с булевыми массивами

In [105]:
# подсчет булевых элементов
rnd = np.random.RandomState(0)
x = rnd.randint(10, size=(3, 4))
x

array([[5, 0, 3, 3],
       [7, 9, 3, 5],
       [2, 4, 7, 6]])

In [106]:
np.count_nonzero(x < 6)

8

In [107]:
# аналог
np.sum(x < 6)

8

In [108]:
# можно в разных измерения
np.sum(x < 6, axis=1)

array([4, 2, 2])

In [109]:
# быстрая проверка - есть ли True
np.any(x > 8)

True

In [110]:
# быстрая проверка - все ли True
np.all(x > 8)

False

In [111]:
np.all(x < 8, axis=1)

array([ True, False,  True])

Достыпны побитовые операторы **&, |, ^, ~**

| Operator	    | Equivalent ufunc    || Operator	    | Equivalent ufunc    |
|---------------|---------------------||---------------|---------------------|
|``&``          |``np.bitwise_and``   ||&#124;         |``np.bitwise_or``    |
|``^``          |``np.bitwise_xor``   ||``~``          |``np.bitwise_not``   |

#### Использование булей как маски

In [113]:
print(x < 5)
x[x < 5]

[[False  True  True  True]
 [False False  True False]
 [ True  True False False]]


array([0, 3, 3, 3, 2, 4])

**!важно**

and и or против & и |

первые два сравнивают объекты целиком, вторы два сравнивают побитово

**при булевых операциях в np необходимо использовать & и |**