# Массивы numpy

[К оглавлению](00_contents.ipynb)

**Массив** (_array_) - тип данных, предназначенный в первую очередь для научных вычислений и визуализации данных. Определение этого типа данных и функции для работы с массивами содержатся в пакете `numpy`.

В массиве могут содержаться данные только одного типа - целые или действительные числа, логические значения, строки - любые объекты. Чаще всего мы будем работать с числами и логическими значениями.

[Шпаргалка по работе с массивами numpy](https://s3.amazonaws.com/assets.datacamp.com/blog_assets/Numpy_Python_Cheat_Sheet.pdf).


In [38]:
import numpy as np

## Создание массивов

In [39]:
arr1 = np.array([10, 20, 25, 32]) #массив из списка
print(arr1)
type(arr1)

[10 20 25 32]


numpy.ndarray

In [40]:
arr1.shape #форма массива

(4,)

In [41]:
arr1.ndim #число измерений

1

In [42]:
x = np.arange(-10, 11, 2) # последовательность в заданных пределах
x

array([-10,  -8,  -6,  -4,  -2,   0,   2,   4,   6,   8,  10])

In [43]:
y = np.linspace(-10, 10, 11) # разбиение интервала
y

array([-10.,  -8.,  -6.,  -4.,  -2.,   0.,   2.,   4.,   6.,   8.,  10.])

In [44]:
print(x.dtype, y.dtype)

int32 float64


In [45]:
print(x.nbytes, y.nbytes)

44 88


In [46]:
#двухмерный массив из списка:
arr2 = np.array([[1, 2, 3],
                 [4, 5, 6],
                 [7, 8, 9]])
print(arr2)

[[1 2 3]
 [4 5 6]
 [7 8 9]]


In [47]:
arr2.shape

(3, 3)

In [48]:
arr2.ndim

2

In [49]:
I = np.identity(5) #единичная матрица
print(I)

[[1. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0.]
 [0. 0. 1. 0. 0.]
 [0. 0. 0. 1. 0.]
 [0. 0. 0. 0. 1.]]


In [50]:
I.shape

(5, 5)

In [51]:
I.ndim

2

In [52]:
A = np.zeros((3, 4)) # Массив нулей
print(A)

[[0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]]


In [53]:
np.random.seed(0) # инициализация генератора случайных чисел, для воспроизводимости
R = np.random.randint(low = 0, high = 9, size=(5, 5)) # Случайный массив
R

array([[5, 0, 3, 3, 7],
       [3, 5, 2, 4, 7],
       [6, 8, 8, 1, 6],
       [7, 7, 8, 1, 5],
       [8, 4, 3, 0, 3]])

## Операции с массивами

### Извлечение элементов 

Извлечение элементов из одномерных массивов работает так же, как и списки/кортежи.
Важно помнить, что нумерация элементов в Python начинается от нуля.

![Индексирование элементов списка](pics/list_indexing.svg 'Индексирование элементов списка')


Диапазон значений (**срез**) можно указать с помощью двоеточия: `[a:b]`
Также можно задать шаг `[a:b:c]`

Обратите внимание, что правая граница (`b`) не включается в диапазон!


In [54]:
print(arr1)
print(arr1[::-1])

[10 20 25 32]
[32 25 20 10]


Для двухмерных массивов необходимо указать два индекса, чтобы извлечь элемент.
![](pics/numpy_indexing.png)

In [55]:
print(R)
R[1, 2]

[[5 0 3 3 7]
 [3 5 2 4 7]
 [6 8 8 1 6]
 [7 7 8 1 5]
 [8 4 3 0 3]]


2

### Срезы

Используя срезы, можно обращаться к различным частям массива

![](pics/numpy_slicing.jpg)

Срезы позволяют не только считывать, но и изменять элементы массива

In [56]:
A = np.zeros((3, 4))
print(A)

[[0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]]


In [57]:
A[1, 1] = 5 #изменение элемента
print(A)

[[0. 0. 0. 0.]
 [0. 5. 0. 0.]
 [0. 0. 0. 0.]]


In [58]:
A[1:, 2:] = 10 # изменение всех элементов в срезе
print(A)

[[ 0.  0.  0.  0.]
 [ 0.  5. 10. 10.]
 [ 0.  0. 10. 10.]]


In [59]:
print(A[1]) #извлечение строки

[ 0.  5. 10. 10.]


In [60]:
print(A[:, 1]) #извлечение столбца

[0. 5. 0.]


Как и в случае со списками, при присваивании массива новой переменной создается ссылка на тот же массив, а не его копия. При доступе к массиву с использованием второй переменной будет меняться оригинальный массив!

In [61]:
B = A #переменная B ссылается на тот же массив, что и переменная A
B[0, 0] = 33
print(B)

[[33.  0.  0.  0.]
 [ 0.  5. 10. 10.]
 [ 0.  0. 10. 10.]]


In [62]:
print(A) #массив изменился, поэтому ссылка A также показывает измененный вариант

[[33.  0.  0.  0.]
 [ 0.  5. 10. 10.]
 [ 0.  0. 10. 10.]]


In [63]:
C = A.copy() #создается копия массива
C[0, 0] = 55
print(C) 

[[55.  0.  0.  0.]
 [ 0.  5. 10. 10.]
 [ 0.  0. 10. 10.]]


In [64]:
print(A) #оригинал не изменился

[[33.  0.  0.  0.]
 [ 0.  5. 10. 10.]
 [ 0.  0. 10. 10.]]


### Изменение формы

In [65]:
print(A.T) #транспонирование

[[33.  0.  0.]
 [ 0.  5.  0.]
 [ 0. 10. 10.]
 [ 0. 10. 10.]]


In [66]:
D = np.arange(1, 25)
D

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16, 17,
       18, 19, 20, 21, 22, 23, 24])

In [67]:
E = D.reshape(4, 6)
E

array([[ 1,  2,  3,  4,  5,  6],
       [ 7,  8,  9, 10, 11, 12],
       [13, 14, 15, 16, 17, 18],
       [19, 20, 21, 22, 23, 24]])

In [68]:
E.reshape(6, 4)

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12],
       [13, 14, 15, 16],
       [17, 18, 19, 20],
       [21, 22, 23, 24]])

In [69]:
E.reshape(-1, 3) # определить длину измерения автоматически

array([[ 1,  2,  3],
       [ 4,  5,  6],
       [ 7,  8,  9],
       [10, 11, 12],
       [13, 14, 15],
       [16, 17, 18],
       [19, 20, 21],
       [22, 23, 24]])

In [70]:
E.ravel() # назад в одномерный массив

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16, 17,
       18, 19, 20, 21, 22, 23, 24])

### Вычисления

Главная особенность массивов numpy - возможность применять вычисления сразу ко всем элементам массива.

In [71]:
print(A * 2) #полэлементное умножение

[[66.  0.  0.  0.]
 [ 0. 10. 20. 20.]
 [ 0.  0. 20. 20.]]


In [72]:
print(A * A)

[[1089.    0.    0.    0.]
 [   0.   25.  100.  100.]
 [   0.    0.  100.  100.]]


В пакете `numpy` есть множество **универсальных функций** (ufunc), которые применяются сразу ко всем элементам массива.

In [73]:
print(np.sqrt(A * A)) #применение функции к каждому элементу массива

[[33.  0.  0.  0.]
 [ 0.  5. 10. 10.]
 [ 0.  0. 10. 10.]]


В `numpy` есть также функции для расчета базовых описательных статистик по массиву - суммы, среднего, медианы и т.п. Их можно применять ко всему массиву, или отдельно к любому его измерению.

In [75]:
F = np.arange(1, 10).reshape(3, 3)
F

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [76]:
F.sum()

45

In [78]:
F.sum(axis = 0) # сумма для каждой строки

array([12, 15, 18])

In [79]:
F.sum(axis = 1) # сумма для каждого столбца

array([ 6, 15, 24])