# Библиотека Numpy для работы с массивами данных

Для проведения анализа данных требуются соответствующие инструменты - методы эффективной загрузки, хранения и управления данными в памяти. Эта тема очень обширна: наборы данных могут поступать из самых разных источников и иметь разные форматы, включая коллекции документов, коллекции изображений, коллекции аудиоклипов, коллекции числовых измерений и так далее. Несмотря на эту  неоднородность мы можем рассматривать все данные как массивы чисел.

Например, изображения - особенно цифровые изображения - можно рассматривать как двумерные массивы чисел, представляющих яркость пикселей по всей площади изображения. Звуковые клипы можно рассматривать как одномерные массивы, показывающие зависимость интенсивности звука от времени. Текст можно преобразовать различными способами в числовые представления, например, в показатели, представляющие частоту употребления определенных слов или пар слов. Независимо от того, что это за данные, первым шагом к тому, чтобы сделать их доступными для анализа, будет преобразование их в массивы чисел.

По этой причине эффективное хранение числовых массивов и манипулирование ими абсолютно необходимы в процессе анализа данных. Одной из основных библиотек в языке Python, предоставляющей такой функционал, является NumPy.

NumPy (сокращение от Numerical Python) предоставляет эффективный интерфейс для хранения и работы с массивами данных. В некотором смысле массивы NumPy похожи на встроенный в Python тип списка, но массивы NumPy обеспечивают гораздо более эффективное хранение и операции с данными по мере увеличения размеров массивов. Массивы NumPy образуют ядро ​​почти всей экосистемы инструментов анализа данных в Python, поэтому время, потраченное на обучение эффективному использованию NumPy, будет ценным независимо от того, какой аспект анализа данных вас интересует.

## Массивы, способы их создания

Массив (объект типа numpy.ndarray) - это обобщенный многомерный контейнер для хранения однородных данных. Под однородностью данных понимается то, что все элементы в контейнере принадлежат одному и тому же типу (int, float, str и др.).

### Создание массивов на основе списков

In [None]:
import numpy as np

In [None]:
my_list = [1, 5, 4, 3]
my_array = np.array(my_list)

print('Массив:', my_array)
print('Тип хранимых в массиве элементов:', my_array.dtype)

Массив: [1 5 4 3]
Тип хранимых в массиве элементов: int64


В отличие от списков в Python массивы numpy могут содержать элементы только одного типа. Поэтому если типы элементов будут различаться, NumPy попытается привести их к одному типу.


In [None]:
my_list = [1, 5, 4.2, 3]
my_array = np.array(my_list)

print('Массив:', my_array)
print('Тип хранимых в массиве элементов:', my_array.dtype)

Массив: [1.  5.  4.2 3. ]
Тип хранимых в массиве элементов: float64


In [None]:
my_list = [1, '5', 4.2, 3]
my_array = np.array(my_list)

print('Массив:', my_array)
print('Тип хранимых в массиве элементов:', my_array.dtype)

Массив: ['1' '5' '4.2' '3']
Тип хранимых в массиве элементов: <U21


Если в массиве необходимо использовать определенный тип, можно воспользоваться аргументом dtype при создании массива.

In [None]:
my_list = [1, '5', 4.2, 3]
my_array = np.array(my_list, dtype=int)

print('Массив:', my_array)
print('Тип хранимых в массиве элементов:', my_array.dtype)

Массив: [1 5 4 3]
Тип хранимых в массиве элементов: int64


Кроме того в отличие от списков в Python массивы NumPy могут быть многомерными. Такие массивы создаются из вложенных списков.

In [None]:
nested_list = [[5, 4, 3], [1, 5, 3]]
my_array = np.array(nested_list)

print('Массив:\n', my_array)
print('Размерность массива:', my_array.shape)

Массив:
 [[5 4 3]
 [1 5 3]]
Размерность массива: (2, 3)


### Создание массивов с помощью встроенных функций

Функция для создания одномерного массива с целыми числами, изменяющимися с заданным шагом в заданном интервале. Аналогична функции range в Python. Обратите внимание, что конец интервала в создаваемый массив не входит.

In [None]:
my_array_1 = np.arange(5)
my_array_2 = np.arange(2, 12, 3)
my_array_3 = np.arange(10, 2, -2)

print(my_array_1)
print(my_array_2)
print(my_array_3)

[0 1 2 3 4]
[ 2  5  8 11]
[10  8  6  4]


Похожая функция для вещественных чисел. Вместо шага изменения числа принимает кол-во элементов в интервале (по умолчанию равно 100). Обратите внимание, что конец интервала входит в создаваемый массив.

In [None]:
my_array_1 = np.linspace(1, 2)
my_array_2 = np.linspace(1, 4, 5)
my_array_3 = np.linspace(10, 5, 3)

print(my_array_1)
print(my_array_2)
print(my_array_3)

[1.         1.02040816 1.04081633 1.06122449 1.08163265 1.10204082
 1.12244898 1.14285714 1.16326531 1.18367347 1.20408163 1.2244898
 1.24489796 1.26530612 1.28571429 1.30612245 1.32653061 1.34693878
 1.36734694 1.3877551  1.40816327 1.42857143 1.44897959 1.46938776
 1.48979592 1.51020408 1.53061224 1.55102041 1.57142857 1.59183673
 1.6122449  1.63265306 1.65306122 1.67346939 1.69387755 1.71428571
 1.73469388 1.75510204 1.7755102  1.79591837 1.81632653 1.83673469
 1.85714286 1.87755102 1.89795918 1.91836735 1.93877551 1.95918367
 1.97959184 2.        ]
[1.   1.75 2.5  3.25 4.  ]
[10.   7.5  5. ]


Функции для создания массивов с заданной размерностью:
* с нулями,
* с единицами,
* с заданным числом.

In [None]:
zeros = np.zeros((2, 2))
ones = np.ones((2, 2, 3))
fill = np.full((2, 4), fill_value=5)

for array in [zeros, ones, fill]:
  print('Массив:\n', array)
  print('Размерность массива:', array.shape)
  print('*' * 10)

Массив:
 [[0. 0.]
 [0. 0.]]
Размерность массива: (2, 2)
**********
Массив:
 [[[1. 1. 1.]
  [1. 1. 1.]]

 [[1. 1. 1.]
  [1. 1. 1.]]]
Размерность массива: (2, 2, 3)
**********
Массив:
 [[5 5 5 5]
 [5 5 5 5]]
Размерность массива: (2, 4)
**********


Функции для создания массивов с размерностью как у передаваемого в функцию массива.

In [None]:
zeros_new = np.zeros_like(ones)
ones_new = np.ones_like(fill)
fill_new = np.full_like(zeros, fill_value=1.3)

for array in [zeros_new, ones_new, fill_new]:
  print('Массив:\n', array)
  print('Размерность массива:', array.shape)
  print('*' * 10)

Массив:
 [[[0. 0. 0.]
  [0. 0. 0.]]

 [[0. 0. 0.]
  [0. 0. 0.]]]
Размерность массива: (2, 2, 3)
**********
Массив:
 [[1 1 1 1]
 [1 1 1 1]]
Размерность массива: (2, 4)
**********
Массив:
 [[1.3 1.3]
 [1.3 1.3]]
Размерность массива: (2, 2)
**********


Функция для создания диагональных матриц (с единицами на главной диагонали). Допускает смещение диагонали матрицы.

In [None]:
diag_1 = np.eye(3)
diag_2 = np.eye(4, M=3)
diag_3 = np.eye(4, k=1)

for array in [diag_1, diag_2, diag_3]:
  print('Массив:\n', array)
  print('Размерность массива:', array.shape)
  print('*' * 10)

Массив:
 [[1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]]
Размерность массива: (3, 3)
**********
Массив:
 [[1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]
 [0. 0. 0.]]
Размерность массива: (4, 3)
**********
Массив:
 [[0. 1. 0. 0.]
 [0. 0. 1. 0.]
 [0. 0. 0. 1.]
 [0. 0. 0. 0.]]
Размерность массива: (4, 4)
**********


Из случайных значений

## Типы данных в массивах NumPy

| Тип | Код типа | Описание|
|--|--|--|
| ``int8``| i1 | Знаковое 8-разрядное (1 байт) целое (-128 to 127) | 
| ``int16`` | i2 | Знаковое 8-разрядное (2 байтa) целое (-32768 to 32767) |
| ``int32`` | i4 | Знаковое 8-разрядное (4 байтa) целое (-2147483648 to 2147483647) |
| ``int64`` | i8 | Знаковое 8-разрядное (8 байт) целое (-9223372036854775808 to 9223372036854775807) | 
| ``uint8`` | u1 | Беззнаковое 8-разрядное (1 байт) целое (0 to 255) | 
| ``uint16``| u2 | Беззнаковое 8-разрядное (2 байтa) целое (0 to 65535) | 
| ``uint32``| u4 | Беззнаковое 8-разрядное (4 байтa) целое (0 to 4294967295) | 
| ``uint64``| u8 | Беззнаковое 8-разрядное (8 байт) целое (0 to 18446744073709551615) | 
| ``bool_``| ? | Булев тип (True или False) |
| ``float16`` | f2 | С плавающей точкой половинной точности | 
| ``float32`` | f4 | Стандартный тип с плавающей точкой одинарной точности. Совместим с типом float языка C | 
| ``float64`` | f8 или d | Стандартный тип с плавающей точкой двойной точности. Совместим с типом double языка C и типом float языка Python |
| ``float128`` | f16 | С плавающей точкой расширенной точности |
| ``complex64`` | c8 | Комплексное число, вещественная и мнимая часть которого представлена типом float32 | 
| ``complex128`` | c16 | Комплексное число, вещественная и мнимая часть которого представлена типом float64 | 
| ``complex256`` | c32 | Комплексное число, вещественная и мнимая часть которого представлена типом float128 |
| ``object`` | O | Тип объекта Python |
| ``string_`` | S | Тип строки фиксированной длины (1 байт на символ). Пример кода - строка длиной 10 имеет тип S10 |
| ``unicode_`` | U | Тип Unicode-строки фиксированной длины (количество байтов на символ зависит от платформы). Пример кода - строка длиной 10 имеет тип U10 |

Метод массивов для преобразования типов.

In [None]:
array = np.array([1, 2, 3, 4, 5])
new_array = array.astype(np.float64)
print('Тип', array.dtype, 'сменился на', new_array.dtype)

Тип int64 сменился на float64


In [None]:
array = np.array([-3, 1, 0, 4.4, 5])
print('Массив:', array, 'Тип:', array.dtype)

for typ in [np.int32, np.uint8, np.bool_, np.unicode_]:
  new_array = array.astype(typ)
  print('Массив:', new_array, 'Тип:', new_array.dtype)

Массив: [-3.   1.   0.   4.4  5. ] Тип: float64
Массив: [-3  1  0  4  5] Тип: int32
Массив: [253   1   0   4   5] Тип: uint8
Массив: [ True  True False  True  True] Тип: bool
Массив: ['-3.0' '1.0' '0.0' '4.4' '5.0'] Тип: <U32


## Индексирование

Индексирование позволяет обращаться к данным в массиве ndarray по индексам и получать некоторое подмножество его значений с использованием операции "среза" данных. 

### Индексация массивов: доступ к отдельным элементам

Если Вы знакомы со стандартной индексацией списков Python, индексация в NumPy покажется Вам знакомой. В одномерном массиве к i-му значению (отсчет от нуля) можно получить доступ, указав желаемый индекс в квадратных скобках, как и в списках Python.

In [None]:
x = np.array([3, 4, 5, 6, 8])
print(x[1])

4


Для индексации с конца массива можно использовать отрицательные индексы.

In [None]:
print(x[-1])

8


В многомерном массиве к элементам можно получить доступ с помощью кортежа индексов, разделенных запятыми.

In [None]:
x = np.array([[3, 4, 5], [1, 3, 2]])
print(x[1, -1])

2


Значения также можно изменить, используя любую из указанных выше обозначений индекса.

In [None]:
x[0, 0] = 12
print(x)

[[12  4  5]
 [ 1  3  2]]


Необходимо иметь в виду, что массивы NumPy имеют фиксированный тип. Это означает, что при попытке вставки значения с плавающей запятой в целочисленный массив, значение будет автоматически усечено.

In [None]:
x[0, 0] = 3.14159
print(x)

[[3 4 5]
 [1 3 2]]


### Индексация массивов: доступ к подмассивам

Точно так же, как мы можем использовать квадратные скобки для доступа к отдельным элементам массива, мы также можем использовать их для доступа к подмассивам с нотацией среза, отмеченной знаком двоеточия (:). Синтаксис использования срезов в NumPy соответствует синтаксису стандартного списка Python; чтобы получить доступ к фрагменту массива x, можно использовать следующую конструкцию:
``` python
x[start:end:step]
```
Если какие-либо из этих значений не указаны, они по умолчанию имеют значения start = 0, stop = размер вдоль измерения, step = 1. Мы рассмотрим доступ к подмассивам в одном измерении и в нескольких измерениях.

#### Одномерные подмассивы

In [None]:
x = np.arange(10)
print(x, 'исходный массив')
print(x[:5], 'пять первых элементов')
print(x[5:], 'элементы после индекса 5')
print(x[4:7], 'средний подмассив')
print(x[::2], 'доступ к элементам через 1')
print(x[1::2], 'доступ к элементам через 1, начиная с индекса 1')
print(x[::-1], 'все элементы в обратном порядке')
print(x[5::-2], 'элементы в обратном порядке через 1, начиная с индекса 5')

[0 1 2 3 4 5 6 7 8 9] исходный массив
[0 1 2 3 4] пять первых элементов
[5 6 7 8 9] элементы после индекса 5
[4 5 6] средний подмассив
[0 2 4 6 8] доступ к элементам через 1
[1 3 5 7 9] доступ к элементам через 1, начиная с индекса 1
[9 8 7 6 5 4 3 2 1 0] все элементы в обратном порядке
[5 3 1] элементы в обратном порядке через 1, начиная с индекса 5


#### Многомерные подмассивы

Аналогичным образом работают многомерные срезы, при этом несколько срезов разделяются запятыми.

In [None]:
x =  np.array([[1, 2, 3, 4], [5, 6, 7, 8], [9, 10, 11, 12]])
print(x[:2, :3])
print(x[:3, ::2])
print(x[::-1, ::-1])

[[1 2 3]
 [5 6 7]]
[[ 1  3]
 [ 5  7]
 [ 9 11]]
[[12 11 10  9]
 [ 8  7  6  5]
 [ 4  3  2  1]]


#### Доступ к строкам и колонкам

Одна из часто используемых процедур - это доступ к отдельным строкам или столбцам массива. Это можно сделать, объединив индексацию и нарезку, используя пустой фрагмент, отмеченный одним двоеточием (:).

In [None]:
print(x[:, 0]) # первая колонка
print(x[0, :]) # первая строка
print(x[0]) # эквивалент x[0, :]

[1 5 9]
[1 2 3 4]
[1 2 3 4]


#### Подмассивы как отображения без копирования

Одна важная и чрезвычайно полезная вещь, которую нужно знать о срезах массива, заключается в том, что они возвращают *отображения*, а не *копии* данных массива.
Это одна из областей, в которой срезы массива NumPy отличаются от срезов списков Python: в списках срезы будут копиями.
Рассмотрим ранее использованный массив.

In [None]:
print(x)

[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]]


Извлекаем из него подмассив 2 × 2.

In [None]:
x_sub = x[:2, :2]
print(x_sub)

[[1 2]
 [5 6]]


Если изменить этот подмассив, можно увидеть, что исходный массив тоже изменился.

In [None]:
x_sub[0, 0] = 99
print(x_sub)
print(x)

[[99  2]
 [ 5  6]]
[[99  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]]


Такое поведение может быть очень полезным: когда мы работаем с большими наборами данных, мы можем получать доступ и обрабатывать части этих наборов данных без необходимости копировать базовый буфер данных.

### Создание копий массивов

Несмотря на удобство использования отображений массива, иногда полезно вместо этого скопировать данные в массив. Проще всего это сделать с помощью метода copy.

In [None]:
x = np.random.randint(5, size=(5, 5))
print(x)

[[4 4 3 2 0]
 [3 0 4 3 1]
 [1 0 1 1 4]
 [4 3 0 2 1]
 [4 3 2 2 4]]


In [None]:
x_sub_copy = x[:2, :2].copy()
print(x_sub_copy)

[[4 4]
 [3 0]]


Если изменить этот подмассив, исходный массив не будет затронут.

In [None]:
x_sub_copy[0, 0] = 42
print(x_sub_copy)

[[42  4]
 [ 3  0]]


In [None]:
print(x)

[[4 4 3 2 0]
 [3 0 4 3 1]
 [1 0 1 1 4]
 [4 3 0 2 1]
 [4 3 2 2 4]]


### Булева индексация

Для индексации можно использовать бинарные маски, показывающие какие элементы должны войти в извлекаемый подмассив, а какие нет.

In [None]:
print(x)

[[4 4 3 2 0]
 [3 0 4 3 1]
 [1 0 1 1 4]
 [4 3 0 2 1]
 [4 3 2 2 4]]


In [None]:
bool_mask = (x > 5) & (x < 40) 
print(bool_mask)

[[False False False False False]
 [False False False False False]
 [False False False False False]
 [False False False False False]
 [False False False False False]]


In [None]:
print("Выбор элементов, удовлетворяющих условию:")
print(x[bool_mask])

Выбор элементов, удовлетворяющих условию:
[]


In [None]:
print("Замена элементов, не удовлетворяющих условию:")
x_cut = x.copy()
x_cut[~bool_mask] = 3
print('- c использованием булевой индексации:')
print(x_cut)
print('- с использованием функции np.where:')
print(np.where(bool_mask, x, 3))

Замена элементов, не удовлетворяющих условию:
- c использованием булевой индексации:
[[3 3 3 3 3]
 [3 3 3 3 3]
 [3 3 3 3 3]
 [3 3 3 3 3]
 [3 3 3 3 3]]
- с использованием функции np.where:
[[3 3 3 3 3]
 [3 3 3 3 3]
 [3 3 3 3 3]
 [3 3 3 3 3]
 [3 3 3 3 3]]


### Индексирование с использованием целочисленных массивов

In [None]:
np.random.seed(1000) # для воспроизводимости результатов

In [None]:
arr = np.random.randint(5, size=(5, 5))
print('Исходная матрица:\n', arr)

Исходная матрица:
 [[3 0 3 4 1]
 [0 1 0 1 4]
 [3 4 4 2 2]
 [1 4 4 2 1]
 [0 2 4 4 2]]


In [None]:
print('Подвыборка из строк 0, 2, 4:')
print(arr[[0, 2, 4]])

Подвыборка из строк 0, 2, 4:
[[3 0 3 4 1]
 [3 4 4 2 2]
 [0 2 4 4 2]]


In [None]:
print('Подвыборка из столбцов 0, 2, 4:')
print(arr[:, [0, 2, 4]])

Подвыборка из столбцов 0, 2, 4:
[[3 3 1]
 [0 0 4]
 [3 4 2]
 [1 4 1]
 [0 4 2]]


In [None]:
print('Подвыборка элементов, стоящих на пересечении соответствующих строк и столбцов с номерами 0, 2, 4:')
print(arr[[0, 2, 4], [0, 2, 4]])

Подвыборка элементов, стоящих на пересечении соответствующих строк и столбцов с номерами 0, 2, 4:
[3 4 2]


## Изменение формы массивов

Другой полезный тип операции - изменение формы массивов. Самый гибкий способ сделать это - использовать метод изменения формы. Например, если вы хотите поместить числа от 1 до 9 в сетку 3 × 3, вы можете сделать следующее.

In [None]:
grid = np.arange(1, 10).reshape((3, 3))
print(grid)

[[1 2 3]
 [4 5 6]
 [7 8 9]]


Обратите внимание, что для этого размер исходного массива должен соответствовать размеру измененного массива (речь идет о кол-ве элементов).

Другая распространенная операция изменения формы - это преобразование одномерного массива в двумерную матрицу строк или столбцов. Это можно сделать с помощью метода reshape или, что проще, с помощью ключевого слова newaxis в операции среза.

In [None]:
x = np.array([1, 2, 3])
print(x)
print(x.reshape((1, 3))) # создаем вектор-строку
print(x.reshape((3, 1))) # создаем вектор-столбец
print(x[:, np.newaxis]) # создаем вектор-столбец с помощью объекта np.newaxis

[1 2 3]
[[1 2 3]]
[[1]
 [2]
 [3]]
[[1]
 [2]
 [3]]


Иногда возникает необходимость "схлопнуть" многомерный массив, т.е. преобразовать в одномерный. Для этого используется функция ravel.

In [None]:
grid = np.arange(1, 10).reshape((3, 3))
print(grid)
print('Схлопываем строка за строкой:')
print(grid.ravel()) 
print('Схлопываем столбец за столбцом:')
print(grid.ravel(order='F')) 

[[1 2 3]
 [4 5 6]
 [7 8 9]]
Схлопываем строка за строкой:
[1 2 3 4 5 6 7 8 9]
Схлопываем столбец за столбцом:
[1 4 7 2 5 8 3 6 9]


## Объединение и разделение массивов

Все предыдущие процедуры работали с отдельными массивами. Также возможно объединить несколько массивов в один и, наоборот, разбить один массив на несколько массивов.

### Объединение массивов

Конкатенация или объединение двух массивов в NumPy в основном выполняется с использованием функций np.concatenate, np.vstack и np.hstack. 

Функция np.concatenate принимает кортеж или список массивов в качестве первого аргумента.

In [None]:
x = np.array([1, 2, 3])
y = np.array([3, 2, 1])
print(np.concatenate([x, y]))

[1 2 3 3 2 1]


Можно объединить более двух массивов одновременно.

In [None]:
z = np.array([99, 99, 99])
print(np.concatenate([x, y, z]))

[ 1  2  3  3  2  1 99 99 99]


Это работает и для двумерных массивов.

In [None]:
grid = np.array([[1, 2, 3], [4, 5, 6]])
print(grid)
print('Объединение вдоль нулевой оси:')
print(np.concatenate([grid, grid]))
print('Объединение вдоль первой оси:')
print(np.concatenate([grid, grid], axis=1))

[[1 2 3]
 [4 5 6]]
Объединение вдоль нулевой оси:
[[1 2 3]
 [4 5 6]
 [1 2 3]
 [4 5 6]]
Объединение вдоль первой оси:
[[1 2 3 1 2 3]
 [4 5 6 4 5 6]]


Для работы с массивами смешанной размерности более удобно использование функций np.vstack (вертикальный стек) и np.hstack (горизонтальный стек).

In [None]:
x = np.array([1, 2, 3])
y = np.array([[99], [99]])
grid = np.array([[9, 8, 7], [6, 5, 4]])

print(x)
print(y)
print(grid)
print('Объединение вдоль вертикали:')
print(np.vstack([x, grid]))
print('Объединение вдоль горизонтали:')
print(np.hstack([grid, y]))

[1 2 3]
[[99]
 [99]]
[[9 8 7]
 [6 5 4]]
Объединение вдоль вертикали:
[[1 2 3]
 [9 8 7]
 [6 5 4]]
Объединение вдоль горизонтали:
[[ 9  8  7 99]
 [ 6  5  4 99]]


Для объединения нескольких N-мерных массивов в (N + 1)-мерный массив используется функция stack.

In [None]:
a1 = np.arange(1, 13).reshape(3, -1)
a2 = np.arange(13, 25).reshape(3, -1)

print('Массив 1:')
print(a1)
print('Массив 2:')
print(a2)
print('*' * 10)

print('Соединение по оси 0:')
a3_0 = np.stack((a1, a2))
print(a3_0)
print('Размер:', a3_0.shape)
print('*' * 10)

print('Соединение по оси 1:')
a3_1 = np.stack((a1, a2), axis=1)
print(a3_1)
print('Размер:', a3_1.shape)
print('*' * 10)

print('Соединение по оси 2:')
a3_2 = np.stack((a1, a2), axis=2)
print(a3_2)
print('Размер:', a3_2.shape)
print('*' * 10)

Массив 1:
[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]]
Массив 2:
[[13 14 15 16]
 [17 18 19 20]
 [21 22 23 24]]
**********
Соединение по оси 0:
[[[ 1  2  3  4]
  [ 5  6  7  8]
  [ 9 10 11 12]]

 [[13 14 15 16]
  [17 18 19 20]
  [21 22 23 24]]]
Размер: (2, 3, 4)
**********
Соединение по оси 1:
[[[ 1  2  3  4]
  [13 14 15 16]]

 [[ 5  6  7  8]
  [17 18 19 20]]

 [[ 9 10 11 12]
  [21 22 23 24]]]
Размер: (3, 2, 4)
**********
Соединение по оси 2:
[[[ 1 13]
  [ 2 14]
  [ 3 15]
  [ 4 16]]

 [[ 5 17]
  [ 6 18]
  [ 7 19]
  [ 8 20]]

 [[ 9 21]
  [10 22]
  [11 23]
  [12 24]]]
Размер: (3, 4, 2)
**********


### Разделение массивов

Противоположностью конкатенации является разделение, которое реализуется функциями np.split, np.hsplit и np.vsplit. Для каждого из них можно передать список индексов, определяющих точки разделения.

In [None]:
x = [1, 2, 3, 99, 99, 3, 2, 1]
x1, x2, x3 = np.split(x, [3, 5])
print(x1, x2, x3)

[1 2 3] [99 99] [3 2 1]


Обратите внимание, что N точек разделения создают N + 1 подмассив. 

Функции np.hsplit и np.vsplit работают аналогичным образом. 

In [None]:
grid = np.arange(16).reshape((4, 4))
grid

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15]])

In [None]:
upper, lower = np.vsplit(grid, [2])
print(upper)
print(lower)

[[0 1 2 3]
 [4 5 6 7]]
[[ 8  9 10 11]
 [12 13 14 15]]


In [None]:
left, right = np.hsplit(grid, [2])
print(left)
print(right)

[[ 0  1]
 [ 4  5]
 [ 8  9]
 [12 13]]
[[ 2  3]
 [ 6  7]
 [10 11]
 [14 15]]


## Операции с массивами

### Бинарные операции

In [None]:
arr1 = np.array([[2., 2., 2.], [2., 2., 2.]])
arr2 = np.array([[2., -2., 3.], [-2., 2., -3.]])

print('Массив 1:\n', arr1)
print('*' * 10)
print('Массив 2:\n', arr2)
print('*' * 10 + '\n', 'Поэлементное умножение:\n', arr1 * arr2)
print('*' * 10 + '\n', 'Поэлементное сложение:\n', arr1 + arr2)
print('*' * 10 + '\n', 'Поэлементное деление:\n', arr1 / arr2)
print('*' * 10 + '\n', 'Поэлементная разность:\n', arr1 - arr2)
print('*' * 10 + '\n', 'Поэлементное сравнение:\n', arr1 < arr2)

Массив 1:
 [[2. 2. 2.]
 [2. 2. 2.]]
**********
Массив 2:
 [[ 2. -2.  3.]
 [-2.  2. -3.]]
**********
 Поэлементное умножение:
 [[ 4. -4.  6.]
 [-4.  4. -6.]]
**********
 Поэлементное сложение:
 [[ 4.  0.  5.]
 [ 0.  4. -1.]]
**********
 Поэлементное деление:
 [[ 1.         -1.          0.66666667]
 [-1.          1.         -0.66666667]]
**********
 Поэлементная разность:
 [[ 0.  4. -1.]
 [ 4.  0.  5.]]
**********
 Поэлементное сравнение:
 [[False False  True]
 [False False False]]


Таблица бинарных операций

| Функция | Описание |
|--|--|
| add | Сложить соответственные элементы массивов |
| subtract | Вычесть элементы второго массива из соответственных элементов первого |
| multiply | Перемножить соответственные элементы массивов |
| divide, floor_divide | Деление и деление с отбрасыванием остатка |
| power | Возвести элементы первого массива в степени, указанные во втором массиве |
| maximum, fmax | Поэлементный максимум. Функция fmax игнорирует значения NaN |
| minimum, fmin | Поэлементный минимум. Функция fmin игнорирует значения NaN |
| mod | Поэлементный модуль (остаток от деления) |
| copysign | Копировать знаки значений второго массива в соответственные элементы первого массива |
| greater, greater_equal, less, less_equal, equal, not_equal | Поэлементное сравнение, возвращается булев массив. Эквивалентны инфиксным операторам >, <=, !, ==, != |
| logical_and, logical_or, logical_xor | Вычислить логические значения истинности логических операций. Эквивалентны инфиксным операторам &, &#124;, ^ |

### Унарные операции

In [None]:
print('Операции со скалярами:')
print(arr1 * 5)
print(arr1 / 5)
print(arr1 + 5)
print(arr1 - 5)

Операции со скалярами:
[[10. 10. 10.]
 [10. 10. 10.]]
[[0.4 0.4 0.4]
 [0.4 0.4 0.4]]
[[7. 7. 7.]
 [7. 7. 7.]]
[[-3. -3. -3.]
 [-3. -3. -3.]]


In [None]:
arr = np.array([1.3, 1.2, 2.0, np.nan, 3.0, 1.0])
print('Массив:\n', arr)
print('Применение функции isnan:\n', np.isnan(arr))
print('Применение функции floor:\n', np.floor(arr))
print('Применение функции exp:\n', np.exp(arr))

Массив:
 [1.3 1.2 2.  nan 3.  1. ]
Применение функции isnan:
 [False False False  True False False]
Применение функции floor:
 [ 1.  1.  2. nan  3.  1.]
Применение функции exp:
 [ 3.66929667  3.32011692  7.3890561          nan 20.08553692  2.71828183]


Таблица унарных операций

| Функция | Описание |
|--|--|
| abs, fabs | Вычислить абсолютное значение целых, вещественных или комплексных элементов массива. Для вещественных данных fabs работает быстрее |
| sqrt | Вычислить квадратный корень из каждого элемента. Эквивалентно arr ** 0.5 |
| square | Вычислить квадрат каждого элемента. Эквивалентно arr ** 2 |
| exp | Вычислить экспоненту е каждого элемента |
| log, log10, log2, log1p | Натуральный (по основанию е), десятичный, двоичный логарифм и функция log (1 + x) соответственно
| sign | Вычислить знак каждого элемента: 1 (для положительных чисел), О (для нуля) или -1 (для отрицательных чисел) |
| ceil | Вычислить для каждого элемента наименьшее целое число, не меньшее его |
| floor | Вычислить для каждого элемента наибольшее целое число, не большее его |
| rint | Округлить элементы до ближайшего целого с сохранением dtype |
| modf | Вернуть дробные и целые части массива в виде отдельных массивов |
| isnan | Вернуть булев массив, показывающий, какие значения являются NaN (пропущенными значениями) |
| isfinite, isinf | Вернуть булев массив, показывающий, какие элементы являются конечными (не inf и не NaN) или бесконечными соответственно |
| cos, cosh, sin, sinh, tan, tanh | Обычные и гиперболические тригонометрические функции |
| arccos, arccosh, arcsin, arcsinh, arctan, arctanh | Обратные тригонометрические функции |
| logical_not | Вычислить значение истинности not х для каждого элемента. Эквивалентно ~arr |

### Векторизированные вычисления

Векторизированные вычисления позволяют заменить производимые в циклах операции на операции, применяемые к массивам поэлементно. Этот споспоб практически всегда более эффективен, чем его аналог, реализованный с использованием циклов Python, особенно при увеличении размера массивов. 

In [None]:
x = np.linspace(-1, 1, 9).reshape((3, 3))
y = np.linspace(-0.5, 1, 9).reshape((3, 3))
z = np.sqrt(x ** 2 + y ** 2)

print(x)
print(y)
print(z)

[[-1.   -0.75 -0.5 ]
 [-0.25  0.    0.25]
 [ 0.5   0.75  1.  ]]
[[-0.5    -0.3125 -0.125 ]
 [ 0.0625  0.25    0.4375]
 [ 0.625   0.8125  1.    ]]
[[1.11803399 0.8125     0.5153882 ]
 [0.2576941  0.25       0.50389111]
 [0.80039053 1.10573788 1.41421356]]


### Математические и статистические операции

![alt text](https://drive.google.com/uc?id=1XvWjo9XCAS-CqSs0qKtrU-rZ4boW155k)

In [None]:
arr = np.random.randn(5, 4)
print('Исходная матрица:\n', arr)
print('Среднее значение:', arr.mean())
print('Среднее значение:', np.mean(arr))
print('Сумма элементов:', arr.sum())

Исходная матрица:
 [[-0.13842199  0.70569237  1.27179528 -0.98674733]
 [-0.33483545 -0.0994817   0.4071921   0.91938754]
 [ 0.31211801  1.53316107 -0.55017387 -0.38314741]
 [-0.82294096  1.60008337 -0.0692813   0.08320949]
 [-0.32692468 -0.04579719 -0.30446006  1.92301013]]
Среднее значение: 0.23467187125893174
Среднее значение: 0.23467187125893174
Сумма элементов: 4.693437425178635


In [None]:
print('Среднее значение по строкам:', arr.mean(axis=1))
print('Среднее значение по столбцам:', arr.mean(axis=0))
print('Сумма значений по столбцам:', arr.sum(axis=0))
print('Сумма значений по строкам:', arr.sum(axis=1))

Среднее значение по строкам: [0.21307958 0.22306562 0.22798945 0.19776765 0.31145705]
Среднее значение по столбцам: [-0.26220101  0.73873158  0.15101443  0.31114248]
Сумма значений по столбцам: [-1.31100507  3.69365792  0.75507215  1.55571242]
Сумма значений по строкам: [0.85231833 0.89226249 0.9119578  0.7910706  1.24582821]


In [None]:
arr = np.array([0, 1, 2, 3, 4, 5, 6, 7])
print('Исходный массив:', arr)
print('Сумма с промежуточными результатами:', arr.cumsum())

Исходный массив: [0 1 2 3 4 5 6 7]
Сумма с промежуточными результатами: [ 0  1  3  6 10 15 21 28]


In [None]:
print('Индекс максимального элемента массива:', arr.argmax())

Индекс максимального элемента массива: 7


### Методы булевых массивов

In [None]:
arr = np.random.randn(5, 4)
print('Исходная матрица\n', arr)
print('Количество положительных значений:', (arr > 0).sum())

Исходная матрица
 [[-0.078659   -0.58206572 -1.61798224  0.86726082]
 [-1.04043709  0.65042142  2.69964586  0.80202451]
 [-1.09692126 -0.17805445 -0.42287048 -0.33040055]
 [-1.11116278 -0.74200575  2.57475919  1.07321332]
 [-1.86613451 -0.64717693  1.08224081  0.17667032]]
Количество положительных значений: 8


In [None]:
bool_arr = np.array([True, False, False])
print('Все True:', bool_arr.all())
print('Хотя бы один True:', bool_arr.any())

Все True: False
Хотя бы один True: True


### Теоретико-множественные операции

![alt text](https://drive.google.com/uc?id=1ziuzpdxlN4tPQwVBk0ij2GFN_0PK37hu)

In [None]:
ints = np.array([3, 3, 3, 2, 2, 1, 1, 4, 4])
np.unique(ints)

array([1, 2, 3, 4])

### Линейная алгебра

![alt text](https://drive.google.com/uc?id=1gpvES_c1py_Ww3JKYq7v-HWidLp468pl)

In [None]:
A = np.array([[1., 2., 3.], [4., 5., 6.]])
B = np.array([[6., 23.], [-1, 7], [8, 9]])

print('Матрица A')
print(A)
print('Матрица B')
print(B)

print('Произведение матриц A*B')
print(A.dot(B))

print('Произведение матриц A*B')
print(np.dot(A, B))

print('Произведение матриц A*B')
print(A @ B)

Матрица A
[[1. 2. 3.]
 [4. 5. 6.]]
Матрица B
[[ 6. 23.]
 [-1.  7.]
 [ 8.  9.]]
Произведение матриц A*B
[[ 28.  64.]
 [ 67. 181.]]
Произведение матриц A*B
[[ 28.  64.]
 [ 67. 181.]]
Произведение матриц A*B
[[ 28.  64.]
 [ 67. 181.]]


In [None]:
X = np.random.randn(5, 5)
print('Исходная матрица:')
print(X)

mat = X.T.dot(X)
print('Матрица X_tr*X:')
print(mat)

Исходная матрица:
[[-0.83532823 -1.69499832  1.13341723  1.04853072 -2.12832537]
 [-1.43713939  0.17793711  1.39442275  0.29132019 -0.08200619]
 [ 0.64424261  0.32807995  0.85743275 -0.93696928  0.18007496]
 [-1.42337059 -0.36775578 -1.52328799 -0.6347717   0.98740384]
 [-1.01601962  2.04572375  0.24999852  0.65116253 -1.26602354]]
Матрица X_tr*X:
[[ 6.23647114 -0.1835201  -0.48416064 -1.65624911  1.89257973]
 [-0.1835201   7.33254732 -0.32008839 -0.46728236  0.69893707]
 [-0.48416064 -0.32008839  6.34714589  1.92098791 -4.19283421]
 [-1.65624911 -0.46728236  1.92098791  2.88914331 -3.8753924 ]
 [ 1.89257973  0.69893707 -4.19283421 -3.8753924   7.14670284]]


In [None]:
print('Обратная матрица для X_tr*X:')
print(np.linalg.inv(mat))

Обратная матрица для X_tr*X:
[[ 0.1933298   0.01183038 -0.01800019  0.14789284  0.01728213]
 [ 0.01183038  0.13858619 -0.00296623  0.02366561 -0.00559367]
 [-0.01800019 -0.00296623  0.26983939  0.10607632  0.22088776]
 [ 0.14789284  0.02366561  0.10607632  1.43800787  0.80053216]
 [ 0.01728213 -0.00559367  0.22088776  0.80053216  0.69958468]]


### Генерация случайных чисел

![alt text](https://drive.google.com/uc?id=1Z36qj4Pxk_kITNINUFzXl03sZwyr7NEP)

In [None]:
samples = np.random.normal(size=(4, 4))
print(samples)

[[ 1.3741556  -0.60990513  0.03075795  0.81965668]
 [ 1.45431373 -0.58367645  0.41534745  0.66702578]
 [ 0.8694953  -1.20270333  2.86176918 -2.68159245]
 [-1.16881176 -0.58416422  0.8182497   1.59043723]]


## Файловый ввод-вывод массивов

### Хранение на диске в двоичном формате

In [None]:
arr = np.arange(10)
print('Сохраняем массив\n', arr,'\nв файл some_array.npy')
np.save('some_array', arr)

Сохраняем массив
 [0 1 2 3 4 5 6 7 8 9] 
в файл some_array.npy


In [None]:
!ls

sample_data  some_array.npy


In [None]:
new_arr = np.load('some_array.npy')
print('Считываем данные из файла some_array.npy:\n',new_arr)
print('Тип:', type(new_arr))

Считываем данные из файла some_array.npy:
 [0 1 2 3 4 5 6 7 8 9]
Тип: <class 'numpy.ndarray'>


In [None]:
arr_a = np.arange(10)
arr_b = np.arange(10, 20)
print('Сохраняем массивы\n', arr_a, '\n', arr_b, '\nв файл some_array_ab.npz')
np.savez('some_array_ab', a=arr_a, b = arr_b)

Сохраняем массивы
 [0 1 2 3 4 5 6 7 8 9] 
 [10 11 12 13 14 15 16 17 18 19] 
в файл some_array_ab.npz


In [None]:
!ls

sample_data  some_array_ab.npz	some_array.npy


In [None]:
new_arr = np.load('some_array_ab.npz')
print('Считываем данные из файла some_array_ab.npz:\n', new_arr['a'], new_arr['b'])
print('Тип:', type(new_arr))

Считываем данные из файла some_array_ab.npz:
 [0 1 2 3 4 5 6 7 8 9] [10 11 12 13 14 15 16 17 18 19]
Тип: <class 'numpy.lib.npyio.NpzFile'>


### Сохранение и загрузка текстовых файлов

In [None]:
arr = np.arange(12).reshape(3,4)
print('Сохраняем массив\n', arr,'\nв файл some_array.txt')
np.savetxt('some_array.txt', arr, delimiter=';')

Сохраняем массив
 [[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]] 
в файл some_array.txt


In [None]:
!ls

sample_data  some_array_ab.npz	some_array.npy	some_array.txt


In [None]:
!cat some_array.txt

0.000000000000000000e+00;1.000000000000000000e+00;2.000000000000000000e+00;3.000000000000000000e+00
4.000000000000000000e+00;5.000000000000000000e+00;6.000000000000000000e+00;7.000000000000000000e+00
8.000000000000000000e+00;9.000000000000000000e+00;1.000000000000000000e+01;1.100000000000000000e+01


In [None]:
new_arr = np.loadtxt('some_array.txt', delimiter=';')
print('Считываем данные из файла some_array.txt:\n',new_arr)
print('Тип:', type(new_arr))
print('Размер:', new_arr.shape)

Считываем данные из файла some_array.txt:
 [[ 0.  1.  2.  3.]
 [ 4.  5.  6.  7.]
 [ 8.  9. 10. 11.]]
Тип: <class 'numpy.ndarray'>
Размер: (3, 4)
