<a href="https://colab.research.google.com/github/ordevoir/Data_Analysis/blob/main/numpy_example.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# [NumPy](https://numpy.org/)
NumPy (Numerical Python) - это библиотека для языка программирования Python, предназначенная для работы с массивами данных и выполнения математических операций над ними.

NumPy предоставляет множество функций для выполнения операций линейной алгебры, обработки сигналов, обработки изображений и других вычислительных задач, которые требуют работу с массивами данных. Библиотека NumPy является основой для многих других библиотек, используемых в научных вычислениях и анализе данных, таких как [Pandas](https://pandas.pydata.org/docs/user_guide/10min.html), [SciPy](https://docs.scipy.org/doc/scipy/tutorial/index.html) и [Scikit-Learn](https://scikit-learn.org/stable/).

Одним из главных преимуществ NumPy является возможность выполнения вычислений над массивами данных с высокой производительностью. NumPy использует оптимизированные алгоритмы, написанные на языке программирования C, что позволяет ему обрабатывать большие объемы данных с высокой скоростью.

В NumPy определен многомерный массив (ndarray), который является основным объектом библиотеки. Этот объект представляет собой таблицу элементов (чисел), все из которых должны иметь одинаковый тип. NumPy также предоставляет функции для создания и манипулирования массивами данных, включая срезы (*slicing*), индексацию и изменение формы массивов. Подробности в [документации](https://numpy.org/doc/stable/).

Установить библиотеку NumPy в Python можно выполнив в терминале

`pip install numpy`

In [None]:
import numpy as np

# Создание массивов

## Массивы из списков

In [None]:
x1 = np.array([1, 4, 6, 8])         # явное задание массива в виде списка

# массив numpy можно создать из списка (list):
some_numeric_list = [5, 6, 7, 8]
x2 = np.array(some_numeric_list)    # создание массива из списка

print(x1, x2)
print('lenght:', len(x1))
print('type:', type(x1))
print('elements type:', x1.dtype)

In [None]:
# создадим двумерный массив (матрицу) с заданным типом значений
x3 = np.array([
    [1, 4, 3, 2],
    [4, 5, 6, 3],
    [5, 1, 3, 7],
], dtype=np.float32)
print(x3)
print('array shape:', x3.shape)

Здесь явно задан тип `float32`. Полный список доступных типов [здесь](https://numpy.org/doc/1.17/user/basics.types.html).

## Генерация массивов заданной формы

Функции `zeros()`, `ones()` и `full()` возвращают массивы, заполненные соответственно нулями, единицами или заданным значением. Форама массива задается первым аргументом (`shape`).

In [None]:
xZeros = np.zeros((2, 3))                   # заполнение нулями
xOnes = np.ones((2, 4))                     # заполнение единицами
xFull = np.full((2, 2), fill_value=7.0)     # заполнение числом 7

print(f"{xZeros = }")
print(f"{xOnes = }")
print(f"{xFull = }")

In [None]:
# создание диагональных матриц
xEye = np.eye(4, dtype=np.int16)    # значения по главной диагонали равны 1
xDiag = np.diag(v=(1, 2, 3, 4))

print('eye:\n', xEye)
print('\ndiag:\n', xDiag)

Можно создать массив, заполненный определенным числом, форма и тип значений которого повторяет форму и тип элементов другого массива при помощи функций `zeros_like()`, `ones_like()`, `full_like()`. При желании можно здать определенный тип элементов (аргумент `dtype`), переняв от исходного массива только форму.


In [None]:
xFillLike = np.full_like(x3, fill_value=3)
xOnesLike = np.ones_like(x3, dtype=np.int16)

print(f"{xFillLike = }\n{xOnesLike = }")

Здесь приведены наиболее часто используемые способы создания массивов. Полный список функций, создающих массивы [здесь](https://numpy.org/doc/stable/reference/routines.array-creation.html#routines-array-creation).

Генерация массивов со случайными значениями. Используя функции из модуля `numpy.random`, можно сгенерировать случайное значение, либо массив заданной формы, содержащий случайные значения. Для генерации массива из целых чисел в заданном диапазоне, используйте функцию `randint()`, а для генерации массива из чисел с плавающей точкой в заданном диапазоне, используйте функцию `uniform()`. Первые два аргумента задают диапозон, а третий - форму.

В модуле `numpy.random` имеется еще множество других функций, которые могут пригодиться. Подробнее в [документации](https://numpy.org/doc/1.16/reference/routines.random.html).

In [None]:
r = np.random.randint(5)
R1 = np.random.randint(5, 10, size=(4, 5))
R2 = np.random.uniform(5, 10, size=(4, 5))

print(f"{r = }\n{R1 = }\n{R2 = }")

## Генерация массивов в диапозоне

Можно задать массив состоящий из последовательности в заданном диапазоне с заданным шагом. В функции `arrange()` позиционными аргументами можно задать:
- первый аргумент: стартовное значение последовательности
- второй аргумент: финальное значение (не входит в последовательность)
- третий аргумент: шаг последовательности

In [None]:
xArange = np.arange(10)             # задан только один аргумент
yArange = np.arange(5, 15, 2)       # возрастающая последовательность
zArange = np.arange(15, 5, -2)      # убывающая последовательность

print(xArange)
print(yArange)
print(zArange)

Равномерно распределенные значения в заданном диапазоне с заданным число разбиения диапазона

In [None]:
xSpace = np.linspace(5, 15, 10)
print(xSpace)
print(xSpace.dtype)

# Поля объекта класса `ndarray`

In [None]:
import numpy as np
a = np.random.randint(0, 100, (2, 3, 4), dtype=np.int64)
print(a)

In [None]:
print(f"{ a.dtype     =  }") # тип элементов
print(f"{ a.shape     =  }") # форма массива
print(f"{ a.ndim      =  }") # размерность (число индексов у элемента)
print(f"{ a.size      =  }") # число элементов в массиве
print(f"{ a.itemsize  =  }") # число байтов, занимаемых одним элементом


# Операции над массивами

## Умножение всех элементов массива на число

In [None]:
# создадим первый массив:
a = np.array([
    [1, 2 ,3],
    [4, 5, 6],
    [7, 8, 9]
])
# второй массив создадим из первого, домножив его на 2:
b = a * 2
# второй массив будет результатом умножения всех элементов
# первого массива на число 2
print(b)

## Поэлементные операции

In [None]:
c = a + b
d = a * b

print('c:\n', c)
print('d:\n', d)

# подобным образом можно производить и поэлментное деление и вычитание

## Другие операции над массивами

In [None]:
print(  c.min()     )      # значение минимального элемента
print(  c.max()     )      # значение максималаьного элемента
print(  c.sum()     )      # сумма всех элементов массива
print(  c.mean()    )      # среднее арифметическое от всех элементов

## Преобразование формы при помощи метода `reshape()`
Метод `reshape() `в классе `ndarray` библиотеки NumPy позволяет изменять форму (`shape`) массива без изменения его данных. Он возвращает новый массив с теми же данными, но с новой формой. Для этого нужно передать в качестве аргумента кортеж с новой формой. Количество элементов в массиве новой формы должно совпадать с количеством элементов исходного массива.

In [None]:
a = np.array([
            [1,  2,  3,  4],
            [5,  6,  7,  8],
            [9, 10, 11, 12],
            ])
a.shape

In [None]:
a.reshape((4, 3))

In [None]:
a.reshape((2, 2, 3))

Если в метод `reshape()` передать кортеж формы, содержащий значение `-1`, то это значение будет заменено на вычисленное автоматически значение, которое гарантирует, что общее количество элементов массива останется неизменным.

In [None]:
a.reshape((2, -1))
# втрым значением формы будет 6:

In [None]:
a.reshape(-1)

In [None]:
a.reshape((-1, 1))

# Доступ к элментам массива по индексам

In [None]:
print(c[2])     # доступ к строке с индексом 2
print(c[:, 1])  # доступ к столбцу с индексом 1
print(c[2, 0])  # доступ к элементу 2-ой строки 0-го столбца
c[0, 1] = 42    # изменение значения элемента 0-ой строки 1-го столбца

In [None]:
# перебор всех элементов двумерного массива в цикле
for i in range(c.shape[0]):
    for j in range(c.shape[1]):
        print(c[i, j])

In [None]:
s = 'Text'

a, b, c, d = s[:2], s[2:], s[:-2], s[-2:]
print(a, b, c, d)

a, b, = s[:-1], s[-1]
print(a, b)

(a, b), c = s[:2], s[2:]
print(a, b, c)

In [None]:
L = list(range(12))
print(f'{  L         = }')
print(f'{  L[3:10:2] = }')  # каждый второй элемент в диапазоне от 3 до 10
print(f'{  L[5::4]   = }')  # каждый четвертый элемент начиная с 5
print(f'{  L[1::2]   = }')  # все элементы с нечетными индексами
print(f'{  L[::2]    = }')  # все элементы с четными индексами [0::2]
print(f'{  L[::3]    = }')  # каждый третий элемент начиная с нулевого

In [None]:
# срезы в обратном порядке:
print(f'{ L       = }')
print(f'{ L[10:3:-2] = }') # каждый второй элемент в диапазоне от 10 до 3
print(f'{ L[3::-1] = }')   # первые 4 элемента в обратном порядке
print(f'{ L[::-1] = }')    # все элементы в обратном порядке
print(f'{ L[::-3] = }')    # каждый третий эл. с конца начиная с последнего

> Пусть матрица `A` задана в виде списка списков. Получить копию строки можно примерно так же, как и для матрицы NumPy: `A[1][:]`, но вот с копией колонки такой номер не пройдет: `A[:][1]` также возрващает копию строки с индексом `1`:

In [None]:
A = [
    [ 1,  2,  3,  4],
    [ 5,  6,  7,  8],
    [ 9, 10, 11, 12],
    [13, 14, 15, 16]
]
print(f"{  A[1][:]   = }")      # копия строки с индексом 1
print(f"{  A[:][1]   = }")      # копия строки с индексом 1

### Срезы в NumPy

In [None]:
import numpy as np

A = np.array(A)
print(f"{  A[1, :]   = }")      # строка с индексом 1
print(f"{  A[:, 1]   = }")      # колонка с индексом 1
print(f"{  A[1, 2:]  = }")      # строка с индексом 1
print(f"{  A[:2, 1]  = }")      # колонка с индексом 1
print(f"{  A[::2, 1] = }")      # колонка с индексом 1

## Фильтрация массива по маске

### Создание маски

Для массива `b` выражение `b%2==0` возвращает булевый массив, содержащий `True` в тех позициях, где элемент массива `b` является четным, и `False` – где элемент массива `b` является четным.

In [None]:
import numpy as np

a = np.arange(8)
b = np.random.randint(0, 100, 8)

b_odd = b%2==0

print(f'{a = }')
print(f'{b = }')
print(f'{b_odd = }')
print(f'{b_odd.dtype = }')

### Наложение маски
В данном случае массив `b_odd` той же формы что и массив `a`, можно использовать в качестве фильтрующего массива для `a`, если передать его в квадратные скобки:

In [None]:
a_filtered = a[b_odd]
print(f'{a_filtered = }')

In [None]:
# можно было бы сразу записать так:
a_filtered = a[b%2==0]
print(f'{a_filtered = }')

### Получение строк и колонок матрицы по маске

In [None]:
import numpy as np

X = np.random.randint(0, 10, (6, 6))    # двумерный маcсив
mask = X[:, 0] > 5                      # маска по колонке с индексом 0
print(f"{ X }\n\n{ mask }")
X[X[:, 0] > 5]                          # получение строк по маске

In [None]:
obj = np.array([2, 4, 6, 8, 5, 3])
X[:, (5 > obj)]                         # получение колонок по маске

## Fancy Indexing

В NumPy вы можете использовать список индексов в квадратных скобках для выбора элементов из массива.

In [None]:
import numpy as np

tags = np.array([0.0, 1.1, 2.2, 3.3, 4.4, 5.5])
tags[[1, 4, 3, 4, -1]]

Для многомерных массивов:

In [None]:
X = np.random.randint(0, 10, (3, 3))    # двумерный маcсив
print(X)
X[[0, 1], [2, 2]]

## Оператор инверсии `~`

Оператор `~` производит битовую инверсию челых чисел в two's-complement (дополнительный код) представлении. Например, число `10` в дополнительном коде представляется как `00001010`, инверсии этого числа `11110101` будет соответствовать число `-11`. Заметим, что исверсией нуля (`00000000`) будет -`1` (`11111111`).

In [None]:
print(f"{ ~10    = }")
print(f"{ ~0     = }")
print(f"{ ~False = }")      # заметим, что для булевых значений выполняется
print(f"{ ~True  = }")      # конвертация в int, а не инверсия T в F

Благодаря такому свойству оператор `~` может оказаться полезен при движении по массиву с конца, так как в отличие от использования отрицательных индексов, здесь сохраняется симметрия с движением по массиву с начала.

In [None]:
A = [1, 2, 3, 4, 5]
print('i  A[i]  A[-i]  A[~i]')
for i in range(len(A)):
    print(f'{i}    {A[i]}      {A[-i]}      {A[~i]}')

Своя специфика имеется при использовании оператора `~` с NumPy:
- Для булевых типов NumPy (`numpy.bool_`) производтся инверсия (в отличие от стандартных типов `bool`). А если оператор применить к массиву (или матрице), состоящему из логических элементов, то результатом будет массив, содержащий инверированные элементы.
- Если применить оператор к массиву (или матрице), состоящей из целочисленных элементов, то вернется матрица, состоящий из инвертрованных целых чисел (в соответствии с представлением в дополнительном коде).

In [None]:
import numpy as np

print(f"{~np.False_ = }")   # для типов
print(f"{~np.True_  = }")    # numpy.bool_

L = np.array([False, True, False])

print(f"{~L = }")

A = np.array([0, 1, -2, 3])
print(f"{~A = }")

## Оператор Ellipsis (`...`)

In [None]:
# to be defined
def f():
    ...
# Такая запись предполагает, что тело функции в дельнейшем должно быть
# определено (в отличие от pass, где намеренно пропускаются действия)

In [None]:
import numpy as np

n = np.random.rand(3, 3, 3, 3)          # shape (3, 3, 3, 3)
print(n[..., 2])                        # <=> n[:, :, :, 2]