<a href="https://colab.research.google.com/github/ordevoir/Data_Analysis/blob/main/numpy_example.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# [NumPy](https://numpy.org/)
NumPy (Numerical Python) - это библиотека для языка программирования Python, предназначенная для работы с массивами данных и выполнения математических операций над ними.

NumPy предоставляет множество функций для выполнения операций линейной алгебры, обработки сигналов, обработки изображений и других вычислительных задач, которые требуют работу с массивами данных. Библиотека NumPy является основой для многих других библиотек, используемых в научных вычислениях и анализе данных, таких как [Pandas](https://pandas.pydata.org/docs/user_guide/10min.html), [SciPy](https://docs.scipy.org/doc/scipy/tutorial/index.html) и [Scikit-Learn](https://scikit-learn.org/stable/).

Одним из главных преимуществ NumPy является возможность выполнения вычислений над массивами данных с высокой производительностью. NumPy использует оптимизированные алгоритмы, написанные на языке программирования C, что позволяет ему обрабатывать большие объемы данных с высокой скоростью.

В NumPy определен многомерный массив (ndarray), который является основным объектом библиотеки. Этот объект представляет собой таблицу элементов (чисел), все из которых должны иметь одинаковый тип. NumPy также предоставляет функции для создания и манипулирования массивами данных, включая срезы (*slicing*), индексацию и изменение формы массивов. Подробности в [документации](https://numpy.org/doc/stable/).

Установить библиотеку NumPy в Python можно выполнив в терминале

`pip install numpy`

In [23]:
import numpy as np

# Создание массивов

## Массивы из списков

In [24]:
x1 = np.array([1, 4, 6, 8])         # явное задание массива в виде списка

# массив numpy можно создать из списка (list):
some_numeric_list = [5, 6, 7, 8]
x2 = np.array(some_numeric_list)    # создание массива из списка

print(x1, x2)
print('lenght:', len(x1))
print('type:', type(x1))
print('elements type:', x1.dtype)

[1 4 6 8] [5 6 7 8]
lenght: 4
type: <class 'numpy.ndarray'>
elements type: int64


In [25]:
# создадим двумерный массив (матрицу) с заданным типом значений
x3 = np.array([
    [1, 4, 3, 2],
    [4, 5, 6, 3],
    [5, 1, 3, 7],
], dtype=np.float32)
print(x3)
print('array shape:', x3.shape)

[[1. 4. 3. 2.]
 [4. 5. 6. 3.]
 [5. 1. 3. 7.]]
array shape: (3, 4)


Здесь явно задан тип `float32`. Полный список доступных типов [здесь](https://numpy.org/doc/1.17/user/basics.types.html).

## Генерация массивов заданной формы

Функции `zeros()`, `ones()` и `full()` возвращают массивы, заполненные соответственно нулями, единицами или заданным значением. Форама массива задается первым аргументом (`shape`).

In [26]:
xZeros = np.zeros((2, 3))                   # заполнение нулями
xOnes = np.ones((2, 4))                     # заполнение единицами
xFull = np.full((2, 2), fill_value=7.0)     # заполнение числом 7

print(f"{xZeros = }")
print(f"{xOnes = }")
print(f"{xFull = }")

xZeros = array([[0., 0., 0.],
       [0., 0., 0.]])
xOnes = array([[1., 1., 1., 1.],
       [1., 1., 1., 1.]])
xFull = array([[7., 7.],
       [7., 7.]])


In [None]:
# создание диагональных матриц
xEye = np.eye(4, dtype=np.int16)    # значения по главной диагонали равны 1
xDiag = np.diag(v=(1, 2, 3, 4))

print('eye:\n', xEye)
print('\ndiag:\n', xDiag)

eye:
 [[1 0 0 0]
 [0 1 0 0]
 [0 0 1 0]
 [0 0 0 1]]

diag:
 [[1 0 0 0]
 [0 2 0 0]
 [0 0 3 0]
 [0 0 0 4]]


Можно создать массив, заполненный определенным числом, форма и тип значений которого повторяет форму и тип элементов другого массива при помощи функций `zeros_like()`, `ones_like()`, `full_like()`. При желании можно здать определенный тип элементов (аргумент `dtype`), переняв от исходного массива только форму.


In [32]:
xFillLike = np.full_like(x3, fill_value=3)
xOnesLike = np.ones_like(x3, dtype=np.int16)

print(f"{xFillLike = }\n{xOnesLike = }")

xFillLike = array([[3., 3., 3., 3.],
       [3., 3., 3., 3.],
       [3., 3., 3., 3.]], dtype=float32)
xOnesLike = array([[1, 1, 1, 1],
       [1, 1, 1, 1],
       [1, 1, 1, 1]], dtype=int16)


Здесь приведены наиболее часто используемые способы создания массивов. Полный список функций, создающих массивы [здесь](https://numpy.org/doc/stable/reference/routines.array-creation.html#routines-array-creation).

Генерация массивов со случайными значениями. Используя функции из модуля `numpy.random`, можно сгенерировать случайное значение, либо массив заданной формы, содержащий случайные значения. Для генерации массива из целых чисел в заданном диапазоне, используйте функцию `randint()`, а для генерации массива из чисел с плавающей точкой в заданном диапазоне, используйте функцию `uniform()`. Первые два аргумента задают диапозон, а третий - форму.

В модуле `numpy.random` имеется еще множество других функций, которые могут пригодиться. Подробнее в [документации](https://numpy.org/doc/1.16/reference/routines.random.html).

In [None]:
r = np.random.randint(5)
R1 = np.random.randint(5, 10, size=(4, 5))
R2 = np.random.uniform(5, 10, size=(4, 5))

print(f"{r = }\n{R1 = }\n{R2 = }")

r = 1
R1 = array([[6, 6, 5, 6, 7],
       [6, 7, 7, 9, 9],
       [8, 8, 6, 6, 8],
       [8, 7, 7, 9, 5]])
R2 = array([[7.83102971, 5.70342373, 7.84545793, 9.01293003, 5.21418277],
       [7.69959519, 8.88984985, 6.2772884 , 8.20904747, 6.95232473],
       [6.21241156, 5.6676379 , 5.7806947 , 9.41210892, 8.34116838],
       [6.31920132, 6.47239538, 9.7817053 , 7.92578468, 7.75499531]])


## Генерация массивов в диапозоне

Можно задать массив состоящий из последовательности в заданном диапазоне с заданным шагом. В функции `arrange()` позиционными аргументами можно задать:
- первый аргумент: стартовное значение последовательности
- второй аргумент: финальное значение (не входит в последовательность)
- третий аргумент: шаг последовательности

In [27]:
xArange = np.arange(10)             # задан только один аргумент
yArange = np.arange(5, 15, 2)       # возрастающая последовательность
zArange = np.arange(15, 5, -2)      # убывающая последовательность

print(xArange)
print(yArange)
print(zArange)

[0 1 2 3 4 5 6 7 8 9]
[ 5  7  9 11 13]
[15 13 11  9  7]


Равномерно распределенные значения в заданном диапазоне с заданным число разбиения диапазона

In [None]:
xSpace = np.linspace(5, 15, 10)
print(xSpace)
print(xSpace.dtype)

[ 5.          6.11111111  7.22222222  8.33333333  9.44444444 10.55555556
 11.66666667 12.77777778 13.88888889 15.        ]
float64


# Операции над массивами

## Умножение всех элементов массива на число

In [None]:
# создадим первый массив:
a = np.array([
    [1, 2 ,3],
    [4, 5, 6],
    [7, 8, 9]
])
# второй массив создадим из первого, домножив его на 2:
b = a * 2
# второй массив будет результатом умножения всех элементов
# первого массива на число 2
print(b)

## Поэлементные операции

In [None]:
c = a + b
d = a * b

print('c:\n', c)
print('d:\n', d)

# подобным образом можно производить и поэлментное деление и вычитание

## Другие операции над массивами

In [None]:
print(  c.min()     )      # значение минимального элемента
print(  c.max()     )      # значение максималаьного элемента
print(  c.sum()     )      # сумма всех элементов массива
print(  c.mean()    )      # среднее арифметическое от всех элементов

## Преобразование формы при помощи метода `reshape()`
Метод `reshape() `в классе `ndarray` библиотеки NumPy позволяет изменять форму (`shape`) массива без изменения его данных. Он возвращает новый массив с теми же данными, но с новой формой. Для этого нужно передать в качестве аргумента кортеж с новой формой. Количество элементов в массиве новой формы должно совпадать с количеством элементов исходного массива.

In [None]:
a = np.array([
            [1,  2,  3,  4],
            [5,  6,  7,  8],
            [9, 10, 11, 12],
            ])
a.shape

In [None]:
a.reshape((4, 3))

In [None]:
a.reshape((2, 2, 3))

Если в метод `reshape()` передать кортеж формы, содержащий значение `-1`, то это значение будет заменено на вычисленное автоматически значение, которое гарантирует, что общее количество элементов массива останется неизменным.

In [None]:
a.reshape((2, -1))
# втрым значением формы будет 6:

In [None]:
a.reshape(-1)

In [None]:
a.reshape((-1, 1))

# Доступ к элментам массива по индексам

In [None]:
print(c[2])     # доступ к строке с индексом 2
print(c[:, 1])  # доступ к столбцу с индексом 1
print(c[2, 0])  # доступ к элементу 2-ой строки 0-го столбца
c[0, 1] = 42    # изменение значения элемента 0-ой строки 1-го столбца

In [None]:
# перебор всех элементов двумерного массива в цикле
for i in range(c.shape[0]):
    for j in range(c.shape[1]):
        print(c[i, j])

# Фильтрация массивов

In [None]:
# операторы сравнения
a = np.array([1, 2, 3, 3, 2, 1])
a == 2

In [None]:
print(a)
a_mask = (a <= 2)
print(a_mask)
extract = a[a_mask]
print(extract)

In [None]:
b = np.array([
    [1, 4, 3, 2],
    [4, 5, 6, 3],
    [5, 1, 3, 7],
], dtype=np.int8)
b.shape

In [None]:
mask = [True, False, True]
extracted = b[mask]
extracted

In [None]:
b[(0, 2), :]

In [None]:
mask = [True, False, True, False]
b[:, mask]

In [None]:
b[:, (0, 2)]

In [None]:
c = np.array([[ 0,  1,  2],     # row index 0
              [ 3,  4,  5],     # row index 1
              [ 6,  7,  8],     # row index 2
              [ 9, 10, 11]])    # row index 3

# составим массив из индексов строк массива c:
d = np.array([2, 1, 3, 1, 1, 2, 3])

e = c[d]

Массив `e` составлен из строк массива `c`, а число строк равно длине массива `d`. Строки в `e` выбраны из строк `c` в соответствии с индексами, представленными в `d`.