# Numpy

Материалы:
* Макрушин С.В. "Лекция 1: Библиотека Numpy"
* https://numpy.org/doc/stable/user/index.html
* https://numpy.org/doc/stable/reference/index.html

In [1]:
import numpy as np
import pandas as pd

In [2]:
lst = [1, 3, 5, 9, 20]
[i**2 for i in lst]

[1, 9, 25, 81, 400]

#### Векторизация мат операций

In [3]:
arr = np.array(lst)
arr ** 2

array([  1,   9,  25,  81, 400], dtype=int32)

#### Использование маски для выборки по индексам

In [4]:
arr[arr % 3 == 0]

array([3, 9])

#### Сложная выборка (срез по столбцам и выборка по строкам)

In [5]:
arr = np.arange(20).reshape(5, 4)
arr[1:3, -1]

array([ 7, 11])

## Задачи для совместного разбора

1. Сгенерировать двухмерный массив `arr` размерности (4, 7), состоящий из случайных действительных чисел, равномерно распределенных в диапазоне от 0 до 20. Нормализовать значения массива с помощью преобразования вида  $𝑎𝑥+𝑏$  так, что после нормализации максимальный элемент масcива будет равен 1.0, минимальный 0.0

In [6]:
arr = np.random.uniform(0, 20, (4, 7))
(arr - arr.min())/(arr.max() - arr.min())

array([[0.27235828, 0.53541666, 0.90719519, 0.96485619, 0.72633959,
        0.16026748, 0.8706627 ],
       [0.19268415, 0.01394651, 0.42945981, 0.06841062, 0.16646637,
        0.54916565, 1.        ],
       [0.79800542, 0.41404477, 0.4604498 , 0.36539156, 0.49350831,
        0.26186607, 0.53241728],
       [0.5116678 , 0.99823157, 0.78956242, 0.19781637, 0.        ,
        0.46071927, 0.09042549]])

In [7]:
# К виду ax + b
arr*(1/(arr.max() - arr.min()))-(arr.min()/(arr.max() - arr.min()))

array([[0.27235828, 0.53541666, 0.90719519, 0.96485619, 0.72633959,
        0.16026748, 0.8706627 ],
       [0.19268415, 0.01394651, 0.42945981, 0.06841062, 0.16646637,
        0.54916565, 1.        ],
       [0.79800542, 0.41404477, 0.4604498 , 0.36539156, 0.49350831,
        0.26186607, 0.53241728],
       [0.5116678 , 0.99823157, 0.78956242, 0.19781637, 0.        ,
        0.46071927, 0.09042549]])

2. Создать матрицу 8 на 10 из случайных целых (используя модуль `numpy.random`) чисел из диапозона от 0 до 10 и найти в ней строку (ее индекс и вывести саму строку), в которой сумма значений минимальна.

In [8]:
arr = np.random.randint(0, 10, size=(8, 10))
arr

array([[7, 6, 7, 0, 4, 2, 0, 1, 4, 4],
       [0, 2, 5, 2, 0, 9, 5, 5, 8, 9],
       [0, 1, 6, 3, 5, 8, 1, 7, 0, 1],
       [4, 3, 9, 2, 7, 6, 7, 2, 9, 0],
       [4, 9, 5, 9, 9, 4, 0, 8, 5, 2],
       [3, 0, 1, 6, 4, 5, 1, 7, 1, 1],
       [7, 7, 8, 7, 0, 9, 7, 1, 7, 2],
       [1, 9, 2, 6, 7, 2, 9, 7, 6, 5]])

In [9]:
arr_sum = arr.sum(axis=1)
arr[arr_sum == arr_sum.min()]

array([[3, 0, 1, 6, 4, 5, 1, 7, 1, 1]])

3. Найти евклидово расстояние между двумя одномерными векторами одинаковой размерности.

In [10]:
arr1 = np.random.randint(0, 10, size=10)
arr2 = np.random.randint(0, 10, size=10)

In [11]:
((arr1 - arr2) ** 2).sum() ** (1/2)

13.820274961085254

In [12]:
np.linalg.norm(arr1 - arr2)

13.820274961085254

4. Решить матричное уравнение `A*X*B=-C` - найти матрицу `X`. Где `A = [[-1, 2, 4], [-3, 1, 2], [-3, 0, 1]]`, `B=[[3, -1], [2, 1]]`, `C=[[7, 21], [11, 8], [8, 4]]`.

In [13]:
A = np.array([[-1, 2, 4], [-3, 1, 2], [-3, 0, 1]])
B = np.array([[3, -1], [2, 1]])
C = np.array([[7, 21], [11, 8], [8, 4]])

X = np.linalg.inv(A) @ -C @ np.linalg.inv(B)
X

array([[ 1.00000000e+00,  5.55111512e-16],
       [-2.00000000e+00,  1.00000000e+00],
       [ 3.00000000e+00, -4.00000000e+00]])

In [14]:
A @ X @ B

array([[ -7., -21.],
       [-11.,  -8.],
       [ -8.,  -4.]])

In [15]:
-C

array([[ -7, -21],
       [-11,  -8],
       [ -8,  -4]])

## Лабораторная работа №1

Замечание: при решении данных задач не подразумевается использования циклов или генераторов Python, если в задании не сказано обратного. Решение должно опираться на использования функционала библиотеки `numpy`.

1. Файл `minutes_n_ingredients.csv` содержит информацию об идентификаторе рецепта, времени его выполнения в минутах и количестве необходимых ингредиентов. Считайте данные из этого файла в виде массива `numpy` типа `int32`, используя `np.load_txt`. Выведите на экран первые 5 строк массива.

In [20]:
arr = np.loadtxt("../data/minutes_n_ingredients.csv", dtype=int, delimiter=",", skiprows=1)
arr[0:5]

array([[127244,     60,     16],
       [ 23891,     25,      7],
       [ 94746,     10,      6],
       [ 67660,      5,      6],
       [157911,     60,     14]])

2. Вычислите среднее значение, минимум, максимум и медиану по каждому из столбцов, кроме первого.

In [21]:
# Среднее
arr[:,1:].mean(axis=0)

array([2.16010017e+04, 9.05528000e+00])

In [22]:
# Минимум
arr[:,1:].min(axis=0)

array([0, 1])

In [23]:
# Максимум
arr[:,1:].max(axis=0)

array([2147483647,         39])

In [24]:
# Медиана
np.median(arr[:,1:], axis=0)

array([40.,  9.])

3. Ограничьте сверху значения продолжительности выполнения рецепта значением квантиля $q_{0.75}$. 

In [25]:
arr[arr[:,1] <= np.quantile(arr[:,1], 0.75)]

array([[127244,     60,     16],
       [ 23891,     25,      7],
       [ 94746,     10,      6],
       ...,
       [ 43407,     35,      7],
       [498432,     65,     15],
       [370915,      5,      4]])

4. Посчитайте, для скольких рецептов указана продолжительность, равная нулю. Замените для таких строк значение в данном столбце на 1.

In [26]:
arr_0_mask = arr[:,1] == 0
arr[arr_0_mask].shape[0]

479

In [27]:
arr[arr_0_mask,1] = 1
arr[arr_0_mask]

array([[9325,    1,   10],
       [2828,    1,    8],
       [8008,    1,   11],
       ...,
       [3383,    1,    7],
       [2778,    1,   11],
       [4747,    1,    9]])

5. Посчитайте, сколько уникальных рецептов находится в датасете.

In [28]:
np.unique(arr[:,1:], axis=1).shape[0]

100000

6. Сколько и каких различных значений кол-ва ингредиентов присутвует в рецептах из датасета?

In [29]:
arr_ingredients_unique = np.unique(arr[:,2])
arr_ingredients_unique.size, arr_ingredients_unique

(37,
 array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16, 17,
        18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34,
        35, 37, 39]))

7. Создайте версию массива, содержащую информацию только о рецептах, состоящих не более чем из 5 ингредиентов.

In [30]:
arr_short5 = arr[arr[:,2] <= 5]
arr_short5

array([[446597,     15,      5],
       [204134,      5,      3],
       [ 25623,      6,      4],
       ...,
       [ 52088,     60,      5],
       [128811,     15,      4],
       [370915,      5,      4]])

8. Для каждого рецепта посчитайте, сколько в среднем ингредиентов приходится на одну минуту рецепта. Найдите максимальное значение этой величины для всего датасета

In [31]:
(arr[:,2]/arr[:,1]).max()

24.0

9. Вычислите среднее количество ингредиентов для топ-100 рецептов с наибольшей продолжительностью

In [32]:
arr[np.argsort(arr[:,1])][arr.shape[0]-100:,2].mean()

6.61

10. Выберите случайным образом и выведите информацию о 10 различных рецептах

In [33]:
arr[np.random.choice(arr.shape[0], size=10, replace=False)]

array([[141792,     45,      5],
       [398444,     55,     10],
       [325584,     32,      6],
       [ 92127,     24,     10],
       [371074,     30,     10],
       [243844,     65,      7],
       [225847,    315,     12],
       [502334,     60,     12],
       [243470,     35,     11],
       [165117,     55,      6]])

11. Выведите процент рецептов, кол-во ингредиентов в которых меньше среднего.

In [34]:
(arr[arr[:,2] < arr[:,2].mean()].shape[0] / arr.shape[0]) * 100

58.802

12. Назовем "простым" такой рецепт, длительность выполнения которого не больше 20 минут и кол-во ингредиентов в котором не больше 5. Создайте версию датасета с дополнительным столбцом, значениями которого являются 1, если рецепт простой, и 0 в противном случае.

In [35]:
arr_simpledetected = np.c_[arr, ((arr[:,1] <= 20) * (arr[:,2] <= 5)).astype("int")]
arr_simpledetected

array([[127244,     60,     16,      0],
       [ 23891,     25,      7,      0],
       [ 94746,     10,      6,      0],
       ...,
       [498432,     65,     15,      0],
       [370915,      5,      4,      1],
       [ 81993,    140,     14,      0]])

13. Выведите процент "простых" рецептов в датасете

In [36]:
(arr_simpledetected[arr_simpledetected[:,3] == 1].shape[0] / arr_simpledetected.shape[0]) * 100

9.552

14. Разделим рецепты на группы по следующему правилу. Назовем рецепты короткими, если их продолжительность составляет менее 10 минут; стандартными, если их продолжительность составляет более 10, но менее 20 минут; и длинными, если их продолжительность составляет не менее 20 минут. Создайте трехмерный массив, где нулевая ось отвечает за номер группы (короткий, стандартный или длинный рецепт), первая ось - за сам рецепт и вторая ось - за характеристики рецепта. Выберите максимальное количество рецептов из каждой группы таким образом, чтобы было возможно сформировать трехмерный массив. Выведите форму полученного массива.

In [37]:
arr_0 = arr[arr[:,1] < 10]
arr_1 = arr[(10 <= arr[:,1]) * (arr[:,1] < 20)]
arr_2 = arr[20 <= arr[:,1]]

max_size = min([arr_0.shape[0], arr_1.shape[0], arr_2.shape[0]])

arr_categories_detected = np.array([arr_0[:max_size], arr_1[:max_size], arr_2[:max_size]])
arr_categories_detected


array([[[ 67660,      5,      6],
        [366174,      7,      9],
        [204134,      5,      3],
        ...,
        [420725,      5,      3],
        [  4747,      1,      9],
        [370915,      5,      4]],

       [[ 94746,     10,      6],
        [ 33941,     18,      9],
        [446597,     15,      5],
        ...,
        [  9831,     15,      7],
        [335859,     12,     14],
        [256812,     10,      3]],

       [[127244,     60,     16],
        [ 23891,     25,      7],
        [157911,     60,     14],
        ...,
        [168901,     25,      7],
        [392339,     35,     13],
        [206732,     45,     10]]])