# Numpy

Материалы:
* Макрушин С.В. "Лекция 1: Библиотека Numpy"
* https://numpy.org/doc/stable/user/index.html
* https://numpy.org/doc/stable/reference/index.html

## Задачи для совместного разбора

1. Сгенерировать двухмерный массив `arr` размерности (4, 7), состоящий из случайных действительных чисел, равномерно распределенных в диапазоне от 0 до 20. Нормализовать значения массива с помощью преобразования вида  $𝑎𝑥+𝑏$  так, что после нормализации максимальный элемент масcива будет равен 1.0, минимальный 0.0

2. Создать матрицу 8 на 10 из случайных целых (используя модуль `numpy.random`) чисел из диапозона от 0 до 10 и найти в ней строку (ее индекс и вывести саму строку), в которой сумма значений минимальна.

3. Найти евклидово расстояние между двумя одномерными векторами одинаковой размерности.

4. Решить матричное уравнение `A*X*B=-C` - найти матрицу `X`. Где `A = [[-1, 2, 4], [-3, 1, 2], [-3, 0, 1]]`, `B=[[3, -1], [2, 1]]`, `C=[[7, 21], [11, 8], [8, 4]]`.

## Лабораторная работа №1

Замечание: при решении данных задач не подразумевается использования циклов или генераторов Python, если в задании не сказано обратного. Решение должно опираться на использования функционала библиотеки `numpy`.

1. Файл `minutes_n_ingredients.csv` содержит информацию об идентификаторе рецепта, времени его выполнения в минутах и количестве необходимых ингредиентов. Считайте данные из этого файла в виде массива `numpy` типа `int32`, используя `np.loadtxt`. Выведите на экран первые 5 строк массива.

In [2]:
import numpy as np

In [3]:
dataset = np.loadtxt('./minutes_n_ingredients.csv', dtype=np.int32, delimiter=",", skiprows=1)
dataset[:5]

array([[127244,     60,     16],
       [ 23891,     25,      7],
       [ 94746,     10,      6],
       [ 67660,      5,      6],
       [157911,     60,     14]])

2. Вычислите среднее значение, минимум, максимум и медиану по каждому из столбцов, кроме первого.

In [4]:
print(dataset[:, 1:].mean(axis=0),
     dataset[:, 1:].min(axis=0),
     dataset[:, 1:].max(axis=0),
     np.median(dataset[:, 1:], axis=0), sep='\n')

[2.16010017e+04 9.05528000e+00]
[0 1]
[2147483647         39]
[40.  9.]


3. Ограничьте сверху значения продолжительности выполнения рецепта значением квантиля $q_{0.75}$. 

In [18]:
q = np.quantile(dataset[:, 1], q=0.75)
dataset[:, 1] = dataset[:, 1].clip(max=q)
print(dataset)

[[127244     60     16]
 [ 23891     25      7]
 [ 94746     10      6]
 ...
 [498432     65     15]
 [370915      5      4]
 [ 81993     65     14]]


4. Посчитайте, для скольких рецептов указана продолжительность, равная нулю. Замените для таких строк значение в данном столбце на 1.

In [7]:
print(len(dataset[dataset[:, 1] == 0]))
dataset[dataset == 0] = 1
dataset

0


array([[127244,     60,     16],
       [ 23891,     25,      7],
       [ 94746,     10,      6],
       ...,
       [498432,     65,     15],
       [370915,      5,      4],
       [ 81993,     65,     14]])

5. Посчитайте, сколько уникальных рецептов находится в датасете.

In [9]:
np.unique(dataset[:, 0]).shape

(100000,)

6. Сколько и каких различных значений кол-ва ингредиентов присутвует в рецептах из датасета?

In [10]:
np.unique(dataset[:, 2])

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16, 17,
       18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34,
       35, 37, 39])

7. Создайте версию массива, содержащую информацию только о рецептах, состоящих не более чем из 5 ингредиентов.

In [11]:
dataset[dataset[:, 2] <= 5]

array([[446597,     15,      5],
       [204134,      5,      3],
       [ 25623,      6,      4],
       ...,
       [ 52088,     60,      5],
       [128811,     15,      4],
       [370915,      5,      4]])

8. Для каждого рецепта посчитайте, сколько в среднем ингредиентов приходится на одну минуту рецепта. Найдите максимальное значение этой величины для всего датасета

In [13]:
res = (dataset[:, 2] / dataset[:, 1])
print(res)
np.max(res)

[0.26666667 0.28       0.6        ... 0.23076923 0.8        0.21538462]


24.0

9. Вычислите среднее количество ингредиентов для топ-100 рецептов с наибольшей продолжительностью

In [20]:
rows = dataset[:, 1].argsort()[-100:]
print(dataset[rows, 2].mean())

test = np.loadtxt('./minutes_n_ingredients.csv', dtype=np.int32, delimiter=",", skiprows=1)
rows = test[:, 1].argsort()[-100:]
print(test[rows, 2].mean())

9.96
6.61


10. Выберите случайным образом и выведите информацию о 10 различных рецептах

In [21]:
dataset[np.random.randint(0, len(dataset), 10)]

array([[352702,     30,     10],
       [529975,     65,     10],
       [ 58018,     30,     11],
       [349050,     45,      9],
       [373062,     25,      5],
       [121551,     25,      6],
       [ 87948,      5,      4],
       [105558,     35,      5],
       [443953,     10,      5],
       [355118,     25,      9]])

11. Выведите процент рецептов, кол-во ингредиентов в которых меньше среднего.

In [22]:
len(dataset[dataset[:, 2] < dataset[:, 2].mean()]) / len(dataset)

0.58802

12. Назовем "простым" такой рецепт, длительность выполнения которого не больше 20 минут и кол-во ингредиентов в котором не больше 5. Создайте версию датасета с дополнительным столбцом, значениями которого являются 1, если рецепт простой, и 0 в противном случае.

In [10]:
dataset_big = np.zeros((len(dataset), 4), dtype=np.int32)
dataset_big[:, :3] = dataset
dataset_big[:, 3] = ((dataset[:, 1] <= 20) & (dataset[:, 2] <= 5)).astype(np.int32)
dataset_big


array([[127244,     60,     16,      0],
       [ 23891,     25,      7,      0],
       [ 94746,     10,      6,      0],
       ...,
       [498432,     65,     15,      0],
       [370915,      5,      4,      1],
       [ 81993,    140,     14,      0]])

13. Выведите процент "простых" рецептов в датасете

In [15]:
easy = (dataset_big[:, 3]).sum()
easy/len(dataset_big), 1 - easy/len(dataset_big)

(0.09552, 0.90448)

14. Разделим рецепты на группы по следующему правилу. Назовем рецепты короткими, если их продолжительность составляет менее 10 минут; стандартными, если их продолжительность составляет более 10, но менее 20 минут; и длинными, если их продолжительность составляет не менее 20 минут. Создайте трехмерный массив, где нулевая ось отвечает за номер группы (короткий, стандартный или длинный рецепт), первая ось - за сам рецепт и вторая ось - за характеристики рецепта. Выберите максимальное количество рецептов из каждой группы таким образом, чтобы было возможно сформировать трехмерный массив. Выведите форму полученного массива.

In [None]:
short = dataset[dataset[:, 2] < 10]
standart = dataset[(dataset[:, 2] >= 10) & (dataset[:, 2] < 20)]
long = dataset[dataset[:, 2] >= 20]

max_n = min(len(short), len(standart), len(long))
arr = np.stack([short[:max_n], standart[:max_n], long[:max_n]])

arr.shape

(3, 1074, 3)