# Numpy

Материалы:
* Макрушин С.В. "Лекция 1: Библиотека Numpy"
* https://numpy.org/doc/stable/user/index.html
* https://numpy.org/doc/stable/reference/index.html

## Задачи для совместного разбора

1. Сгенерировать двухмерный массив `arr` размерности (4, 7), состоящий из случайных действительных чисел, равномерно распределенных в диапазоне от 0 до 20. Нормализовать значения массива с помощью преобразования вида  $𝑎𝑥+𝑏$  так, что после нормализации максимальный элемент масcива будет равен 1.0, минимальный 0.0

2. Создать матрицу 8 на 10 из случайных целых (используя модуль `numpy.random`) чисел из диапозона от 0 до 10 и найти в ней строку (ее индекс и вывести саму строку), в которой сумма значений минимальна.

3. Найти евклидово расстояние между двумя одномерными векторами одинаковой размерности.

4. Решить матричное уравнение `A*X*B=-C` - найти матрицу `X`. Где `A = [[-1, 2, 4], [-3, 1, 2], [-3, 0, 1]]`, `B=[[3, -1], [2, 1]]`, `C=[[7, 21], [11, 8], [8, 4]]`.

## Лабораторная работа №1

Замечание: при решении данных задач не подразумевается использования циклов или генераторов Python, если в задании не сказано обратного. Решение должно опираться на использования функционала библиотеки `numpy`.

In [1]:
import numpy as np

1. Файл `minutes_n_ingredients.csv` содержит информацию об идентификаторе рецепта, времени его выполнения в минутах и количестве необходимых ингредиентов. Считайте данные из этого файла в виде массива `numpy` типа `int32`, используя `np.load_txt`. Выведите на экран первые 5 строк массива.

In [17]:
data = np.loadtxt('minutes_n_ingredients.csv', delimiter=",", dtype=int, skiprows=1)
print(data[:5])

[[127244     60     16]
 [ 23891     25      7]
 [ 94746     10      6]
 [ 67660      5      6]
 [157911     60     14]]


2. Вычислите среднее значение, минимум, максимум и медиану по каждому из столбцов, кроме первого.

In [32]:
print(f'AVR: {np.median(data[:, 0])}\nMIN: {np.min(data[:, 0])}\nMAX: {np.max(data[:, 0])}\n')

print(f'AVR: {np.median(data[:, 1])}\nMIN: {np.min(data[:, 1])}\nMAX: {np.max(data[:, 1])}\n')

print(f'AVR: {np.median(data[:, 2])}\nMIN: {np.min(data[:, 2])}\nMAX: {np.max(data[:, 2])}')

AVR: 207193.5
MIN: 1
MAX: 537671

AVR: 40.0
MIN: 1
MAX: 2147483647

AVR: 9.0
MIN: 1
MAX: 39


3. Ограничьте сверху значения продолжительности выполнения рецепта значением квантиля $q_{0.75}$. 

In [29]:
print(data[data[:, 1] < np.quantile(data[:, 1], 0.75)])

[[127244     60     16]
 [ 23891     25      7]
 [ 94746     10      6]
 ...
 [371794     35      8]
 [ 43407     35      7]
 [370915      5      4]]


4. Посчитайте, для скольких рецептов указана продолжительность, равная нулю. Замените для таких строк значение в данном столбце на 1.

In [28]:
print(len(data[data[:, 1]==0]), len(data[data[:, 1]==1]))

data[data[:, 1] == 0] = 1

print(len(data[data[:, 1]==0]), len(data[data[:, 1]==1]))

479 237
0 716


In [21]:
data = np.loadtxt('minutes_n_ingredients.csv', delimiter=",", dtype=int, skiprows=1)

5. Посчитайте, сколько уникальных рецептов находится в датасете.

In [27]:
print(len(np.unique(data[:, 2])))

37


6. Сколько и каких различных значений кол-ва ингредиентов присутвует в рецептах из датасета?

In [26]:
unique, count = np.unique(data[:, 2], return_counts=True)
for i in range(len(unique)): print(unique[i], count[i])

1 13
2 926
3 2895
4 5515
5 7913
6 9376
7 10628
8 10951
9 10585
10 9591
11 8297
12 6605
13 4997
14 3663
15 2595
16 1767
17 1246
18 790
19 573
20 376
21 217
22 161
23 105
24 69
25 50
26 28
27 16
28 16
29 12
30 12
31 3
32 1
33 2
34 1
35 3
37 1
39 1


7. Создайте версию массива, содержащую информацию только о рецептах, состоящих не более чем из 5 ингредиентов.

In [37]:
datalowfive = data[data[:, 2] <= 5]
datalowfive

array([[446597,     15,      5],
       [204134,      5,      3],
       [ 25623,      6,      4],
       ...,
       [ 52088,     60,      5],
       [128811,     15,      4],
       [370915,      5,      4]])

8. Для каждого рецепта посчитайте, сколько в среднем ингредиентов приходится на одну минуту рецепта. Найдите максимальное значение этой величины для всего датасета

In [33]:
print(data[:, 2]/data[:, 1], np.max(data[:, 2]/data[:, 1]))

2147483647


9. Вычислите среднее количество ингредиентов для топ-100 рецептов с наибольшей продолжительностью

In [58]:
print(np.average(data[data[:, 1].argsort()[::-1][:100]][:, 2]))

6.61


10. Выберите случайным образом и выведите информацию о 10 различных рецептах

In [44]:
print(np.random.randint(len(data), size=10))

[47633 98343 44757 23010 32247 50148 83442 30022 78514  5902]


11. Выведите процент рецептов, кол-во ингредиентов в которых меньше среднего.

In [64]:
print(round(len(data[data[:, 2] < np.average(data[:, 2])])/len(data)*100, 2))

58.99


12. Назовем "простым" такой рецепт, длительность выполнения которого не больше 20 минут и кол-во ингредиентов в котором не больше 5. Создайте версию датасета с дополнительным столбцом, значениями которого являются 1, если рецепт простой, и 0 в противном случае.

In [92]:
n_date = np.c_[data, (data[:, 1] <= 20) & (data[:, 2] <= 5)]
n_date

array([[127244,     60,     16,      0],
       [ 23891,     25,      7,      0],
       [ 94746,     10,      6,      0],
       ...,
       [498432,     65,     15,      0],
       [370915,      5,      4,      1],
       [ 81993,    140,     14,      0]])

13. Выведите процент "простых" рецептов в датасете

In [104]:
print(len(n_date[n_date[:, 3] == 1])/len(n_date)*100)

9.943


14. Разделим рецепты на группы по следующему правилу. Назовем рецепты короткими, если их продолжительность составляет менее 10 минут; стандартными, если их продолжительность составляет более 10, но менее 20 минут; и длинными, если их продолжительность составляет не менее 20 минут. Создайте трехмерный массив, где нулевая ось отвечает за номер группы (короткий, стандартный или длинный рецепт), первая ось - за сам рецепт и вторая ось - за характеристики рецепта. Выберите максимальное количество рецептов из каждой группы таким образом, чтобы было возможно сформировать трехмерный массив. Выведите форму полученного массива.