# Numpy

Материалы:
* Макрушин С.В. "Лекция 1: Библиотека Numpy"
* https://numpy.org/doc/stable/user/index.html
* https://numpy.org/doc/stable/reference/index.html

## Задачи для совместного разбора

1. Сгенерировать двухмерный массив `arr` размерности (4, 7), состоящий из случайных действительных чисел, равномерно распределенных в диапазоне от 0 до 20. Нормализовать значения массива с помощью преобразования вида  $𝑎𝑥+𝑏$  так, что после нормализации максимальный элемент масcива будет равен 1.0, минимальный 0.0

In [1]:
from numpy import random
import numpy as np

arr = random.uniform(0,20,28)

arr = np.reshape(arr, [7, 4])
print('Сгенерированный массив:\n', arr)
arr = (arr - arr.min()) / (arr.max() - arr.min())
print('\nНормализованный массив:\n', arr)

Сгенерированный массив:
 [[ 6.92534009  4.74212721  3.90732559 10.00343347]
 [ 0.19780195 15.77777167 17.45993886  4.20239757]
 [ 0.71694839 18.22404185  8.87295897 11.87544354]
 [15.20813888 10.11067065 12.55223932  3.71954508]
 [10.52047527  0.23294297 12.1314302  10.76208914]
 [18.14081826 12.90564291 15.46801366 16.2170512 ]
 [ 3.98392073 13.93026306  7.49888093  9.4597617 ]]

Нормализованный массив:
 [[0.37320807 0.25209502 0.20578466 0.54396433]
 [0.         0.86429393 0.95761163 0.22215368]
 [0.02879949 1.         0.48125161 0.6478135 ]
 [0.83269373 0.54991328 0.68535854 0.19536759]
 [0.57264706 0.00194944 0.66201428 0.58605052]
 [0.9953832  0.70496349 0.8471102  0.88866282]
 [0.21003375 0.76180397 0.40502506 0.51380431]]


2. Создать матрицу 8 на 10 из случайных целых (используя модуль `numpy.random`) чисел из диапозона от 0 до 10 и найти в ней строку (ее индекс и вывести саму строку), в которой сумма значений минимальна.

In [2]:
arr2 = random.randint(0, 10, [8, 10])

print('Сгенерированный массив:\n', arr2)
minind = arr2.sum(axis=1).argmin()
print('\nИндекс строки с минимальной суммой элементов:', minind, '\nСтрока с минимальной суммой:', arr2[minind])  

Сгенерированный массив:
 [[4 8 5 1 1 1 1 1 3 3]
 [9 9 6 6 9 6 1 8 2 4]
 [6 6 2 3 7 8 8 0 9 0]
 [4 6 6 8 9 5 0 2 3 1]
 [1 2 4 7 8 2 0 3 9 0]
 [9 9 3 8 6 1 8 4 0 7]
 [6 0 0 8 2 3 7 0 4 0]
 [8 1 1 4 4 4 5 4 2 5]]

Индекс строки с минимальной суммой элементов: 0 
Строка с минимальной суммой: [4 8 5 1 1 1 1 1 3 3]


3. Найти евклидово расстояние между двумя одномерными векторами одинаковой размерности.

In [3]:
size_v = random.randint(3, 6)
v1 = random.randint(0, 10, size_v)
v2 = random.randint(10, 20, size_v)

print('Вектор v1:\n', v1, '\nВектор v2:\n', v2)
dist = np.linalg.norm(v1-v2)

print('\nЕвклидово расстояние:\n',dist)

Вектор v1:
 [0 6 8 3 2] 
Вектор v2:
 [16 17 11 11 11]

Евклидово расстояние:
 23.043437243605826


4. Решить матричное уравнение `A*X*B=-C` - найти матрицу `X`. Где `A = [[-1, 2, 4], [-3, 1, 2], [-3, 0, 1]]`, `B=[[3, -1], [2, 1]]`, `C=[[7, 21], [11, 8], [8, 4]]`.

In [4]:
A = np.array([[-1, 2, 4], [-3, 1, 2], [-3, 0, 1]])
B = np.array([[3, -1], [2, 1]])
C = np.array([[7, 21], [11, 8], [8, 4]])
Cneg = -1 * C
invA = np.linalg.inv(A)
# np.linalg.inv(A) * (-1 * C) * np.linalg.inv(B)
# X = invA * -C * invB
np.matmul(np.matmul(invA, Cneg), np.linalg.inv(B))

array([[ 1.00000000e+00,  5.32907052e-16],
       [-2.00000000e+00,  1.00000000e+00],
       [ 3.00000000e+00, -4.00000000e+00]])

## Лабораторная работа №1

Замечание: при решении данных задач не подразумевается использования циклов или генераторов Python, если в задании не сказано обратного. Решение должно опираться на использования функционала библиотеки `numpy`.

1. Файл `minutes_n_ingredients.csv` содержит информацию об идентификаторе рецепта, времени его выполнения в минутах и количестве необходимых ингредиентов. Считайте данные из этого файла в виде массива `numpy` типа `int32`, используя `np.loadtxt`. Выведите на экран первые 5 строк массива.

In [12]:
data = np.genfromtxt('data/minutes_n_ingredients.csv', delimiter=',', dtype='int32', names=True)
data[:5]

array([(127244, 60, 16), ( 23891, 25,  7), ( 94746, 10,  6),
       ( 67660,  5,  6), (157911, 60, 14)],
      dtype=[('id', '<i4'), ('minutes', '<i4'), ('n_ingredients', '<i4')])

2. Вычислите среднее значение, минимум, максимум и медиану по каждому из столбцов, кроме первого.

3. Ограничьте сверху значения продолжительности выполнения рецепта значением квантиля $q_{0.75}$. 

4. Посчитайте, для скольких рецептов указана продолжительность, равная нулю. Замените для таких строк значение в данном столбце на 1.

5. Посчитайте, сколько уникальных рецептов находится в датасете.

6. Сколько и каких различных значений кол-ва ингредиентов присутвует в рецептах из датасета?

7. Создайте версию массива, содержащую информацию только о рецептах, состоящих не более чем из 5 ингредиентов.

8. Для каждого рецепта посчитайте, сколько в среднем ингредиентов приходится на одну минуту рецепта. Найдите максимальное значение этой величины для всего датасета

9. Вычислите среднее количество ингредиентов для топ-100 рецептов с наибольшей продолжительностью

10. Выберите случайным образом и выведите информацию о 10 различных рецептах

11. Выведите процент рецептов, кол-во ингредиентов в которых меньше среднего.

12. Назовем "простым" такой рецепт, длительность выполнения которого не больше 20 минут и кол-во ингредиентов в котором не больше 5. Создайте версию датасета с дополнительным столбцом, значениями которого являются 1, если рецепт простой, и 0 в противном случае.

13. Выведите процент "простых" рецептов в датасете

14. Разделим рецепты на группы по следующему правилу. Назовем рецепты короткими, если их продолжительность составляет менее 10 минут; стандартными, если их продолжительность составляет более 10, но менее 20 минут; и длинными, если их продолжительность составляет не менее 20 минут. Создайте трехмерный массив, где нулевая ось отвечает за номер группы (короткий, стандартный или длинный рецепт), первая ось - за сам рецепт и вторая ось - за характеристики рецепта. Выберите максимальное количество рецептов из каждой группы таким образом, чтобы было возможно сформировать трехмерный массив. Выведите форму полученного массива.