# Numpy

Материалы:
* Макрушин С.В. "Лекция 1: Библиотека Numpy"
* https://numpy.org/doc/stable/user/index.html
* https://numpy.org/doc/stable/reference/index.html

## Задачи для совместного разбора

1. Сгенерировать двухмерный массив `arr` размерности (4, 7), состоящий из случайных действительных чисел, равномерно распределенных в диапазоне от 0 до 20. Нормализовать значения массива с помощью преобразования вида  $𝑎𝑥+𝑏$  так, что после нормализации максимальный элемент масcива будет равен 1.0, минимальный 0.0

2. Создать матрицу 8 на 10 из случайных целых (используя модуль `numpy.random`) чисел из диапозона от 0 до 10 и найти в ней строку (ее индекс и вывести саму строку), в которой сумма значений минимальна.

3. Найти евклидово расстояние между двумя одномерными векторами одинаковой размерности.

4. Решить матричное уравнение `A*X*B=-C` - найти матрицу `X`. Где `A = [[-1, 2, 4], [-3, 1, 2], [-3, 0, 1]]`, `B=[[3, -1], [2, 1]]`, `C=[[7, 21], [11, 8], [8, 4]]`.

## Лабораторная работа №1

Замечание: при решении данных задач не подразумевается использования циклов или генераторов Python, если в задании не сказано обратного. Решение должно опираться на использования функционала библиотеки `numpy`.

In [24]:
import numpy as np

1. Файл `minutes_n_ingredients.csv` содержит информацию об идентификаторе рецепта, времени его выполнения в минутах и количестве необходимых ингредиентов. Считайте данные из этого файла в виде массива `numpy` типа `int32`, используя `np.loadtxt`. Выведите на экран первые 5 строк массива.

In [25]:
ar = np.loadtxt('minutes_n_ingredients.csv', delimiter=',', dtype='int32', skiprows=1)
ar[:5]


array([[127244,     60,     16],
       [ 23891,     25,      7],
       [ 94746,     10,      6],
       [ 67660,      5,      6],
       [162911,     60,     14]], dtype=int32)

2. Вычислите среднее значение, минимум, максимум и медиану по каждому из столбцов, кроме первого.

In [26]:
def min_max_avg_med(array, col):
    return np.min(array[:, col]), np.max(array[:, col]), np.average(array[:, col]), np.median(array[:, col])

In [27]:
print(min_max_avg_med(ar, 1))
print(min_max_avg_med(ar, 2))


(0, 2147483647, 21601.39799, 40.0)
(1, 39, 9.05528, 9.0)


3. Ограничьте сверху значения продолжительности выполнения рецепта значением квантиля $q_{0.75}$. 

In [28]:
np.quantile(ar[:, 1], 0.75)

65.0

4. Посчитайте, для скольких рецептов указана продолжительность, равная нулю. Замените для таких строк значение в данном столбце на 1.

In [29]:
len(ar[:, 1][ar[:, 1]==0])

479

In [30]:
ar[:, 1][ar[:, 1] == 0] = 1
ar

array([[127244,     60,     16],
       [ 23891,     25,      7],
       [ 94746,     10,      6],
       ...,
       [498432,     65,     15],
       [380915,      5,      4],
       [ 81993,    140,     14]], dtype=int32)

In [32]:
len(ar[:, 1][ar[:, 1]==0])

0

5. Посчитайте, сколько уникальных рецептов находится в датасете.

In [44]:
len(np.unique(ar[:, 0]))

98252

6. Сколько и каких различных значений кол-ва ингредиентов присутвует в рецептах из датасета?

In [41]:
len(np.unique(ar[:, 2]))

37

7. Создайте версию массива, содержащую информацию только о рецептах, состоящих не более чем из 5 ингредиентов.

In [45]:
ar[ar[:, 2] <= 5]

array([[446597,     15,      5],
       [204134,      5,      3],
       [ 25623,      6,      4],
       ...,
       [ 52088,     60,      5],
       [128811,     15,      4],
       [380915,      5,      4]], dtype=int32)

8. Для каждого рецепта посчитайте, сколько в среднем ингредиентов приходится на одну минуту рецепта. Найдите максимальное значение этой величины для всего датасета

In [47]:
np.average(ar[:, 2] / ar[:, 1])

0.38068284158166615

In [48]:
np.max(ar[:, 2] / ar[:, 1])

24.0

9. Вычислите среднее количество ингредиентов для топ-100 рецептов с наибольшей продолжительностью

In [78]:
sorted_array = ar[ar[:, 1].argsort()]
np.average(sorted_array[-100:, 2])


6.61

10. Выберите случайным образом и выведите информацию о 10 различных рецептах

In [83]:
import random
random.choices(ar, k=10)



[array([178691,     40,      5], dtype=int32),
 array([139516,     60,      6], dtype=int32),
 array([209618,     40,      7], dtype=int32),
 array([56186,    50,     7], dtype=int32),
 array([206837,     55,      5], dtype=int32),
 array([80678,    40,     8], dtype=int32),
 array([379762,    360,      7], dtype=int32),
 array([64462,   550,     8], dtype=int32),
 array([117462,     25,      8], dtype=int32),
 array([389944,     10,      5], dtype=int32)]

11. Выведите процент рецептов, кол-во ингредиентов в которых меньше среднего.

In [87]:
ar[ar[:, 2] <= ar[:, 2].mean()].shape[0] / ar.shape[0] * 100

58.802

12. Назовем "простым" такой рецепт, длительность выполнения которого не больше 20 минут и кол-во ингредиентов в котором не больше 5. Создайте версию датасета с дополнительным столбцом, значениями которого являются 1, если рецепт простой, и 0 в противном случае.

In [106]:
ar = np.hstack((ar, np.where((ar[:, 1] <= 20) & (ar[:, 2] <= 5), 1, 0).reshape(-1, 1)))
ar


array([[127244,     60,     16,      0],
       [ 23891,     25,      7,      0],
       [ 94746,     10,      6,      0],
       ...,
       [498432,     65,     15,      0],
       [380915,      5,      4,      1],
       [ 81993,    140,     14,      0]])

13. Выведите процент "простых" рецептов в датасете

In [117]:
len(ar[ar[:, 3] == 1])/len(ar)*100

9.552

14. Разделим рецепты на группы по следующему правилу. Назовем рецепты короткими, если их продолжительность составляет менее 10 минут; стандартными, если их продолжительность составляет более 10, но менее 20 минут; и длинными, если их продолжительность составляет не менее 20 минут. Создайте трехмерный массив, где нулевая ось отвечает за номер группы (короткий, стандартный или длинный рецепт), первая ось - за сам рецепт и вторая ось - за характеристики рецепта. Выберите максимальное количество рецептов из каждой группы таким образом, чтобы было возможно сформировать трехмерный массив. Выведите форму полученного массива.

In [133]:
gp_easy = ar[ar[:, 1] < 10]
gp_mid = ar[(ar[:, 1] < 20) & (ar[:, 1] >= 10)][:len(gp_easy)]
gp_hard = ar[ar[:, 1] >= 20][:len(gp_easy)]

In [161]:
r = np.stack([gp_easy, gp_mid, gp_hard])
r

array([[[ 67660,      5,      6,      0],
        [366174,      7,      9,      0],
        [204134,      5,      3,      1],
        ...,
        [420725,      5,      3,      1],
        [  4747,      1,      9,      0],
        [380915,      5,      4,      1]],

       [[ 94746,     10,      6,      0],
        [ 33941,     18,      9,      0],
        [446597,     15,      5,      1],
        ...,
        [  9831,     15,      7,      0],
        [335859,     12,     14,      0],
        [256812,     10,      3,      1]],

       [[127244,     60,     16,      0],
        [ 23891,     25,      7,      0],
        [162911,     60,     14,      0],
        ...,
        [168901,     25,      7,      0],
        [392339,     35,     13,      0],
        [206732,     45,     10,      0]]])