# Numpy

Материалы:
* Макрушин С.В. "Лекция 1: Библиотека Numpy"
* https://numpy.org/doc/stable/user/index.html
* https://numpy.org/doc/stable/reference/index.html

## Задачи для совместного разбора

1. Сгенерировать двухмерный массив `arr` размерности (4, 7), состоящий из случайных действительных чисел, равномерно распределенных в диапазоне от 0 до 20. Нормализовать значения массива с помощью преобразования вида  $𝑎𝑥+𝑏$  так, что после нормализации максимальный элемент масcива будет равен 1.0, минимальный 0.0

In [2]:
import numpy as np

2. Создать матрицу 8 на 10 из случайных целых (используя модуль `numpy.random`) чисел из диапозона от 0 до 10 и найти в ней строку (ее индекс и вывести саму строку), в которой сумма значений минимальна.

3. Найти евклидово расстояние между двумя одномерными векторами одинаковой размерности.

4. Решить матричное уравнение `A*X*B=-C` - найти матрицу `X`. Где `A = [[-1, 2, 4], [-3, 1, 2], [-3, 0, 1]]`, `B=[[3, -1], [2, 1]]`, `C=[[7, 21], [11, 8], [8, 4]]`.

## Лабораторная работа №1

Замечание: при решении данных задач не подразумевается использования циклов или генераторов Python, если в задании не сказано обратного. Решение должно опираться на использования функционала библиотеки `numpy`.

1. Файл `minutes_n_ingredients.csv` содержит информацию об идентификаторе рецепта, времени его выполнения в минутах и количестве необходимых ингредиентов. Считайте данные из этого файла в виде массива `numpy` типа `int32`, используя `np.load_txt`. Выведите на экран первые 5 строк массива.

In [3]:
arr = np.loadtxt("./minutes_n_ingredients.csv",dtype=np.int32, delimiter=",", skiprows=1)
arr[:5]

array([[127244,     60,     16],
       [ 23891,     25,      7],
       [ 94746,     10,      6],
       [ 67660,      5,      6],
       [157911,     60,     14]])

2. Вычислите среднее значение, минимум, максимум и медиану по каждому из столбцов, кроме первого.

In [4]:
print(np.mean(arr[:,1]), np.min(arr[:,1]), np.max(arr[:,1]), np.median(arr[:,1]))
print(np.mean(arr[:,2]), np.min(arr[:,2]), np.max(arr[:,2]), np.median(arr[:,2]))

21601.00169 0 2147483647 40.0
9.05528 1 39 9.0


3. Ограничьте сверху значения продолжительности выполнения рецепта значением квантиля $q_{0.75}$. 

In [5]:
quantil = 0.75
arr[arr[:,1] <= np.quantile(arr[:,1], quantil)]

array([[127244,     60,     16],
       [ 23891,     25,      7],
       [ 94746,     10,      6],
       ...,
       [ 43407,     35,      7],
       [498432,     65,     15],
       [370915,      5,      4]])

4. Посчитайте, для скольких рецептов указана продолжительность, равная нулю. Замените для таких строк значение в данном столбце на 1.

In [6]:
fin=np.count_nonzero(arr[:,1]==0)
print(fin)
arr[:,1][arr[:,1]==0]=1

479


5. Посчитайте, сколько уникальных рецептов находится в датасете.

In [7]:
unique_rec = np.unique(arr[:, 1:], axis=0).shape[0]
unique_rec

4183

6. Сколько и каких различных значений кол-ва ингредиентов присутствует в рецептах из датасета?

In [8]:
unique, counts = np.unique(arr[:, 2], return_counts=True)
print(len(unique))
dict(zip(counts,unique))

37


{13: 1,
 926: 2,
 2895: 3,
 5515: 4,
 7913: 5,
 9376: 6,
 10628: 7,
 10951: 8,
 10585: 9,
 9591: 10,
 8297: 11,
 6605: 12,
 4997: 13,
 3663: 14,
 2595: 15,
 1767: 16,
 1246: 17,
 790: 18,
 573: 19,
 376: 20,
 217: 21,
 161: 22,
 105: 23,
 69: 24,
 50: 25,
 28: 26,
 16: 28,
 12: 30,
 3: 35,
 1: 39,
 2: 33}

7. Создайте версию массива, содержащую информацию только о рецептах, состоящих не более чем из 5 ингредиентов.

In [9]:
new_arr = arr[arr[:,2] <=5]
new_arr

array([[446597,     15,      5],
       [204134,      5,      3],
       [ 25623,      6,      4],
       ...,
       [ 52088,     60,      5],
       [128811,     15,      4],
       [370915,      5,      4]])

8. Для каждого рецепта посчитайте, сколько в среднем ингредиентов приходится на одну минуту рецепта. Найдите максимальное значение этой величины для всего датасета

In [10]:
ingr=(arr[:,2]/arr[:,1])
print(ingr)
np.max(ingr)

[0.26666667 0.28       0.6        ... 0.23076923 0.8        0.1       ]


24.0

9. Вычислите среднее количество ингредиентов для топ-100 рецептов с наибольшей продолжительностью

In [11]:
top100rec= np.argsort(arr[:,1])[:-101:-1]
top100rec_res=arr[top100rec]
np.mean(top100rec_res[:,2])

6.61

10. Выберите случайным образом и выведите информацию о 10 различных рецептах

In [12]:
arr[np.random.randint(arr.shape[0], size=10)]

array([[310664,      1,      4],
       [ 84319,     40,      7],
       [ 23273,     80,      7],
       [ 70385,    100,     20],
       [150253,     80,     19],
       [ 43988,     25,      4],
       [295736,     35,      4],
       [ 49573,     12,      3],
       [471438,     30,     10],
       [506459,     13,      7]])

11. Выведите процент рецептов, кол-во ингредиентов в которых меньше среднего.

In [13]:
res = arr[np.mean(arr[:,2])>arr[:,2]]
res.shape[0]/arr.shape[0]*100

58.802

12. Назовем "простым" такой рецепт, длительность выполнения которого не больше 20 минут и кол-во ингредиентов в котором не больше 5. Создайте версию датасета с дополнительным столбцом, значениями которого являются 1, если рецепт простой, и 0 в противном случае.

In [14]:
simpl=(arr[:,1]<=20)&(arr[:,2]<=5)
new_arr=np.c_[arr,simpl]
new_arr

array([[127244,     60,     16,      0],
       [ 23891,     25,      7,      0],
       [ 94746,     10,      6,      0],
       ...,
       [498432,     65,     15,      0],
       [370915,      5,      4,      1],
       [ 81993,    140,     14,      0]])

13. Выведите процент "простых" рецептов в датасете

In [23]:
new_arr[new_arr[:,3]==1].shape[0]/new_arr.shape[0]*100

9.552

14. Разделим рецепты на группы по следующему правилу. Назовем рецепты короткими, если их продолжительность составляет менее 10 минут; стандартными, если их продолжительность составляет более 10, но менее 20 минут; и длинными, если их продолжительность составляет не менее 20 минут. Создайте трехмерный массив, где нулевая ось отвечает за номер группы (короткий, стандартный или длинный рецепт), первая ось - за сам рецепт и вторая ось - за характеристики рецепта. Выберите максимальное количество рецептов из каждой группы таким образом, чтобы было возможно сформировать трехмерный массив. Выведите форму полученного массива.

In [24]:
short_arr = new_arr[new_arr[:,1] < 10]
res = (new_arr[:,1] >= 10) & (new_arr[:,1] < 20)
standard_arr = new_arr[res]
long_arr = new_arr[20 <= new_arr[:,1]]
min_val = np.min([short_arr.shape[0], standard_arr.shape[0], long_arr.shape[0]])
result_arr = np.array([short_arr[:min_val], standard_arr[:min_val], long_arr[:min_val]])
result_arr

array([[[ 67660,      5,      6,      0],
        [366174,      7,      9,      0],
        [204134,      5,      3,      1],
        ...,
        [420725,      5,      3,      1],
        [  4747,      1,      9,      0],
        [370915,      5,      4,      1]],

       [[ 94746,     10,      6,      0],
        [ 33941,     18,      9,      0],
        [446597,     15,      5,      1],
        ...,
        [  9831,     15,      7,      0],
        [335859,     12,     14,      0],
        [256812,     10,      3,      1]],

       [[127244,     60,     16,      0],
        [ 23891,     25,      7,      0],
        [157911,     60,     14,      0],
        ...,
        [168901,     25,      7,      0],
        [392339,     35,     13,      0],
        [206732,     45,     10,      0]]])