# Numpy

Материалы:
* Макрушин С.В. "Лекция 1: Библиотека Numpy"
* https://numpy.org/doc/stable/user/index.html
* https://numpy.org/doc/stable/reference/index.html

## Задачи для совместного разбора

1. Сгенерировать двухмерный массив `arr` размерности (4, 7), состоящий из случайных действительных чисел, равномерно распределенных в диапазоне от 0 до 20. Нормализовать значения массива с помощью преобразования вида  $𝑎𝑥+𝑏$  так, что после нормализации максимальный элемент масcива будет равен 1.0, минимальный 0.0

In [1]:
import numpy as np

In [2]:
np.random.randint(0, 20, size = (4, 7))

array([[ 3,  0, 11, 12, 11, 15, 17],
       [ 5, 15, 12, 13,  6,  2,  7],
       [10,  7,  7,  1,  1, 15, 13],
       [10, 15,  3,  2,  5,  8, 14]])

2. Создать матрицу 8 на 10 из случайных целых (используя модуль `numpy.random`) чисел из диапозона от 0 до 10 и найти в ней строку (ее индекс и вывести саму строку), в которой сумма значений минимальна.

In [3]:
np.random.randint(0, 10, size = (8, 10))

array([[6, 7, 8, 7, 5, 7, 7, 7, 2, 1],
       [4, 7, 6, 9, 7, 1, 5, 0, 9, 4],
       [6, 6, 8, 2, 3, 5, 8, 0, 7, 1],
       [0, 2, 2, 2, 4, 1, 7, 0, 0, 2],
       [1, 9, 4, 6, 8, 6, 4, 5, 9, 2],
       [7, 3, 2, 9, 3, 3, 6, 5, 8, 5],
       [4, 9, 6, 0, 7, 3, 5, 2, 4, 3],
       [6, 8, 7, 5, 9, 6, 0, 7, 9, 4]])

3. Найти евклидово расстояние между двумя одномерными векторами одинаковой размерности.

In [4]:
import matplotlib.pyplot as pl
from mpl_toolkits.mplot3d import Axes3D

4. Решить матричное уравнение `A*X*B=-C` - найти матрицу `X`. Где `A = [[-1, 2, 4], [-3, 1, 2], [-3, 0, 1]]`, `B=[[3, -1], [2, 1]]`, `C=[[7, 21], [11, 8], [8, 4]]`.

## Лабораторная работа №1

Замечание: при решении данных задач не подразумевается использования циклов или генераторов Python, если в задании не сказано обратного. Решение должно опираться на использования функционала библиотеки `numpy`.

1. Файл `minutes_n_ingredients.csv` содержит информацию об идентификаторе рецепта, времени его выполнения в минутах и количестве необходимых ингредиентов. Считайте данные из этого файла в виде массива `numpy` типа `int32`, используя `np.loadtxt`. Выведите на экран первые 5 строк массива.

In [20]:
array = np.loadtxt('data/minutes_n_ingredients.csv', int, skiprows=1, delimiter=',')
array[:5, :]

array([[127244,     60,     16],
       [ 23891,     25,      7],
       [ 94746,     10,      6],
       [ 67660,      5,      6],
       [157911,     60,     14]])

2. Вычислите среднее значение, минимум, максимум и медиану по каждому из столбцов, кроме первого.

In [21]:
for row in range(1,3):
    print(f"Столбец {row+1}:")
    print(f"Среднее значение: {np.mean(array[:, row])}")
    print(f"Минимум: {np.min(array[:, row])}")
    print(f"Максимум: {np.max(array[:, row])}")
    print(f"Медиана: {np.median(array[:, row])}\n")

Столбец 2:
Среднее значение: 21601.00169
Минимум: 0
Максимум: 2147483647
Медиана: 40.0

Столбец 3:
Среднее значение: 9.05528
Минимум: 1
Максимум: 39
Медиана: 9.0



3. Ограничьте сверху значения продолжительности выполнения рецепта значением квантиля $q_{0.75}$. 

In [22]:
quant = np.quantile(array[:, 1], 0.75)
array[:, 1] = np.where(array[:, 1] <= quant, array[:, 1], quant)
print(arr)

[[127244     60     16]
 [ 23891     25      7]
 [ 94746     10      6]
 ...
 [498432     65     15]
 [370915      5      4]
 [ 81993     65     14]]


4. Посчитайте, для скольких рецептов указана продолжительность, равная нулю. Замените для таких строк значение в данном столбце на 1.

In [23]:
print(f"Для {np.count_nonzero(array[:, 1] == 0)} рецептов указана продолжительность, равная нулю")

array[:, 1] = np.where(array[:, 1] != 0, array[:, 1], 1)

Для 479 рецептов указана продолжительность, равная нулю


5. Посчитайте, сколько уникальных рецептов находится в датасете.

In [25]:
print(len(np.unique(array[:, 0])))

100000


6. Сколько и каких различных значений кол-ва ингредиентов присутвует в рецептах из датасета?

In [29]:
print(f"Кол-во различных значений: {len(np.unique(array[:, 2]))}")

print(f"Различные значения: {np.unique(array[:, 2])}")

Кол-во различных значений: 37
Различные значения: [ 1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
 25 26 27 28 29 30 31 32 33 34 35 37 39]


7. Создайте версию массива, содержащую информацию только о рецептах, состоящих не более чем из 5 ингредиентов.

In [30]:
new_array = array[np.where(array[:, 2] <= 5)]

print(new_array)

[[446597     15      5]
 [204134      5      3]
 [ 25623      6      4]
 ...
 [ 52088     60      5]
 [128811     15      4]
 [370915      5      4]]


8. Для каждого рецепта посчитайте, сколько в среднем ингредиентов приходится на одну минуту рецепта. Найдите максимальное значение этой величины для всего датасета

In [32]:
ingred_for_minute = array[:, 2]/array[: , 1]

print(f"Максимальное значение для величины: {np.max(ingred_for_minute)}")

Максимальное значение для величины: 24.0


9. Вычислите среднее количество ингредиентов для топ-100 рецептов с наибольшей продолжительностью

In [35]:
sorted_array = np.array(sorted(array, key=lambda x: x[1], reverse=True))

print(f"Среднее кол-во ингредиентов для топ 100-рецептов наибольшей продолжительностью: {np.mean(sorted_array[:100, 2])}")

Среднее кол-во ингредиентов для топ 100-рецептов наибольшей продолжительностью: 10.03


10. Выберите случайным образом и выведите информацию о 10 различных рецептах

In [38]:
random_indexes = np.random.randint(len(array), size=10)

print(f"10 различных рецптов, выбранных случайным образом: \n {array[random_indexes, :]}")

10 различных рецптов, выбранных случайным образом: 
 [[123142      3      4]
 [301012     13      5]
 [100773     50      8]
 [343701     40     10]
 [186362     40      9]
 [146490     65     11]
 [145381     25     12]
 [389568     50      8]
 [181292      1      2]
 [ 52987     65      5]]


11. Выведите процент рецептов, кол-во ингредиентов в которых меньше среднего.

In [44]:
mean_array = np.mean(arr[:, 2])

print(f"Рецепт процентов ингредиентво в которых меньше среднего: {len(arr[np.where(array[:, 2] < mean_array)])/len(array)*100}")

Рецепт процентов ингредиентво в которых меньше среднего: 58.802


12. Назовем "простым" такой рецепт, длительность выполнения которого не больше 20 минут и кол-во ингредиентов в котором не больше 5. Создайте версию датасета с дополнительным столбцом, значениями которого являются 1, если рецепт простой, и 0 в противном случае.

In [45]:
simple_recept = np.c_[array, np.zeros(len(arr)).astype(int)]

simple_recept[:, 3] = np.where((arr[:, 1] <= 20) & (arr[:, 2] <= 5), 1, 0)
simple_recept

array([[127244,     60,     16,      0],
       [ 23891,     25,      7,      0],
       [ 94746,     10,      6,      0],
       ...,
       [498432,     65,     15,      0],
       [370915,      5,      4,      1],
       [ 81993,     65,     14,      0]])

13. Выведите процент "простых" рецептов в датасете

In [47]:
print(len(simple_recept[np.where(simple_recept[:, 3] == 1)]) / len(simple_recept) * 100)

9.552


14. Разделим рецепты на группы по следующему правилу. Назовем рецепты короткими, если их продолжительность составляет менее 10 минут; стандартными, если их продолжительность составляет более 10, но менее 20 минут; и длинными, если их продолжительность составляет не менее 20 минут. Создайте трехмерный массив, где нулевая ось отвечает за номер группы (короткий, стандартный или длинный рецепт), первая ось - за сам рецепт и вторая ось - за характеристики рецепта. Выберите максимальное количество рецептов из каждой группы таким образом, чтобы было возможно сформировать трехмерный массив. Выведите форму полученного массива.

In [54]:
duration = np.array([np.zeros(len(array)).astype(int), arr[:, 0], simple_recept[:, 3]]).transpose()

duration[:, 0] = np.where((array[:, 1] >= 10) & (array[:, 1] < 20), 1, duration[:, 0])

duration[:, 0] = np.where(array[:, 1] >= 20, 2, duration[:, 0])
duration

array([[     2, 127244,      0],
       [     2,  23891,      0],
       [     1,  94746,      0],
       ...,
       [     2, 498432,      0],
       [     0, 370915,      1],
       [     2,  81993,      0]])