# Numpy

Материалы:
* Макрушин С.В. "Лекция 1: Библиотека Numpy"
* https://numpy.org/doc/stable/user/index.html
* https://numpy.org/doc/stable/reference/index.html

## Задачи для совместного разбора

1. Сгенерировать двухмерный массив `arr` размерности (4, 7), состоящий из случайных действительных чисел, равномерно распределенных в диапазоне от 0 до 20. Нормализовать значения массива с помощью преобразования вида  $𝑎𝑥+𝑏$  так, что после нормализации максимальный элемент масcива будет равен 1.0, минимальный 0.0

In [1]:
import numpy as np
arr = np.random.randint(0,21, size=(4,7))
print(arr)

[[ 2  3 20  5 18  9  0]
 [13  9  5  7  3 13 12]
 [16  9 12 19  0 15  8]
 [10 11  2  8 10  8 10]]


2. Создать матрицу 8 на 10 из случайных целых (используя модуль `numpy.random`) чисел из диапозона от 0 до 10 и найти в ней строку (ее индекс и вывести саму строку), в которой сумма значений минимальна.

In [32]:
arr = np.random.randint(0,11, size=(8,10))
sum = np.sum(arr, axis=1)
min_index = sum.argmin()
print(arr[min_index])

[2 6 4 3 7 0 4 3 6 0]


3. Найти евклидово расстояние между двумя одномерными векторами одинаковой размерности.

4. Решить матричное уравнение `A*X*B=-C` - найти матрицу `X`. Где `A = [[-1, 2, 4], [-3, 1, 2], [-3, 0, 1]]`, `B=[[3, -1], [2, 1]]`, `C=[[7, 21], [11, 8], [8, 4]]`.

## Лабораторная работа №1.1

Замечание: при решении данных задач не подразумевается использования циклов или генераторов Python, если в задании не сказано обратного. Решение должно опираться на использования функционала библиотеки `numpy`.

1. Файл `minutes_n_ingredients.csv` содержит информацию об идентификаторе рецепта, времени его выполнения в минутах и количестве необходимых ингредиентов. Считайте данные из этого файла в виде массива `numpy` типа `int32`, используя `np.loadtxt`. Выведите на экран первые 5 строк массива.

In [4]:
import numpy as np
data = np.loadtxt(r"minutes_n_ingredients.csv", delimiter=",", dtype="int32", skiprows=1)
print(data[0:5, ])

[[127244     60     16]
 [ 23891     25      7]
 [ 94746     10      6]
 [ 67660      5      6]
 [157911     60     14]]


2. Вычислите среднее значение, минимум, максимум и медиану по каждому из столбцов, кроме первого.

In [8]:
avg_value2 = np.average(data[:,1], axis=0)
avg_value3 = np.average(data[:,2], axis=0)
min_value2 = np.min(data[:,1], axis=0)
min_value3 = np.min(data[:,2], axis=0)
max_value2 = np.max(data[:,1], axis=0)
max_value3 = np.max(data[:,2], axis=0)
med_value2 = np.median(data[:,1], axis=0)
med_value3 = np.median(data[:,1], axis=0)

print(f"Среднее значение 2 столбца - {avg_value2}")
print(f"Среднее значение 3 столбца - {avg_value3}")
print(f"Минимальное значение 2 столбца - {min_value2}")
print(f"Минимальное значение 3 столбца - {min_value3}")
print(f"Максимальное значение 2 столбца - {max_value2}")
print(f"Максимальное значение 3 столбца - {max_value3}")
print(f"Медиана 2 столбца - {med_value2}")
print(f"Медиана 3 столбца - {med_value3}")

Среднее значение 2 столбца - 21601.00169
Среднее значение 3 столбца - 9.05528
Минимальное значение 2 столбца - 0
Минимальное значение 3 столбца - 1
Максимальное значение 2 столбца - 2147483647
Максимальное значение 3 столбца - 39
Медиана 2 столбца - 40.0
Медиана 3 столбца - 40.0


3. Ограничьте сверху значения продолжительности выполнения рецепта значением квантиля $q_{0.75}$. 

In [10]:
quantile_75 = np.quantile(data[:, 1], 0.75)
new_data = data[np.where(data[:, 1] <= quantile_75)[0], :]
new_data, new_data.shape

(array([[127244,     60,     16],
        [ 23891,     25,      7],
        [ 94746,     10,      6],
        ...,
        [ 43407,     35,      7],
        [498432,     65,     15],
        [370915,      5,      4]], dtype=int32),
 (75461, 3))

4. Посчитайте, для скольких рецептов указана продолжительность, равная нулю. Замените для таких строк значение в данном столбце на 1.

In [9]:
data_copy = data.copy()
print(len(data_copy[data_copy[:, 1] == 0]))
data_copy[data_copy[:, 1] == 0] = 1
print(len(data_copy[data_copy[:, 1] == 0]))

479
0


5. Посчитайте, сколько уникальных рецептов находится в датасете.

In [11]:
print(len(np.unique(data[:, 1:])))

656


6. Сколько и каких различных значений кол-ва ингредиентов присутвует в рецептах из датасета?

In [12]:
data6, count = np.unique(data[:, 2], return_counts=True)
for i, j in zip(data6, count):
    print(f"Кол-во ингридеентов-{i}, встретилось {j} раз")

Кол-во ингридеентов-1, встретилось 13 раз
Кол-во ингридеентов-2, встретилось 926 раз
Кол-во ингридеентов-3, встретилось 2895 раз
Кол-во ингридеентов-4, встретилось 5515 раз
Кол-во ингридеентов-5, встретилось 7913 раз
Кол-во ингридеентов-6, встретилось 9376 раз
Кол-во ингридеентов-7, встретилось 10628 раз
Кол-во ингридеентов-8, встретилось 10951 раз
Кол-во ингридеентов-9, встретилось 10585 раз
Кол-во ингридеентов-10, встретилось 9591 раз
Кол-во ингридеентов-11, встретилось 8297 раз
Кол-во ингридеентов-12, встретилось 6605 раз
Кол-во ингридеентов-13, встретилось 4997 раз
Кол-во ингридеентов-14, встретилось 3663 раз
Кол-во ингридеентов-15, встретилось 2595 раз
Кол-во ингридеентов-16, встретилось 1767 раз
Кол-во ингридеентов-17, встретилось 1246 раз
Кол-во ингридеентов-18, встретилось 790 раз
Кол-во ингридеентов-19, встретилось 573 раз
Кол-во ингридеентов-20, встретилось 376 раз
Кол-во ингридеентов-21, встретилось 217 раз
Кол-во ингридеентов-22, встретилось 161 раз
Кол-во ингридеентов-23, 

7. Создайте версию массива, содержащую информацию только о рецептах, состоящих не более чем из 5 ингредиентов.

In [13]:
recipes5 = data[data[:, 2] <= 5]
recipes5

array([[446597,     15,      5],
       [204134,      5,      3],
       [ 25623,      6,      4],
       ...,
       [ 52088,     60,      5],
       [128811,     15,      4],
       [370915,      5,      4]], dtype=int32)

8. Для каждого рецепта посчитайте, сколько в среднем ингредиентов приходится на одну минуту рецепта. Найдите максимальное значение этой величины для всего датасета

9. Вычислите среднее количество ингредиентов для топ-100 рецептов с наибольшей продолжительностью

In [19]:
data9 = data.copy()
sorted_data9 = data9[data9[:, 1].argsort()[::-1]]

top_100_recipes = sorted_data9[:100]

avg_ingredients = np.average(top_100_recipes[:, 2])

print("Среднее количество ингредиентов для топ-100 рецептов:", avg_ingredients)


Среднее количество ингредиентов для топ-100 рецептов: 6.61


10. Выберите случайным образом и выведите информацию о 10 различных рецептах

In [21]:
random_indices = np.random.choice(len(data), size=10, replace=False)

random_recipes = data[random_indices]

print("Информация о случайно выбранных рецептах:")
print(random_recipes)

Информация о случайно выбранных рецептах:
[[140047    250      6]
 [310391      5      5]
 [  2793      0      7]
 [292952     90      5]
 [250870    105      8]
 [314537     45     18]
 [115765     65      8]
 [290433     50      8]
 [ 55505     25      9]
 [314320     30      9]]


11. Выведите процент рецептов, кол-во ингредиентов в которых меньше среднего.

In [22]:
filtered_recipes = data[data[:, 2] < avg_value3]

num_filtered_recipes = len(filtered_recipes)
total_recipes = len(data)
procent = (num_filtered_recipes / total_recipes) * 100

print("Процент рецептов, количество ингредиентов в которых меньше среднего:", procent, "%")

Процент рецептов, количество ингредиентов в которых меньше среднего: 58.802 %


12. Назовем "простым" такой рецепт, длительность выполнения которого не больше 20 минут и кол-во ингредиентов в котором не больше 5. Создайте версию датасета с дополнительным столбцом, значениями которого являются 1, если рецепт простой, и 0 в противном случае.

In [30]:
recipes = (data[:, 1] <= 20) & (data[:, 2] <= 5)

simple_column = np.where(recipes, 1, 0)
simple_column
data_with_column = np.column_stack((data, simple_column))

#print(data_with_column)

13. Выведите процент "простых" рецептов в датасете

In [28]:
count = np.sum(data_with_column[:, 3])
print("Процент простых рецептов:", count / total_recipes * 100, "%")

Процент простых рецептов: 9.552 %


14. Разделим рецепты на группы по следующему правилу. Назовем рецепты короткими, если их продолжительность составляет менее 10 минут; стандартными, если их продолжительность составляет более 10, но менее 20 минут; и длинными, если их продолжительность составляет не менее 20 минут. Создайте трехмерный массив, где нулевая ось отвечает за номер группы (короткий, стандартный или длинный рецепт), первая ось - за сам рецепт и вторая ось - за характеристики рецепта. Выберите максимальное количество рецептов из каждой группы таким образом, чтобы было возможно сформировать трехмерный массив. Выведите форму полученного массива.