# Numpy

Материалы:
* Макрушин С.В. "Лекция 1: Библиотека Numpy"
* https://numpy.org/doc/stable/user/index.html
* https://numpy.org/doc/stable/reference/index.html

## Задачи для совместного разбора

1. Сгенерировать двухмерный массив `arr` размерности (4, 7), состоящий из случайных действительных чисел, равномерно распределенных в диапазоне от 0 до 20. Нормализовать значения массива с помощью преобразования вида  $𝑎𝑥+𝑏$  так, что после нормализации максимальный элемент масcива будет равен 1.0, минимальный 0.0

2. Создать матрицу 8 на 10 из случайных целых (используя модуль `numpy.random`) чисел из диапозона от 0 до 10 и найти в ней строку (ее индекс и вывести саму строку), в которой сумма значений минимальна.

3. Найти евклидово расстояние между двумя одномерными векторами одинаковой размерности.

4. Решить матричное уравнение `A*X*B=-C` - найти матрицу `X`. Где `A = [[-1, 2, 4], [-3, 1, 2], [-3, 0, 1]]`, `B=[[3, -1], [2, 1]]`, `C=[[7, 21], [11, 8], [8, 4]]`.

## Лабораторная работа №1

Замечание: при решении данных задач не подразумевается использования циклов или генераторов Python, если в задании не сказано обратного. Решение должно опираться на использования функционала библиотеки `numpy`.

1. Файл `minutes_n_ingredients.csv` содержит информацию об идентификаторе рецепта, времени его выполнения в минутах и количестве необходимых ингредиентов. Считайте данные из этого файла в виде массива `numpy` типа `int32`, используя `np.loadtxt`. Выведите на экран первые 5 строк массива.

In [2]:
import numpy as np

arr = np.loadtxt("minutes_n_ingredients.csv", delimiter=',', skiprows=1, dtype=np.int32)
arr1 = arr[:5:]
print(arr1)

[[127244     60     16]
 [ 23891     25      7]
 [ 94746     10      6]
 [ 67660      5      6]
 [157911     60     14]]


2. Вычислите среднее значение, минимум, максимум и медиану по каждому из столбцов, кроме первого.

In [3]:
import statistics as st

i1 = [i[1] for i in arr1]
i2 = [i[2] for i in arr1]

print(f'Столбец 2: {i1}, среднее значение: {sum(i1) // len(i1)}, минимум: {min([i[1] for i in arr1])}, максимум: {max([i[1] for i in arr1])}, медиана: {st.median(i1)}')
print(f'Столбец 3: {i2}, среднее значение: {sum(i2) // len(i2)}, минимум: {min([i[2] for i in arr1])}, максимум: {max([i[2] for i in arr1])}, медиана: {st.median(i2)}')

Столбец 2: [60, 25, 10, 5, 60], среднее значение: 32, минимум: 5, максимум: 60, медиана: 25
Столбец 3: [16, 7, 6, 6, 14], среднее значение: 9, минимум: 6, максимум: 16, медиана: 7


3. Ограничьте сверху значения продолжительности выполнения рецепта значением квантиля $q_{0.75}$. 

In [4]:
# Определение квантиля q0.75
quantile = np.quantile(arr[:,1], 0.75)

# Фильтрация значений по квантилю
filtered_data = arr[arr[:,1] <= quantile]

# Вывод первых 5 строк массива
print(filtered_data[:5])

[[127244     60     16]
 [ 23891     25      7]
 [ 94746     10      6]
 [ 67660      5      6]
 [157911     60     14]]


4. Посчитайте, для скольких рецептов указана продолжительность, равная нулю. Замените для таких строк значение в данном столбце на 1.

In [5]:
cnt = 0
a1 = [i[1] for i in arr]
for m in a1:
    if m == 0:
        cnt += 1
        m += 1
print(cnt)

479


5. Посчитайте, сколько уникальных рецептов находится в датасете.

In [6]:
from collections import Counter
from itertools import set
a2 = [i[0] for i in arr]
print(len(Counter(a2)), len(a2))

100000 100000


6. Сколько и каких различных значений кол-ва ингредиентов присутвует в рецептах из датасета?

7. Создайте версию массива, содержащую информацию только о рецептах, состоящих не более чем из 5 ингредиентов.

In [137]:
c = np.array([line for line in arr if line[2] <= 5])
print(c)

[[446597     15      5]
 [204134      5      3]
 [ 25623      6      4]
 ...
 [ 52088     60      5]
 [128811     15      4]
 [370915      5      4]]


8. Для каждого рецепта посчитайте, сколько в среднем ингредиентов приходится на одну минуту рецепта. Найдите максимальное значение этой величины для всего датасета

In [7]:
ingredients_per_minute = arr1[:, 2] / arr1[:, 1]
for i2 in ingredients_per_minute:
    print(f'В среднем приходится: {i2} ингридиента')
print(f'Максимальное значение: {np.max(ingredients_per_minute)}')

В среднем приходится: 0.26666666666666666 ингридиента
В среднем приходится: 0.28 ингридиента
В среднем приходится: 0.6 ингридиента
В среднем приходится: 1.2 ингридиента
В среднем приходится: 0.23333333333333334 ингридиента
Максимальное значение: 1.2


9. Вычислите среднее количество ингредиентов для топ-100 рецептов с наибольшей продолжительностью

In [152]:
sorted_data = arr[arr[:, 1].argsort()[::-1]]
top_100_recipes = sorted_data[:100]
average_ingredients_top_100 = np.mean(top_100_recipes[:, 2])
print("Среднее количество ингредиентов:", average_ingredients_top_100)

Среднее количество ингредиентов: 6.61


10. Выберите случайным образом и выведите информацию о 10 различных рецептах

In [156]:
d = np.random.choice(arr.shape[0], 10, replace=False)
# Информация о выбранных рецептах
selected_r = arr[d]

print("Информация о 10 различных рецептах:")
for r in selected_r:
    r_id, time_minutes, num_ingredients = r
    print(f"ID рецепта: {r_id}, Время выполнения: {time_minutes} мин, Количество ингредиентов: {num_ingredients}")

Информация о 10 различных рецептах:
ID рецепта: 333809, Время выполнения: 25 мин, Количество ингредиентов: 6
ID рецепта: 215328, Время выполнения: 55 мин, Количество ингредиентов: 4
ID рецепта: 115369, Время выполнения: 40 мин, Количество ингредиентов: 11
ID рецепта: 441738, Время выполнения: 35 мин, Количество ингредиентов: 6
ID рецепта: 356931, Время выполнения: 40 мин, Количество ингредиентов: 9
ID рецепта: 233204, Время выполнения: 15 мин, Количество ингредиентов: 6
ID рецепта: 96216, Время выполнения: 30 мин, Количество ингредиентов: 11
ID рецепта: 59978, Время выполнения: 50 мин, Количество ингредиентов: 11
ID рецепта: 190594, Время выполнения: 40 мин, Количество ингредиентов: 11
ID рецепта: 93916, Время выполнения: 50 мин, Количество ингредиентов: 21


11. Выведите процент рецептов, кол-во ингредиентов в которых меньше среднего.

In [160]:
average_num_ingredients = np.mean(arr[:, 2])
# Подсчет количества рецептов, количество ингредиентов в которых меньше среднего
less_than_average = np.sum(arr[:, 2] < average_num_ingredients)

# Вычисление процента рецептов, количество ингредиентов в которых меньше среднего
percent_less_than_average = (less_than_average / len(arr)) * 100

print(f"Процент рецептов, количество ингредиентов в которых меньше среднего: {percent_less_than_average:.2f}%")

Процент рецептов, количество ингредиентов в которых меньше среднего: 58.80%


12. Назовем "простым" такой рецепт, длительность выполнения которого не больше 20 минут и кол-во ингредиентов в котором не больше 5. Создайте версию датасета с дополнительным столбцом, значениями которого являются 1, если рецепт простой, и 0 в противном случае.

In [167]:
# Создание нового массива с дополнительным столбцом для указания "простых" рецептов
is_simple_recipe = ((arr[:, 1] <= 20) & (arr[:, 2] <= 5)).astype(np.int32)
data_with_simple_column = np.column_stack((arr, is_simple_recipe))

# Сохранение нового датасета с дополнительным столбцом в CSV файл
np.savetxt("minutes_n_ingredients_with_simple_column.csv", data_with_simple_column, delimiter=',', fmt='%d', header="ID,Time_minutes,Num_ingredients,Is_simple_recipe", comments='')

arr2 = np.loadtxt("minutes_n_ingredients_with_simple_column.csv", delimiter=',', skiprows=1, dtype=np.int32)
print(arr2)

[[127244     60     16      0]
 [ 23891     25      7      0]
 [ 94746     10      6      0]
 ...
 [498432     65     15      0]
 [370915      5      4      1]
 [ 81993    140     14      0]]


13. Выведите процент "простых" рецептов в датасете

In [168]:
simple_recipes = (arr2[:, 1] <= 20) & (arr2[:, 2] <= 5)

# Подсчет количества "простых" рецептов
count_simple_recipes = np.sum(simple_recipes)

# Вычисление процента "простых" рецептов
percent_simple_recipes = (count_simple_recipes / len(arr2)) * 100
print(f"Процент 'простых' рецептов в датасете: {percent_simple_recipes:.2f}%")

Процент 'простых' рецептов в датасете: 9.55%


14. Разделим рецепты на группы по следующему правилу. Назовем рецепты короткими, если их продолжительность составляет менее 10 минут; стандартными, если их продолжительность составляет более 10, но менее 20 минут; и длинными, если их продолжительность составляет не менее 20 минут. Создайте трехмерный массив, где нулевая ось отвечает за номер группы (короткий, стандартный или длинный рецепт), первая ось - за сам рецепт и вторая ось - за характеристики рецепта. Выберите максимальное количество рецептов из каждой группы таким образом, чтобы было возможно сформировать трехмерный массив. Выведите форму полученного массива.

In [170]:
# Разделение рецептов на группы: короткие, стандартные и длинные
short_recipes = arr2[arr2[:, 1] < 10]  # короткие рецепты
standard_recipes = arr2[(arr2[:, 1] >= 10) & (arr2[:, 1] < 20)]  # стандартные рецепты
long_recipes = arr2[arr2[:, 1] >= 20]  # длинные рецепты

# Определение максимального количества рецептов из каждой группы для формирования трехмерного массива
max_length = min(len(short_recipes), len(standard_recipes), len(long_recipes))

# Создание трехмерного массива
three_dimensional_array = np.zeros((3, max_length, 3), dtype=np.int32)

# Заполнение трехмерного массива данными из каждой группы
three_dimensional_array[0, :len(short_recipes[:max_length]), :] = short_recipes[:max_length]
three_dimensional_array[1, :len(standard_recipes[:max_length]), :] = standard_recipes[:max_length]
three_dimensional_array[2, :len(long_recipes[:max_length]), :] = long_recipes[:max_length]

print(f"Форма полученного трехмерного массива: {three_dimensional_array.shape}")

ValueError: could not broadcast input array from shape (7588,4) into shape (7588,3)