# Numpy

Материалы:
* Макрушин С.В. "Лекция 1: Библиотека Numpy"
* https://numpy.org/doc/stable/user/index.html
* https://numpy.org/doc/stable/reference/index.html

## Задачи для совместного разбора

1. Сгенерировать двухмерный массив `arr` размерности (4, 7), состоящий из случайных действительных чисел, равномерно распределенных в диапазоне от 0 до 20. Нормализовать значения массива с помощью преобразования вида  $𝑎𝑥+𝑏$  так, что после нормализации максимальный элемент масcива будет равен 1.0, минимальный 0.0

In [None]:
#1

import numpy as np

arr = np.random.uniform(0, 20, size=(4, 7))
max_val = np.max(arr)
min_val = np.min(arr)
a = 1 / (max_val - min_val)
b = -a * min_val
normalized_arr = a * arr + b

print(arr)
print(normalized_arr)

2. Создать матрицу 8 на 10 из случайных целых (используя модуль `numpy.random`) чисел из диапозона от 0 до 10 и найти в ней строку (ее индекс и вывести саму строку), в которой сумма значений минимальна.

In [None]:
#2

matrix = np.random.randint(0, 11, size=(8, 10))
row_sums = np.sum(matrix, axis=1)
min_row_index = np.argmin(row_sums)
min_row = matrix[min_row_index, :]
print("Минимальная сумма в строке с индексом", min_row_index)
print(min_row)


3. Найти евклидово расстояние между двумя одномерными векторами одинаковой размерности.

In [None]:
#3

a = np.array([1, 2, 3])
b = np.array([4, 5, 6])
distance = np.linalg.norm(a - b)
print(distance)


4. Решить матричное уравнение `A*X*B=-C` - найти матрицу `X`. Где `A = [[-1, 2, 4], [-3, 1, 2], [-3, 0, 1]]`, `B=[[3, -1], [2, 1]]`, `C=[[7, 21], [11, 8], [8, 4]]`.

In [None]:
#4


A = np.array([[-1, 2, 4], [-3, 1, 2], [-3, 0, 1]])
B = np.array([[3, -1], [2, 1]])
C = np.array([[7, 21], [11, 8], [8, 4]])
X = -np.linalg.inv(A) @ C @ np.linalg.inv(B)
print(X)


## Лабораторная работа №1

Замечание: при решении данных задач не подразумевается использования циклов или генераторов Python, если в задании не сказано обратного. Решение должно опираться на использования функционала библиотеки `numpy`.

1. Файл `minutes_n_ingredients.csv` содержит информацию об идентификаторе рецепта, времени его выполнения в минутах и количестве необходимых ингредиентов. Считайте данные из этого файла в виде массива `numpy` типа `int32`, используя `np.loadtxt`. Выведите на экран первые 5 строк массива.

In [None]:
#1

import numpy as np

data = np.loadtxt('minutes_n_ingredients.csv', delimiter=',', dtype=np.int32,skiprows=1)
print(data[:5, :])


2. Вычислите среднее значение, минимум, максимум и медиану по каждому из столбцов, кроме первого.

In [None]:
#2

mean = np.mean(data[:, 1:], axis=0)
min_val = np.min(data[:, 1:], axis=0)
max_val = np.max(data[:, 1:], axis=0)
median = np.median(data[:, 1:], axis=0)
print("Среднее значение: ", mean)
print("Минимум: ", min_val)
print("Максимум: ", max_val)
print("Медиана: ", median)


3. Ограничьте сверху значения продолжительности выполнения рецепта значением квантиля $q_{0.75}$. 

In [None]:
#3

q = 0.75
time_quantile = np.quantile(data[:, 1], q)
data[:, 1] = np.where(data[:, 1] > time_quantile, time_quantile, data[:, 1])
print(data)


4. Посчитайте, для скольких рецептов указана продолжительность, равная нулю. Замените для таких строк значение в данном столбце на 1.

In [None]:
#4

num_zero_times = np.sum(data[:, 1] == 0)
print("Количество рецептов со временем выполнения, равным 0: ", num_zero_times)
data[:, 1] = np.where(data[:, 1] == 0, 1, data[:, 1])


5. Посчитайте, сколько уникальных рецептов находится в датасете.

In [None]:
#5

unique_recipes = np.unique(data[:, 0])
num_unique_recipes = len(unique_recipes)
print("Количество уникальных рецептов: ", num_unique_recipes)


6. Сколько и каких различных значений кол-ва ингредиентов присутвует в рецептах из датасета?

In [None]:
#6

unique_ingredient_counts = np.unique(data[:, 2])
num_unique_ingredient_counts = len(unique_ingredient_counts)
print("Количество уникальных значений количества ингредиентов: ", num_unique_ingredient_counts)
print("Уникальные значения количества ингредиентов: ", unique_ingredient_counts)


7. Создайте версию массива, содержащую информацию только о рецептах, состоящих не более чем из 5 ингредиентов.

In [None]:
#7

less_than_5_ingredients = data[data[:, 2] <= 5]
print(less_than_5_ingredients)


8. Для каждого рецепта посчитайте, сколько в среднем ингредиентов приходится на одну минуту рецепта. Найдите максимальное значение этой величины для всего датасета

In [None]:
#8

avg_ingredients_per_minute = data[:, 2] / data[:, 1]
print(avg_ingredients_per_minute)

max_avg_ingredients_per_minute = np.max(avg_ingredients_per_minute)
print(max_avg_ingredients_per_minute)


9. Вычислите среднее количество ингредиентов для топ-100 рецептов с наибольшей продолжительностью

In [21]:
#9

sorted_data = data[data[:, 1].argsort()[::-1]] # сортируем по убыванию времени выполнения
top_100 = sorted_data[:100]
avg_ingredients_top_100 = np.mean(top_100[:, 2])
print(avg_ingredients_top_100)


9.96


10. Выберите случайным образом и выведите информацию о 10 различных рецептах

In [None]:
#10
import random
import numpy as np

indices = random.sample(range(data.shape[0]), k=10)
random_recipes = data[indices]
print(random_recipes)



11. Выведите процент рецептов, кол-во ингредиентов в которых меньше среднего.

In [None]:
#11

less_than_avg = data[data[:, 2] < np.mean(data[:, 2])]
percent_less_than_avg = len(less_than_avg) / len(data) * 100
print(percent_less_than_avg)


12. Назовем "простым" такой рецепт, длительность выполнения которого не больше 20 минут и кол-во ингредиентов в котором не больше 5. Создайте версию датасета с дополнительным столбцом, значениями которого являются 1, если рецепт простой, и 0 в противном случае.

In [None]:
#12

simple_recipes = np.logical_and(data[:, 1] <= 20, data[:, 2] <= 5)
simple_recipes = simple_recipes.astype(int)
data_with_simple_col = np.column_stack((data, simple_recipes))
print(data_with_simple_col)


13. Выведите процент "простых" рецептов в датасете

In [None]:
#13

num_simple_recipes = np.sum(data_with_simple_col[:, 3])
total_recipes = data_with_simple_col.shape[0]
percent_simple_recipes = (num_simple_recipes / total_recipes) * 100
print("Процент простых рецептов: ", percent_simple_recipes)


14. Разделим рецепты на группы по следующему правилу. Назовем рецепты короткими, если их продолжительность составляет менее 10 минут; стандартными, если их продолжительность составляет более 10, но менее 20 минут; и длинными, если их продолжительность составляет не менее 20 минут. Создайте трехмерный массив, где нулевая ось отвечает за номер группы (короткий, стандартный или длинный рецепт), первая ось - за сам рецепт и вторая ось - за характеристики рецепта. Выберите максимальное количество рецептов из каждой группы таким образом, чтобы было возможно сформировать трехмерный массив. Выведите форму полученного массива.

In [None]:
#14

short_recipes = data[data[:, 1] < 10]
standard_recipes = data[np.logical_and(data[:, 1] >= 10, data[:, 1] <= 20)]
long_recipes = data[data[:, 1] > 20]

max_num_recipes = min(len(short_recipes), len(standard_recipes), len(long_recipes))
short_recipes = short_recipes[:max_num_recipes]
standard_recipes = standard_recipes[:max_num_recipes]
long_recipes = long_recipes[:max_num_recipes]

recipes_array = np.zeros((3, max_num_recipes, 3), dtype='int32')
recipes_array[0, :, :] = short_recipes
recipes_array[1, :, :] = standard_recipes
recipes_array[2, :, :] = long_recipes

print(recipes_array.shape)
