# Numpy

Материалы:
* Макрушин С.В. "Лекция 1: Библиотека Numpy"
* https://numpy.org/doc/stable/user/index.html
* https://numpy.org/doc/stable/reference/index.html

## Задачи для совместного разбора

1. Сгенерировать двухмерный массив `arr` размерности (4, 7), состоящий из случайных действительных чисел, равномерно распределенных в диапазоне от 0 до 20. Нормализовать значения массива с помощью преобразования вида  $𝑎𝑥+𝑏$  так, что после нормализации максимальный элемент масcива будет равен 1.0, минимальный 0.0

In [4]:
import numpy as np

In [6]:
np.random.randint(0, 20, size = (4, 7))

array([[ 4, 10, 12, 18,  3,  0, 12],
       [ 0,  8,  6,  4,  2,  1, 11],
       [ 8, 17,  1, 10, 17,  6,  8],
       [ 7,  1,  9, 11,  6, 16, 11]])

2. Создать матрицу 8 на 10 из случайных целых (используя модуль `numpy.random`) чисел из диапозона от 0 до 10 и найти в ней строку (ее индекс и вывести саму строку), в которой сумма значений минимальна.

In [7]:
np.random.randint(0, 10, size = (8, 10))

array([[3, 7, 9, 1, 9, 6, 9, 3, 2, 9],
       [7, 8, 9, 7, 8, 3, 1, 5, 3, 9],
       [1, 4, 2, 3, 9, 4, 1, 5, 4, 1],
       [1, 4, 7, 9, 4, 7, 6, 8, 7, 8],
       [0, 9, 4, 7, 8, 4, 5, 2, 4, 6],
       [6, 1, 2, 9, 6, 8, 1, 9, 0, 2],
       [5, 2, 4, 5, 9, 2, 1, 7, 5, 1],
       [9, 2, 8, 5, 1, 4, 7, 9, 6, 2]])

3. Найти евклидово расстояние между двумя одномерными векторами одинаковой размерности.

In [10]:
import matplotlib.pyplot as pl
from mpl_toolkits.mplot3d import Axes3D

4. Решить матричное уравнение `A*X*B=-C` - найти матрицу `X`. Где `A = [[-1, 2, 4], [-3, 1, 2], [-3, 0, 1]]`, `B=[[3, -1], [2, 1]]`, `C=[[7, 21], [11, 8], [8, 4]]`.

## Лабораторная работа №1

Замечание: при решении данных задач не подразумевается использования циклов или генераторов Python, если в задании не сказано обратного. Решение должно опираться на использования функционала библиотеки `numpy`.

1. Файл `minutes_n_ingredients.csv` содержит информацию об идентификаторе рецепта, времени его выполнения в минутах и количестве необходимых ингредиентов. Считайте данные из этого файла в виде массива `numpy` типа `int32`, используя `np.loadtxt`. Выведите на экран первые 5 строк массива.

In [1]:
import numpy as np

data = np.loadtxt('data/minutes_n_ingredients.csv', dtype=np.int32, delimiter=',', skiprows=1)
print(data[:5])

[[127244     60     16]
 [ 23891     25      7]
 [ 94746     10      6]
 [ 67660      5      6]
 [157911     60     14]]


2. Вычислите среднее значение, минимум, максимум и медиану по каждому из столбцов, кроме первого.

In [2]:
# Среднее значение
mean_values = np.mean(data[:, 1:], axis=0)
print("Средние значения по столбцам:", mean_values)

# Минимум
min_values = np.min(data[:, 1:], axis=0)
print("Минимальные значения по столбцам:", min_values)

# Максимум
max_values = np.max(data[:, 1:], axis=0)
print("Максимальные значения по столбцам:", max_values)

# Медиана
median_values = np.median(data[:, 1:], axis=0)
print("Медианные значения по столбцам:", median_values)

Средние значения по столбцам: [2.16010017e+04 9.05528000e+00]
Минимальные значения по столбцам: [0 1]
Максимальные значения по столбцам: [2147483647         39]
Медианные значения по столбцам: [40.  9.]


3. Ограничьте сверху значения продолжительности выполнения рецепта значением квантиля $q_{0.75}$. 

In [3]:
# Вычисляем квантиль 0.75
q75 = np.quantile(data[:, 1], 0.75)

# Ограничиваем значения сверху
data[:, 1] = np.clip(data[:, 1], a_min=None, a_max=q75)

print("Первые 5 строк массива после ограничения:")
print(data[:5])

Первые 5 строк массива после ограничения:
[[127244     60     16]
 [ 23891     25      7]
 [ 94746     10      6]
 [ 67660      5      6]
 [157911     60     14]]


4. Посчитайте, для скольких рецептов указана продолжительность, равная нулю. Замените для таких строк значение в данном столбце на 1.

In [4]:
# Подсчитываем количество рецептов с продолжительностью выполнения равной нулю
num_zeros = np.count_nonzero(data[:, 1] == 0)

# Заменяем значения времени выполнения рецепта на 1 для рецептов с продолжительностью равной нулю
data[data[:, 1] == 0, 1] = 1

print("Количество рецептов с продолжительностью выполнения равной нулю:", num_zeros)
print("Первые 5 строк массива после замены:")
print(data[:5])

Количество рецептов с продолжительностью выполнения равной нулю: 479
Первые 5 строк массива после замены:
[[127244     60     16]
 [ 23891     25      7]
 [ 94746     10      6]
 [ 67660      5      6]
 [157911     60     14]]


5. Посчитайте, сколько уникальных рецептов находится в датасете.

In [5]:
# Подсчитываем количество уникальных рецептов
num_recipes = len(np.unique(data[:, 0]))

print("Количество уникальных рецептов:", num_recipes)

Количество уникальных рецептов: 100000


6. Сколько и каких различных значений кол-ва ингредиентов присутвует в рецептах из датасета?

In [6]:
# Находим уникальные значения количества ингредиентов
unique_ingredient_counts = np.unique(data[:, 2])

# Подсчитываем количество уникальных значений
num_unique_ingredient_counts = len(unique_ingredient_counts)

print("Количество уникальных значений количества ингредиентов:", num_unique_ingredient_counts)
print("Уникальные значения количества ингредиентов:", unique_ingredient_counts)

Количество уникальных значений количества ингредиентов: 37
Уникальные значения количества ингредиентов: [ 1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
 25 26 27 28 29 30 31 32 33 34 35 37 39]


7. Создайте версию массива, содержащую информацию только о рецептах, состоящих не более чем из 5 ингредиентов.

In [7]:
# Выбираем только те строки, где количество ингредиентов не превышает 5
filtered_data = data[data[:, 2] <= 5]

print("Первые 5 строк отфильтрованного массива:")
print(filtered_data[:5])

Первые 5 строк отфильтрованного массива:
[[446597     15      5]
 [204134      5      3]
 [ 25623      6      4]
 [484223     18      4]
 [ 63150     65      4]]


8. Для каждого рецепта посчитайте, сколько в среднем ингредиентов приходится на одну минуту рецепта. Найдите максимальное значение этой величины для всего датасета

In [8]:
# Создаем массив, содержащий отношение количества ингредиентов к продолжительности выполнения рецепта
ingredient_ratio = data[:, 2] / data[:, 1]

# Находим максимальное значение этого массива
max_ingredient_ratio = np.max(ingredient_ratio)

print("Максимальное значение количества ингредиентов на одну минуту в рецептах:", max_ingredient_ratio)

Максимальное значение количества ингредиентов на одну минуту в рецептах: 24.0


9. Вычислите среднее количество ингредиентов для топ-100 рецептов с наибольшей продолжительностью

In [9]:
# Получаем индексы строк в порядке убывания значений времени выполнения рецепта
sorted_indices = np.argsort(data[:, 1])[::-1]

# Выбираем только топ-100 индексов
top_indices = sorted_indices[:100]

# Выбираем только топ-100 рецептов
top_recipes = data[top_indices]

# Вычисляем среднее количество ингредиентов в топ-100 рецептах
mean_ingredients = np.mean(top_recipes[:, 2])

print("Среднее количество ингредиентов для топ-100 рецептов с наибольшей продолжительностью:", mean_ingredients)

Среднее количество ингредиентов для топ-100 рецептов с наибольшей продолжительностью: 9.96


10. Выберите случайным образом и выведите информацию о 10 различных рецептах

In [10]:
# Выбираем случайно 10 индексов строк из массива
random_indices = np.random.choice(data.shape[0], 10, replace=False)

# Выбираем только соответствующие строки и выводим информацию о них
for index in random_indices:
    recipe_id, recipe_time, recipe_ingredients = data[index]
    print(f"Рецепт {recipe_id}: {recipe_time} минут, {recipe_ingredients} ингредиентов")

Рецепт 382707: 55 минут, 3 ингредиентов
Рецепт 50435: 27 минут, 10 ингредиентов
Рецепт 259463: 10 минут, 8 ингредиентов
Рецепт 313308: 50 минут, 12 ингредиентов
Рецепт 454296: 45 минут, 11 ингредиентов
Рецепт 474021: 65 минут, 12 ингредиентов
Рецепт 142935: 40 минут, 12 ингредиентов
Рецепт 74955: 60 минут, 12 ингредиентов
Рецепт 89160: 30 минут, 6 ингредиентов
Рецепт 205681: 20 минут, 6 ингредиентов


11. Выведите процент рецептов, кол-во ингредиентов в которых меньше среднего.

In [11]:
# Вычисляем среднее значение количества ингредиентов в массиве
mean_ingredients = np.mean(data[:, 2])

# Вычисляем количество рецептов, кол-во ингредиентов в которых меньше среднего
less_than_mean = np.count_nonzero(data[:, 2] < mean_ingredients)

# Вычисляем процент таких рецептов от общего количества рецептов
percent_less_than_mean = less_than_mean / data.shape[0] * 100

print("Процент рецептов, кол-во ингредиентов в которых меньше среднего:", percent_less_than_mean, "%")

Процент рецептов, кол-во ингредиентов в которых меньше среднего: 58.802 %


12. Назовем "простым" такой рецепт, длительность выполнения которого не больше 20 минут и кол-во ингредиентов в котором не больше 5. Создайте версию датасета с дополнительным столбцом, значениями которого являются 1, если рецепт простой, и 0 в противном случае.

In [12]:
# Создаем булевы массивы, отражающие условия "длительность выполнения не больше 20 минут"
# и "количество ингредиентов не больше 5"
short_time = data[:, 1] <= 20
few_ingredients = data[:, 2] <= 5

# Объединяем булевы массивы с помощью оператора логического "И"
simple_recipe = short_time & few_ingredients

# Создаем новый столбец с помощью функции np.where()
data_with_simple_flag = np.insert(data, 3, np.where(simple_recipe, 1, 0), axis=1)

# Выводим первые 5 строк нового массива
print(data_with_simple_flag[:5])

[[127244     60     16      0]
 [ 23891     25      7      0]
 [ 94746     10      6      0]
 [ 67660      5      6      0]
 [157911     60     14      0]]


13. Выведите процент "простых" рецептов в датасете

In [13]:
# Создаем булевы массивы, отражающие условия "длительность выполнения не больше 20 минут"
# и "количество ингредиентов не больше 5"
short_time = data[:, 1] <= 20
few_ingredients = data[:, 2] <= 5

# Объединяем булевы массивы с помощью оператора логического "И"
simple_recipe = short_time & few_ingredients

# Создаем новый столбец с помощью функции np.where()
data_with_simple_flag = np.insert(data, 3, np.where(simple_recipe, 1, 0), axis=1)

# Вычисляем количество "простых" рецептов в массиве
simple_recipe_count = np.count_nonzero(data_with_simple_flag[:, 3] == 1)

# Вычисляем процент "простых" рецептов от общего количества рецептов
percent_simple_recipe = simple_recipe_count / data.shape[0] * 100

print("Процент 'простых' рецептов в датасете:", percent_simple_recipe, "%")

Процент 'простых' рецептов в датасете: 9.552 %


14. Разделим рецепты на группы по следующему правилу. Назовем рецепты короткими, если их продолжительность составляет менее 10 минут; стандартными, если их продолжительность составляет более 10, но менее 20 минут; и длинными, если их продолжительность составляет не менее 20 минут. Создайте трехмерный массив, где нулевая ось отвечает за номер группы (короткий, стандартный или длинный рецепт), первая ось - за сам рецепт и вторая ось - за характеристики рецепта. Выберите максимальное количество рецептов из каждой группы таким образом, чтобы было возможно сформировать трехмерный массив. Выведите форму полученного массива.

In [16]:
# Создаем булевые массивы для каждой группы рецептов
short_time = data[:, 1] < 10
standard_time = (data[:, 1] >= 10) & (data[:, 1] < 20)
long_time = data[:, 1] >= 20

# Выбираем максимальное количество рецептов из каждой группы
max_short_time = np.count_nonzero(short_time)
max_standard_time = np.count_nonzero(standard_time)
max_long_time = np.count_nonzero(long_time)

# Создаем трехмерный массив
result_array = np.zeros((3, max_long_time, data.shape[1]), dtype=np.int32)

# Добавляем рецепты в массив в соответствии с группами
result_array[0, :max_short_time, :] = data[short_time]
result_array[1, :max_standard_time, :] = data[standard_time]
result_array[2, :max_long_time, :] = data[long_time]

# Выводим форму полученного массива
print(result_array.shape)

(3, 79751, 3)
