# Numpy

Материалы:
* Макрушин С.В. "Лекция 1: Библиотека Numpy"
* https://numpy.org/doc/stable/user/index.html
* https://numpy.org/doc/stable/reference/index.html

## Задачи для совместного разбора

1. Сгенерировать двухмерный массив `arr` размерности (4, 7), состоящий из случайных действительных чисел, равномерно распределенных в диапазоне от 0 до 20. Нормализовать значения массива с помощью преобразования вида  $𝑎𝑥+𝑏$  так, что после нормализации максимальный элемент масcива будет равен 1.0, минимальный 0.0

In [2]:
import numpy as np
arr = np.arange(0, 20)
arr

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19])

2. Создать матрицу 8 на 10 из случайных целых (используя модуль `numpy.random`) чисел из диапозона от 0 до 10 и найти в ней строку (ее индекс и вывести саму строку), в которой сумма значений минимальна.

In [9]:
import numpy as np

matrix = np.random.randint(0, 11, (8, 10))
row_sums = matrix.sum(axis=1)
min_sum_index = np.argmin(row_sums)

matrix
print(f"Строка с минимальной суммой: {matrix[min_sum_index]}")

Строка с минимальной суммой: [5 4 4 3 2 0 5 6 4 5]


3. Найти евклидово расстояние между двумя одномерными векторами одинаковой размерности.

4. Решить матричное уравнение `A*X*B=-C` - найти матрицу `X`. Где `A = [[-1, 2, 4], [-3, 1, 2], [-3, 0, 1]]`, `B=[[3, -1], [2, 1]]`, `C=[[7, 21], [11, 8], [8, 4]]`.

## Лабораторная работа №1

Замечание: при решении данных задач не подразумевается использования циклов или генераторов Python, если в задании не сказано обратного. Решение должно опираться на использования функционала библиотеки `numpy`.

1. Файл `minutes_n_ingredients.csv` содержит информацию об идентификаторе рецепта, времени его выполнения в минутах и количестве необходимых ингредиентов. Считайте данные из этого файла в виде массива `numpy` типа `int32`, используя `np.loadtxt`. Выведите на экран первые 5 строк массива.

In [4]:
import numpy as np

data = np.loadtxt('minutes_n_ingredients.csv', delimiter=',', skiprows=1, dtype=np.int32)

print(data[:5])


[[127244     60     16]
 [ 23891     25      7]
 [ 94746     10      6]
 [ 67660      5      6]
 [157911     60     14]]


2. Вычислите среднее значение, минимум, максимум и медиану по каждому из столбцов, кроме первого.

In [5]:
import numpy as np

data = np.loadtxt('minutes_n_ingredients.csv', delimiter=',', skiprows=1, dtype=np.int32)

mean = np.mean(data[:, 1:], axis=0)
min = np.min(data[:, 1:], axis=0)
max = np.max(data[:, 1:], axis=0)
median = np.median(data[:, 1:], axis=0)

print("Среднее значение по столбцам, кроме первого:", mean)
print("Минимальное значение по столбцам, кроме первого:", min)
print("Максимальное значение по столбцам, кроме первого:", max)
print("Медиана по столбцам, кроме первого:", median)


Среднее значение по столбцам, кроме первого: [2.16010017e+04 9.05528000e+00]
Минимальное значение по столбцам, кроме первого: [0 1]
Максимальное значение по столбцам, кроме первого: [2147483647         39]
Медиана по столбцам, кроме первого: [40.  9.]


3. Ограничьте сверху значения продолжительности выполнения рецепта значением квантиля $q_{0.75}$. 

In [7]:
import numpy as np

data = np.loadtxt('minutes_n_ingredients.csv', delimiter=',', skiprows=1, dtype=np.int32)

q75 = np.percentile(data[:, 1], 75)  # находим 75-й процентиль для столбца времени выполнения
data[:, 1][data[:, 1] > q75] = q75  # заменяем все значения сверху квантиля на значение квантиля

print(data[:5])  # выводим первые 5 строк массива


[[127244     60     16]
 [ 23891     25      7]
 [ 94746     10      6]
 [ 67660      5      6]
 [157911     60     14]]


4. Посчитайте, для скольких рецептов указана продолжительность, равная нулю. Замените для таких строк значение в данном столбце на 1.

In [9]:
import numpy as np

data = np.loadtxt('minutes_n_ingredients.csv', delimiter=',', skiprows=1, dtype=np.int32)

num_zero_duration = np.sum(data[:, 1] == 0)  # подсчитываем количество рецептов с нулевой продолжительностью
print("Количество рецептов с продолжительностью, равной нулю:", num_zero_duration)

data[:, 1][data[:, 1] == 0] = 1  # заменяем нулевые значения второго столбца на 1

print(data[:5])  # выводим первые 5 строк массива


Количество рецептов с продолжительностью, равной нулю: 479
[[127244     60     16]
 [ 23891     25      7]
 [ 94746     10      6]
 [ 67660      5      6]
 [157911     60     14]]


5. Посчитайте, сколько уникальных рецептов находится в датасете.

In [10]:
import numpy as np

data = np.loadtxt('minutes_n_ingredients.csv', delimiter=',', skiprows=1, dtype=np.int32)

unique_recipes = np.unique(data[:, 0])  # выбираем первый столбец (идентификаторы рецептов) и находим уникальные значения
num_unique_recipes = len(unique_recipes)  # подсчитываем количество уникальных рецептов

print("Количество уникальных рецептов в датасете:", num_unique_recipes)


Количество уникальных рецептов в датасете: 100000


6. Сколько и каких различных значений кол-ва ингредиентов присутвует в рецептах из датасета?

In [11]:
import numpy as np

data = np.loadtxt('minutes_n_ingredients.csv', delimiter=',', skiprows=1, dtype=np.int32)

unique_ingredient_counts = np.unique(data[:, 2])  # выбираем третий столбец (количество ингредиентов) и находим уникальные значения
num_unique_ingredient_counts = len(unique_ingredient_counts)  # подсчитываем количество уникальных значений

print("Количество различных значений количества ингредиентов:", num_unique_ingredient_counts)
print("Уникальные значения количества ингредиентов:", unique_ingredient_counts)


Количество различных значений количества ингредиентов: 37
Уникальные значения количества ингредиентов: [ 1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
 25 26 27 28 29 30 31 32 33 34 35 37 39]


7. Создайте версию массива, содержащую информацию только о рецептах, состоящих не более чем из 5 ингредиентов.

In [12]:
import numpy as np

data = np.loadtxt('minutes_n_ingredients.csv', delimiter=',', skiprows=1, dtype=np.int32)

# Создаем маску, показывающую, какие рецепты состоят не более чем из 5 ингредиентов
mask = data[:, 2] <= 5

# Применяем маску к исходному массиву
filtered_data = data[mask]

# Выводим первые 5 строк отфильтрованного массива
print(filtered_data[:5])

[[446597     15      5]
 [204134      5      3]
 [ 25623      6      4]
 [484223     18      4]
 [ 63150    250      4]]


8. Для каждого рецепта посчитайте, сколько в среднем ингредиентов приходится на одну минуту рецепта. Найдите максимальное значение этой величины для всего датасета

In [13]:
import numpy as np

data = np.loadtxt('minutes_n_ingredients.csv', delimiter=',', skiprows=1, dtype=np.int32)

# Вычисляем среднее количество ингредиентов на одну минуту рецепта
ingredients_per_minute = data[:, 2] / data[:, 1]

# Находим максимальное значение этой величины для всего датасета
max_ingredients_per_minute = np.max(ingredients_per_minute)

print("Максимальное среднее количество ингредиентов на одну минуту рецепта: ", max_ingredients_per_minute)


Максимальное среднее количество ингредиентов на одну минуту рецепта:  inf


  ingredients_per_minute = data[:, 2] / data[:, 1]


9. Вычислите среднее количество ингредиентов для топ-100 рецептов с наибольшей продолжительностью

In [14]:
import numpy as np

data = np.loadtxt('minutes_n_ingredients.csv', delimiter=',', skiprows=1, dtype=np.int32)

# Сортируем данные по убыванию продолжительности рецепта
sorted_data = data[data[:, 1].argsort()[::-1]]

# Выбираем топ-100 рецептов с наибольшей продолжительностью
top100_data = sorted_data[:100]

# Вычисляем среднее количество ингредиентов для выбранных рецептов
mean_ingredients = np.mean(top100_data[:, 2])

print("Среднее количество ингредиентов для топ-100 рецептов с наибольшей продолжительностью: ", mean_ingredients)


Среднее количество ингредиентов для топ-100 рецептов с наибольшей продолжительностью:  6.61


10. Выберите случайным образом и выведите информацию о 10 различных рецептах

In [15]:
import numpy as np

data = np.loadtxt('minutes_n_ingredients.csv', delimiter=',', skiprows=1, dtype=np.int32)

# Выбираем случайные 10 индексов
indices = np.random.choice(data.shape[0], 10, replace=False)

# Выводим информацию о выбранных рецептах
for i in indices:
    recipe_id = data[i, 0]
    minutes = data[i, 1]
    ingredients = data[i, 2]
    print("Рецепт №{}: продолжительность - {} мин, ингредиентов - {}".format(recipe_id, minutes, ingredients))


Рецепт №107557: продолжительность - 30 мин, ингредиентов - 9
Рецепт №466000: продолжительность - 70 мин, ингредиентов - 12
Рецепт №524054: продолжительность - 115 мин, ингредиентов - 6
Рецепт №144685: продолжительность - 25 мин, ингредиентов - 7
Рецепт №188336: продолжительность - 10 мин, ингредиентов - 4
Рецепт №426044: продолжительность - 140 мин, ингредиентов - 17
Рецепт №464557: продолжительность - 25 мин, ингредиентов - 7
Рецепт №233019: продолжительность - 85 мин, ингредиентов - 5
Рецепт №133427: продолжительность - 15 мин, ингредиентов - 11
Рецепт №147574: продолжительность - 35 мин, ингредиентов - 6


11. Выведите процент рецептов, кол-во ингредиентов в которых меньше среднего.

In [16]:
import numpy as np

data = np.loadtxt('minutes_n_ingredients.csv', delimiter=',', skiprows=1, dtype=np.int32)

# Вычисляем среднее количество ингредиентов по всем рецептам
mean_ingredients = np.mean(data[:, 2])

# Вычисляем количество рецептов, у которых количество ингредиентов меньше среднего
num_recipes_less_than_mean = np.sum(data[:, 2] < mean_ingredients)

# Вычисляем процент таких рецептов от общего числа рецептов
percent_less_than_mean = 100 * num_recipes_less_than_mean / data.shape[0]

# Выводим результат
print("Процент рецептов, количество ингредиентов в которых меньше среднего: {:.2f}%".format(percent_less_than_mean))


Процент рецептов, количество ингредиентов в которых меньше среднего: 58.80%


12. Назовем "простым" такой рецепт, длительность выполнения которого не больше 20 минут и кол-во ингредиентов в котором не больше 5. Создайте версию датасета с дополнительным столбцом, значениями которого являются 1, если рецепт простой, и 0 в противном случае.

In [18]:
simple_recipe = ((data[:,1] <= 20) & (data[:,2] <= 5)).astype(int)
data = np.column_stack((data, simple_recipe))
data

array([[127244,     60,     16,      0,      0],
       [ 23891,     25,      7,      0,      0],
       [ 94746,     10,      6,      0,      0],
       ...,
       [498432,     65,     15,      0,      0],
       [370915,      5,      4,      1,      1],
       [ 81993,    140,     14,      0,      0]])

13. Выведите процент "простых" рецептов в датасете

In [19]:
# создаем новый столбец с информацией о простых рецептах
simple_recipe = ((data[:,1] <= 20) & (data[:,2] <= 5)).astype(int)
data = np.column_stack((data, simple_recipe))

# подсчитываем процент простых рецептов
num_simple_recipes = np.count_nonzero(simple_recipe)
num_total_recipes = data.shape[0]
percent_simple_recipes = num_simple_recipes / num_total_recipes * 100

print("Процент 'простых' рецептов в датасете:", percent_simple_recipes, "%")


Процент 'простых' рецептов в датасете: 9.552 %


14. Разделим рецепты на группы по следующему правилу. Назовем рецепты короткими, если их продолжительность составляет менее 10 минут; стандартными, если их продолжительность составляет более 10, но менее 20 минут; и длинными, если их продолжительность составляет не менее 20 минут. Создайте трехмерный массив, где нулевая ось отвечает за номер группы (короткий, стандартный или длинный рецепт), первая ось - за сам рецепт и вторая ось - за характеристики рецепта. Выберите максимальное количество рецептов из каждой группы таким образом, чтобы было возможно сформировать трехмерный массив. Выведите форму полученного массива.

In [21]:
import numpy as np

# загрузка данных
data = np.loadtxt('minutes_n_ingredients.csv', delimiter=',', skiprows=1, dtype=np.int32)

# создание масок
short_mask = data[:, 1] < 10
standard_mask = (data[:, 1] >= 10) & (data[:, 1] < 20)
long_mask = data[:, 1] >= 20

# выбор рецептов из каждой группы
short_indices = np.random.choice(np.where(short_mask)[0], size=100, replace=False)
standard_indices = np.random.choice(np.where(standard_mask)[0], size=100, replace=False)
long_indices = np.random.choice(np.where(long_mask)[0], size=100, replace=False)

# создание трехмерного массива
recipe_array = np.zeros((3, 100, 3), dtype=np.int32)
recipe_array[0] = data[short_indices, :]
recipe_array[1] = data[standard_indices, :]
recipe_array[2] = data[long_indices, :]

# вывод формы массива
print(recipe_array.shape)


(3, 100, 3)
