# Numpy

Материалы:
* Макрушин С.В. "Лекция 1: Библиотека Numpy"
* https://numpy.org/doc/stable/user/index.html
* https://numpy.org/doc/stable/reference/index.html

## Задачи для совместного разбора

1. Сгенерировать двухмерный массив `arr` размерности (4, 7), состоящий из случайных действительных чисел, равномерно распределенных в диапазоне от 0 до 20. Нормализовать значения массива с помощью преобразования вида  $𝑎𝑥+𝑏$  так, что после нормализации максимальный элемент масcива будет равен 1.0, минимальный 0.0

2. Создать матрицу 8 на 10 из случайных целых (используя модуль `numpy.random`) чисел из диапозона от 0 до 10 и найти в ней строку (ее индекс и вывести саму строку), в которой сумма значений минимальна.

3. Найти евклидово расстояние между двумя одномерными векторами одинаковой размерности.

4. Решить матричное уравнение `A*X*B=-C` - найти матрицу `X`. Где `A = [[-1, 2, 4], [-3, 1, 2], [-3, 0, 1]]`, `B=[[3, -1], [2, 1]]`, `C=[[7, 21], [11, 8], [8, 4]]`.

## Лабораторная работа №1

Замечание: при решении данных задач не подразумевается использования циклов или генераторов Python, если в задании не сказано обратного. Решение должно опираться на использования функционала библиотеки `numpy`.

1. Файл `minutes_n_ingredients.csv` содержит информацию об идентификаторе рецепта, времени его выполнения в минутах и количестве необходимых ингредиентов. Считайте данные из этого файла в виде массива `numpy` типа `int32`, используя `np.loadtxt`. Выведите на экран первые 5 строк массива.

In [2]:
import numpy as np

data = np.loadtxt('data/minutes_n_ingredients.csv', delimiter=',', dtype=np.int32, skiprows=1)

print(data[:5, :])

[[127244     60     16]
 [ 23891     25      7]
 [ 94746     10      6]
 [ 67660      5      6]
 [157911     60     14]]


2. Вычислите среднее значение, минимум, максимум и медиану по каждому из столбцов, кроме первого.

In [3]:
# вычисляем статистики для каждого столбца, кроме первого и выводим результаты
print("Среднее значение по столбцам (кроме первого):", np.mean(data[:, 1:], axis=0))
print("Минимум по столбцам (кроме первого):", np.min(data[:, 1:], axis=0))
print("Максимум по столбцам (кроме первого):", np.max(data[:, 1:], axis=0))
print("Медиана по столбцам (кроме первого):", np.median(data[:, 1:], axis=0))

Среднее значение по столбцам (кроме первого): [2.16010017e+04 9.05528000e+00]
Минимум по столбцам (кроме первого): [0 1]
Максимум по столбцам (кроме первого): [2147483647         39]
Медиана по столбцам (кроме первого): [40.  9.]


3. Ограничьте сверху значения продолжительности выполнения рецепта значением квантиля $q_{0.75}$. 

In [4]:
# ограничение сверху по квантилю 0.75 по столбцу 1 (минуты)
max_duration = np.quantile(data[:, 1], 0.75)
data[:, 1] = np.minimum(data[:, 1], max_duration)

print(max_duration)
print(data[:, 1])

65.0
[60 25 10 ... 65  5 65]


4. Посчитайте, для скольких рецептов указана продолжительность, равная нулю. Замените для таких строк значение в данном столбце на 1.

In [5]:
# подсчитываем количество рецептов, где продолжительность выполнения равна 0
count = np.count_nonzero(data[:, 1] == 0)
print(f"Количество рецептов с продолжительностью выполнения 0: {count}")

# заменяем значения 0 на 1 в первом столбце (столбец продолжительности выполнения рецепта)
data[:, 1][data[:, 1] == 0] = 1

#проверим что нули заменились на единицы, ожидаем count=0
count = np.count_nonzero(data[:, 1] == 0)
print(f"Количество рецептов с продолжительностью выполнения 0: {count}")

Количество рецептов с продолжительностью выполнения 0: 479
Количество рецептов с продолжительностью выполнения 0: 0


5. Посчитайте, сколько уникальных рецептов находится в датасете.

In [6]:
unique_recipes = np.unique(data[:, 0])
print(len(unique_recipes))

100000


6. Сколько и каких различных значений кол-ва ингредиентов присутвует в рецептах из датасета?

In [7]:
# получаем уникальные значения количества ингредиентов
unique_counts = np.unique(data[:, 2])
num_unique = len(unique_counts)

# выводим результаты
print(f"Количество уникальных значений: {num_unique}")
print(f"Уникальные значения: {unique_counts}")

Количество уникальных значений: 37
Уникальные значения: [ 1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
 25 26 27 28 29 30 31 32 33 34 35 37 39]


7. Создайте версию массива, содержащую информацию только о рецептах, состоящих не более чем из 5 ингредиентов.

In [8]:
# Задаем настройки вывода
np.set_printoptions(suppress=True)  # Отключаем научную нотацию, нкжно, чтобы избежать вывода экспоненциальных чисел
data = np.genfromtxt('data/minutes_n_ingredients.csv', delimiter=',', skip_header=1, usecols=(0, 1, 2))

# Создание новой версии массива с информацией только о рецептах, состоящих не более чем из 5 ингредиентов
new_data = data[data[:, 1] <= 5]

# Вывод размерности нового массива
print(new_data)

[[ 67660.      5.      6.]
 [204134.      5.      3.]
 [ 66842.      2.      4.]
 ...
 [420725.      5.      3.]
 [  4747.      0.      9.]
 [370915.      5.      4.]]


8. Для каждого рецепта посчитайте, сколько в среднем ингредиентов приходится на одну минуту рецепта. Найдите максимальное значение этой величины для всего датасета

In [9]:
mask = data[:, 1] != 0 #Создаем массив булевых чисел, проверям на наличие значений "0" ----- Вообще этот код не нужен, с проверкой на нули, т.к. мы выше эти нули поубирали.
ingredients_per_minute = np.zeros_like(data[:, 2]) #Создаем нулевой массив
ingredients_per_minute[mask] = data[:, 2][mask] / data[:, 1][mask] # Производит вычисление, но только для тех позиций где передаем mask=true

print("Mean: {}".format(np.mean(ingredients_per_minute[mask])))
print("Maximum: {}".format(np.max(ingredients_per_minute[mask])))

print(np.max(data[:, 1]))
print(np.max(data[:, 2]))

Mean: 0.33976172034613894
Maximum: 23.0
2147483647.0
39.0


9. Вычислите среднее количество ингредиентов для топ-100 рецептов с наибольшей продолжительностью

In [10]:
# Отсортировать данные по убыванию времени приготовления и выбрать первые 100 строк
sorted_data = data[np.argsort(data[:, 1])[::-1]][:100]

# Вычислить среднее значение количества ингредиентов для выбранных рецептов
mean_ingredients = np.mean(sorted_data[:, 2])

print(f"Среднее количество ингредиентов для топ-100 рецептов: {mean_ingredients:.2f}")

Среднее количество ингредиентов для топ-100 рецептов: 6.61


10. Выберите случайным образом и выведите информацию о 10 различных рецептах

In [11]:
# Получаем количество рецептов в массиве данных
num_recipes = data.shape[0]

# Выбираем случайные индексы 10 различных рецептов
random_indices = np.random.choice(num_recipes, size=10, replace=False)

print(random_indices)

[30438 97113 74298 36329 19981 58406 90729 46436 98675 41858]


11. Выведите процент рецептов, кол-во ингредиентов в которых меньше среднего.

In [14]:
mean_n_ingredients = np.mean(data[:, 2])

percent = np.mean(data[:, 2] < mean_n_ingredients) * 100

print("Процент рецептов, кол-во ингредиентов в которых меньше среднего: {:.2f}%".format(percent))

Процент рецептов, кол-во ингредиентов в которых меньше среднего: 58.80%


12. Назовем "простым" такой рецепт, длительность выполнения которого не больше 20 минут и кол-во ингредиентов в котором не больше 5. Создайте версию датасета с дополнительным столбцом, значениями которого являются 1, если рецепт простой, и 0 в противном случае.

In [15]:
# создание дополнительного столбца с метками "простой рецепт"
simple = np.logical_and(data[:, 1] <= 20, data[:, 2] <= 5).astype(np.int32)
data_with_simple = np.column_stack((data, simple))

# сохранение массива в файл
np.savetxt('minutes_n_ingredients_with_simple.csv', data_with_simple, delimiter=',', fmt='%d')

13. Выведите процент "простых" рецептов в датасете

In [16]:
# создание дополнительного столбца с метками "простой рецепт"
simple = np.logical_and(data[:, 1] <= 20, data[:, 2] <= 5).astype(np.int32)
data_with_simple = np.column_stack((data, simple))

# вычисление процента "простых" рецептов
percent_simple = 100 * np.mean(simple)

print(f'Процент "простых" рецептов: {percent_simple:.2f}%')

Процент "простых" рецептов: 9.55%


14. Разделим рецепты на группы по следующему правилу. Назовем рецепты короткими, если их продолжительность составляет менее 10 минут; стандартными, если их продолжительность составляет более 10, но менее 20 минут; и длинными, если их продолжительность составляет не менее 20 минут. Создайте трехмерный массив, где нулевая ось отвечает за номер группы (короткий, стандартный или длинный рецепт), первая ось - за сам рецепт и вторая ось - за характеристики рецепта. Выберите максимальное количество рецептов из каждой группы таким образом, чтобы было возможно сформировать трехмерный массив. Выведите форму полученного массива.

In [17]:
# разделение рецептов на группы
short = data[data[:, 1] < 10]
standard = data[(data[:, 1] >= 10) & (data[:, 1] < 20)]
long = data[data[:, 1] >= 20]

# выбор максимального количества рецептов из каждой группы
max_short = min(short.shape[0], 100)
max_standard = min(standard.shape[0], 100)
max_long = min(long.shape[0], 100)

# создание трехмерного массива
result = np.zeros((3, max_short + max_standard + max_long, 3), dtype=np.int32)

result[0, :max_short, :] = short[:max_short, :]
result[1, :max_standard, :] = standard[:max_standard, :]
result[2, :max_long, :] = long[:max_long, :]

print(f'Форма полученного массива: {result.shape}')

Форма полученного массива: (3, 300, 3)
