# Numpy

Материалы:
* Макрушин С.В. "Лекция 1: Библиотека Numpy"
* https://numpy.org/doc/stable/user/index.html
* https://numpy.org/doc/stable/reference/index.html

## Задачи для совместного разбора

1. Сгенерировать двухмерный массив `arr` размерности (4, 7), состоящий из случайных действительных чисел, равномерно распределенных в диапазоне от 0 до 20. Нормализовать значения массива с помощью преобразования вида  $𝑎𝑥+𝑏$  так, что после нормализации максимальный элемент масcива будет равен 1.0, минимальный 0.0

In [1]:
import numpy as np

# Создание двумерного массива
arr = np.random.uniform(0, 20, size=(4, 7))

# Нормализация значений массива
max_val = np.max(arr)
min_val = np.min(arr)
a = 1.0 / (max_val - min_val)
b = -a * min_val
arr_normalized = a * arr + b

# Вывод исходного и нормализованного массива
print("Исходный массив:")
print(arr)
print("\nНормализованный массив:")
print(arr_normalized)

Исходный массив:
[[16.5038551   9.72994439  4.64815093 13.57836221 10.1919809  18.18490539
   1.24068754]
 [ 8.25180737 19.55908039  1.79427855  5.6652412   6.8529806  15.36426157
   0.92840895]
 [10.03851398 13.86176708 13.98506312  1.91691307 16.34321416  2.1537577
  14.29350008]
 [10.29112879  8.3608812  17.62593796 13.86371612  9.20833504 17.81564128
  10.7756927 ]]

Нормализованный массив:
[[0.83601099 0.47242181 0.19965689 0.67898537 0.49722158 0.92624125
  0.01676153]
 [0.3930829  1.         0.04647549 0.25424914 0.31800097 0.77484339
  0.        ]
 [0.48898426 0.6941971  0.70081501 0.05305789 0.8273886  0.06577051
  0.71737034]
 [0.50254334 0.39893743 0.89623871 0.69430172 0.44442446 0.90642103
  0.52855227]]


2. Создать матрицу 8 на 10 из случайных целых (используя модуль `numpy.random`) чисел из диапозона от 0 до 10 и найти в ней строку (ее индекс и вывести саму строку), в которой сумма значений минимальна.

In [2]:
matrix = np.random.randint(0, 11, (8, 10))
min_sum_row_index = np.sum(matrix, axis=1).argmin()
min_sum_row = matrix[min_sum_row_index]

print(f"Индекс строки с минимальной суммой значений: {min_sum_row_index}")
print("Строка с минимальной суммой значений:")
print(min_sum_row)

Индекс строки с минимальной суммой значений: 7
Строка с минимальной суммой значений:
[0 1 4 2 7 6 8 2 5 0]


3. Найти евклидово расстояние между двумя одномерными векторами одинаковой размерности.

In [4]:
import pandas as pd
import numpy as np

# Создание двух одномерных векторов
vector1 = pd.Series([1, 2, 3, 4, 5])
vector2 = pd.Series([5, 4, 3, 2, 1])

# Вычисление евклидова расстояния
euclidean_distance = np.linalg.norm(vector1 - vector2)

print("Евклидово расстояние между вектором 1 и вектором 2:", euclidean_distance)

Евклидово расстояние между вектором 1 и вектором 2: 6.324555320336759


4. Решить матричное уравнение `A*X*B=-C` - найти матрицу `X`. Где `A = [[-1, 2, 4], [-3, 1, 2], [-3, 0, 1]]`, `B=[[3, -1], [2, 1]]`, `C=[[7, 21], [11, 8], [8, 4]]`.

## Лабораторная работа №1

Замечание: при решении данных задач не подразумевается использования циклов или генераторов Python, если в задании не сказано обратного. Решение должно опираться на использования функционала библиотеки `numpy`.

1. Файл `minutes_n_ingredients.csv` содержит информацию об идентификаторе рецепта, времени его выполнения в минутах и количестве необходимых ингредиентов. Считайте данные из этого файла в виде массива `numpy` типа `int32`, используя `np.loadtxt`. Выведите на экран первые 5 строк массива.

In [3]:
import numpy as np

# Загрузка данных из файла, пропуская первую строку
data = np.loadtxt('minutes_n_ingredients.csv', delimiter=',', dtype=np.int32, skiprows=1)

# Вывод первых 5 строк массива
print(data[:5])


[[127244     60     16]
 [ 23891     25      7]
 [ 94746     10      6]
 [ 67660      5      6]
 [157911     60     14]]


2. Вычислите среднее значение, минимум, максимум и медиану по каждому из столбцов, кроме первого.

In [9]:

# Исключаем первый столбец с идентификаторами рецептов
data = data[:, 1:]

# Вычисление среднего значения по каждому столбцу
mean_values = np.mean(data, axis=0)

# Вычисление минимума по каждому столбцу
min_values = np.min(data, axis=0)

# Вычисление максимума по каждому столбцу
max_values = np.max(data, axis=0)

# Вычисление медианы по каждому столбцу
median_values = np.median(data, axis=0)

# Вывод результатов
print("Среднее значения по каждому столбцу (время выполнения в минутах и количество ингредиентов):")
print(mean_values)
print("\nМинимум по каждому столбцу:")
print(min_values)
print("\nМаксимум по каждому столбцу:")
print(max_values)
print("\nМедиана по каждому столбцу:")
print(median_values)


Среднее значения по каждому столбцу (время выполнения в минутах и количество ингредиентов):
[9.05528]

Минимум по каждому столбцу:
[1]

Максимум по каждому столбцу:
[39]

Медиана по каждому столбцу:
[9.]


3. Ограничьте сверху значения продолжительности выполнения рецепта значением квантиля $q_{0.75}$. 

In [8]:

# Исключаем первый столбец с идентификаторами рецептов
data = data[:, 1:]

# Вычисление квантиля 0.75 для столбца с продолжительностью выполнения рецепта
q_75 = np.quantile(data[:, 0], 0.75)

# Замена значений, превышающих квантиль 0.75, на значение квантиля
data[:, 0] = np.where(data[:, 0] > q_75, q_75, data[:, 0])

# Вывод первых 5 строк массива с измененными значениями
print("Первые 5 строк массива после ограничения значений продолжительности выполнения рецепта:")
print(data[:5])


Первые 5 строк массива после ограничения значений продолжительности выполнения рецепта:
[[60 16]
 [25  7]
 [10  6]
 [ 5  6]
 [60 14]]


4. Посчитайте, для скольких рецептов указана продолжительность, равная нулю. Замените для таких строк значение в данном столбце на 1.

In [12]:


# Загрузка данных из файла, пропуская первую строку
data = np.loadtxt('minutes_n_ingredients.csv', delimiter=',', dtype=np.int32, skiprows=1)

# Подсчет количества рецептов с продолжительностью выполнения равной нулю
zero_duration_count = np.sum(data[:, 1] == 0)

# Вывод количества рецептов с продолжительностью выполнения равной нулю
print("Количество рецептов с продолжительностью выполнения равной нулю:", zero_duration_count)

# Замена значений в столбце продолжительности выполнения для рецептов с нулевой продолжительностью на 1
data[:, 1] = np.where(data[:, 1] == 0, 1, data[:, 1])

# Сохранение измененных данных в файл (если необходимо)
# np.savetxt('modified_minutes_n_ingredients.csv', data, delimiter=',', fmt='%d')

# Вывод первых 5 строк массива с измененными значениями
print("\nПервые 5 строк массива с измененными значениями:")
print(data[:5])


Количество рецептов с продолжительностью выполнения равной нулю: 479

Первые 5 строк массива с измененными значениями:
[[127244     60     16]
 [ 23891     25      7]
 [ 94746     10      6]
 [ 67660      5      6]
 [157911     60     14]]


5. Посчитайте, сколько уникальных рецептов находится в датасете.

In [14]:

# Идентификаторы рецептов находятся в первом столбце
recipe_ids = data[:, 0]

# Подсчет количества уникальных идентификаторов рецептов
unique_recipe_count = len(np.unique(recipe_ids))

# Вывод количества уникальных рецептов
print("Количество уникальных рецептов в датасете:", unique_recipe_count)


Количество уникальных рецептов в датасете: 100000


6. Сколько и каких различных значений кол-ва ингредиентов присутвует в рецептах из датасета?

In [16]:

# Количество ингредиентов находится во втором столбце
ingredient_counts = data[:, 1]

# Нахождение уникальных значений количества ингредиентов
unique_ingredient_counts = np.unique(ingredient_counts)

# Вывод количества уникальных значений и самих значений
print("Различных значений количества ингредиентов:", len(unique_ingredient_counts))
print("Эти значения:", unique_ingredient_counts)


Различных значений количества ингредиентов: 656
Эти значения: [         0          1          2          3          4          5
          6          7          8          9         10         11
         12         13         14         15         16         17
         18         19         20         21         22         23
         24         25         26         27         28         29
         30         31         32         33         34         35
         36         37         38         39         40         41
         42         43         44         45         46         47
         48         49         50         51         52         53
         54         55         56         57         58         59
         60         61         62         63         64         65
         66         67         68         69         70         71
         72         73         74         75         76         77
         78         79         80         81         82         83


7. Создайте версию массива, содержащую информацию только о рецептах, состоящих не более чем из 5 ингредиентов.

In [17]:

# Определение максимального количества ингредиентов для рецептов
max_ingredients = 10

# Фильтрация данных для рецептов с количеством ингредиентов не более max_ingredients
filtered_data = data[data[:, 1] <= max_ingredients]

# Вывод первых 5 строк нового массива с отфильтрованными данными
print("Первые 5 строк массива с информацией о рецептах, состоящих не более чем из", max_ingredients, "ингредиентов:")
print(filtered_data[:5])


Первые 5 строк массива с информацией о рецептах, состоящих не более чем из 10 ингредиентов:
[[ 94746     10      6]
 [ 67660      5      6]
 [366174      7      9]
 [204134      5      3]
 [ 25623      6      4]]


8. Для каждого рецепта посчитайте, сколько в среднем ингредиентов приходится на одну минуту рецепта. Найдите максимальное значение этой величины для всего датасета

In [18]:

# Вычисление количества ингредиентов на одну минуту для каждого рецепта
ingredient_per_minute = data[:, 2] / data[:, 1]

# Нахождение максимального значения этой величины для всего датасета
max_ingredient_per_minute = np.max(ingredient_per_minute)

# Вывод максимального значения
print("Максимальное количество ингредиентов на одну минуту:", max_ingredient_per_minute)


Максимальное количество ингредиентов на одну минуту: inf


  ingredient_per_minute = data[:, 2] / data[:, 1]


9. Вычислите среднее количество ингредиентов для топ-100 рецептов с наибольшей продолжительностью

In [19]:
# Сортировка данных по продолжительности выполнения рецепта (второй столбец)
sorted_data = data[data[:, 1].argsort()]

# Выбор топ-100 рецептов с наибольшей продолжительностью
top_100_data = sorted_data[-100:]

# Вычисление среднего количества ингредиентов для топ-100 рецептов
mean_ingredients_top_100 = np.mean(top_100_data[:, 2])

# Вывод среднего количества ингредиентов
print("Среднее количество ингредиентов для топ-100 рецептов с наибольшей продолжительностью:", mean_ingredients_top_100)


Среднее количество ингредиентов для топ-100 рецептов с наибольшей продолжительностью: 6.61


10. Выберите случайным образом и выведите информацию о 10 различных рецептах

In [20]:
# Получение общего количества рецептов в датасете
total_recipes = len(data)

# Выбор 10 случайных индексов рецептов
random_indices = np.random.choice(total_recipes, size=10, replace=False)

# Вывод информации о выбранных случайным образом рецептах
print("Информация о 10 случайных рецептах:")
for index in random_indices:
    print("Рецепт №", data[index, 0], "- Продолжительность:", data[index, 1], "минут, Ингредиентов:", data[index, 2])


Информация о 10 случайных рецептах:
Рецепт № 291770 - Продолжительность: 5 минут, Ингредиентов: 4
Рецепт № 34061 - Продолжительность: 20 минут, Ингредиентов: 8
Рецепт № 158563 - Продолжительность: 20 минут, Ингредиентов: 7
Рецепт № 348407 - Продолжительность: 40 минут, Ингредиентов: 10
Рецепт № 49476 - Продолжительность: 510 минут, Ингредиентов: 9
Рецепт № 334305 - Продолжительность: 25 минут, Ингредиентов: 12
Рецепт № 8474 - Продолжительность: 55 минут, Ингредиентов: 5
Рецепт № 188815 - Продолжительность: 30 минут, Ингредиентов: 7
Рецепт № 296075 - Продолжительность: 15 минут, Ингредиентов: 6
Рецепт № 289400 - Продолжительность: 30 минут, Ингредиентов: 13


11. Выведите процент рецептов, кол-во ингредиентов в которых меньше среднего.

In [22]:
# Вычисление среднего количества ингредиентов
mean_ingredients = np.mean(data[:, 2])

# Подсчет количества рецептов, количество ингредиентов в которых меньше среднего
less_than_mean_count = np.sum(data[:, 2] < mean_ingredients)

# Вычисление процента рецептов, количество ингредиентов в которых меньше среднего
percent_less_than_mean = (less_than_mean_count / len(data)) * 100

# Вывод процента
print("Процент рецептов, количество ингредиентов в которых меньше среднего:", percent_less_than_mean, "%")


Процент рецептов, количество ингредиентов в которых меньше среднего: 58.802 %


12. Назовем "простым" такой рецепт, длительность выполнения которого не больше 20 минут и кол-во ингредиентов в котором не больше 5. Создайте версию датасета с дополнительным столбцом, значениями которого являются 1, если рецепт простой, и 0 в противном случае.

In [23]:
simple_recipes_mask = (data[:, 1] <= 20) & (data[:, 2] <= 5)

# Добавление нового столбца с информацией о "простых" рецептах
data_with_simple_column = np.column_stack((data, simple_recipes_mask.astype(int)))

# Подсчет процента "простых" рецептов
percent_simple_recipes = np.mean(simple_recipes_mask) * 100

print("Процент 'простых' рецептов в датасете:", percent_simple_recipes, "%")

Процент 'простых' рецептов в датасете: 9.552 %


13. Выведите процент "простых" рецептов в датасете

In [27]:
# Разделение рецептов на группы по продолжительности выполнения
short_recipes = data[data[:, 1] < 10]
standard_recipes = data[(data[:, 1] >= 10) & (data[:, 1] <= 20)]
long_recipes = data[data[:, 1] > 20]
# Определение максимального количества рецептов из каждой группы
max_short_count = min(len(short_recipes), len(standard_recipes), len(long_recipes))
max_standard_count = max_short_count
max_long_count = max_short_count
print(max_short_count)

7588


14. Разделим рецепты на группы по следующему правилу. Назовем рецепты короткими, если их продолжительность составляет менее 10 минут; стандартными, если их продолжительность составляет более 10, но менее 20 минут; и длинными, если их продолжительность составляет не менее 20 минут. Создайте трехмерный массив, где нулевая ось отвечает за номер группы (короткий, стандартный или длинный рецепт), первая ось - за сам рецепт и вторая ось - за характеристики рецепта. Выберите максимальное количество рецептов из каждой группы таким образом, чтобы было возможно сформировать трехмерный массив. Выведите форму полученного массива.

In [26]:
# Создание трехмерного массива
three_dimensional_array = np.zeros((3, max_short_count, data.shape[1]), dtype=np.int32)
three_dimensional_array[0, :max_short_count, :] = short_recipes[:max_short_count, :]
three_dimensional_array[1, :max_standard_count, :] = standard_recipes[:max_standard_count, :]
three_dimensional_array[2, :max_long_count, :] = long_recipes[:max_long_count, :]

# Вывод формы полученного массива
print("Форма полученного трехмерного массива:", three_dimensional_array.shape)

Форма полученного трехмерного массива: (3, 7588, 3)
