In [1]:
import numpy as np

In [3]:
data = np.loadtxt('minutes_n_ingredients.csv', delimiter=',', dtype=np.int32)

In [35]:
print(data[:5]) #1

[[127244     60     16]
 [ 23891     25      7]
 [ 94746     10      6]
 [ 67660      5      6]
 [157911     60     14]]


In [22]:
mean = np.mean(data[:, 1:], axis=0)
mi = np.min(data[:, 1:], axis=0)
ma = np.max(data[:, 1:], axis=0)
median = np.median(data[:, 1:], axis=0)

In [24]:
print(mean)  #2
print(mi)
print(ma)
print(median)

[2.16010017e+04 9.05528000e+00]
[0 1]
[2147483647         39]
[40.  9.]


In [40]:
# Вычисление значения квантиля q0.75 для продолжительности выполнения рецепта
quantile_75 = np.quantile(data[:, 1], 0.75)
print(quantile_75)
# Ограничение сверху значений продолжительности выполнения рецепта
data[:, 1] = np.minimum(data[:, 1], quantile_75)
# Вывод первых 5 строк массива после ограничения
print(data[:5])    #3

65.0
[[127244     60     16]
 [ 23891     25      7]
 [ 94746     10      6]
 [ 67660      5      6]
 [157911     60     14]]


In [37]:
zero_duration_count = np.sum(data[:, 1] == 0) #4
print("Количество рецептов с продолжительностью выполнения, равной нулю:", zero_duration_count) #4

Количество рецептов с продолжительностью выполнения, равной нулю: 479


In [38]:
# Извлечение уникальных идентификаторов рецептов
unique_recipes = np.unique(data[:, 0])

# Подсчет количества уникальных рецептов
unique_recipes_count = len(unique_recipes)

# Вывод количества уникальных рецептов
print("Количество уникальных рецептов в датасете:", unique_recipes_count) #5

Количество уникальных рецептов в датасете: 100000


In [41]:
# Извлечение уникальных значений количества ингредиентов
unique_ingredient_counts = np.unique(data[:, 1])

# Подсчет количества различных значений количества ингредиентов
different_ingredient_count = len(unique_ingredient_counts)

# Вывод количества и различных значений количества ингредиентов
print("Различных значений количества ингредиентов:", different_ingredient_count)
print("Уникальные значения количества ингредиентов:", unique_ingredient_counts) #6


Различных значений количества ингредиентов: 66
Уникальные значения количества ингредиентов: [ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47
 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65]


In [42]:
# Создание нового массива, содержащего информацию только о рецептах с не более чем 5 ингредиентами
filtered_data = data[data[:, 1] <= 5]

# Сохранение отфильтрованных данных в новом файле
np.savetxt('filtered_recipes.csv', filtered_data, fmt='%d', delimiter=',')

# Вывод информации о количестве отфильтрованных рецептов
print("Количество рецептов, состоящих не более чем из 5 ингредиентов:", len(filtered_data)) #7

Количество рецептов, состоящих не более чем из 5 ингредиентов: 6343


In [43]:
# Вычисление среднего количества ингредиентов на одну минуту для каждого рецепта
ingredients_per_minute = data[:, 1] / data[:, 0]

# Нахождение максимального значения среднего количества ингредиентов на одну минуту
max_avg_ingredients_per_minute = np.max(ingredients_per_minute)

# Вывод максимального значения этой величины для всего датасета
print("Максимальное значение среднего количества ингредиентов на одну минуту:", max_avg_ingredients_per_minute) #8


Максимальное значение среднего количества ингредиентов на одну минуту: 1.7105263157894737


In [44]:
# Сортировка данных по продолжительности приготовления в убывающем порядке
sorted_data = data[data[:, 0].argsort()][::-1]

# Выбор топ-100 рецептов с наибольшей продолжительностью
top_100_recipes = sorted_data[:100]

# Вычисление среднего количества ингредиентов для топ-100 рецептов
mean_ingredients_top_100 = np.mean(top_100_recipes[:, 1])

# Вывод среднего количества ингредиентов для топ-100 рецептов
print("Среднее количество ингредиентов для топ-100 рецептов с наибольшей продолжительностью:", mean_ingredients_top_100) #9

Среднее количество ингредиентов для топ-100 рецептов с наибольшей продолжительностью: 49.17


In [45]:
# Подсчет общего количества рецептов в датасете
total_recipes = len(data)

# Подсчет количества "простых" рецептов (с не более чем 5 ингредиентами)
simple_recipes_count = len(data[data[:, 1] <= 5])

# Вычисление процента "простых" рецептов
percent_simple_recipes = (simple_recipes_count / total_recipes) * 100

# Вывод процента "простых" рецептов в датасете
print(f"Процент 'простых' рецептов в датасете: {percent_simple_recipes:.2f}%") # 13

Процент 'простых' рецептов в датасете: 6.34%


In [47]:
# Выбор случайных индексов для 10 различных рецептов
random_indices = np.random.choice(len(data), 10, replace=False)

# Информация о выбранных случайным образом рецептах
for index in random_indices:
    recipe = data[index]
    print(f"Рецепт {index + 1}:")
    print("Продолжительность приготовления:", recipe[0], "мин.")
    print("Количество ингредиентов:", recipe[1])
    print("Информация о рецепте (если есть):", recipe[2])
    print()  #10

Рецепт 85476:
Продолжительность приготовления: 318099 мин.
Количество ингредиентов: 30
Информация о рецепте (если есть): 5

Рецепт 98264:
Продолжительность приготовления: 101439 мин.
Количество ингредиентов: 30
Информация о рецепте (если есть): 5

Рецепт 13516:
Продолжительность приготовления: 169910 мин.
Количество ингредиентов: 50
Информация о рецепте (если есть): 10

Рецепт 47315:
Продолжительность приготовления: 476084 мин.
Количество ингредиентов: 65
Информация о рецепте (если есть): 11

Рецепт 50394:
Продолжительность приготовления: 363874 мин.
Количество ингредиентов: 35
Информация о рецепте (если есть): 14

Рецепт 99393:
Продолжительность приготовления: 475148 мин.
Количество ингредиентов: 55
Информация о рецепте (если есть): 19

Рецепт 31908:
Продолжительность приготовления: 293466 мин.
Количество ингредиентов: 65
Информация о рецепте (если есть): 10

Рецепт 66928:
Продолжительность приготовления: 375049 мин.
Количество ингредиентов: 10
Информация о рецепте (если есть): 10

Ре

In [48]:
# Вычисление среднего количества ингредиентов для всех рецептов
mean_ingredients = np.mean(data[:, 1])

# Подсчет количества рецептов, количество ингредиентов в которых меньше среднего значения
less_than_mean_count = len(data[data[:, 1] < mean_ingredients])

# Вычисление процента рецептов, количество ингредиентов в которых меньше среднего значения
percent_less_than_mean = (less_than_mean_count / len(data)) * 100

# Вывод процента таких рецептов
print(f"Процент рецептов, количество ингредиентов в которых меньше среднего: {percent_less_than_mean:.2f}%") #11

Процент рецептов, количество ингредиентов в которых меньше среднего: 49.25%


In [49]:
# Проверка условий для каждого рецепта и создание нового столбца с дополнительными значениями
simple_recipe = np.where((data[:, 0] <= 20) & (data[:, 1] <= 5), 1, 0)

# Добавление нового столбца к исходному массиву
data_with_simple_recipe = np.column_stack((data, simple_recipe))

# Сохранение нового датасета с дополнительным столбцом
np.savetxt('minutes_n_ingredients_with_simple_recipe.csv', data_with_simple_recipe, delimiter=',', fmt='%d') #12

In [51]:
# Разделение рецептов на группы
short_recipes = data[data[:, 0] < 10]
standard_recipes = data[(data[:, 0] >= 10) & (data[:, 0] < 20)]
long_recipes = data[data[:, 0] >= 20]

# Определение максимального количества рецептов из каждой группы
max_short = min(len(short_recipes), len(standard_recipes), len(long_recipes))

# Выбор нужного количества рецептов из каждой группы
short_recipes = short_recipes[:max_short]
standard_recipes = standard_recipes[:max_short]
long_recipes = long_recipes[:max_short]

# Создание трехмерного массива
recipes_3d = np.array([short_recipes, standard_recipes, long_recipes])

# Вывод формы полученного массива
print(f"Форма полученного трехмерного массива: {recipes_3d.shape}") #14

Форма полученного трехмерного массива: (3, 0, 3)
