# Numpy

Полезные ссылки
* https://www.kaggle.com/code/landlord/numpy-tutorial
* https://numpy.org/doc/stable/user/index.html
* https://numpy.org/doc/stable/reference/index.html
* https://www.kaggle.com/code/themlphdstudent/learn-numpy-numpy-50-exercises-and-solution

## Задачи

Замечание: при решении данных задач не подразумевается использования циклов или генераторов Python. Решение должно опираться исключительно на использования функционала библиотеки `numpy`.

1. Файл `minutes_n_ingredients.csv` содержит информацию об идентификаторе рецепта, времени его выполнения в минутах и количестве необходимых ингредиентов. Считайте данные из этого файла в виде массива `numpy` Выведите на экран первые 10 строк массива.

In [116]:
import numpy as np

file_path = 'data/minutes_n_ingredients.csv'
data = np.genfromtxt(file_path, delimiter=',', skip_header=1)

data[:10]


array([[1.27244e+05, 6.00000e+01, 1.60000e+01],
       [2.38910e+04, 2.50000e+01, 7.00000e+00],
       [9.47460e+04, 1.00000e+01, 6.00000e+00],
       [6.76600e+04, 5.00000e+00, 6.00000e+00],
       [1.57911e+05, 6.00000e+01, 1.40000e+01],
       [1.52828e+05, 4.00000e+01, 7.00000e+00],
       [3.39410e+04, 1.80000e+01, 9.00000e+00],
       [4.46597e+05, 1.50000e+01, 5.00000e+00],
       [3.66174e+05, 7.00000e+00, 9.00000e+00],
       [7.42050e+04, 2.00000e+01, 7.00000e+00]])

2. Вычислите среднее значение, минимум, максимум и медиану по каждому из столбцов, кроме первого.

In [117]:
file_path = 'data/minutes_n_ingredients.csv'
data = np.genfromtxt(file_path, delimiter=',', skip_header=1)

selected_columns = data[:, 1:]
print('---')
mean_columns = np.mean(selected_columns, axis=0)
max_columns = np.max(selected_columns, axis=0)
min_columns = np.min(selected_columns, axis=0)
median_columns = np.median(selected_columns, axis=0)

print(mean_columns)
print(max_columns)
print(min_columns)
print(median_columns)

---
[2.16010017e+04 9.05528000e+00]
[2.14748365e+09 3.90000000e+01]
[0. 1.]
[40.  9.]


3. Посчитайте, для скольких рецептов указана продолжительность, равная нулю. Замените для таких строк значение в данном столбце на 1.

In [118]:
file_path = 'data/minutes_n_ingredients.csv'
data = np.genfromtxt(file_path, delimiter=',', skip_header=1)

zero_duration_count = np.sum(data[:, 1] == 0)

data[data[:, 1] == 0, 1] = 1

zero_duration_count

479

4. Посчитайте, сколько уникальных рецептов находится в датасете.

In [119]:
file_path = 'data/minutes_n_ingredients.csv'
data = np.genfromtxt(file_path, delimiter=',', skip_header=1)

unique_recipes_count = len(np.unique(data[:, 0]))

unique_recipes_count

100000

5. Сколько и каких различных значений кол-ва ингредиентов присутвует в рецептах из датасета?

In [120]:
import numpy as np

ingredients = data[:, 2]

unique_ingredients = np.unique(ingredients)

count_unique = len(unique_ingredients)

print(f"Количество уникальных значений: {count_unique}")
print("Уникальные значения:", unique_ingredients)

Количество уникальных значений: 37
Уникальные значения: [ 1.  2.  3.  4.  5.  6.  7.  8.  9. 10. 11. 12. 13. 14. 15. 16. 17. 18.
 19. 20. 21. 22. 23. 24. 25. 26. 27. 28. 29. 30. 31. 32. 33. 34. 35. 37.
 39.]


6. Создайте версию массива, содержащую информацию только о рецептах, состоящих не более чем из 5 ингредиентов.

In [121]:
filtered_data = data[data[:, 2] <= 5]

print(f"Размер нового массива: {filtered_data.shape}")
print("Первые 10 строк нового массива:")
print(filtered_data[:10])


Размер нового массива: (17262, 3)
Первые 10 строк нового массива:
[[4.46597e+05 1.50000e+01 5.00000e+00]
 [2.04134e+05 5.00000e+00 3.00000e+00]
 [2.56230e+04 6.00000e+00 4.00000e+00]
 [4.84223e+05 1.80000e+01 4.00000e+00]
 [6.31500e+04 2.50000e+02 4.00000e+00]
 [7.04530e+04 2.50000e+01 4.00000e+00]
 [6.68420e+04 2.00000e+00 4.00000e+00]
 [3.37928e+05 5.50000e+01 4.00000e+00]
 [1.40245e+05 5.00000e+00 5.00000e+00]
 [7.53130e+04 6.03000e+02 5.00000e+00]]


7. Для каждого рецепта посчитайте, сколько в среднем ингредиентов приходится на одну минуту рецепта. Найдите максимальное значение этой величины для всего датасета

In [122]:
num_ingredients = data[:, 2]
duration = data[:, 1] 

duration[duration == 0] = 1

ingredients_per_minute = num_ingredients / duration

max_ingredients_per_minute = np.max(ingredients_per_minute)

print("Максимальное количество ингредиентов на минуту:", max_ingredients_per_minute)


Максимальное количество ингредиентов на минуту: 24.0


8. Вычислите среднее количество ингредиентов для топ-100 рецептов с наибольшей продолжительностью

In [123]:
num_ingredients = data[:, 2]
duration = data[:, 1]

sorted_indices = np.argsort(duration)[::-1] 

top_100_indices = sorted_indices[:100]

top_100_ingredients = num_ingredients[top_100_indices]

average_ingredients_top_100 = np.mean(top_100_ingredients)

print("Среднее количество ингредиентов для топ-100 рецептов с наибольшей продолжительностью:", average_ingredients_top_100)


Среднее количество ингредиентов для топ-100 рецептов с наибольшей продолжительностью: 6.61


9. Выберите случайным образом и выведите информацию о 10 различных рецептах

In [124]:
num_ingredients = data[:, 2]
duration = data[:, 1]

random_indices = data[np.random.choice(len(data), size=10, replace=False)]
print("---")
print(random_indices)



---
[[2.30436e+05 8.00000e+01 1.40000e+01]
 [3.78119e+05 4.50000e+01 9.00000e+00]
 [1.28560e+05 5.00000e+00 1.00000e+01]
 [3.92209e+05 1.35000e+02 1.10000e+01]
 [2.86586e+05 8.00000e+01 8.00000e+00]
 [3.28141e+05 3.50000e+01 1.30000e+01]
 [3.94638e+05 1.50000e+01 8.00000e+00]
 [2.76111e+05 2.00000e+01 5.00000e+00]
 [1.75619e+05 2.00000e+01 8.00000e+00]
 [1.17820e+04 3.00000e+01 1.10000e+01]]


10. Выведите процент рецептов, кол-во ингредиентов в которых меньше среднего.

In [125]:
ingredients = data[:, 2]

average_ingredients = np.mean(ingredients)

count_less_than_average = np.sum(ingredients < average_ingredients)

percentage_less_than_average = (count_less_than_average / data.shape[0]) * 100

print(f"Процент рецептов, где количество ингредиентов меньше среднего: {percentage_less_than_average:.2f}%")


Процент рецептов, где количество ингредиентов меньше среднего: 58.80%


11. Назовем "простым" такой рецепт, длительность выполнения которого не больше 20 минут и кол-во ингредиентов в котором не больше 5. Создайте версию датасета с дополнительным столбцом, значениями которого являются 1, если рецепт простой, и 0 в противном случае.

In [126]:
ingredients = data[:, 2]

duration = data[:, 1]

simple_recipe_condition = (ingredients <= 5) & (duration <= 20)

simple_recipe_column = simple_recipe_condition.astype(int)

data_with_simple_flag = np.column_stack((data, simple_recipe_column))

print('---')
print(data_with_simple_flag[:5])


---
[[1.27244e+05 6.00000e+01 1.60000e+01 0.00000e+00]
 [2.38910e+04 2.50000e+01 7.00000e+00 0.00000e+00]
 [9.47460e+04 1.00000e+01 6.00000e+00 0.00000e+00]
 [6.76600e+04 5.00000e+00 6.00000e+00 0.00000e+00]
 [1.57911e+05 6.00000e+01 1.40000e+01 0.00000e+00]]


12. Выведите процент "простых" рецептов в датасете

In [127]:
ingredients = data[:, 2]

duration = data[:, 1]

simple_recipe_condition = (ingredients <= 5) & (duration <= 20)

simple_recipe_percentage = np.mean(simple_recipe_condition) * 100

print(f"Процент простых рецептов: {simple_recipe_percentage:.2f}%")


Процент простых рецептов: 9.55%
