# Numpy

Полезные ссылки
* https://www.kaggle.com/code/landlord/numpy-tutorial
* https://numpy.org/doc/stable/user/index.html
* https://numpy.org/doc/stable/reference/index.html
* https://www.kaggle.com/code/themlphdstudent/learn-numpy-numpy-50-exercises-and-solution

## Задачи

Замечание: при решении данных задач не подразумевается использования циклов или генераторов Python. Решение должно опираться исключительно на использования функционала библиотеки `numpy`.

In [1]:
import numpy as np

1. Файл `minutes_n_ingredients.csv` содержит информацию об идентификаторе рецепта, времени его выполнения в минутах и количестве необходимых ингредиентов. Считайте данные из этого файла в виде массива `numpy` Выведите на экран первые 10 строк массива.

In [2]:
data = np.genfromtxt('minutes_n_ingredients.csv', delimiter=',', skip_header=1)
print('---')
print(data[:10])

---
[[1.27244e+05 6.00000e+01 1.60000e+01]
 [2.38910e+04 2.50000e+01 7.00000e+00]
 [9.47460e+04 1.00000e+01 6.00000e+00]
 [6.76600e+04 5.00000e+00 6.00000e+00]
 [1.57911e+05 6.00000e+01 1.40000e+01]
 [1.52828e+05 4.00000e+01 7.00000e+00]
 [3.39410e+04 1.80000e+01 9.00000e+00]
 [4.46597e+05 1.50000e+01 5.00000e+00]
 [3.66174e+05 7.00000e+00 9.00000e+00]
 [7.42050e+04 2.00000e+01 7.00000e+00]]


2. Вычислите среднее значение, минимум, максимум и медиану по каждому из столбцов, кроме первого.

In [3]:
print('---')
updated_data = data[:, 1:]
mean = np.mean(updated_data, axis=0)
min_ = np.min(updated_data, axis=0)
max_ = np.max(updated_data, axis=0)
median = np.median(updated_data, axis=0)
print(f'Mean: {mean}')
print(f'Min: {min_}')
print(f'Max: {max_}')
print(f'Median: {median}')

---
Mean: [2.16010017e+04 9.05528000e+00]
Min: [0. 1.]
Max: [2.14748365e+09 3.90000000e+01]
Median: [40.  9.]


3. Посчитайте, для скольких рецептов указана продолжительность, равная нулю. Замените для таких строк значение в данном столбце на 1.

In [4]:
print('---')
zero_cnt = np.sum(data[:, 1] == 0)
print(f'Amount of 0: {zero_cnt}')
data[:, 1][data[:, 1] == 0] = 1
zero_cnt_updated = np.sum(data[:, 1] == 0)
print(f'Amount of 0: {zero_cnt_updated}')

---
Amount of 0: 479
Amount of 0: 0


4. Посчитайте, сколько уникальных рецептов находится в датасете.

In [5]:
unique_recipes = np.unique(data[:, 0])
print(f'Unique recipes: {len(unique_recipes)}')

Unique recipes: 100000


5. Сколько и каких различных значений кол-ва ингредиентов присутвует в рецептах из датасета?

In [6]:
unique_ingredients = np.unique(data[:, 2])
print(f'Unique ingredients: {len(unique_ingredients)}')
print(f'Unique amount of ingredients: {unique_ingredients}')

Unique ingredients: 37
Unique amount of ingredients: [ 1.  2.  3.  4.  5.  6.  7.  8.  9. 10. 11. 12. 13. 14. 15. 16. 17. 18.
 19. 20. 21. 22. 23. 24. 25. 26. 27. 28. 29. 30. 31. 32. 33. 34. 35. 37.
 39.]


6. Создайте версию массива, содержащую информацию только о рецептах, состоящих не более чем из 5 ингредиентов.

In [7]:
print('---')
recipes_less_5 = data[:][data[:, 2] <= 5]
print(f'Recipes have less than 5 ingredients: {recipes_less_5[:10]}')

---
Recipes have less than 5 ingredients: [[4.46597e+05 1.50000e+01 5.00000e+00]
 [2.04134e+05 5.00000e+00 3.00000e+00]
 [2.56230e+04 6.00000e+00 4.00000e+00]
 [4.84223e+05 1.80000e+01 4.00000e+00]
 [6.31500e+04 2.50000e+02 4.00000e+00]
 [7.04530e+04 2.50000e+01 4.00000e+00]
 [6.68420e+04 2.00000e+00 4.00000e+00]
 [3.37928e+05 5.50000e+01 4.00000e+00]
 [1.40245e+05 5.00000e+00 5.00000e+00]
 [7.53130e+04 6.03000e+02 5.00000e+00]]


7. Для каждого рецепта посчитайте, сколько в среднем ингредиентов приходится на одну минуту рецепта. Найдите максимальное значение этой величины для всего датасета

In [8]:
print('---')
avg_ingredients_per_minute = data[:, 2] / data[:, 1]
print(f'Ingredients per min: {avg_ingredients_per_minute[:10]}')
print(f'Max avg: {np.max(avg_ingredients_per_minute)}')

---
Ingredients per min: [0.26666667 0.28       0.6        1.2        0.23333333 0.175
 0.5        0.33333333 1.28571429 0.35      ]
Max avg: 24.0


8. Вычислите среднее количество ингредиентов для топ-100 рецептов с наибольшей продолжительностью

In [9]:
print('---')
top_100_sorted = data[data[:, 1].argsort()][-100:]
avg_ingredients_top_100 = np.mean(top_100_sorted[:, 2], axis=0)
print(f'Top 100 recipes: {top_100_sorted[:10]}')
print(f'Average ingredient count per minute for top 100: {avg_ingredients_top_100}')

---
Top 100 recipes: [[2.95040e+04 1.00950e+04 8.00000e+00]
 [2.52450e+05 1.01000e+04 4.00000e+00]
 [8.93390e+04 1.01050e+04 8.00000e+00]
 [3.69728e+05 1.01100e+04 7.00000e+00]
 [4.17539e+05 1.01100e+04 6.00000e+00]
 [1.99925e+05 1.01400e+04 7.00000e+00]
 [5.54110e+04 1.03200e+04 8.00000e+00]
 [2.58854e+05 1.03200e+04 1.30000e+01]
 [5.77210e+04 1.04400e+04 1.20000e+01]
 [1.06876e+05 1.15200e+04 8.00000e+00]]
Average ingredient count per minute for top 100: 6.63


9. Выберите случайным образом и выведите информацию о 10 различных рецептах

In [10]:
rng = np.random.default_rng()
print(f'10 random recipes: {data[rng.integers(len(data), size=10)]}')

10 random recipes: [[1.81129e+05 1.82000e+02 3.00000e+00]
 [2.19986e+05 4.50000e+01 8.00000e+00]
 [1.79943e+05 4.35000e+02 1.10000e+01]
 [3.95487e+05 5.00000e+01 1.00000e+01]
 [1.29306e+05 1.00000e+01 4.00000e+00]
 [1.43520e+05 2.00000e+01 1.00000e+01]
 [4.64647e+05 3.30000e+01 7.00000e+00]
 [1.90441e+05 6.00000e+01 6.00000e+00]
 [1.15602e+05 2.85000e+02 4.00000e+00]
 [5.18620e+04 8.00000e+01 2.20000e+01]]


10. Выведите процент рецептов, кол-во ингредиентов в которых меньше среднего.

In [11]:
avg_ingredients = np.mean(data[:, 2], axis=0)
print(f'Avg ingredients: {avg_ingredients}')
less_than_avg_ingredients = data[data[:, 2] < avg_ingredients]
print(f'Less than avg ingredients: {len(less_than_avg_ingredients) / len(data) * 100}%')

Avg ingredients: 9.05528
Less than avg ingredients: 58.802%


11. Назовем "простым" такой рецепт, длительность выполнения которого не больше 20 минут и кол-во ингредиентов в котором не больше 5. Создайте версию датасета с дополнительным столбцом, значениями которого являются 1, если рецепт простой, и 0 в противном случае.

In [12]:
print('---')
is_simple = (data[:, 1] <= 20) & (data[:, 2] <= 5)
data = np.insert(data, 3, is_simple.astype(int), axis=1)
print(f'After adding column: {data[:10]}')

---
After adding column: [[1.27244e+05 6.00000e+01 1.60000e+01 0.00000e+00]
 [2.38910e+04 2.50000e+01 7.00000e+00 0.00000e+00]
 [9.47460e+04 1.00000e+01 6.00000e+00 0.00000e+00]
 [6.76600e+04 5.00000e+00 6.00000e+00 0.00000e+00]
 [1.57911e+05 6.00000e+01 1.40000e+01 0.00000e+00]
 [1.52828e+05 4.00000e+01 7.00000e+00 0.00000e+00]
 [3.39410e+04 1.80000e+01 9.00000e+00 0.00000e+00]
 [4.46597e+05 1.50000e+01 5.00000e+00 1.00000e+00]
 [3.66174e+05 7.00000e+00 9.00000e+00 0.00000e+00]
 [7.42050e+04 2.00000e+01 7.00000e+00 0.00000e+00]]


12. Выведите процент "простых" рецептов в датасете

In [13]:
print('---')
is_simple_new = (data[:, 1] <= 20) & (data[:, 2] <= 5)
is_simple_count = np.count_nonzero(is_simple)
print(f"Percentage of simple recipies: {is_simple_count/data.shape[0] * 100}%")

---
Percentage of simple recipies: 9.552%
