# Numpy

Материалы:
* Макрушин С.В. "Лекция 1: Библиотека Numpy"
* https://numpy.org/doc/stable/user/index.html
* https://numpy.org/doc/stable/reference/index.html

## Лабораторная работа №1

Замечание: при решении данных задач не подразумевается использования циклов или генераторов Python, если в задании не сказано обратного. Решение должно опираться на использования функционала библиотеки `numpy`.

1. Файл `minutes_n_ingredients.csv` содержит информацию об идентификаторе рецепта, времени его выполнения в минутах и количестве необходимых ингредиентов. Считайте данные из этого файла в виде массива `numpy` типа `int32`, используя `np.loadtxt`. Выведите на экран первые 5 строк массива.

In [1]:
import numpy as np

In [19]:
""" Пропускаем 1 строку, т.к. это заголовки таблицы, и разделяем значения по запятой """
text = np.loadtxt('minutes_n_ingredients.csv', delimiter=',', dtype='int32', skiprows=1)
print(text[:5])

[[127244     60     16]
 [ 23891     25      7]
 [ 94746     10      6]
 [ 67660      5      6]
 [157911     60     14]]


2. Вычислите среднее значение, минимум, максимум и медиану по каждому из столбцов, кроме первого.

In [20]:
minutes = text[:, 1]
ingredients = text[:, 2]

print(np.average(minutes))
print(np.average(ingredients))
print()

print(np.amin(minutes))
print(np.amin(ingredients))
print()

print(np.amax(minutes))
print(np.amax(ingredients))
print()

print(np.median(minutes))
print(np.median(ingredients))

21601.00169
9.05528

0
1

2147483647
39

40.0
9.0


3. Ограничьте сверху значения продолжительности выполнения рецепта значением квантиля $q_{0.75}$. 

In [21]:
""" Здесь и далее в переменной text будут содержаться рецепты, 
значения продолжительности выполнения которых ограничены квантилем """

quant = np.quantile(text[:, 1], 0.75)
text = text[text[:, 1] <= quant]
print(text)

[[127244     60     16]
 [ 23891     25      7]
 [ 94746     10      6]
 ...
 [ 43407     35      7]
 [498432     65     15]
 [370915      5      4]]


4. Посчитайте, для скольких рецептов указана продолжительность, равная нулю. Замените для таких строк значение в данном столбце на 1.

In [22]:
minutes = text[:, 1]
print(np.sum(minutes==0))    # рецепты с продолжительностью, равной 0
text[minutes==0] = 1
print(np.sum(minutes==0))    # считаем снова, чтобы убедиться, что нули поменялись на единицы

479
0


5. Посчитайте, сколько уникальных рецептов находится в датасете.

In [23]:
unique_recipes = np.unique(text, axis=0)
unique_rows, _ = unique_recipes.shape
print(unique_rows)

74983


6. Сколько и каких различных значений кол-ва ингредиентов присутвует в рецептах из датасета?

In [24]:
unique_ingredients = np.unique(text[:, 2])
print(len(unique_ingredients))
print(unique_ingredients)

32
[ 1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
 25 26 27 28 29 30 33 34]


7. Создайте версию массива, содержащую информацию только о рецептах, состоящих не более чем из 5 ингредиентов.

In [25]:
text1 = text[text[:, 2] <= 5]
print(text1)

[[446597     15      5]
 [204134      5      3]
 [ 25623      6      4]
 ...
 [ 52088     60      5]
 [128811     15      4]
 [370915      5      4]]


8. Для каждого рецепта посчитайте, сколько в среднем ингредиентов приходится на одну минуту рецепта. Найдите максимальное значение этой величины для всего датасета

In [26]:
ingredients_avg_minutes = text[:, 2] / text[:, 1]
print(ingredients_avg_minutes.max())

23.0


9. Вычислите среднее количество ингредиентов для топ-100 рецептов с наибольшей продолжительностью

In [27]:
sorted_text = text[text[:, 1].argsort()][::-1]    # сортируем рецепты по убыванию продолжительности
avg_ingredients = np.average(sorted_text[:, 2][:100])
print(avg_ingredients)

10.06


10. Выберите случайным образом и выведите информацию о 10 различных рецептах

In [28]:
print(text[np.random.choice(text.shape[0], 10)])

[[342131     20      9]
 [151372     30      3]
 [ 18541     45      8]
 [280454     45      7]
 [424931     20      7]
 [254573     30      6]
 [ 10433     30     16]
 [386143     40      8]
 [ 56473     50      7]
 [128560      5     10]]


11. Выведите процент рецептов, кол-во ингредиентов в которых меньше среднего.

In [29]:
ingrs = text[:, 2]
avg_ingrs = np.average(ingrs)
less_avg_ingredients = text[ingrs < avg_ingrs]
percent = (len(less_avg_ingredients) / len(text)) * 100
print(round(percent))

53


12. Назовем "простым" такой рецепт, длительность выполнения которого не больше 20 минут и кол-во ингредиентов в котором не больше 5. Создайте версию датасета с дополнительным столбцом, значениями которого являются 1, если рецепт простой, и 0 в противном случае.

In [30]:
simple_recipes = (text[:, 1] <= 20) & (text[:, 2] <= 5)
# если условие выполняется (рецепт "простой"), в 4 столбце будет единица, в противном случае - 0
simple_column = np.where(simple_recipes, 1, 0)
simple_text = np.insert(text, 3, simple_column, axis=1)    # добавим столбец к текущему массиву
print(simple_text)

[[127244     60     16      0]
 [ 23891     25      7      0]
 [ 94746     10      6      0]
 ...
 [ 43407     35      7      0]
 [498432     65     15      0]
 [370915      5      4      1]]


13. Выведите процент "простых" рецептов в датасете

In [31]:
simple_percent = np.average(simple_text[:, 3]) * 100
print(round(simple_percent))

13


14. Разделим рецепты на группы по следующему правилу. Назовем рецепты короткими, если их продолжительность составляет менее 10 минут; стандартными, если их продолжительность составляет более 10, но менее 20 минут; и длинными, если их продолжительность составляет не менее 20 минут. Создайте трехмерный массив, где нулевая ось отвечает за номер группы (короткий, стандартный или длинный рецепт), первая ось - за сам рецепт и вторая ось - за характеристики рецепта. Выберите максимальное количество рецептов из каждой группы таким образом, чтобы было возможно сформировать трехмерный массив. Выведите форму полученного массива.

In [32]:
short = text[text[:, 1] < 10 ]standard = text[(10 <= text[:, 1]) & (text[:, 1] < 20)]long = text[text[:, 1] >= 20]
""" Берём из массивов одинаковые количества рецептов: 
ограничиваем по самой малочисленной группе, чтобы везде было равное кол-во рецептов """
max_recipes = min([len(short), len(standard), len(long)])
short = short[:max_recipes]
standard = standard[:max_recipes]
long = long[:max_recipes]

new_text = np.array([short, standard, long])
print(new_text)
print()
print(new_text.shape)

[[[ 67660      5      6]
  [366174      7      9]
  [204134      5      3]
  ...
  [420725      5      3]
  [     1      1      1]
  [370915      5      4]]

 [[ 94746     10      6]
  [ 33941     18      9]
  [446597     15      5]
  ...
  [  9831     15      7]
  [335859     12     14]
  [256812     10      3]]

 [[127244     60     16]
  [ 23891     25      7]
  [157911     60     14]
  ...
  [321217     65      7]
  [104584     48      8]
  [235518     23      8]]]

(3, 7588, 3)
