# Numpy

Материалы:
* https://numpy.org/doc/stable/user/index.html
* https://numpy.org/doc/stable/reference/index.html

## Задачи для совместного разбора

1. Сгенерировать двухмерный массив `arr` размерности (4, 7), состоящий из случайных действительных чисел, равномерно распределенных в диапазоне от 0 до 20. Нормализовать значения массива с помощью преобразования вида  $𝑎𝑥+𝑏$  так, что после нормализации максимальный элемент масcива будет равен 1.0, минимальный 0.0

In [None]:
import numpy as np

In [None]:
np.random.randint(0, 20, size=(4, 7))

2. Создать матрицу 8 на 10 из случайных целых (используя модуль `numpy.random`) чисел из диапозона от 0 до 10 и найти в ней строку (ее индекс и вывести саму строку), в которой сумма значений минимальна.

In [None]:
np.random.randint(0, 10, size=(8, 10))

3. Найти евклидово расстояние между двумя одномерными векторами одинаковой размерности.

In [None]:
import matplotlib.pyplot as pl
from mpl_toolkits.mplot3d import Axes3D

4. Решить матричное уравнение `A*X*B=-C` - найти матрицу `X`. Где `A = [[-1, 2, 4], [-3, 1, 2], [-3, 0, 1]]`, `B=[[3, -1], [2, 1]]`, `C=[[7, 21], [11, 8], [8, 4]]`.

## Лабораторная работа №1

Замечание: при решении данных задач не подразумевается использования циклов или генераторов Python, если в задании не сказано обратного. Решение должно опираться на использования функционала библиотеки `numpy`.

1. Файл `minutes_n_ingredients.csv` содержит информацию об идентификаторе рецепта, времени его выполнения в минутах и количестве необходимых ингредиентов. Считайте данные из этого файла в виде массива `numpy` типа `int32`, используя `np.loadtxt`. Выведите на экран первые 5 строк массива.

In [None]:
recipes = np.loadtxt("../v1/data/minutes_n_ingredients.csv", dtype=np.int32, skiprows=1, delimiter=',')

print("ID".center(13), "Minutes".center(13), "Ingridients")
for i in recipes[:5]:
    print(str(i[0]).center(13) + str(i[1]).center(13) + str(i[2]).center(13))

2. Вычислите среднее значение, минимум, максимум и медиану по каждому из столбцов, кроме первого.

In [None]:
for i in range(1, recipes.shape[1]):
    print(f"Значения {i + 1} столбца:")
    print(f"Среднее значение - {np.mean(recipes[:, i])}")
    print(f"Минимальное значение - {recipes[:, i].min()}")
    print(f"Максимальное значение - {recipes[:, i].max()}")
    print(f"Медиана - {np.median(recipes[:, i])}")
    print()

3. Ограничьте сверху значения продолжительности выполнения рецепта значением квантиля $q_{0.75}$. 

In [None]:
border = np.quantile(recipes[:, 1], 0.75, axis=0)

recipes = recipes[recipes[:, 1] < border]
# One more solution
#recipes = np.delete(recipes, np.where(recipes[:,1] > border), axis=0)

# P.S. Дальше работаем с уменьшенным массивом
print(f"Обновленный массив данных на {len(recipes)} записей")
print("ID".center(13), "Minutes".center(13), "Ingridients")
for i in recipes:
    print(str(i[0]).center(13) + str(i[1]).center(13) + str(i[2]).center(13))

4. Посчитайте, для скольких рецептов указана продолжительность, равная нулю. Замените для таких строк значение в данном столбце на 1.

In [None]:
print(f"Количество быстрых рецептов\nДо: {np.count_nonzero(recipes == 0)}")

for i in range(len(recipes)):
    if recipes[i, 1] == 0:
        recipes[i, 1] = 1
print(f"После: {np.count_nonzero(recipes == 0)}")

5. Посчитайте, сколько уникальных рецептов находится в датасете.

In [None]:
# КХМ... Смысл задания?
print(f"{len(np.unique(recipes, axis=0))} - кол-во уникальных рецептов из {len(recipes)}")

6. Сколько и каких различных значений кол-ва ингредиентов присутвует в рецептах из датасета?

In [None]:
value, cnts = np.unique(recipes[:, 2], return_counts=True)
print("Ингредиенты", "Количество".center(11))
print("\n".join(f"{i[0]:^11} {i[1]:^11}" for i in dict(zip(value, cnts)).items()))

7. Создайте версию массива, содержащую информацию только о рецептах, состоящих не более чем из 5 ингредиентов.

In [None]:
small_recipes = recipes[recipes[:, 2] <= 5]

print("ID".center(13), "Minutes".center(13), "Ingridients")
for i in small_recipes:
    print(str(i[0]).center(13) + str(i[1]).center(13) + str(i[2]).center(13))

8. Для каждого рецепта посчитайте, сколько в среднем ингредиентов приходится на одну минуту рецепта. Найдите максимальное значение этой величины для всего датасета

In [None]:
for recipe in recipes: 
    print(f"Для рецепта {recipe[0]} количество ингредиентов на минуту = {recipe[2] / recipe[1]:.3f}")

9. Вычислите среднее количество ингредиентов для топ-100 рецептов с наибольшей продолжительностью

In [None]:
print("Среднее кол-во ингредиентов в 100 самых долгих рецептах:",
      np.mean(recipes[np.argsort(recipes[:, 1])][:-101:-1], axis=0)[2])

10. Выберите случайным образом и выведите информацию о 10 различных рецептах

In [None]:
random_recipes = recipes[np.random.choice(recipes.shape[0], 10)]

print("ID".center(13), "Minutes".center(13), "Ingridients")
for i in random_recipes:
    print(str(i[0]).center(13) + str(i[1]).center(13) + str(i[2]).center(13))

11. Выведите процент рецептов, кол-во ингредиентов в которых меньше среднего.

In [None]:
aver_ingredients = np.mean(recipes, axis=0, keepdims=True)[0, 2]

cnt = 0
for receip in recipes:
    if receip[2] < aver_ingredients:
        cnt += 1
        
print(f"Искомый процент: {cnt / len(recipes):.1%}")

12. Назовем "простым" такой рецепт, длительность выполнения которого не больше 20 минут и кол-во ингредиентов в котором не больше 5. Создайте версию датасета с дополнительным столбцом, значениями которого являются 1, если рецепт простой, и 0 в противном случае.

In [None]:
new_column = np.where((recipes[:, 1] <= 20) & (recipes[:, 2] <= 5), 1, 0)

increased_recipes = np.column_stack((recipes, new_column))


print("ID".center(13), "Minutes".center(13), "Ingridients", "Status".center(12))
for i in increased_recipes:
    print(str(i[0]).center(13) + str(i[1]).center(13) + str(i[2]).center(13) + str(i[3]).center(13))

13. Выведите процент "простых" рецептов в датасете

In [None]:
print(f"Процент простых рецептов составляет: {np.count_nonzero(increased_recipes[:, 3] == 1) / len(recipes):.1%}")

14. Разделим рецепты на группы по следующему правилу. Назовем рецепты короткими, если их продолжительность составляет менее 10 минут; стандартными, если их продолжительность составляет более 10, но менее 20 минут; и длинными, если их продолжительность составляет не менее 20 минут. Создайте трехмерный массив, где нулевая ось отвечает за номер группы (короткий, стандартный или длинный рецепт), первая ось - за сам рецепт и вторая ось - за характеристики рецепта. Выберите максимальное количество рецептов из каждой группы таким образом, чтобы было возможно сформировать трехмерный массив. Выведите форму полученного массива.

In [None]:
short_recipes = recipes[np.where(recipes[:, 1] <= 10)]
medium_recipes = recipes[np.where((recipes[:, 1] > 10) & (recipes[:, 1] <= 20))]
long_recipes = recipes[np.where(recipes[:, 1] > 20)]
recipes_dict = {0:short_recipes, 1:medium_recipes, 2:long_recipes}

first_axis_length = max(list(map(len, recipes_dict.values())))

grouped_recipes = np.empty((3, first_axis_length, 3))

for ind in range(3):
    grouped_recipes[ind] = np.vstack((recipes_dict[ind], np.zeros((first_axis_length - len(recipes_dict[ind]), 3))))

print("Group".center(13), "ID".center(13), "Minutes".center(13), "Ingridients")
for cnt, j in enumerate(grouped_recipes):
    for i in range(len(j)):
        print(str(cnt).center(13) + str(j[i][0]).center(13) + str(j[i][1]).center(13) + str(j[i][2]).center(13))