# Numpy

Материалы:
* Макрушин С.В. "Лекция 1: Библиотека Numpy"
* https://numpy.org/doc/stable/user/index.html
* https://numpy.org/doc/stable/reference/index.html

## Задачи для совместного разбора

1. Сгенерировать двухмерный массив `arr` размерности (4, 7), состоящий из случайных действительных чисел, равномерно распределенных в диапазоне от 0 до 20. Нормализовать значения массива с помощью преобразования вида  $𝑎𝑥+𝑏$  так, что после нормализации максимальный элемент масcива будет равен 1.0, минимальный 0.0

2. Создать матрицу 8 на 10 из случайных целых (используя модуль `numpy.random`) чисел из диапозона от 0 до 10 и найти в ней строку (ее индекс и вывести саму строку), в которой сумма значений минимальна.

3. Найти евклидово расстояние между двумя одномерными векторами одинаковой размерности.

4. Решить матричное уравнение `A*X*B=-C` - найти матрицу `X`. Где `A = [[-1, 2, 4], [-3, 1, 2], [-3, 0, 1]]`, `B=[[3, -1], [2, 1]]`, `C=[[7, 21], [11, 8], [8, 4]]`.

## Лабораторная работа №1

Замечание: при решении данных задач не подразумевается использования циклов или генераторов Python, если в задании не сказано обратного. Решение должно опираться на использования функционала библиотеки `numpy`.

1. Файл `minutes_n_ingredients.csv` содержит информацию об идентификаторе рецепта, времени его выполнения в минутах и количестве необходимых ингредиентов. Считайте данные из этого файла в виде массива `numpy` типа `int32`, используя `np.loadtxt`. Выведите на экран первые 5 строк массива.

In [1]:
import numpy as np
data = np.loadtxt('minutes_n_ingredients.csv', delimiter=',', dtype='int32',skiprows=1)
print(data[:5])


[[127244     60     16]
 [ 23891     25      7]
 [ 94746     10      6]
 [ 67660      5      6]
 [157911     60     14]]


2. Вычислите среднее значение, минимум, максимум и медиану по каждому из столбцов, кроме первого.

In [5]:
print('Среднее значение: ', np.mean(data[:, 1:], axis=0))

Среднее значение:  [2.16010017e+04 9.05528000e+00]


3. Ограничьте сверху значения продолжительности выполнения рецепта значением квантиля $q_{0.75}$.

In [7]:
q_75 = np.quantile(data[:, 1], 0.75)
q_75

65.0

4. Посчитайте, для скольких рецептов указана продолжительность, равная нулю. Замените для таких строк значение в данном столбце на 1.

In [8]:
zero_duration = data[data[:, 1] == 0]
zero_duration

array([[9325,    0,   10],
       [2828,    0,    8],
       [8008,    0,   11],
       ...,
       [3383,    0,    7],
       [2778,    0,   11],
       [4747,    0,    9]], dtype=int32)

5. Посчитайте, сколько уникальных рецептов находится в датасете.

In [9]:
unique_recipes = np.unique(data[:, 0])
unique_recipes

array([    38,     41,     43, ..., 537458, 537485, 537671], dtype=int32)

6. Сколько и каких различных значений кол-ва ингредиентов присутвует в рецептах из датасета?

In [10]:
unique_ingredients = np.unique(data[:, 2])
unique_ingredients

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16, 17,
       18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34,
       35, 37, 39], dtype=int32)

7. Создайте версию массива, содержащую информацию только о рецептах, состоящих не более чем из 5 ингредиентов.

In [13]:
data_5_ingredients = data[data[:, 2] <= 5]
data_5_ingredients

array([[446597,     15,      5],
       [204134,      5,      3],
       [ 25623,      6,      4],
       ...,
       [ 52088,     60,      5],
       [128811,     15,      4],
       [370915,      5,      4]], dtype=int32)

8. Для каждого рецепта посчитайте, сколько в среднем ингредиентов приходится на одну минуту рецепта. Найдите максимальное значение этой величины для всего датасета

In [16]:
def get_ingredients_per_minute(row):
    return row[2] / row[1]
get_ingredients_per_minute(data[0])

0.26666666666666666

9. Вычислите среднее количество ингредиентов для топ-100 рецептов с наибольшей продолжительностью

In [17]:
top_100 = data[np.argsort(data[:, 1])[-100:]]
top_100

array([[    116645,      10095,          6],
       [    252450,      10100,          4],
       [     89339,      10105,          8],
       [    369728,      10110,          7],
       [    417539,      10110,          6],
       [    199925,      10140,          7],
       [    258854,      10320,         13],
       [     55411,      10320,          8],
       [     57721,      10440,         12],
       [    106876,      11520,          8],
       [    116809,      11521,          3],
       [    164029,      11550,         14],
       [    298229,      11565,          8],
       [     64793,      14405,          3],
       [    230796,      14420,          8],
       [    453387,      14420,          8],
       [    269245,      14425,          5],
       [    266032,      14430,          8],
       [     26995,      14450,         17],
       [    233539,      14460,         10],
       [    197469,      14460,         13],
       [    443929,      15880,          5],
       [  

10. Выберите случайным образом и выведите информацию о 10 различных рецептах

In [12]:
random_indices = np.random.choice(data.shape[0], size=10, replace=False)
for index in random_indices:
    recipe_id = int(data[index, 0])
    minutes = int(data[index, 1])
    ingredients = int(data[index, 2])
    print(f'Recipe ID: {recipe_id}, Minutes: {minutes}, Ingredients: {ingredients}')

Recipe ID: 140994, Minutes: 30, Ingredients: 14
Recipe ID: 455949, Minutes: 25, Ingredients: 6
Recipe ID: 43894, Minutes: 55, Ingredients: 6
Recipe ID: 424500, Minutes: 55, Ingredients: 14
Recipe ID: 418145, Minutes: 270, Ingredients: 9
Recipe ID: 222093, Minutes: 30, Ingredients: 11
Recipe ID: 210166, Minutes: 190, Ingredients: 8
Recipe ID: 488497, Minutes: 25, Ingredients: 4
Recipe ID: 413514, Minutes: 55, Ingredients: 10
Recipe ID: 182637, Minutes: 35, Ingredients: 11


11. Выведите процент рецептов, кол-во ингредиентов в которых меньше среднего.

In [20]:
data[data[:, 2] < np.mean(data[:, 2])].shape[0] / data.shape[0]

0.58802

12. Назовем "простым" такой рецепт, длительность выполнения которого не больше 20 минут и кол-во ингредиентов в котором не больше 5. Создайте версию датасета с дополнительным столбцом, значениями которого являются 1, если рецепт простой, и 0 в противном случае.

In [26]:
simple = ((data[:, 1] <= 20) & (data[:, 2] <= 5)).astype(int)
data = np.column_stack((data, simple))
print(data[:5])

[[127244     60     16      0]
 [ 23891     25      7      0]
 [ 94746     10      6      0]
 [ 67660      5      6      0]
 [157911     60     14      0]]


13. Выведите процент "простых" рецептов в датасете

In [27]:
simple_percent = simple.mean() * 100
print(f'Процент "простых" рецептов: {simple_percent:.2f}%')


Процент "простых" рецептов: 9.55%


14. Разделим рецепты на группы по следующему правилу. Назовем рецепты короткими, если их продолжительность составляет менее 10 минут; стандартными, если их продолжительность составляет более 10, но менее 20 минут; и длинными, если их продолжительность составляет не менее 20 минут. Создайте трехмерный массив, где нулевая ось отвечает за номер группы (короткий, стандартный или длинный рецепт), первая ось - за сам рецепт и вторая ось - за характеристики рецепта. Выберите максимальное количество рецептов из каждой группы таким образом, чтобы было возможно сформировать трехмерный массив. Выведите форму полученного массива.

In [14]:
import pandas as pd
import numpy as np

# загрузка данных из файла
df = pd.read_csv('minutes_n_ingredients.csv', names=['id', 'minutes', 'ingredients'])

# создание нового столбца с названиями групп
conditions = [
    df['minutes'] < 10,
    (df['minutes'] >= 10) & (df['minutes'] < 20),
    df['minutes'] >= 20
]
choices = ['short', 'standard', 'long']
df['group'] = np.select(conditions, choices)

# группировка и выбор максимального количества рецептов из каждой группы
max_count = df.groupby('group').size().min()
df = df.groupby('group').apply(lambda x: x.sample(n=max_count)).reset_index(drop=True)

# преобразование в трехмерный массив
array = df[['id', 'minutes', 'ingredients']].to_numpy().reshape((3, max_count, 3))

# вывод формы массива
print(array.shape)


(3, 7588, 3)
