# Numpy

Материалы:
* Макрушин С.В. "Лекция 1: Библиотека Numpy"
* https://numpy.org/doc/stable/user/index.html
* https://numpy.org/doc/stable/reference/index.html
* Уэс Маккини. Python и анализ данных

## Задачи для совместного разбора

1. Сгенерировать двухмерный массив `arr` размерности (4, 7), состоящий из случайных действительных чисел, равномерно распределенных в диапазоне от 0 до 20. Нормализовать значения массива с помощью преобразования вида  $𝑎𝑥+𝑏$  так, что после нормализации максимальный элемент масcива будет равен 1.0, минимальный 0.0

2. Создать матрицу 8 на 10 из случайных целых (используя модуль `numpy.random`) чисел из диапозона от 0 до 10 и найти в ней строку (ее индекс и вывести саму строку), в которой сумма значений минимальна.

3. Найти евклидово расстояние между двумя одномерными векторами одинаковой размерности.

4. Решить матричное уравнение `A*X*B=-C` - найти матрицу `X`. Где `A = [[-1, 2, 4], [-3, 1, 2], [-3, 0, 1]]`, `B=[[3, -1], [2, 1]]`, `C=[[7, 21], [11, 8], [8, 4]]`.

In [1]:
import numpy as np

## Лабораторная работа №1

Замечание: при решении данных задач не подразумевается использования циклов или генераторов Python, если в задании не сказано обратного. Решение должно опираться на использования функционала библиотеки `numpy`.

1. Файл `minutes_n_ingredients.csv` содержит информацию об идентификаторе рецепта, времени его выполнения в минутах и количестве необходимых ингредиентов. Считайте данные из этого файла в виде массива `numpy` типа `int32`, используя `np.loadtxt`. Выведите на экран первые 5 строк массива.

In [2]:
columns = np.loadtxt('data/minutes_n_ingredients.csv', max_rows=1, dtype=str, delimiter=',')
data = np.loadtxt('data/minutes_n_ingredients.csv', skiprows=1, dtype=np.int32, delimiter=',')
data[:5]

array([[127244,     60,     16],
       [ 23891,     25,      7],
       [ 94746,     10,      6],
       [ 67660,      5,      6],
       [157911,     60,     14]])

2. Вычислите среднее значение, минимум, максимум и медиану по каждому из столбцов, кроме первого.

In [3]:
means = data[:, 1:].mean(axis=0)
min_ = data[:, 1:].min(axis=0)
max_ = data[:, 1:].max(axis=0)
medians = np.median(data[:, 1:], axis=0)

print(f'Столбцы: {columns[1:]}')
print(f'Средние значения : {means}')
print(f'Минимумы : {min_}')
print(f'Максимумы : {max_}')
print(f'Медианы : {medians}')

Столбцы: ['minutes' 'n_ingredients']
Средние значения : [2.16010017e+04 9.05528000e+00]
Минимумы : [0 1]
Максимумы : [2147483647         39]
Медианы : [40.  9.]


3. Ограничьте сверху значения продолжительности выполнения рецепта значением квантиля $q_{0.75}$. 

In [4]:
data_copy = data.copy()
q_3 = np.quantile(data_copy[:, 1], q=0.75, axis=0)
data_copy[:, 1][data_copy[:, 1] > q_3] = q_3

data_copy

array([[127244,     60,     16],
       [ 23891,     25,      7],
       [ 94746,     10,      6],
       ...,
       [498432,     65,     15],
       [370915,      5,      4],
       [ 81993,     65,     14]])

4. Посчитайте, для скольких рецептов указана продолжительность, равная нулю. Замените для таких строк значение в данном столбце на 1.

In [5]:
data_copy = data.copy()
mask = data_copy[:, 1] == 0

with_zero = np.count_nonzero(mask)
data_copy[:, 1][mask] = 1

print(with_zero)
print(data_copy)

479
[[127244     60     16]
 [ 23891     25      7]
 [ 94746     10      6]
 ...
 [498432     65     15]
 [370915      5      4]
 [ 81993    140     14]]


5. Посчитайте, сколько уникальных рецептов находится в датасете.

In [6]:
u = np.unique(data_copy[:, 1:], axis=0).shape[0]
u

4183

6. Сколько и каких различных значений кол-ва ингредиентов присутвует в рецептах из датасета?

In [7]:
u_ingredients = np.unique(data_copy[:, 2])
u_ingredients_n = len(u_ingredients)

print(u_ingredients)
print(u_ingredients_n)

[ 1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
 25 26 27 28 29 30 31 32 33 34 35 37 39]
37


7. Создайте версию массива, содержащую информацию только о рецептах, состоящих не более чем из 5 ингредиентов.

In [8]:
ingredients_l5 = data_copy[data_copy[:, 2] <= 5]

ingredients_l5

array([[446597,     15,      5],
       [204134,      5,      3],
       [ 25623,      6,      4],
       ...,
       [ 52088,     60,      5],
       [128811,     15,      4],
       [370915,      5,      4]])

8. Для каждого рецепта посчитайте, сколько в среднем ингредиентов приходится на одну минуту рецепта. Найдите максимальное значение этой величины для всего датасета

In [9]:
ingredients_per_minute = data_copy[:, 2] / data_copy[:, 1]
ingredients_per_minute_table = np.stack([data_copy[:, 0], ingredients_per_minute], axis=1)
max_ingredients_per_minute = ingredients_per_minute.max()

print(ingredients_per_minute_table)
print(max_ingredients_per_minute)

[[1.27244000e+05 2.66666667e-01]
 [2.38910000e+04 2.80000000e-01]
 [9.47460000e+04 6.00000000e-01]
 ...
 [4.98432000e+05 2.30769231e-01]
 [3.70915000e+05 8.00000000e-01]
 [8.19930000e+04 1.00000000e-01]]
24.0


9. Вычислите среднее количество ингредиентов для топ-100 рецептов с наибольшей продолжительностью

In [10]:
top_100_by_minutes_index = np.argsort(data_copy[:, 1])[:-101:-1]
top_100_by_minutes = data_copy[top_100_by_minutes_index]

mean_ingredients = top_100_by_minutes[:, 2].mean()

print(mean_ingredients)

6.61


10. Выберите случайным образом и выведите информацию о 10 различных рецептах

In [16]:
data_copy[np.random.randint(data_copy.shape[0], size=10), :]

array([[231528,    150,      7],
       [ 26210,     60,      5],
       [126200,     25,      5],
       [401406,     40,     11],
       [312178,     10,      5],
       [184167,     35,      6],
       [ 61896,     25,     12],
       [ 88848,     30,      7],
       [255888,     25,      5],
       [151234,     40,     12]])

11. Выведите процент рецептов, кол-во ингредиентов в которых меньше среднего.

In [12]:
recipes_len = data_copy.shape[0]
mean_ingredients = data_copy[:, 2].mean()

mask = data_copy[:, 2] < mean_ingredients
under_mean = data_copy[mask].shape[0]
percent_under_mean = under_mean / recipes_len * 100
percent_under_mean

58.802

12. Назовем "простым" такой рецепт, длительность выполнения которого не больше 20 минут и кол-во ингредиентов в котором не больше 5. Создайте версию датасета с дополнительным столбцом, значениями которого являются 1, если рецепт простой, и 0 в противном случае.

In [13]:
simple = data_copy.copy()

mask = (simple[:, 1] <= 20) & (simple[:, 2] <= 5)
simple_cls_col = mask.astype(int)
with_simple_c = np.column_stack([simple, simple_cls_col])

13. Выведите процент "простых" рецептов в датасете

In [14]:
recipes_len = with_simple_c.shape[0]
n_simple_recipes = np.count_nonzero(with_simple_c[:, 3])

percent_simple = n_simple_recipes / recipes_len * 100

percent_simple

9.552

14. Разделим рецепты на группы по следующему правилу. Назовем рецепты короткими, если их продолжительность составляет менее 10 минут; стандартными, если их продолжительность составляет более 10, но менее 20 минут; и длинными, если их продолжительность составляет не менее 20 минут. Создайте трехмерный массив, где нулевая ось отвечает за номер группы (короткий, стандартный или длинный рецепт), первая ось - за сам рецепт и вторая ось - за характеристики рецепта. Выберите максимальное количество рецептов из каждой группы таким образом, чтобы было возможно сформировать трехмерный массив. Выведите форму полученного массива.