# Numpy

Материалы:
* Макрушин С.В. "Лекция 1: Библиотека Numpy"
* https://numpy.org/doc/stable/user/index.html
* https://numpy.org/doc/stable/reference/index.html

## Задачи для совместного разбора

In [678]:
import numpy as np

1. Сгенерировать двухмерный массив `arr` размерности (4, 7), состоящий из случайных действительных чисел, равномерно распределенных в диапазоне от 0 до 20. Нормализовать значения массива с помощью преобразования вида  $𝑎𝑥+𝑏$  так, что после нормализации максимальный элемент масcива будет равен 1.0, минимальный 0.0

In [679]:
def normalize(data: np.array) -> np.array:
    min_ = np.min(data)
    max_ = np.max(data)
    a = 1 / (max_ - min_)
    b = min_ / (min_ - max_)
    return a * data + b


arr = np.random.uniform(0, 20, size=(4, 7))
normalized_arr = normalize(arr)

print(f'Нормализованный массив: \n{normalized_arr}')

Нормализованный массив: 
[[ 1.68194245e-01  8.61363629e-02  5.14174016e-01  2.15674790e-01
   3.46145336e-01  5.64474579e-01  6.27034499e-01]
 [ 2.83903976e-01  6.92992175e-01  8.08304960e-01  1.00000000e+00
   3.59219192e-01  8.43673946e-01  9.95864455e-01]
 [ 4.34887502e-01  5.13824577e-01  8.68409325e-01  8.64604824e-01
   9.04968962e-01 -6.93889390e-18  4.99655421e-01]
 [ 2.69796413e-01  4.54571151e-01  3.75337496e-01  7.13680893e-01
   3.52780391e-02  8.79703425e-01  7.21402796e-01]]


2. Создать матрицу 8 на 10 из случайных целых (используя модуль `numpy.random`) чисел из диапозона от 0 до 10 и найти в ней строку (ее индекс и вывести саму строку), в которой сумма значений минимальна.

In [680]:
matrix = np.random.randint(0, 10, size=(8, 10))

print(f'Исходная матрица: \n{matrix}')
print(f'\nСуммы значений строк: {matrix.sum(axis=1)}')

min_str_i = matrix.sum(axis=1).argmin()
print(f'\nИндекс строки с минимальной суммой: {min_str_i}')
print(f'\nСтрока с минимальной суммой элементов: {matrix[min_str_i]}')

Исходная матрица: 
[[0 5 7 3 3 8 4 3 5 8]
 [4 7 3 9 1 7 3 5 7 8]
 [3 6 1 6 6 0 4 3 2 9]
 [3 1 6 5 3 5 0 7 7 9]
 [7 8 1 1 9 6 2 7 0 9]
 [4 4 3 2 5 4 8 0 6 4]
 [8 7 8 7 7 1 2 6 0 5]
 [2 5 5 1 7 9 6 0 3 2]]

Суммы значений строк: [46 54 40 46 50 40 51 40]

Индекс строки с минимальной суммой: 2

Строка с минимальной суммой элементов: [3 6 1 6 6 0 4 3 2 9]


3. Найти евклидово расстояние между двумя одномерными векторами одинаковой размерности.

In [681]:
def euclidean(a: np.array, b: np.array) -> float:
    return np.sqrt(np.sum((a - b) ** 2))


size = 5
vector_1 = np.random.randint(0, 10, size)
vector_2 = np.random.randint(0, 10, size)

euclidean_distance = euclidean(vector_1, vector_2)
print(f'Евклидово расстояние: {euclidean_distance}')

Евклидово расстояние: 8.306623862918075


4. Решить матричное уравнение `A*X*B=-C` - найти матрицу `X`. Где `A = [[-1, 2, 4], [-3, 1, 2], [-3, 0, 1]]`, `B=[[3, -1], [2, 1]]`, `C=[[7, 21], [11, 8], [8, 4]]`.

In [682]:
from functools import reduce

A = np.array(
    [[-1, 2, 4],
     [-3, 1, 2],
     [-3, 0, 1]]
)
B = np.array(
    [[3, -1],
     [2, 1]]
)
C = np.array(
    [[7., 21.],
     [11., 8.],
     [8., 4.]]
)

X = reduce(np.dot, [np.linalg.inv(A), -C, np.linalg.inv(B)])

print(f'Проверка: {np.allclose(reduce(np.dot, [A, X, B]), -C)}')
print(f'X:\n{X}')

Проверка: True
X:
[[ 1.00000000e+00  5.32907052e-16]
 [-2.00000000e+00  1.00000000e+00]
 [ 3.00000000e+00 -4.00000000e+00]]


## Лабораторная работа №1

Замечание: при решении данных задач не подразумевается использования циклов или генераторов Python, если в задании не сказано обратного. Решение должно опираться на использования функционала библиотеки `numpy`.

1. Файл `minutes_n_ingredients.csv` содержит информацию об идентификаторе рецепта, времени его выполнения в минутах и количестве необходимых ингредиентов. Считайте данные из этого файла в виде массива `numpy` типа `int32`, используя `np.load_txt`. Выведите на экран первые 5 строк массива.

In [683]:
columns = np.loadtxt('resources/minutes_n_ingredients.csv', max_rows=1, dtype=str, delimiter=',')
data = np.loadtxt('resources/minutes_n_ingredients.csv', skiprows=1, dtype=np.int32, delimiter=',')

print(f'head(5):\n{data[:5]}')

head(5):
[[127244     60     16]
 [ 23891     25      7]
 [ 94746     10      6]
 [ 67660      5      6]
 [157911     60     14]]


2. Вычислите среднее значение, минимум, максимум и медиану по каждому из столбцов, кроме первого.

In [684]:
without_id: np.array = data[:, 1:]
by_cols = 0

means_by_cols = without_id.mean(axis=by_cols)
min_values_by_cols = without_id.min(axis=by_cols)
max_values_by_cols = without_id.max(axis=by_cols)
medians_by_cols = np.median(without_id, axis=by_cols)

print(f'Столбцы: {columns[1:]}')
print(f'Средние значения : {means_by_cols}')
print(f'Минимумы : {min_values_by_cols}')
print(f'Максимумы : {max_values_by_cols}')
print(f'Медианы : {medians_by_cols}')

Столбцы: ['minutes' 'n_ingredients']
Средние значения : [2.16010017e+04 9.05528000e+00]
Минимумы : [0 1]
Максимумы : [2147483647         39]
Медианы : [40.  9.]


3. Ограничьте сверху значения продолжительности выполнения рецепта значением квантиля $q_{0.75}$. 

In [685]:
with_limited_minutes = data.copy()

q_3 = np.quantile(with_limited_minutes[:, 1], q=0.75, axis=0)
# print(np.where(data[:, 1] <= q_3, data[:, 1], q_3))  # broadcasting

# TODO: почему так нельзя?
# wrong = data.copy()
# wrong[wrong[:, 1] > q_3][:, 1] = q_3  # будто бы срез от выборки от маски создает новый массив вместо представления.
# print(wrong)

with_limited_minutes[:, 1][with_limited_minutes[:, 1] > q_3] = q_3

print(f'Третий квартиль: {q_3}')
print(f'\nС ограничение по продолжительности выполнения рецепта:\n{with_limited_minutes}')

Третий квартиль: 65.0

С ограничение по продолжительности выполнения рецепта:
[[127244     60     16]
 [ 23891     25      7]
 [ 94746     10      6]
 ...
 [498432     65     15]
 [370915      5      4]
 [ 81993     65     14]]


4. Посчитайте, для скольких рецептов указана продолжительность, равная нулю. Замените для таких строк значение в данном столбце на 1.

In [686]:
without_zeroes_minutes = with_limited_minutes.copy()
mask = without_zeroes_minutes[:, 1] == 0

zeros_n = np.count_nonzero(mask)
without_zeroes_minutes[:, 1][mask] = 1

print(f'Продолжительность рецепта была 0: {zeros_n}')
print(f'\nС обновленной продолжительностью рецептов:\n{without_zeroes_minutes}')

Продолжительность рецепта была 0: 479

С обновленной продолжительностью рецептов:
[[127244     60     16]
 [ 23891     25      7]
 [ 94746     10      6]
 ...
 [498432     65     15]
 [370915      5      4]
 [ 81993     65     14]]


5. Посчитайте, сколько уникальных рецептов находится в датасете.

In [687]:
unique_recipes_n = np.unique(without_zeroes_minutes[:, 1:], axis=0).shape[0]
print(f'Уникальных рецептов (minutes, n_ingredients): {unique_recipes_n}')

Уникальных рецептов (minutes, n_ingredients): 1135


6. Сколько и каких различных значений кол-ва ингредиентов присутствует в рецептах из датасета?

In [688]:
unique_n_ingredients = np.unique(without_zeroes_minutes[:, 2])
unique_n_ingredients_n = len(unique_n_ingredients)

print(f'Различных значений кол-ва ингредиентов: {unique_n_ingredients_n}')
print(f'\nУникальные значения кол-ва ингредиентов:\n{unique_n_ingredients}')

# ======== и counter дополнительно:
unique_n_ingredients, counts = np.unique(without_zeroes_minutes[:, 2], return_counts=True)
counter = np.column_stack([unique_n_ingredients, counts])
print(f'\ncounter:\n{counter}')

Различных значений кол-ва ингредиентов: 37

Уникальные значения кол-ва ингредиентов:
[ 1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
 25 26 27 28 29 30 31 32 33 34 35 37 39]

counter:
[[    1    13]
 [    2   926]
 [    3  2895]
 [    4  5515]
 [    5  7913]
 [    6  9376]
 [    7 10628]
 [    8 10951]
 [    9 10585]
 [   10  9591]
 [   11  8297]
 [   12  6605]
 [   13  4997]
 [   14  3663]
 [   15  2595]
 [   16  1767]
 [   17  1246]
 [   18   790]
 [   19   573]
 [   20   376]
 [   21   217]
 [   22   161]
 [   23   105]
 [   24    69]
 [   25    50]
 [   26    28]
 [   27    16]
 [   28    16]
 [   29    12]
 [   30    12]
 [   31     3]
 [   32     1]
 [   33     2]
 [   34     1]
 [   35     3]
 [   37     1]
 [   39     1]]


7. Создайте версию массива, содержащую информацию только о рецептах, состоящих не более чем из 5 ингредиентов.

In [689]:
with_n_ingredients_lte_5 = without_zeroes_minutes[without_zeroes_minutes[:, 2] <= 5]

print(f'Массив с рецептами не более чем из 5 ингредиентов:\n{with_n_ingredients_lte_5}')

Массив с рецептами не более чем из 5 ингредиентов:
[[446597     15      5]
 [204134      5      3]
 [ 25623      6      4]
 ...
 [ 52088     60      5]
 [128811     15      4]
 [370915      5      4]]


8. Для каждого рецепта посчитайте, сколько в среднем ингредиентах приходится на одну минуту рецепта. Найдите максимальное значение этой величины для всего датасета

In [690]:
ingredients_per_minute = without_zeroes_minutes[:, 2] / without_zeroes_minutes[:, 1]
ingredients_per_minute_table = np.stack([without_zeroes_minutes[:, 0], ingredients_per_minute], axis=1)
max_ingredients_per_minute = ingredients_per_minute.max()

print(f'Ингредиентов на одну минуту:\n{ingredients_per_minute_table}')
print(f'\nМаксимум ингредиентов на одну минуту: {max_ingredients_per_minute}')

Ингредиентов на одну минуту:
[[1.27244000e+05 2.66666667e-01]
 [2.38910000e+04 2.80000000e-01]
 [9.47460000e+04 6.00000000e-01]
 ...
 [4.98432000e+05 2.30769231e-01]
 [3.70915000e+05 8.00000000e-01]
 [8.19930000e+04 2.15384615e-01]]

Максимум ингредиентов на одну минуту: 24.0


9. Вычислите среднее количество ингредиентов для топ-100 рецептов с наибольшей продолжительностью

In [691]:
top_100_by_minutes_index = np.argsort(without_zeroes_minutes[:, 1])[:-101:-1]
top_100_by_minutes = without_zeroes_minutes[top_100_by_minutes_index]

mean_ingredients_by_top_100_by_minutes = top_100_by_minutes[:, 2].mean()

print(f'Среднее количество ингредиентов для топ-{len(top_100_by_minutes)} (minutes): '
      f'{mean_ingredients_by_top_100_by_minutes}')

Среднее количество ингредиентов для топ-100 (minutes): 9.96


10. Выберите случайным образом и выведите информацию о 10 различных рецептах

In [692]:
total_recipes = without_zeroes_minutes.shape[0]
random_index = np.random.default_rng().choice(np.arange(total_recipes), size=10, replace=False)

random_choice = np.unique(without_zeroes_minutes, axis=0)[random_index]

print(f'{len(random_choice)} случайных уникальных рецептов:\n{random_choice}')

10 случайных уникальных рецептов:
[[389780     20      7]
 [218207     25     11]
 [321733     65      2]
 [ 33822     35     12]
 [ 41350     65      8]
 [229526     40      7]
 [   754     10      7]
 [169645     23      9]
 [169566      5      6]
 [ 46210     25      8]]


11. Выведите процент рецептов, кол-во ингредиентов в которых меньше среднего.

In [693]:
total_recipes = without_zeroes_minutes.shape[0]
mean_ingredients = without_zeroes_minutes[:, 2].mean()

mask = without_zeroes_minutes[:, 2] < mean_ingredients
n_recipes_ingredients_lte_mean = without_zeroes_minutes[mask].shape[0]
percent_lte_mean = n_recipes_ingredients_lte_mean / total_recipes * 100

print(f'Процент рецептов, кол-во ингредиентов в которых меньше среднего: {percent_lte_mean:.1f}%')

Процент рецептов, кол-во ингредиентов в которых меньше среднего: 58.8%


12. Назовем "простым" такой рецепт, длительность выполнения которого не больше 20 минут и кол-во ингредиентов в котором не больше 5. Создайте версию датасета с дополнительным столбцом, значениями которого являются 1, если рецепт простой, и 0 в противном случае.

In [694]:
with_simple_cls = without_zeroes_minutes.copy()

mask = np.logical_and(with_simple_cls[:, 1] <= 20, with_simple_cls[:, 2] <= 5)
simple_cls_col = mask.astype(int)
with_simple_cls = np.column_stack([with_simple_cls, simple_cls_col])

print(f'Добавлен столбец классификации простоты рецепта:\n{with_simple_cls}')

Добавлен столбец классификации простоты рецепта:
[[127244     60     16      0]
 [ 23891     25      7      0]
 [ 94746     10      6      0]
 ...
 [498432     65     15      0]
 [370915      5      4      1]
 [ 81993     65     14      0]]


13. Выведите процент "простых" рецептов в датасете

In [695]:
total_recipes = with_simple_cls.shape[0]
n_simple_recipes = np.count_nonzero(with_simple_cls[:, 3])

percent_simple = n_simple_recipes / total_recipes * 100

print(f'Процент простых рецептов: {percent_simple:.2f}%')

Процент простых рецептов: 9.55%


14. Разделим рецепты на группы по следующему правилу. Назовем рецепты короткими, если их продолжительность составляет менее 10 минут; стандартными, если их продолжительность составляет более 10, но менее 20 минут; и длинными, если их продолжительность составляет не менее 20 минут. Создайте трехмерный массив, где нулевая ось отвечает за номер группы (короткий, стандартный или длинный рецепт), первая ось - за сам рецепт и вторая ось - за характеристики рецепта. Выберите максимальное количество рецептов из каждой группы таким образом, чтобы было возможно сформировать трехмерный массив. Выведите форму полученного массива.

In [696]:
short_mask = with_simple_cls[:, 1] < 10
standard_mask = np.logical_and(10 <= with_simple_cls[:, 1], with_simple_cls[:, 1] < 20)
long_mask = 20 <= with_simple_cls[:, 1]

assert (np.count_nonzero(short_mask) +
        np.count_nonzero(standard_mask) +
        np.count_nonzero(long_mask) == with_simple_cls.shape[0])

short_recipes = with_simple_cls[short_mask]
standard_recipes = with_simple_cls[standard_mask]
long_recipes = with_simple_cls[long_mask]

min_size = min(short_recipes.shape[0], standard_recipes.shape[0], long_recipes.shape[0])

cropped_3d = np.array([
    short_recipes[:min_size],
    standard_recipes[:min_size],
    long_recipes[:min_size],
])

max_size = max(short_recipes.shape[0], standard_recipes.shape[0], long_recipes.shape[0])

with_zeros_3d = np.zeros((3, max_size, 4), dtype=int)
with_zeros_3d[0, :short_recipes.shape[0], :] = short_recipes
with_zeros_3d[1, :standard_recipes.shape[0], :] = standard_recipes
with_zeros_3d[2, :long_recipes.shape[0], :] = long_recipes

print(f'\nПохоже на правду (cropped):\nshape: {cropped_3d.shape}\n{cropped_3d}')
print(f'\nПохоже на правду (with_zeros):\nshape: {with_zeros_3d.shape}\n{with_zeros_3d}')



Похоже на правду (cropped):
shape: (3, 7588, 4)
[[[ 67660      5      6      0]
  [366174      7      9      0]
  [204134      5      3      1]
  ...
  [420725      5      3      1]
  [  4747      1      9      0]
  [370915      5      4      1]]

 [[ 94746     10      6      0]
  [ 33941     18      9      0]
  [446597     15      5      1]
  ...
  [  9831     15      7      0]
  [335859     12     14      0]
  [256812     10      3      1]]

 [[127244     60     16      0]
  [ 23891     25      7      0]
  [157911     60     14      0]
  ...
  [168901     25      7      0]
  [392339     35     13      0]
  [206732     45     10      0]]]

Похоже на правду (with_zeros):
shape: (3, 79751, 4)
[[[ 67660      5      6      0]
  [366174      7      9      0]
  [204134      5      3      1]
  ...
  [     0      0      0      0]
  [     0      0      0      0]
  [     0      0      0      0]]

 [[ 94746     10      6      0]
  [ 33941     18      9      0]
  [446597     15      5      1]
  