# Numpy

Материалы:
* Макрушин С.В. "Лекция 1: Библиотека Numpy"
* https://numpy.org/doc/stable/user/index.html
* https://numpy.org/doc/stable/reference/index.html

## Задачи для совместного разбора

In [355]:
import numpy as np

1. Сгенерировать двухмерный массив `arr` размерности (4, 7), состоящий из случайных действительных чисел, равномерно распределенных в диапазоне от 0 до 20. Нормализовать значения массива с помощью преобразования вида  $𝑎𝑥+𝑏$  так, что после нормализации максимальный элемент масcива будет равен 1.0, минимальный 0.0

In [356]:
def normalize(data: np.array) -> np.array:
    min_ = np.min(data)
    max_ = np.max(data)
    a = 1 / (max_ - min_)
    b = min_ / (min_ - max_)
    return a * data + b


arr = np.random.uniform(0, 20, size=(4, 7))
normalized_arr = normalize(arr)

print(f'Нормализованный массив: \n{normalized_arr}')

Нормализованный массив: 
[[0.76555184 0.7258927  0.27669292 0.70717326 0.38005521 0.90711103
  0.83443075]
 [0.12054023 0.5392611  0.069435   0.95836178 0.46067685 0.05154023
  0.24053439]
 [0.         0.83770842 0.54952546 0.44394398 1.         0.5874684
  0.3146209 ]
 [0.78933866 0.06742845 0.43967707 0.53766163 0.6130964  0.71521827
  0.57551777]]


2. Создать матрицу 8 на 10 из случайных целых (используя модуль `numpy.random`) чисел из диапозона от 0 до 10 и найти в ней строку (ее индекс и вывести саму строку), в которой сумма значений минимальна.

In [357]:
matrix = np.random.randint(0, 10, size=(8, 10))

print(f'Исходная матрица: \n{matrix}')
print(f'\nСуммы значений строк: {matrix.sum(axis=1)}')

min_str_i = matrix.sum(axis=1).argmin()
print(f'\nИндекс строки с минимальной суммой: {min_str_i}')
print(f'\nСтрока с минимальной суммой элементов: {matrix[min_str_i]}')

Исходная матрица: 
[[5 8 3 2 4 9 4 4 9 3]
 [8 6 5 3 7 3 8 2 9 7]
 [6 4 9 3 8 0 0 0 9 5]
 [2 3 3 0 3 8 6 4 6 2]
 [0 2 7 8 0 4 7 2 2 3]
 [4 8 6 9 2 4 6 1 3 9]
 [3 4 4 9 8 4 4 5 9 7]
 [5 9 0 5 4 8 5 8 6 2]]

Суммы значений строк: [51 58 44 37 35 52 57 52]

Индекс строки с минимальной суммой: 4

Строка с минимальной суммой элементов: [0 2 7 8 0 4 7 2 2 3]


3. Найти евклидово расстояние между двумя одномерными векторами одинаковой размерности.

In [358]:
def euclidean(a: np.array, b: np.array) -> float:
    return np.sqrt(np.sum((a - b) ** 2))


size = 5
vector_1 = np.random.randint(0, 10, size)
vector_2 = np.random.randint(0, 10, size)

euclidean_distance = euclidean(vector_1, vector_2)
print(f'Евклидово расстояние: {euclidean_distance}')

Евклидово расстояние: 13.820274961085254


4. Решить матричное уравнение `A*X*B=-C` - найти матрицу `X`. Где `A = [[-1, 2, 4], [-3, 1, 2], [-3, 0, 1]]`, `B=[[3, -1], [2, 1]]`, `C=[[7, 21], [11, 8], [8, 4]]`.

In [359]:
from functools import reduce

A = np.array(
    [[-1, 2, 4],
     [-3, 1, 2],
     [-3, 0, 1]]
)
B = np.array(
    [[3, -1],
     [2, 1]]
)
C = np.array(
    [[7., 21.],
     [11., 8.],
     [8., 4.]]
)

X = reduce(np.dot, [np.linalg.inv(A), -C, np.linalg.inv(B)])

print(f'Проверка: {np.allclose(reduce(np.dot, [A, X, B]), -C)}')
print(f'X:\n{X}')

Проверка: True
X:
[[ 1.00000000e+00  5.32907052e-16]
 [-2.00000000e+00  1.00000000e+00]
 [ 3.00000000e+00 -4.00000000e+00]]


## Лабораторная работа №1

Замечание: при решении данных задач не подразумевается использования циклов или генераторов Python, если в задании не сказано обратного. Решение должно опираться на использования функционала библиотеки `numpy`.

1. Файл `minutes_n_ingredients.csv` содержит информацию об идентификаторе рецепта, времени его выполнения в минутах и количестве необходимых ингредиентов. Считайте данные из этого файла в виде массива `numpy` типа `int32`, используя `np.load_txt`. Выведите на экран первые 5 строк массива.

In [360]:
columns = np.loadtxt('resources/minutes_n_ingredients.csv', max_rows=1, dtype=str, delimiter=',')
data = np.loadtxt('resources/minutes_n_ingredients.csv', skiprows=1, dtype=np.int32, delimiter=',')

print(f'head(5):\n{data[:5]}')

head(5):
[[127244     60     16]
 [ 23891     25      7]
 [ 94746     10      6]
 [ 67660      5      6]
 [157911     60     14]]


2. Вычислите среднее значение, минимум, максимум и медиану по каждому из столбцов, кроме первого.

In [361]:
without_id: np.array = data[:, 1:]
by_cols = 0

means_by_cols = without_id.mean(axis=by_cols)
min_values_by_cols = without_id.min(axis=by_cols)
max_values_by_cols = without_id.max(axis=by_cols)
medians_by_cols = np.median(without_id, axis=by_cols)

print(f'Столбцы: {columns[1:]}')
print(f'Средние значения : {means_by_cols}')
print(f'Минимумы : {min_values_by_cols}')
print(f'Максимумы : {max_values_by_cols}')
print(f'Медианы : {medians_by_cols}')

Столбцы: ['minutes' 'n_ingredients']
Средние значения : [2.16010017e+04 9.05528000e+00]
Минимумы : [0 1]
Максимумы : [2147483647         39]
Медианы : [40.  9.]


3. Ограничьте сверху значения продолжительности выполнения рецепта значением квантиля $q_{0.75}$. 

In [362]:
with_limited_minutes = data.copy()

q_3 = np.quantile(with_limited_minutes[:, 1], q=0.75, axis=0)
# print(np.where(data[:, 1] <= q_3, data[:, 1], q_3))  # broadcasting

# TODO: почему так нельзя?
# wrong = data.copy()
# wrong[wrong[:, 1] > q_3][:, 1] = q_3  # будто бы срез от выборки от маски создает новый массив вместо представления.
# print(wrong)

with_limited_minutes[:, 1][with_limited_minutes[:, 1] > q_3] = q_3

print(f'Третий квартиль: {q_3}')
print(f'\nС ограничение по продолжительности выполнения рецепта:\n{with_limited_minutes}')

Третий квартиль: 65.0

С ограничение по продолжительности выполнения рецепта:
[[127244     60     16]
 [ 23891     25      7]
 [ 94746     10      6]
 ...
 [498432     65     15]
 [370915      5      4]
 [ 81993     65     14]]


4. Посчитайте, для скольких рецептов указана продолжительность, равная нулю. Замените для таких строк значение в данном столбце на 1.

In [363]:
without_zeroes_minutes = with_limited_minutes.copy()
mask = without_zeroes_minutes[:, 1] == 0

zeros_n = np.count_nonzero(mask)
without_zeroes_minutes[:, 1][mask] = 1

print(f'Продолжительность рецепта была 0: {zeros_n}')
print(f'\nС обновленной продолжительностью рецептов:\n{without_zeroes_minutes}')

Продолжительность рецепта была 0: 479

С обновленной продолжительностью рецептов:
[[127244     60     16]
 [ 23891     25      7]
 [ 94746     10      6]
 ...
 [498432     65     15]
 [370915      5      4]
 [ 81993     65     14]]


5. Посчитайте, сколько уникальных рецептов находится в датасете.

In [364]:
unique_recipes_n = np.unique(without_zeroes_minutes[:, 1:], axis=0).shape[0]
print(f'Уникальных рецептов (minutes, n_ingredients): {unique_recipes_n}')

Уникальных рецептов (minutes, n_ingredients): 1135


6. Сколько и каких различных значений кол-ва ингредиентов присутствует в рецептах из датасета?

In [365]:
unique_n_ingredients = np.unique(without_zeroes_minutes[:, 2])
unique_n_ingredients_n = len(unique_n_ingredients)

print(f'Различных значений кол-ва ингредиентов: {unique_n_ingredients_n}')
print(f'\nУникальные значения кол-ва ингредиентов:\n{unique_n_ingredients}')

Различных значений кол-ва ингредиентов: 37

Уникальные значения кол-ва ингредиентов:
[ 1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
 25 26 27 28 29 30 31 32 33 34 35 37 39]


7. Создайте версию массива, содержащую информацию только о рецептах, состоящих не более чем из 5 ингредиентов.

In [383]:
with_n_ingredients_lte_5 = without_zeroes_minutes[without_zeroes_minutes[:, 2] <= 5]

print(f'Массив с рецептами не более чем из 5 ингредиентов:\n{with_n_ingredients_lte_5}')

Массив с рецептами не более чем из 5 ингредиентов:
[[446597     15      5]
 [204134      5      3]
 [ 25623      6      4]
 ...
 [ 52088     60      5]
 [128811     15      4]
 [370915      5      4]]


8. Для каждого рецепта посчитайте, сколько в среднем ингредиентах приходится на одну минуту рецепта. Найдите максимальное значение этой величины для всего датасета

In [416]:
ingredients_per_minute = without_zeroes_minutes[:, 2] / without_zeroes_minutes[:, 1]
ingredients_per_minute_table = np.stack([without_zeroes_minutes[:, 0], ingredients_per_minute], axis=1)
max_ingredients_per_minute = ingredients_per_minute.max()

print(f'Ингредиентов на одну минуту:\n{ingredients_per_minute_table}')
print(f'\nМаксимум ингредиентов на одну минуту: {max_ingredients_per_minute}')

Ингредиентов на одну минуту:
[[1.27244000e+05 2.66666667e-01]
 [2.38910000e+04 2.80000000e-01]
 [9.47460000e+04 6.00000000e-01]
 ...
 [4.98432000e+05 2.30769231e-01]
 [3.70915000e+05 8.00000000e-01]
 [8.19930000e+04 2.15384615e-01]]

Максимум ингредиентов на одну минуту: 24.0


9. Вычислите среднее количество ингредиентов для топ-100 рецептов с наибольшей продолжительностью

In [514]:
total_recipes = without_zeroes_minutes.shape[0]
top_100_by_minutes_index = np.argsort(without_zeroes_minutes[:, 1])[:total_recipes - 100 - 1:-1]
top_100_by_minutes = without_zeroes_minutes[top_100_by_minutes_index]

mean_ingredients_by_top_100_by_minutes = top_100_by_minutes[:, 2].mean()

print(f'Среднее количество ингредиентов для топ-{len(top_100_by_minutes)} (minutes): '
      f'{mean_ingredients_by_top_100_by_minutes}')

Среднее количество ингредиентов для топ-100 (minutes): 9.96


10. Выберите случайным образом и выведите информацию о 10 различных рецептах

In [525]:
total_recipes = without_zeroes_minutes.shape[0]
random_index = np.random.default_rng().choice(np.arange(total_recipes), size=10, replace=False)

random_choice = np.unique(without_zeroes_minutes, axis=0)[random_index]

print(f'{len(random_choice)} случайных уникальных рецептов:\n{random_choice}')

10 случайных уникальных рецептов:
[[487914     65     11]
 [249880     40      9]
 [ 96975     60     11]
 [420601     60      6]
 [ 78598     45      9]
 [ 30296     65     11]
 [466974     65     16]
 [218717     36      5]
 [180225     30      4]
 [125404     15     16]]


11. Выведите процент рецептов, кол-во ингредиентов в которых меньше среднего.

In [552]:
total_recipes = without_zeroes_minutes.shape[0]
mean_ingredients = without_zeroes_minutes[:, 2].mean()

n_recipes_ingredients_lte_mean = without_zeroes_minutes[without_zeroes_minutes[:, 2] < mean_ingredients].shape[0]
percent_lte_mean = n_recipes_ingredients_lte_mean / total_recipes * 100

print(f'Процент рецептов, кол-во ингредиентов в которых меньше среднего: {percent_lte_mean:.1f}%')

Процент рецептов, кол-во ингредиентов в которых меньше среднего: 58.8%


12. Назовем "простым" такой рецепт, длительность выполнения которого не больше 20 минут и кол-во ингредиентов в котором не больше 5. Создайте версию датасета с дополнительным столбцом, значениями которого являются 1, если рецепт простой, и 0 в противном случае.

13. Выведите процент "простых" рецептов в датасете

14. Разделим рецепты на группы по следующему правилу. Назовем рецепты короткими, если их продолжительность составляет менее 10 минут; стандартными, если их продолжительность составляет более 10, но менее 20 минут; и длинными, если их продолжительность составляет не менее 20 минут. Создайте трехмерный массив, где нулевая ось отвечает за номер группы (короткий, стандартный или длинный рецепт), первая ось - за сам рецепт и вторая ось - за характеристики рецепта. Выберите максимальное количество рецептов из каждой группы таким образом, чтобы было возможно сформировать трехмерный массив. Выведите форму полученного массива.
