# Numpy

Материалы:
* Макрушин С.В. "Лекция 1: Библиотека Numpy"
* https://numpy.org/doc/stable/user/index.html
* https://numpy.org/doc/stable/reference/index.html

## Задачи для совместного разбора

In [308]:
import numpy as np

1. Сгенерировать двухмерный массив `arr` размерности (4, 7), состоящий из случайных действительных чисел, равномерно распределенных в диапазоне от 0 до 20. Нормализовать значения массива с помощью преобразования вида  $𝑎𝑥+𝑏$  так, что после нормализации максимальный элемент масcива будет равен 1.0, минимальный 0.0

In [309]:
def normalize(data: np.array) -> np.array:
    min_ = np.min(data)
    max_ = np.max(data)
    a = 1 / (max_ - min_)
    b = min_ / (min_ - max_)
    return a * data + b


arr = np.random.uniform(0, 20, size=(4, 7))
normalized_arr = normalize(arr)

print(f'Нормализованный массив: \n{normalized_arr}')

Нормализованный массив: 
[[0.40609741 0.54906569 0.14747294 0.29569966 0.38500325 0.40470359
  0.20538619]
 [0.34632641 0.98446938 0.30797202 0.70741436 0.32240904 0.01506095
  0.33868038]
 [0.67102272 1.         0.5895326  0.77559857 0.66374439 0.18252723
  0.22768209]
 [0.94643289 0.81298222 0.5599852  0.78153987 0.         0.33735605
  0.98513529]]


2. Создать матрицу 8 на 10 из случайных целых (используя модуль `numpy.random`) чисел из диапозона от 0 до 10 и найти в ней строку (ее индекс и вывести саму строку), в которой сумма значений минимальна.

In [310]:
matrix = np.random.randint(0, 10, size=(8, 10))

print(f'Исходная матрица: \n{matrix}')
print(f'\nСуммы значений строк: {matrix.sum(axis=1)}')

min_str_i = matrix.sum(axis=1).argmin()
print(f'\nИндекс строки с минимальной суммой: {min_str_i}')
print(f'\nСтрока с минимальной суммой элементов: {matrix[min_str_i]}')

Исходная матрица: 
[[2 8 5 6 6 4 8 3 0 2]
 [7 4 8 1 6 8 8 4 4 2]
 [1 9 9 3 6 7 5 7 7 7]
 [4 9 0 0 5 5 0 6 5 9]
 [9 6 0 7 2 9 2 6 9 2]
 [0 0 8 4 2 9 0 6 5 4]
 [1 2 4 2 9 2 5 8 5 1]
 [9 1 4 7 1 7 5 5 3 0]]

Суммы значений строк: [44 52 61 43 52 38 39 42]

Индекс строки с минимальной суммой: 5

Строка с минимальной суммой элементов: [0 0 8 4 2 9 0 6 5 4]


3. Найти евклидово расстояние между двумя одномерными векторами одинаковой размерности.

In [311]:
def euclidean(a: np.array, b: np.array) -> float:
    return np.sqrt(np.sum((a - b) ** 2))


size = 5
vector_1 = np.random.randint(0, 10, size)
vector_2 = np.random.randint(0, 10, size)

euclidean_distance = euclidean(vector_1, vector_2)
print(f'Евклидово расстояние: {euclidean_distance}')

Евклидово расстояние: 10.908712114635714


4. Решить матричное уравнение `A*X*B=-C` - найти матрицу `X`. Где `A = [[-1, 2, 4], [-3, 1, 2], [-3, 0, 1]]`, `B=[[3, -1], [2, 1]]`, `C=[[7, 21], [11, 8], [8, 4]]`.

In [312]:
from functools import reduce

A = np.array(
    [[-1, 2, 4],
     [-3, 1, 2],
     [-3, 0, 1]]
)
B = np.array(
    [[3, -1],
     [2, 1]]
)
C = np.array(
    [[7., 21.],
     [11., 8.],
     [8., 4.]]
)

X = reduce(np.dot, [np.linalg.inv(A), -C, np.linalg.inv(B)])

print(f'Проверка: {np.allclose(reduce(np.dot, [A, X, B]), -C)}')
print(f'X:\n{X}')

Проверка: True
X:
[[ 1.00000000e+00  5.32907052e-16]
 [-2.00000000e+00  1.00000000e+00]
 [ 3.00000000e+00 -4.00000000e+00]]


## Лабораторная работа №1

Замечание: при решении данных задач не подразумевается использования циклов или генераторов Python, если в задании не сказано обратного. Решение должно опираться на использования функционала библиотеки `numpy`.

1. Файл `minutes_n_ingredients.csv` содержит информацию об идентификаторе рецепта, времени его выполнения в минутах и количестве необходимых ингредиентов. Считайте данные из этого файла в виде массива `numpy` типа `int32`, используя `np.load_txt`. Выведите на экран первые 5 строк массива.

In [313]:
columns = np.loadtxt('resources/minutes_n_ingredients.csv', max_rows=1, dtype=str, delimiter=',')
data = np.loadtxt('resources/minutes_n_ingredients.csv', skiprows=1, dtype=np.int32, delimiter=',')

print(f'head(5):\n{data[:5]}')

head(5):
[[127244     60     16]
 [ 23891     25      7]
 [ 94746     10      6]
 [ 67660      5      6]
 [157911     60     14]]


2. Вычислите среднее значение, минимум, максимум и медиану по каждому из столбцов, кроме первого.

In [314]:
without_id: np.array = data[:, 1:]
by_cols = 0

means_by_cols = without_id.mean(axis=by_cols)
min_values_by_cols = without_id.min(axis=by_cols)
max_values_by_cols = without_id.max(axis=by_cols)
medians_by_cols = np.median(without_id, axis=by_cols)

print(f'Столбцы: {columns[1:]}')
print(f'Средние значения : {means_by_cols}')
print(f'Минимумы : {min_values_by_cols}')
print(f'Максимумы : {max_values_by_cols}')
print(f'Медианы : {medians_by_cols}')

Столбцы: ['minutes' 'n_ingredients']
Средние значения : [2.16010017e+04 9.05528000e+00]
Минимумы : [0 1]
Максимумы : [2147483647         39]
Медианы : [40.  9.]


3. Ограничьте сверху значения продолжительности выполнения рецепта значением квантиля $q_{0.75}$. 

In [315]:
with_limited_minutes = data.copy()

q_3 = np.quantile(with_limited_minutes[:, 1], q=0.75, axis=0)
# print(np.where(data[:, 1] <= q_3, data[:, 1], q_3))  # broadcasting

# TODO: почему так нельзя?
# wrong = data.copy()
# wrong[wrong[:, 1] > q_3][:, 1] = q_3  # будто бы срез от выборки от маски создает новый массив вместо представления.
# print(wrong)

with_limited_minutes[:, 1][with_limited_minutes[:, 1] > q_3] = q_3

print(f'Третий квартиль: {q_3}')
print(f'\nС ограничение по продолжительности выполнения рецепта:\n{with_limited_minutes}')

Третий квартиль: 65.0
С ограничение по продолжительности выполнения рецепта:
[[127244     60     16]
 [ 23891     25      7]
 [ 94746     10      6]
 ...
 [498432     65     15]
 [370915      5      4]
 [ 81993     65     14]]


4. Посчитайте, для скольких рецептов указана продолжительность, равная нулю. Замените для таких строк значение в данном столбце на 1.

In [333]:
without_zeroes_minutes = with_limited_minutes.copy()
mask = without_zeroes_minutes[:, 1] == 0

zeros_n = np.count_nonzero(mask)
without_zeroes_minutes[:, 1][mask] = 1

print(f'Продолжительность рецепта была 0: {zeros_n}')
print(f'\nС обновленной продолжительностью рецептов:\n{without_zeroes_minutes}')

Продолжительность рецепта была 0: 479

С обновленной продолжительностью рецептов:
[[127244     60     16]
 [ 23891     25      7]
 [ 94746     10      6]
 ...
 [498432     65     15]
 [370915      5      4]
 [ 81993     65     14]]


5. Посчитайте, сколько уникальных рецептов находится в датасете.

In [340]:
unique_recipes_n = np.unique(data[:, 1:], axis=0).shape[0]
print(f'Уникальных рецептов (minutes, n_ingredients): {unique_recipes_n}')

Уникальных рецептов (minutes, n_ingredients): 4195


6. Сколько и каких различных значений кол-ва ингредиентов присутствует в рецептах из датасета?

In [318]:
n_unique_n_ingredients = np.unique(data[:, 2])
unique_n_ingredients = data[n_unique_n_ingredients]

print(n_unique_n_ingredients)
unique_n_ingredients

[ 1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
 25 26 27 28 29 30 31 32 33 34 35 37 39]


array([[ 23891,     25,      7],
       [ 94746,     10,      6],
       [ 67660,      5,      6],
       [157911,     60,     14],
       [152828,     40,      7],
       [ 33941,     18,      9],
       [446597,     15,      5],
       [366174,      7,      9],
       [ 74205,     20,      7],
       [504666,     65,     20],
       [ 81006,     12,      7],
       [280968,     85,     11],
       [204134,      5,      3],
       [ 18593,     35,      7],
       [ 25623,      6,      4],
       [ 65559,     24,     14],
       [ 99836,    180,      7],
       [ 87775,     80,     13],
       [425704,     40,     12],
       [101799,     10,      8],
       [106325,     70,     11],
       [ 99283,    315,      6],
       [179504,    150,     11],
       [276123,     60,      7],
       [498382,     85,     18],
       [197140,     40,      6],
       [484223,     18,      4],
       [385472,     90,      9],
       [ 63150,    250,      4],
       [378114,     20,     11],
       [31

7. Создайте версию массива, содержащую информацию только о рецептах, состоящих не более чем из 5 ингредиентов.

In [319]:
lte_5 = data[data[:, 2] < 6]
lte_5

array([[446597,     15,      5],
       [204134,      5,      3],
       [ 25623,      6,      4],
       ...,
       [ 52088,     60,      5],
       [128811,     15,      4],
       [370915,      5,      4]])

8. Для каждого рецепта посчитайте, сколько в среднем ингредиентов приходится на одну минуту рецепта. Найдите максимальное значение этой величины для всего датасета

In [320]:
data[:, 2] / data[:, 1]

  data[:, 2] / data[:, 1]


array([0.26666667, 0.28      , 0.6       , ..., 0.23076923, 0.8       ,
       0.1       ])

9. Вычислите среднее количество ингредиентов для топ-100 рецептов с наибольшей продолжительностью

10. Выберите случайным образом и выведите информацию о 10 различных рецептах

11. Выведите процент рецептов, кол-во ингредиентов в которых меньше среднего.

12. Назовем "простым" такой рецепт, длительность выполнения которого не больше 20 минут и кол-во ингредиентов в котором не больше 5. Создайте версию датасета с дополнительным столбцом, значениями которого являются 1, если рецепт простой, и 0 в противном случае.

13. Выведите процент "простых" рецептов в датасете

14. Разделим рецепты на группы по следующему правилу. Назовем рецепты короткими, если их продолжительность составляет менее 10 минут; стандартными, если их продолжительность составляет более 10, но менее 20 минут; и длинными, если их продолжительность составляет не менее 20 минут. Создайте трехмерный массив, где нулевая ось отвечает за номер группы (короткий, стандартный или длинный рецепт), первая ось - за сам рецепт и вторая ось - за характеристики рецепта. Выберите максимальное количество рецептов из каждой группы таким образом, чтобы было возможно сформировать трехмерный массив. Выведите форму полученного массива.
