# Numpy

Материалы:
* Макрушин С.В. "Лекция 1: Библиотека Numpy"
* https://numpy.org/doc/stable/user/index.html
* https://numpy.org/doc/stable/reference/index.html

## Задачи для совместного разбора

In [8]:
import numpy as np

1. Сгенерировать двухмерный массив `arr` размерности (4, 7), состоящий из случайных действительных чисел, равномерно распределенных в диапазоне от 0 до 20. Нормализовать значения массива с помощью преобразования вида  $𝑎𝑥+𝑏$  так, что после нормализации максимальный элемент масcива будет равен 1.0, минимальный 0.0

In [10]:
def normalize(data: np.array) -> np.array:
    min_ = np.min(data)
    max_ = np.max(data)
    a = 1 / (max_ - min_)
    b = min_ / (min_ - max_)
    return a * data + b


arr = np.random.uniform(0, 20, size=(4, 7))
normalized_arr = normalize(arr)

print(f'Нормализованный массив: \n{normalized_arr}')

Нормализованный массив: 
[[-3.46944695e-18  2.61779083e-01  8.63778397e-02  9.10725068e-01
   8.76635384e-01  1.20049532e-01  1.68285297e-01]
 [ 4.37827793e-01  9.49517724e-01  8.28326517e-01  8.91668674e-02
   6.48172335e-01  9.63650295e-01  4.77103880e-01]
 [ 7.64769154e-01  3.13888150e-01  4.76238442e-01  5.22246980e-01
   6.05968910e-01  1.00000000e+00  1.99849237e-01]
 [ 7.19111883e-01  1.87552417e-01  9.79139081e-01  7.02106060e-01
   5.74967009e-01  3.31153223e-01  4.00837630e-01]]


2. Создать матрицу 8 на 10 из случайных целых (используя модуль `numpy.random`) чисел из диапозона от 0 до 10 и найти в ней строку (ее индекс и вывести саму строку), в которой сумма значений минимальна.

In [11]:
matrix = np.random.randint(0, 10, size=(8, 10))

print(f'Исходная матрица: \n{matrix}')
print(f'\nСуммы значений строк: {matrix.sum(axis=1)}')

min_str_i = matrix.sum(axis=1).argmin()
print(f'\nИндекс строки с минимальной суммой: {min_str_i}')
print(f'\nСтрока с минимальной суммой элементов: {matrix[min_str_i]}')

Исходная матрица: 
[[2 3 0 5 9 4 9 1 8 6]
 [1 3 1 7 9 5 0 5 9 6]
 [2 6 7 6 9 4 0 3 3 6]
 [5 8 2 6 1 8 7 7 0 6]
 [5 1 0 3 7 0 1 0 3 1]
 [4 6 2 0 2 6 2 8 9 1]
 [8 5 6 2 2 7 6 8 9 3]
 [1 1 6 4 7 4 0 7 2 5]]

Суммы значений строк: [47 46 46 50 21 40 56 37]

Индекс строки с минимальной суммой: 4

Строка с минимальной суммой элементов: [5 1 0 3 7 0 1 0 3 1]


3. Найти евклидово расстояние между двумя одномерными векторами одинаковой размерности.

In [12]:
def euclidean(a: np.array, b: np.array) -> float:
    return np.sqrt(np.sum((a - b) ** 2))


size = 5
vector_1 = np.random.randint(0, 10, size)
vector_2 = np.random.randint(0, 10, size)

euclidean_distance = euclidean(vector_1, vector_2)
print(f'Евклидово расстояние: {euclidean_distance}')

Евклидово расстояние: 10.392304845413264


4. Решить матричное уравнение `A*X*B=-C` - найти матрицу `X`. Где `A = [[-1, 2, 4], [-3, 1, 2], [-3, 0, 1]]`, `B=[[3, -1], [2, 1]]`, `C=[[7, 21], [11, 8], [8, 4]]`.

In [16]:
from functools import reduce

A = np.array(
    [[-1, 2, 4],
     [-3, 1, 2],
     [-3, 0, 1]]
)
B = np.array(
    [[3, -1],
     [2, 1]]
)
C = np.array(
    [[7., 21.],
     [11., 8.],
     [8., 4.]]
)

X = reduce(np.dot, [np.linalg.inv(A), -C, np.linalg.inv(B)])

print(f'Проверка: {np.allclose(reduce(np.dot, [A, X, B]), -C)}')
print(f'X:\n{X}')

Проверка: True
X:
[[ 1.00000000e+00  5.32907052e-16]
 [-2.00000000e+00  1.00000000e+00]
 [ 3.00000000e+00 -4.00000000e+00]]


## Лабораторная работа №1

Замечание: при решении данных задач не подразумевается использования циклов или генераторов Python, если в задании не сказано обратного. Решение должно опираться на использования функционала библиотеки `numpy`.

1. Файл `minutes_n_ingredients.csv` содержит информацию об идентификаторе рецепта, времени его выполнения в минутах и количестве необходимых ингредиентов. Считайте данные из этого файла в виде массива `numpy` типа `int32`, используя `np.load_txt`. Выведите на экран первые 5 строк массива.

In [17]:
columns = np.loadtxt('resources/minutes_n_ingredients.csv', max_rows=1, dtype=str, delimiter=',')
data = np.loadtxt('resources/minutes_n_ingredients.csv', skiprows=1, dtype=np.int32, delimiter=',')
print(f'head(5):\n{data[:5]}')

head(5):
[[127244     60     16]
 [ 23891     25      7]
 [ 94746     10      6]
 [ 67660      5      6]
 [157911     60     14]]


2. Вычислите среднее значение, минимум, максимум и медиану по каждому из столбцов, кроме первого.

In [270]:
for_stat: np.array = data[:, 1:]
means = for_stat.mean(axis=0)
mins = for_stat.min(axis=0)
maxs = for_stat.max(axis=0)
medians = np.median(for_stat, axis=0)

print(f'{columns[1:]=}')
print(f'{means=}')
print(f'{mins=}')
print(f'{maxs=}')
print(f'{medians=}')

columns[1:]=array(['minutes', 'n_ingredients'], dtype='<U13')
means=array([2.16010017e+04, 9.05528000e+00])
mins=array([0, 1])
maxs=array([2147483647,         39])
medians=array([40.,  9.])


3. Ограничьте сверху значения продолжительности выполнения рецепта значением квантиля $q_{0.75}$. 

In [271]:
q_075 = np.quantile(data[:, 1], q=0.75, axis=0)
data[data[:, 1] > q_075] = q_075  # FIXME: копирование вектора

4. Посчитайте, для скольких рецептов указана продолжительность, равная нулю. Замените для таких строк значение в данном столбце на 1.

In [272]:
n_0 = (data[:, 1] == 0).sum()
data[data[:, 1] == 0] = 1

print(n_0)
print(data)

479
[[127244     60     16]
 [ 23891     25      7]
 [ 94746     10      6]
 ...
 [498432     65     15]
 [370915      5      4]
 [    65     65     65]]


5. Посчитайте, сколько уникальных рецептов находится в датасете.

In [273]:
n_unique = len(np.unique(data[:, 1:], axis=0))
n_unique

1119

6. Сколько и каких различных значений кол-ва ингредиентов присутвует в рецептах из датасета?

In [274]:
n_unique_n_ingredients = np.unique(data[:, 2])
unique_n_ingredients = data[n_unique_n_ingredients]

print(n_unique_n_ingredients)
unique_n_ingredients

[ 1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
 25 26 27 28 29 30 33 34 65]


array([[ 23891,     25,      7],
       [ 94746,     10,      6],
       [ 67660,      5,      6],
       [157911,     60,     14],
       [152828,     40,      7],
       [ 33941,     18,      9],
       [446597,     15,      5],
       [366174,      7,      9],
       [ 74205,     20,      7],
       [504666,     65,     20],
       [ 81006,     12,      7],
       [    65,     65,     65],
       [204134,      5,      3],
       [ 18593,     35,      7],
       [ 25623,      6,      4],
       [ 65559,     24,     14],
       [    65,     65,     65],
       [    65,     65,     65],
       [425704,     40,     12],
       [101799,     10,      8],
       [    65,     65,     65],
       [    65,     65,     65],
       [    65,     65,     65],
       [276123,     60,      7],
       [    65,     65,     65],
       [197140,     40,      6],
       [484223,     18,      4],
       [    65,     65,     65],
       [    65,     65,     65],
       [378114,     20,     11],
       [  

7. Создайте версию массива, содержащую информацию только о рецептах, состоящих не более чем из 5 ингредиентов.

In [275]:
lte_5 = data[data[:, 2] < 6]
lte_5

array([[446597,     15,      5],
       [204134,      5,      3],
       [ 25623,      6,      4],
       ...,
       [ 52088,     60,      5],
       [128811,     15,      4],
       [370915,      5,      4]])

8. Для каждого рецепта посчитайте, сколько в среднем ингредиентов приходится на одну минуту рецепта. Найдите максимальное значение этой величины для всего датасета

In [278]:
data[:, 2] / data[:, 1]

array([0.26666667, 0.28      , 0.6       , ..., 0.23076923, 0.8       ,
       1.        ])

9. Вычислите среднее количество ингредиентов для топ-100 рецептов с наибольшей продолжительностью

10. Выберите случайным образом и выведите информацию о 10 различных рецептах

11. Выведите процент рецептов, кол-во ингредиентов в которых меньше среднего.

12. Назовем "простым" такой рецепт, длительность выполнения которого не больше 20 минут и кол-во ингредиентов в котором не больше 5. Создайте версию датасета с дополнительным столбцом, значениями которого являются 1, если рецепт простой, и 0 в противном случае.

13. Выведите процент "простых" рецептов в датасете

14. Разделим рецепты на группы по следующему правилу. Назовем рецепты короткими, если их продолжительность составляет менее 10 минут; стандартными, если их продолжительность составляет более 10, но менее 20 минут; и длинными, если их продолжительность составляет не менее 20 минут. Создайте трехмерный массив, где нулевая ось отвечает за номер группы (короткий, стандартный или длинный рецепт), первая ось - за сам рецепт и вторая ось - за характеристики рецепта. Выберите максимальное количество рецептов из каждой группы таким образом, чтобы было возможно сформировать трехмерный массив. Выведите форму полученного массива.
