# Numpy

Материалы:
* Макрушин С.В. "Лекция 1: Библиотека Numpy"
* https://numpy.org/doc/stable/user/index.html
* https://numpy.org/doc/stable/reference/index.html

## Задачи для совместного разбора

In [None]:
import numpy as np

1. Сгенерировать двухмерный массив `arr` размерности (4, 7), состоящий из случайных действительных чисел, равномерно распределенных в диапазоне от 0 до 20. Нормализовать значения массива с помощью преобразования вида  $𝑎𝑥+𝑏$  так, что после нормализации максимальный элемент масcива будет равен 1.0, минимальный 0.0

In [3]:
def normalize(data: np.array) -> np.array:
    min_ = np.min(data)
    max_ = np.max(data)
    a = 1 / (max_ - min_)
    b = min_ / (min_ - max_)
    return a * data + b


arr = np.random.uniform(0, 20, size=(4, 7))
normalized_arr = normalize(arr)

normalized_arr

array([[1.08507376e-01, 3.15196589e-01, 4.03753543e-01, 2.19639022e-01,
        8.73719041e-01, 4.40428339e-01, 4.88057156e-01],
       [7.60348438e-01, 4.54309678e-01, 4.15812022e-01, 1.80750898e-02,
        0.00000000e+00, 1.00000000e+00, 1.11924551e-01],
       [9.11453748e-01, 2.36158148e-04, 3.39966478e-01, 8.47420033e-01,
        2.85583593e-01, 4.31449420e-01, 7.24644775e-01],
       [9.28076901e-01, 5.21370359e-01, 4.11351751e-01, 1.44472528e-01,
        3.36587737e-01, 1.51088005e-01, 2.36939495e-02]])

2. Создать матрицу 8 на 10 из случайных целых (используя модуль `numpy.random`) чисел из диапозона от 0 до 10 и найти в ней строку (ее индекс и вывести саму строку), в которой сумма значений минимальна.

In [11]:
matrix = np.random.randint(0, 10, size=(8, 10))

print(f'matrix: \n{matrix}')
print(f'\naxis 1 sums: {matrix.sum(axis=1)}')

min_str_i = matrix.sum(axis=1).argmin()
print(f'\ni min: {min_str_i}')
print(f'\nstr min: {matrix[min_str_i]}')

matrix: 
[[6 6 3 7 0 0 7 3 9 2]
 [4 3 6 8 5 1 3 9 2 0]
 [8 4 9 3 7 6 7 4 8 8]
 [6 5 1 2 5 8 6 6 3 3]
 [3 5 3 5 3 5 8 6 3 1]
 [4 1 1 6 5 5 1 5 3 5]
 [5 7 0 1 9 2 1 5 9 8]
 [8 6 4 8 1 2 1 7 3 3]]

axis 1 sums: [43 41 64 45 42 36 47 43]

i min: 5

str min: [4 1 1 6 5 5 1 5 3 5]


3. Найти евклидово расстояние между двумя одномерными векторами одинаковой размерности.

In [16]:
def euclidean(a: np.array, b: np.array) -> float:
    return np.sqrt(np.sum((a - b) ** 2))


size = 5
vector_1 = np.random.randint(0, 10, size)
vector_2 = np.random.randint(0, 10, size)

euclidean(vector_1, vector_2)

11.045361017187261

4. Решить матричное уравнение `A*X*B=-C` - найти матрицу `X`. Где `A = [[-1, 2, 4], [-3, 1, 2], [-3, 0, 1]]`, `B=[[3, -1], [2, 1]]`, `C=[[7, 21], [11, 8], [8, 4]]`.

In [58]:
from functools import reduce

A = np.array(
    [[-1, 2, 4],
     [-3, 1, 2],
     [-3, 0, 1]]
)
B = np.array(
    [[3, -1],
     [2, 1]]
)
C = np.array(
    [[7., 21.],
     [11., 8.],
     [8., 4.]]
)

X = reduce(np.dot, [np.linalg.inv(A), -C, np.linalg.inv(B)])
print(f'check: {np.allclose(reduce(np.dot, [A, X, B]), -C)}')

print(f'\n{X=}')

check: True

X=array([[ 1.00000000e+00,  5.32907052e-16],
       [-2.00000000e+00,  1.00000000e+00],
       [ 3.00000000e+00, -4.00000000e+00]])


## Лабораторная работа №1

Замечание: при решении данных задач не подразумевается использования циклов или генераторов Python, если в задании не сказано обратного. Решение должно опираться на использования функционала библиотеки `numpy`.

1. Файл `minutes_n_ingredients.csv` содержит информацию об идентификаторе рецепта, времени его выполнения в минутах и количестве необходимых ингредиентов. Считайте данные из этого файла в виде массива `numpy` типа `int32`, используя `np.load_txt`. Выведите на экран первые 5 строк массива.

2. Вычислите среднее значение, минимум, максимум и медиану по каждому из столбцов, кроме первого.

3. Ограничьте сверху значения продолжительности выполнения рецепта значением квантиля $q_{0.75}$. 

4. Посчитайте, для скольких рецептов указана продолжительность, равная нулю. Замените для таких строк значение в данном столбце на 1.

5. Посчитайте, сколько уникальных рецептов находится в датасете.

6. Сколько и каких различных значений кол-ва ингредиентов присутвует в рецептах из датасета?

7. Создайте версию массива, содержащую информацию только о рецептах, состоящих не более чем из 5 ингредиентов.

8. Для каждого рецепта посчитайте, сколько в среднем ингредиентов приходится на одну минуту рецепта. Найдите максимальное значение этой величины для всего датасета

9. Вычислите среднее количество ингредиентов для топ-100 рецептов с наибольшей продолжительностью

10. Выберите случайным образом и выведите информацию о 10 различных рецептах

11. Выведите процент рецептов, кол-во ингредиентов в которых меньше среднего.

12. Назовем "простым" такой рецепт, длительность выполнения которого не больше 20 минут и кол-во ингредиентов в котором не больше 5. Создайте версию датасета с дополнительным столбцом, значениями которого являются 1, если рецепт простой, и 0 в противном случае.

13. Выведите процент "простых" рецептов в датасете

14. Разделим рецепты на группы по следующему правилу. Назовем рецепты короткими, если их продолжительность составляет менее 10 минут; стандартными, если их продолжительность составляет более 10, но менее 20 минут; и длинными, если их продолжительность составляет не менее 20 минут. Создайте трехмерный массив, где нулевая ось отвечает за номер группы (короткий, стандартный или длинный рецепт), первая ось - за сам рецепт и вторая ось - за характеристики рецепта. Выберите максимальное количество рецептов из каждой группы таким образом, чтобы было возможно сформировать трехмерный массив. Выведите форму полученного массива.

In [2]:
import numpy as np

array([ 0,  3,  6,  9, 12, 15, 18, 21, 24, 27])

In [3]:
# 1

def normalize(arr):
    min_ = np.min(arr)
    max_ = np.max(arr)
    a = 1 / (max_ - min_)
    b = -min_ / (max_ - min_)
    return a * arr + b


random_arr = np.random.uniform(0, 20, size=(4, 7))
normalized_arr = normalize(random_arr)
normalized_arr

array([[0.30330969, 0.48968605, 0.89653469, 1.        , 0.97631128,
        0.9789108 , 0.79227382],
       [0.92844416, 0.92792801, 0.30109456, 0.02958166, 0.83817742,
        0.49006771, 0.65204827],
       [0.        , 0.97404219, 0.22795432, 0.07277716, 0.48703024,
        0.97031592, 0.09356546],
       [0.42695527, 0.51565328, 0.46392989, 0.31739313, 0.35931069,
        0.7288988 , 0.51973603]])

In [4]:
# 2

arr = np.random.randint(0, 10, size=(8, 10))
print(f'i min: {arr.sum(axis=1).argmin()}')
print(f'str min: {arr[arr.sum(axis=1).argmin()]}')

i min: 6
str min: [6 4 4 4 1 3 2 3 5 0]


In [5]:
# 3

def euclidean(a, b):
    return np.sqrt(np.sum((a - b) ** 2))


vector_1 = np.random.randint(0, 10, size=5)
vector_2 = np.random.randint(0, 10, size=5)
euclidean(vector_1, vector_2)

6.6332495807108

In [6]:
# 4

a = np.array([[-1, 2, 4],
              [-3, 1, 2],
              [-3, 0, 1]])
b = np.array([[3, -1],
              [2, 1]])
c = np.array([[7, 21],
              [11, 8],
              [8, 4]])

# a * x * b = -c
print(np.dot(np.dot(np.linalg.inv(a), (-c)), np.linalg.inv(b)))
print(np.array(np.matrix(a) ** -1 * (-1 * np.matrix(c)) * np.matrix(b) ** -1))

[[ 1.00000000e+00  5.32907052e-16]
 [-2.00000000e+00  1.00000000e+00]
 [ 3.00000000e+00 -4.00000000e+00]]
[[ 1.00000000e+00  5.32907052e-16]
 [-2.00000000e+00  1.00000000e+00]
 [ 3.00000000e+00 -4.00000000e+00]]


In [7]:
# 5

df: np.recarray = np.recfromcsv('minutes_n_ingredients.csv')
df

OSError: minutes_n_ingredients.csv not found.