# Numpy

Материалы:
* Макрушин С.В. "Лекция 1: Библиотека Numpy"
* https://numpy.org/doc/stable/user/index.html
* https://numpy.org/doc/stable/reference/index.html

## Задачи для совместного разбора

In [2]:
import numpy as np
import pandas as pd

1. Сгенерировать двухмерный массив `arr` размерности (4, 7), состоящий из случайных действительных чисел, равномерно распределенных в диапазоне от 0 до 20. Нормализовать значения массива с помощью преобразования вида  $𝑎𝑥+𝑏$  так, что после нормализации максимальный элемент масcива будет равен 1.0, минимальный 0.0

In [6]:
array = np.random.uniform(low=0, high=20, size=(4, 7))
a_min = np.min(array)
a_max = np.max(array)
(array - a_min) / (np.amax(array) - a_min)

array([[0.32611454, 0.05203972, 0.52816728, 0.0807229 , 0.19152091,
        0.35937973, 0.10814084],
       [0.        , 0.69907056, 0.32876071, 0.15154078, 0.21541381,
        0.36727913, 1.        ],
       [0.77761872, 0.87652733, 0.83159426, 0.7487707 , 0.55214041,
        0.01752007, 0.62123522],
       [0.24233355, 0.63658146, 0.14354185, 0.75217015, 0.84951029,
        0.64075251, 0.61972159]])

np.amax - Возвращает максимум массива или максимум на оси если указана вторым аргументом.

2. Создать матрицу 8 на 10 из случайных целых (используя модуль `numpy.random`) чисел из диапозона от 0 до 10 и найти в ней строку (ее индекс и вывести саму строку), в которой сумма значений минимальна.

In [9]:
array = np.random.randint(0, 10, size=(8, 10))
array

array([[5, 6, 8, 8, 9, 0, 8, 5, 6, 7],
       [0, 4, 0, 0, 8, 1, 6, 4, 0, 6],
       [6, 4, 1, 5, 9, 6, 8, 3, 4, 2],
       [0, 7, 5, 5, 1, 8, 3, 7, 5, 4],
       [4, 9, 5, 6, 6, 4, 1, 5, 8, 0],
       [7, 7, 2, 1, 3, 9, 7, 6, 1, 7],
       [5, 9, 7, 1, 3, 6, 3, 6, 3, 4],
       [7, 1, 9, 2, 8, 2, 7, 1, 5, 7]])

In [12]:
min_index = np.argmin(array.sum(axis=1))
print(min_index)
array[min_index, :]

1


array([0, 4, 0, 0, 8, 1, 6, 4, 0, 6])

3. Найти евклидово расстояние между двумя одномерными векторами одинаковой размерности.

In [8]:
array1 = np.random.randint(0, 10, size=10)
print(array1)
array2 = np.random.randint(0, 10, size=10)
print(array2)
distance_auto = np.linalg.norm(array1 - array2)
print(distance_auto)

euclidean_distance = np.sum((array1 - array2) ** 2) ** (1 / 2)

euclidean_distance

[7 9 9 9 4 5 4 3 6 2]
[3 7 9 1 2 7 6 0 1 6]
12.083045973594572


12.083045973594572

4. Решить матричное уравнение `A*X*B=-C` - найти матрицу `X`. Где `A = [[-1, 2, 4], [-3, 1, 2], [-3, 0, 1]]`, `B=[[3, -1], [2, 1]]`, `C=[[7, 21], [11, 8], [8, 4]]`.

In [22]:
a = np.matrix([[-1, 2, 4], [-3, 1, 2], [-3, 0, 1]])
b = np.matrix([[3, -1], [2, 1]])
c = np.matrix([[7, 21], [11, 8], [8, 4]])

result1 = np.linalg.inv(a) @ -c @ np.linalg.inv(b) # @ -> matmul (Матричное произведение двух массивов)
result1

matrix([[ 1.00000000e+00,  5.32907052e-16],
        [-2.00000000e+00,  1.00000000e+00],
        [ 3.00000000e+00, -4.00000000e+00]])

## Лабораторная работа №1.1

Замечание: при решении данных задач не подразумевается использования циклов или генераторов Python, если в задании не сказано обратного. Решение должно опираться на использования функционала библиотеки `numpy`.

1. Файл `minutes_n_ingredients.csv` содержит информацию об идентификаторе рецепта, времени его выполнения в минутах и количестве необходимых ингредиентов. Считайте данные из этого файла в виде массива `numpy` типа `int32`, используя `np.loadtxt`. Выведите на экран первые 5 строк массива.


In [6]:
data = np.loadtxt("data/minutes_n_ingredients.csv", dtype=int, delimiter=",", skiprows=1)
data[:5]

array([[127244,     60,     16],
       [ 23891,     25,      7],
       [ 94746,     10,      6],
       [ 67660,      5,      6],
       [157911,     60,     14]])

2. Вычислите среднее значение, минимум, максимум и медиану по каждому из столбцов, кроме первого.

In [10]:
column = 1
print(f"Минимальное: {np.min(data[:, column])}", f"Максимальное: {np.max(data[:, column])}", f"Медиана: {np.median(data[:, column])}", sep='\n', end='\n\n')

column = 2
print(f"Минимальное: {np.min(data[:, column])}", f"Максимальное: {np.max(data[:, column])}", f"Медиана: {np.median(data[:, column])}", sep='\n', end='\n\n')



print(f"Минимальное: {np.min(data[:, 1:], axis=0)}", f"Максимальное: {np.max(data[:, 1:], axis=0)}", f"Медиана: {np.median(data[:, 1:], axis=0)}", sep='\n', end='\n\n')

Минимальное: 0
Максимальное: 2147483647
Медиана: 40.0

Минимальное: 1
Максимальное: 39
Медиана: 9.0

Минимальное: [0 1]
Максимальное: [2147483647         39]
Медиана: [40.  9.]



3. Ограничьте сверху значения продолжительности выполнения рецепта значением квантиля $q_{0.75}$. 

In [12]:
quantile = 0.75
koshkas = np.quantile(data[:,1], quantile)
mask = data[:,1] <= koshkas
data[mask]

array([[127244,     60,     16],
       [ 23891,     25,      7],
       [ 94746,     10,      6],
       ...,
       [ 43407,     35,      7],
       [498432,     65,     15],
       [370915,      5,      4]])

4. Посчитайте, для скольких рецептов указана продолжительность, равная нулю. Замените для таких строк значение в данном столбце на 1.

In [19]:
def count(data: np.matrix) -> int: return data[mask].shape[0], data[:, 1] == 0

count, mask = count(data)
print(count)
formatted_data = data.copy()
print(formatted_data)
formatted_data[mask, 1] = 1
print(formatted_data)

count, ____ = counter(formatted_data)
count

479
[[127244     60     16]
 [ 23891     25      7]
 [ 94746     10      6]
 ...
 [498432     65     15]
 [370915      5      4]
 [ 81993    140     14]]
[[127244     60     16]
 [ 23891     25      7]
 [ 94746     10      6]
 ...
 [498432     65     15]
 [370915      5      4]
 [ 81993    140     14]]


479

5. Посчитайте, сколько уникальных рецептов находится в датасете.

In [20]:
print(formatted_data.shape)
unique_rows = np.unique(formatted_data, axis=0)
unique_rows.shape

(100000, 3)


(100000, 3)

6. Сколько и каких различных значений кол-ва ингредиентов присутвует в рецептах из датасета?

In [22]:
unique, counts = np.unique(new_data[:, 2], return_counts=True)
print("Всего уникальных ингредиентов:", len(unique))
dict(zip(counts,unique))

Всего уникальных ингредиентов: 37


{13: 1,
 926: 2,
 2895: 3,
 5515: 4,
 7913: 5,
 9376: 6,
 10628: 7,
 10951: 8,
 10585: 9,
 9591: 10,
 8297: 11,
 6605: 12,
 4997: 13,
 3663: 14,
 2595: 15,
 1767: 16,
 1246: 17,
 790: 18,
 573: 19,
 376: 20,
 217: 21,
 161: 22,
 105: 23,
 69: 24,
 50: 25,
 28: 26,
 16: 28,
 12: 30,
 3: 35,
 1: 39,
 2: 33}

## Лабораторная работа №1.2

7. Создайте версию массива, содержащую информацию только о рецептах, состоящих не более чем из 5 ингредиентов.

8. Для каждого рецепта посчитайте, сколько в среднем ингредиентов приходится на одну минуту рецепта. Найдите максимальное значение этой величины для всего датасета

9. Вычислите среднее количество ингредиентов для топ-100 рецептов с наибольшей продолжительностью

10. Выберите случайным образом и выведите информацию о 10 различных рецептах

11. Выведите процент рецептов, кол-во ингредиентов в которых меньше среднего.

12. Назовем "простым" такой рецепт, длительность выполнения которого не больше 20 минут и кол-во ингредиентов в котором не больше 5. Создайте версию датасета с дополнительным столбцом, значениями которого являются 1, если рецепт простой, и 0 в противном случае.

13. Выведите процент "простых" рецептов в датасете

14. Разделим рецепты на группы по следующему правилу. Назовем рецепты короткими, если их продолжительность составляет менее 10 минут; стандартными, если их продолжительность составляет более 10, но менее 20 минут; и длинными, если их продолжительность составляет не менее 20 минут. Создайте трехмерный массив, где нулевая ось отвечает за номер группы (короткий, стандартный или длинный рецепт), первая ось - за сам рецепт и вторая ось - за характеристики рецепта. Выберите максимальное количество рецептов из каждой группы таким образом, чтобы было возможно сформировать трехмерный массив. Выведите форму полученного массива.