# Numpy

Материалы:
* Макрушин С.В. "Лекция 1: Библиотека Numpy"
* https://numpy.org/doc/stable/user/index.html
* https://numpy.org/doc/stable/reference/index.html
* Уэс Маккини. Python и анализ данных

## Задачи для совместного разбора

In [1]:
import numpy as np 

1. Сгенерировать двухмерный массив `arr` размерности (4, 7), состоящий из случайных действительных чисел, равномерно распределенных в диапазоне от 0 до 20. Нормализовать значения массива с помощью преобразования вида  $𝑎𝑥+𝑏$  так, что после нормализации максимальный элемент масcива будет равен 1.0, минимальный 0.0

In [2]:
arr = np.random.uniform(low=0, high=20, size=(4, 7))
arr = (arr - arr.min())/(arr.max() - arr.min())    # Нормализация по ax + b
arr

array([[0.21723417, 0.72262765, 0.        , 0.97770647, 0.89158736,
        0.49137587, 1.        ],
       [0.36125892, 0.98234524, 0.61601447, 0.60861199, 0.52459831,
        0.32993489, 0.27508893],
       [0.9535373 , 0.14622311, 0.22513904, 0.23500492, 0.81210121,
        0.96555492, 0.34283016],
       [0.55469531, 0.31411434, 0.83016467, 0.43740406, 0.18397286,
        0.9761426 , 0.44229187]])

2. Создать матрицу 8 на 10 из случайных целых (используя модуль `numpy.random`) чисел из диапозона от 0 до 10 и найти в ней строку (ее индекс и вывести саму строку), в которой сумма значений минимальна.

In [3]:
arr = np.random.randint(low=0, high=10, size=(8, 10))
sum_by_row = arr.sum(axis=1)
min_idx = sum_by_row.argmin()
min_idx, arr[min_idx]

(2, array([4, 1, 2, 3, 7, 4, 1, 3, 1, 0]))

3. Найти евклидово расстояние между двумя одномерными векторами одинаковой размерности.

In [4]:
x = np.array([1, 2, 3])
y = np.array([1, 4, 3])
np.sqrt(np.power(x - y, 2).sum())

2.0

4. Решить матричное уравнение `A*X*B=-C` - найти матрицу `X`. Где `A = [[-1, 2, 4], [-3, 1, 2], [-3, 0, 1]]`, `B=[[3, -1], [2, 1]]`, `C=[[7, 21], [11, 8], [8, 4]]`.

In [5]:
A = np.array([[-1, 2, 4], [-3, 1, 2], [-3, 0, 1]])
B = np.array([[3, -1], [2, 1]])
C = np.array([[7, 21], [11, 8], [8, 4]])
X = np.linalg.inv(A) @ (-C) @ np.linalg.inv(B)
X

array([[ 1.00000000e+00,  5.32907052e-16],
       [-2.00000000e+00,  1.00000000e+00],
       [ 3.00000000e+00, -4.00000000e+00]])

In [6]:
A @ X @ B, -C

(array([[ -7., -21.],
        [-11.,  -8.],
        [ -8.,  -4.]]),
 array([[ -7, -21],
        [-11,  -8],
        [ -8,  -4]]))

## Лабораторная работа №1

__При решении данных задач не подразумевается использования циклов или генераторов Python, если в задании не сказано обратного. Решение должно опираться на использования функционала библиотеки `numpy`.__

1. Файл `minutes_n_ingredients.csv` содержит информацию об идентификаторе рецепта, времени его выполнения в минутах и количестве необходимых ингредиентов. Считайте данные из этого файла в виде массива `numpy` типа `int32`, используя `np.loadtxt`. Выведите на экран первые 5 строк массива.

In [7]:
pwd

'C:\\Users\\Артём\\OneDrive - ФГОБУ ВО Финансовый университет при Правительстве РФ\\Учёба\\3 курс\\Технологии обработки BD\\ТОБД22-ПМ20-Материалы к семинарам\\01_numpy'

In [8]:
arr = np.loadtxt('C:\\Users\\Артём\\OneDrive - ФГОБУ ВО Финансовый университет при Правительстве РФ\\Учёба\\3 курс\\Технологии обработки BD\\ТОБД22-ПМ20-Материалы к семинарам\\01_numpy\\01_numpy_data\\minutes_n_ingredients.csv', dtype='int32', delimiter=',', skiprows=1)
arr[:5]

array([[127244,     60,     16],
       [ 23891,     25,      7],
       [ 94746,     10,      6],
       [ 67660,      5,      6],
       [157911,     60,     14]])

2. Вычислите среднее значение, минимум, максимум и медиану по каждому из столбцов, кроме первого.

In [9]:
# Среднее
arr.mean(axis=0)[1:]

array([2.16010017e+04, 9.05528000e+00])

In [10]:
# Минимум
arr.min(axis=0)[1:]

array([0, 1])

In [11]:
# Максимум
arr.max(axis=0)[1:]

array([2147483647,         39])

In [12]:
# Медиана 
np.median(arr, axis=0)[1:]

array([40.,  9.])

3. Выберите случайным образом и выведите информацию о 10 различных рецептах

In [13]:
arr[np.random.randint(low=0, high=len(arr), size=10), :]

array([[ 81276,     45,      7],
       [427678,     30,     10],
       [136715,     15,      9],
       [393657,     40,     12],
       [162258,     90,     12],
       [232178,     20,      9],
       [ 28737,     35,      7],
       [ 99780,     15,      5],
       [458964,     33,     11],
       [206337,    155,     10]])

4. Создайте версию массива, содержащую информацию только о рецептах, состоящих не более чем из 5 ингредиентов.

In [14]:
arr_in5 = arr[np.where(arr[:,2] < 6)]
arr_in5

array([[446597,     15,      5],
       [204134,      5,      3],
       [ 25623,      6,      4],
       ...,
       [ 52088,     60,      5],
       [128811,     15,      4],
       [370915,      5,      4]])

5. Выведите процент рецептов, кол-во ингредиентов в которых меньше среднего.

In [15]:
(len(arr[np.where(arr[:,2] < arr.mean(axis=0)[2])]) / len(arr) ) * 100

58.802

6. Вычислите значение $q_{0.75}$ третьего квартиля продолжительности выполнения рецепта. Замените в этом столбце значения, большие чем $q_{0.75}$ на величину $q_{0.75}$.

In [16]:
q_75 = np.quantile(arr[:,1], 0.75)

#arr_2 = np.copy(arr) # Создаю копию arr_2, чтобы не изменять исходный массив arr 

arr[arr[:,1] > q_75, 1] = q_75 # Так правильно , чтобы не было копий! (кто ж знал)
arr

array([[127244,     60,     16],
       [ 23891,     25,      7],
       [ 94746,     10,      6],
       ...,
       [498432,     65,     15],
       [370915,      5,      4],
       [ 81993,     65,     14]])

7. Посчитайте, для скольких рецептов исходного массива указана продолжительность, равная нулю. Модифицируйте исходный массив, заменив для таких строк значение в данном столбце на 1.

In [17]:
time_0 = len(arr[np.where(arr[:,1] == 0)])
print(f'Кол-во рецептов с продолжительностью = 0 : {time_0}')

Кол-во рецептов с продолжительностью = 0 : 479


In [18]:
#arr_3 = np.copy(arr)  

arr[:,1][arr[:,1] == 0] = 1
arr

array([[127244,     60,     16],
       [ 23891,     25,      7],
       [ 94746,     10,      6],
       ...,
       [498432,     65,     15],
       [370915,      5,      4],
       [ 81993,     65,     14]])

In [19]:
# Проверка:
arr[:,1].min()

1

8. Найдите множество возможных значений величины количества ингредиентов и количество вхождений каждого из уникальных значений в набор данных. Используя `numpy.isin`, выясните, какие числа из отрезка [1, 41] отсуствуют в данном множестве и выведите их на экран. 

In [20]:
# Множество возможных значений величины количества ингредиентов
set_ing = np.unique(arr[:,2])
set_ing

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16, 17,
       18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34,
       35, 37, 39])

In [21]:
# Количество вхождений каждого из уникальных значений в набор данных
unique, counts = np.unique(arr[:,2], return_counts=True)

unique_in = np.column_stack((unique, counts)) 
unique_in  # 1 столбец - кол-во ингридиентов, 2 столбец - кол-во вхождений 

array([[    1,    13],
       [    2,   926],
       [    3,  2895],
       [    4,  5515],
       [    5,  7913],
       [    6,  9376],
       [    7, 10628],
       [    8, 10951],
       [    9, 10585],
       [   10,  9591],
       [   11,  8297],
       [   12,  6605],
       [   13,  4997],
       [   14,  3663],
       [   15,  2595],
       [   16,  1767],
       [   17,  1246],
       [   18,   790],
       [   19,   573],
       [   20,   376],
       [   21,   217],
       [   22,   161],
       [   23,   105],
       [   24,    69],
       [   25,    50],
       [   26,    28],
       [   27,    16],
       [   28,    16],
       [   29,    12],
       [   30,    12],
       [   31,     3],
       [   32,     1],
       [   33,     2],
       [   34,     1],
       [   35,     3],
       [   37,     1],
       [   39,     1]], dtype=int64)

In [22]:
# Какие числа из отрезка [1, 41] отсуствуют в данном множестве
test = np.array(range(1,42))
mask = np.isin(test, set_ing, invert=True)
test[mask]

array([36, 38, 40, 41])

9. Для каждого рецепта посчитайте, сколько в среднем ингредиентов приходится на одну минуту рецепта. Найдите максимальное значение этой величины для всего датасета.

In [23]:
mean_ing = arr[:,2] / arr[:,1]
arr_ing = np.column_stack((arr[:], mean_ing)) 
arr_ing

array([[1.27244000e+05, 6.00000000e+01, 1.60000000e+01, 2.66666667e-01],
       [2.38910000e+04, 2.50000000e+01, 7.00000000e+00, 2.80000000e-01],
       [9.47460000e+04, 1.00000000e+01, 6.00000000e+00, 6.00000000e-01],
       ...,
       [4.98432000e+05, 6.50000000e+01, 1.50000000e+01, 2.30769231e-01],
       [3.70915000e+05, 5.00000000e+00, 4.00000000e+00, 8.00000000e-01],
       [8.19930000e+04, 6.50000000e+01, 1.40000000e+01, 2.15384615e-01]])

In [24]:
# Vаксимальное значение этой величины для всего датасета
arr_ing.max(axis=0)[3]

24.0

10. Вычислите среднее количество ингредиентов для топ-100 рецептов с наибольшей продолжительностью

In [25]:
arr[arr[:, 1].][:-101:-1].mean(axis=0)[2]

9.96

11. Назовем "простым" такой рецепт, длительность выполнения которого не больше 20 минут и кол-во ингредиентов в котором не больше 5. Создайте версию датасета с дополнительным столбцом, значениями которого являются 1, если рецепт простой, и 0 в противном случае. Выведите процент "простых" рецептов в датасете.

In [26]:
arr_3 = np.where((arr[:,1] < 21) & (arr[:,2] < 6) , np.ones(len(arr)), np.zeros(len(arr)) )
arr_common = np.column_stack((arr[:], arr_3)) 
len(arr_common[np.where(arr_common[:,3] == 1)])/len(arr_common) * 100 

9.552

In [27]:
arr_common

array([[1.27244e+05, 6.00000e+01, 1.60000e+01, 0.00000e+00],
       [2.38910e+04, 2.50000e+01, 7.00000e+00, 0.00000e+00],
       [9.47460e+04, 1.00000e+01, 6.00000e+00, 0.00000e+00],
       ...,
       [4.98432e+05, 6.50000e+01, 1.50000e+01, 0.00000e+00],
       [3.70915e+05, 5.00000e+00, 4.00000e+00, 1.00000e+00],
       [8.19930e+04, 6.50000e+01, 1.40000e+01, 0.00000e+00]])

12. Разделим рецепты на группы по следующему правилу. Назовем рецепты короткими, если их продолжительность составляет менее 10 минут; стандартными, если их продолжительность составляет не менее 10, но менее 20 минут; и длинными, если их продолжительность составляет не менее 20 минут. Создайте трехмерный массив, где нулевая ось отвечает за номер группы (короткий, стандартный или длинный рецепт), первая ось - за сам рецепт и вторая ось - за характеристики рецепта. Выберите максимальное количество рецептов из каждой группы таким образом, чтобы было возможно сформировать трехмерный массив. Выведите форму полученного массива.

In [28]:
short = arr[arr[:, 1] < 10]
short.shape

(7588, 3)

In [29]:
standart = arr[(arr[:, 1] >= 10) & (arr[:, 1] < 20)]
standart.shape

(12661, 3)

In [30]:
long = arr[arr[:, 1] >= 20]
long.shape

(79751, 3)

In [31]:
length = min(len(short), len(standart), len(long))
length

7588

In [32]:
arr_3d = np.stack([short[:length], standart[:length], long[:length]])  
arr_3d.shape

(3, 7588, 3)

13. Пусть в среднем одна минута работы повара стоит ресторану 5 ед., а средняя стоимость одного ингредиента составляет 10 ед. 
Создайте вектор-столбец `numpy`, содержащий данную информацию. Посчитайте среднюю стоимость приготовления для каждого из первых 10 рецептов в наборе данных.

In [33]:
# Вектор-столбец 
cost = np.array([[5], [10]])
cost              

array([[ 5],
       [10]])

In [34]:
# Средняя стоимость приготовления (1 способ)
arr[:10,1:][:, 0] * cost[0] + arr[:10,1:][:, 1] * cost[1]

array([460, 195, 110,  85, 440, 270, 180, 125, 125, 170])

In [35]:
# Средняя стоимость приготовления (2 способ)
arr[:10,1:] @ cost

array([[460],
       [195],
       [110],
       [ 85],
       [440],
       [270],
       [180],
       [125],
       [125],
       [170]])