# Numpy

Материалы:
* Макрушин С.В. "Лекция 1: Библиотека Numpy"
* https://numpy.org/doc/stable/user/index.html
* https://numpy.org/doc/stable/reference/index.html

## Задачи для совместного разбора

1. Сгенерировать двухмерный массив `arr` размерности (4, 7), состоящий из случайных действительных чисел, равномерно распределенных в диапазоне от 0 до 20. Нормализовать значения массива с помощью преобразования вида  $𝑎𝑥+𝑏$  так, что после нормализации максимальный элемент масcива будет равен 1.0, минимальный 0.0

In [2]:
import numpy as np
arr = np.linspace(0, 20, 28)
arr.reshape(4,7)

min_arr = arr[0]
max_arr = arr[-1]

normal_arr = (arr - min_arr) / (max_arr - min_arr)

print(normal_arr)
print('-' * 73)
print(arr)

[0.         0.03703704 0.07407407 0.11111111 0.14814815 0.18518519
 0.22222222 0.25925926 0.2962963  0.33333333 0.37037037 0.40740741
 0.44444444 0.48148148 0.51851852 0.55555556 0.59259259 0.62962963
 0.66666667 0.7037037  0.74074074 0.77777778 0.81481481 0.85185185
 0.88888889 0.92592593 0.96296296 1.        ]
-------------------------------------------------------------------------
[ 0.          0.74074074  1.48148148  2.22222222  2.96296296  3.7037037
  4.44444444  5.18518519  5.92592593  6.66666667  7.40740741  8.14814815
  8.88888889  9.62962963 10.37037037 11.11111111 11.85185185 12.59259259
 13.33333333 14.07407407 14.81481481 15.55555556 16.2962963  17.03703704
 17.77777778 18.51851852 19.25925926 20.        ]


2. Создать матрицу 8 на 10 из случайных целых (используя модуль `numpy.random`) чисел из диапозона от 0 до 10 и найти в ней строку (ее индекс и вывести саму строку), в которой сумма значений минимальна.

In [9]:
random_matrix = np.random.randint(0, 10, 80, dtype = int).reshape(8, 10)


sums = random_matrix.sum(axis = 1)

ind = list(sums).index(max(sums))


print(random_matrix)

print(random_matrix[ind], list(sums))


[[1 8 1 0 4 3 6 3 3 0]
 [0 8 9 8 7 6 4 4 2 4]
 [0 1 4 2 5 9 9 6 1 9]
 [2 6 1 4 2 4 8 1 0 1]
 [3 9 1 8 4 4 9 6 4 0]
 [3 7 2 1 2 5 3 9 9 0]
 [0 6 8 9 4 0 2 5 5 4]
 [0 2 3 4 8 6 8 6 1 1]]
[0 8 9 8 7 6 4 4 2 4] [29, 52, 46, 29, 48, 41, 43, 39]


3. Найти евклидово расстояние между двумя одномерными векторами одинаковой размерности.

In [12]:
dot1 = np.random.randint(0,1000, 3)
dot2 = np.random.randint(0,1000, 3)

evkl = np.linalg.norm(dot1 - dot2)

print(dot1, dot2, evkl, end = ' ')

[447 323 720] [730 810 616] 572.7774436899554 

4. Решить матричное уравнение `A*X*B=-C` - найти матрицу `X`. Где `A = [[-1, 2, 4], [-3, 1, 2], [-3, 0, 1]]`, `B=[[3, -1], [2, 1]]`, `C=[[7, 21], [11, 8], [8, 4]]`.

In [10]:
matrix_A = np.array([[-1, 2, 4], [-3, 1, 2], [-3, 0, 1]])
matrix_B = np.array([[3, -1], [2, 1]])
matrix_C = np.array([[7, 21], [11, 8], [8, 4]])

inv_matrix_A = np.linalg.inv(matrix_A)
inv_matrix_B = np.linalg.inv(matrix_B)


matrix_X = inv_matrix_A @ (matrix_C * -1) @ inv_matrix_B
print(matrix_X.astype('float'))

[[ 1.00000000e+00  5.32907052e-16]
 [-2.00000000e+00  1.00000000e+00]
 [ 3.00000000e+00 -4.00000000e+00]]


## Лабораторная работа №1

Замечание: при решении данных задач не подразумевается использования циклов или генераторов Python, если в задании не сказано обратного. Решение должно опираться на использования функционала библиотеки `numpy`.

1. Файл `minutes_n_ingredients.csv` содержит информацию об идентификаторе рецепта, времени его выполнения в минутах и количестве необходимых ингредиентов. Считайте данные из этого файла в виде массива `numpy` типа `int32`, используя `np.loadtxt`. Выведите на экран первые 5 строк массива.

In [12]:
full_array = np.loadtxt('minutes_n_ingredients.csv', delimiter = ',', dtype = 'str')
header, inner = full_array[0], full_array[1:].astype('int32')
header.reshape(1, 3)
print(f'{header}\n{inner[:4]}')

['id' 'minutes' 'n_ingredients']
[[127244     60     16]
 [ 23891     25      7]
 [ 94746     10      6]
 [ 67660      5      6]]


2. Вычислите среднее значение, минимум, максимум и медиану по каждому из столбцов, кроме первого.

In [17]:
average = np.array(inner.sum(axis = 0) / np.shape(inner)[0]).reshape(np.shape(inner)[1], 1).astype('float')

minimum = np.array([np.min(inner[:,0]), np.min(inner[:,1]), np.min(inner[:,2])]).reshape(np.shape(inner)[1], 1).astype('int')

maximum = np.array([np.max(inner[:,0]), np.max(inner[:,1]), np.max(inner[:,2])]).reshape(np.shape(inner)[1], 1).astype('int')

mediana = np.array([np.median(inner[:,0]),np.median(inner[:,1]),np.median(inner[:,2])]).reshape(np.shape(inner)[1], 1).astype('float')
print(f'''avg:{average}
min:{minimum}
max:{maximum}
med:{mediana}''')



avg:[[2.22064324e+05]
 [2.16010017e+04]
 [9.05528000e+00]]
min:[[38]
 [ 0]
 [ 1]]
max:[[    537671]
 [2147483647]
 [        39]]
med:[[2.071935e+05]
 [4.000000e+01]
 [9.000000e+00]]


3. Ограничьте сверху значения продолжительности выполнения рецепта значением квантиля $q_{0.75}$. 

In [18]:
print(inner[inner[:, 1] <= np.quantile(inner[:, 2], 0.75)])

[[ 94746     10      6]
 [ 67660      5      6]
 [366174      7      9]
 ...
 [420725      5      3]
 [  4747      0      9]
 [370915      5      4]]


4. Посчитайте, для скольких рецептов указана продолжительность, равная нулю. Замените для таких строк значение в данном столбце на 1.

In [19]:
from copy import copy

print(np.count_nonzero(inner[:,1] == 0))

inner_without_zeros = copy(inner)

inner_without_zeros[inner_without_zeros == 0] = 1

np.count_nonzero(inner_without_zeros[:,1] == 0)

479


0

5. Посчитайте, сколько уникальных рецептов находится в датасете.

In [20]:
int(len(np.unique(inner)) / 3)

33515

6. Сколько и каких различных значений кол-ва ингредиентов присутвует в рецептах из датасета?

In [21]:
print(f'''{len(np.unique(inner[:,2]))}
{np.unique(inner[:,2])}''')

37
[ 1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
 25 26 27 28 29 30 31 32 33 34 35 37 39]


7. Создайте версию массива, содержащую информацию только о рецептах, состоящих не более чем из 5 ингредиентов.

In [22]:
corrected_inner = copy(inner)
print(corrected_inner[corrected_inner[:,2] <= 5])

[[446597     15      5]
 [204134      5      3]
 [ 25623      6      4]
 ...
 [ 52088     60      5]
 [128811     15      4]
 [370915      5      4]]


8. Для каждого рецепта посчитайте, сколько в среднем ингредиентов приходится на одну минуту рецепта. Найдите максимальное значение этой величины для всего датасета

In [23]:
non_zeros = inner[inner[:, 1] != 0]

ids = non_zeros[:, 0].reshape(-1, 1)

average_col = (non_zeros[:, 2] / non_zeros[:, 1]).reshape(-1, 1)

print(np.column_stack([ids, average_col]).astype('str'))

[['127244.0' '0.26666666666666666']
 ['23891.0' '0.28']
 ['94746.0' '0.6']
 ...
 ['498432.0' '0.23076923076923078']
 ['370915.0' '0.8']
 ['81993.0' '0.1']]


9. Вычислите среднее количество ингредиентов для топ-100 рецептов с наибольшей продолжительностью

In [24]:
print(inner[inner[:, 1].argsort()][::-1][:100])

[[    261647 2147483647          8]
 [    216215     259260          7]
 [    425681     259205          2]
 [     98912     216015          4]
 [     70551     201610          7]
 [    236340     146880          5]
 [    242032     132495          3]
 [    184528     129620          3]
 [    236274     129615          5]
 [    236281     129615          5]
 [     13264     115230          4]
 [    105417      86405          2]
 [     41403      86400          4]
 [     34175      86400          3]
 [    142936      86400          9]
 [     93063      86400          2]
 [     42247      69120          2]
 [    255611      64815          3]
 [    140344      60555          3]
 [    101082      60540          7]
 [     46288      50405          5]
 [    246196      44655          4]
 [     30845      44645          3]
 [    344480      43380         22]
 [    102098      43380          4]
 [    254782      43250         15]
 [    209590      43230          8]
 [    200097      43205     

10. Выберите случайным образом и выведите информацию о 10 различных рецептах

11. Выведите процент рецептов, кол-во ингредиентов в которых меньше среднего.

In [25]:
random_indexes = np.random.randint(0, len(inner), 10)
print(inner[random_indexes])

[[446451     40     12]
 [445511     30      8]
 [176347     20      9]
 [171687     35     14]
 [439218     90     12]
 [428922     15      8]
 [ 63271     14     16]
 [522575     25      9]
 [168881     15      8]
 [ 60982    135     12]]


In [26]:
(inner[inner[:, 2] < np.mean(inner[:, 2])].size / inner.size) * 100

58.802

12. Назовем "простым" такой рецепт, длительность выполнения которого не больше 20 минут и кол-во ингредиентов в котором не больше 5. Создайте версию датасета с дополнительным столбцом, значениями которого являются 1, если рецепт простой, и 0 в противном случае.

In [27]:
simple_inner = np.array((inner[:, 1] <= 20) & (inner[:, 2] <= 5)).reshape(-1,1).astype('int')
print(np.column_stack([inner, simple_inner]))

[[127244     60     16      0]
 [ 23891     25      7      0]
 [ 94746     10      6      0]
 ...
 [498432     65     15      0]
 [370915      5      4      1]
 [ 81993    140     14      0]]


13. Выведите процент "простых" рецептов в датасете

In [28]:
print(f'{round((simple_inner[simple_inner == 1].size / simple_inner[simple_inner == 0].size) * 100, 2)} %')

10.56 %


14. Разделим рецепты на группы по следующему правилу. Назовем рецепты короткими, если их продолжительность составляет менее 10 минут; стандартными, если их продолжительность составляет более 10, но менее 20 минут; и длинными, если их продолжительность составляет не менее 20 минут. Создайте трехмерный массив, где нулевая ось отвечает за номер группы (короткий, стандартный или длинный рецепт), первая ось - за сам рецепт и вторая ось - за характеристики рецепта. Выберите максимальное количество рецептов из каждой группы таким образом, чтобы было возможно сформировать трехмерный массив. Выведите форму полученного массива.