# Numpy

Материалы:
* Макрушин С.В. "Лекция 1: Библиотека Numpy"
* https://numpy.org/doc/stable/user/index.html
* https://numpy.org/doc/stable/reference/index.html

## Задачи для совместного разбора

1. Сгенерировать двухмерный массив `arr` размерности (4, 7), состоящий из случайных действительных чисел, равномерно распределенных в диапазоне от 0 до 20. Нормализовать значения массива с помощью преобразования вида  $𝑎𝑥+𝑏$  так, что после нормализации максимальный элемент масcива будет равен 1.0, минимальный 0.0

In [6]:
import numpy as np
arr = np.random.uniform(0,20,(4,7))
arr = (arr - np.min(arr)) / (np.max(arr) - np.min(arr))
print(np.round(arr,4))

[[0.3923 0.9435 1.     0.3209 0.     0.5165 0.4485]
 [0.3817 0.1339 0.1398 0.247  0.1639 0.0995 0.6738]
 [0.947  0.6021 0.8728 0.7071 0.9446 0.9535 0.1631]
 [0.764  0.4457 0.8334 0.3742 0.0653 0.0494 0.8728]]


2. Создать матрицу 8 на 10 из случайных целых (используя модуль `numpy.random`) чисел из диапозона от 0 до 10 и найти в ней строку (ее индекс и вывести саму строку), в которой сумма значений минимальна.

In [33]:
import numpy as np
A = np.random.randint(0,10,(8,10))
q = np.argmin(np.sum(A, axis = 1))
print(q, A[q,])


3 [4 2 0 7 1 2 1 9 2 2]


3. Найти евклидово расстояние между двумя одномерными векторами одинаковой размерности.

In [1]:
import numpy as np
A = np.array([2,4,6,8,10])
B = np.array([1,3,5,7,9])
dist = np.linalg.norm(A-B)
print(round(dist,3))


2.236


4. Решить матричное уравнение `A*X*B=-C` - найти матрицу `X`. Где `A = [[-1, 2, 4], [-3, 1, 2], [-3, 0, 1]]`, `B=[[3, -1], [2, 1]]`, `C=[[7, 21], [11, 8], [8, 4]]`.

In [7]:
import numpy as np
A = np.array([[-1, 2, 4], [-3, 1, 2], [-3, 0, 1]])
B = np.array([[3, -1], [2, 1]])
C = np.array([[7, 21], [11, 8], [8, 4]])
X = np.matmul(np.matmul(np.linalg.inv(A),(C * -1)), np.linalg.inv(B))
print(np.round(X))

[[ 1.  0.]
 [-2.  1.]
 [ 3. -4.]]


## Лабораторная работа №1

Замечание: при решении данных задач не подразумевается использования циклов или генераторов Python, если в задании не сказано обратного. Решение должно опираться на использования функционала библиотеки `numpy`.

1. Файл `minutes_n_ingredients.csv` содержит информацию об идентификаторе рецепта, времени его выполнения в минутах и количестве необходимых ингредиентов. Считайте данные из этого файла в виде массива `numpy` типа `int32`, используя `np.loadtxt`. Выведите на экран первые 5 строк массива.

In [10]:
import numpy as np
arr = np.loadtxt(r"minutes_n_ingredients.csv", delimiter=';', dtype=np.int32)
print(arr[:5,])

[[127244     60     16]
 [ 23891     25      7]
 [ 94746     10      6]
 [ 67660      5      6]
 [157911     60     14]]


2. Вычислите среднее значение, минимум, максимум и медиану по каждому из столбцов, кроме первого.

In [9]:
print(np.mean(arr[:,1]), np.min(arr[:,1]), np.max(arr[:,1]), np.median(arr[:,1]))
print(np.mean(arr[:,2]), np.min(arr[:,2]), np.max(arr[:,2]), np.median(arr[:,2]))

21601.00169 0 2147483647 40.0
9.05528 1 39 9.0


3. Ограничьте сверху значения продолжительности выполнения рецепта значением квантиля $q_{0.75}$. 

In [12]:
print(arr[arr[:,1] <= np.quantile(arr[:,1],.75)])

[[127244     60     16]
 [ 23891     25      7]
 [ 94746     10      6]
 ...
 [ 43407     35      7]
 [498432     65     15]
 [370915      5      4]]


4. Посчитайте, для скольких рецептов указана продолжительность, равная нулю. Замените для таких строк значение в данном столбце на 1.

In [39]:
print (np.count_nonzero(arr[:,1] == 0))
arr[arr[:,1] == 0] = 1

479


5. Посчитайте, сколько уникальных рецептов находится в датасете.

In [16]:
print(len(np.unique(arr[:,0])))

100000


6. Сколько и каких различных значений кол-ва ингредиентов присутвует в рецептах из датасета?

In [40]:
print(np.unique(arr[:,2]))
print(len(np.unique(arr[:,2])))

[ 1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
 25 26 27 28 29 30 31 32 33 34 35 37 39]
37


7. Создайте версию массива, содержащую информацию только о рецептах, состоящих не более чем из 5 ингредиентов.

In [18]:
arr2 = arr[np.where(arr[:, 2] <= 5)]
arr2

array([[446597,     15,      5],
       [204134,      5,      3],
       [ 25623,      6,      4],
       ...,
       [ 52088,     60,      5],
       [128811,     15,      4],
       [370915,      5,      4]])

8. Для каждого рецепта посчитайте, сколько в среднем ингредиентов приходится на одну минуту рецепта. Найдите максимальное значение этой величины для всего датасета

In [3]:
np.max(arr[:, 2]/arr[:, 1]), arr[:, 2]/arr[:, 1]

(1.2967730511770934, array([0.30724421, 0.05721207, 0.17127932, 1.29677305]))

9. Вычислите среднее количество ингредиентов для топ-100 рецептов с наибольшей продолжительностью

In [28]:
arr2 = np.argsort(arr[:, 1])[-100:]
arr2 = arr[arr2]
arr2[:, 2].mean()

6.61

10. Выберите случайным образом и выведите информацию о 10 различных рецептах

In [30]:
arr2 = np.random.choice(arr.shape[0], size = 10)
print(arr[arr2])

[[460455     25     10]
 [ 28502      5      4]
 [305010     20      7]
 [ 40621     40      6]
 [284826     15      6]
 [174350     20     12]
 [190580     27      4]
 [283157     20     10]
 [311471     50      9]
 [414076     25     10]]


11. Выведите процент рецептов, кол-во ингредиентов в которых меньше среднего.

In [34]:
print(len(np.where(arr[:, 2] < arr[:, 2].mean())[0])/arr.shape[0]*100)

58.802


12. Назовем "простым" такой рецепт, длительность выполнения которого не больше 20 минут и кол-во ингредиентов в котором не больше 5. Создайте версию датасета с дополнительным столбцом, значениями которого являются 1, если рецепт простой, и 0 в противном случае.

In [37]:
simple = np.zeros((arr.shape[0], 4), dtype=int)
simple[:, :3] = arr
simple[np.where((arr[:, 2] <= 5) & (arr[:, 1] <= 20)), 3] = 1
simple

array([[127244,     60,     16,      0],
       [ 23891,     25,      7,      0],
       [ 94746,     10,      6,      0],
       ...,
       [498432,     65,     15,      0],
       [370915,      5,      4,      1],
       [ 81993,    140,     14,      0]])

13. Выведите процент "простых" рецептов в датасете

In [38]:
print(sum(simple[:, 3])/arr.shape[0]*100)

9.552


14. Разделим рецепты на группы по следующему правилу. Назовем рецепты короткими, если их продолжительность составляет менее 10 минут; стандартными, если их продолжительность составляет более 10, но менее 20 минут; и длинными, если их продолжительность составляет не менее 20 минут. Создайте трехмерный массив, где нулевая ось отвечает за номер группы (короткий, стандартный или длинный рецепт), первая ось - за сам рецепт и вторая ось - за характеристики рецепта. Выберите максимальное количество рецептов из каждой группы таким образом, чтобы было возможно сформировать трехмерный массив. Выведите форму полученного массива.

In [16]:
short = arr[arr[:, 1] < 10]
standard = arr[(arr[:, 1] >= 10) & (arr[:, 1] < 20)]
long = arr[arr[:, 1] >= 20]

max_length = min(len(short_recipes), len(standard_recipes), len(long_recipes))

array = np.zeros((3, max_length, 3), dtype=int)

array[0, :max_length, :] = short[:max_length]
array[1, :max_length, :] = standard[:max_length]
array[2, :max_length, :] = long[:max_length]

array

((3, 7588, 3),
 array([[[ 67660,      5,      6],
         [366174,      7,      9],
         [204134,      5,      3],
         ...,
         [420725,      5,      3],
         [  4747,      0,      9],
         [370915,      5,      4]],
 
        [[ 94746,     10,      6],
         [ 33941,     18,      9],
         [446597,     15,      5],
         ...,
         [  9831,     15,      7],
         [335859,     12,     14],
         [256812,     10,      3]],
 
        [[127244,     60,     16],
         [ 23891,     25,      7],
         [157911,     60,     14],
         ...,
         [168901,     25,      7],
         [392339,     35,     13],
         [206732,     45,     10]]]))