# Numpy

Материалы:
* Макрушин С.В. "Лекция 1: Библиотека Numpy"
* https://numpy.org/doc/stable/user/index.html
* https://numpy.org/doc/stable/reference/index.html

## Задачи для совместного разбора

In [1]:
import numpy as np

1. Сгенерировать двухмерный массив `arr` размерности (4, 7), состоящий из случайных действительных чисел, равномерно распределенных в диапазоне от 0 до 20. Нормализовать значения массива с помощью преобразования вида  $𝑎𝑥+𝑏$  так, что после нормализации максимальный элемент масcива будет равен 1.0, минимальный 0.0

In [2]:
arr = np.linspace(0, 20, 28).reshape(4, 7)
norm_arr = (arr-np.min(arr))/(np.max(arr)-np.min(arr))
print('Изначальный массив:\n', arr)
print('После нормализации:\n', norm_arr)

Изначальный массив:
 [[ 0.          0.74074074  1.48148148  2.22222222  2.96296296  3.7037037
   4.44444444]
 [ 5.18518519  5.92592593  6.66666667  7.40740741  8.14814815  8.88888889
   9.62962963]
 [10.37037037 11.11111111 11.85185185 12.59259259 13.33333333 14.07407407
  14.81481481]
 [15.55555556 16.2962963  17.03703704 17.77777778 18.51851852 19.25925926
  20.        ]]
После нормализации:
 [[0.         0.03703704 0.07407407 0.11111111 0.14814815 0.18518519
  0.22222222]
 [0.25925926 0.2962963  0.33333333 0.37037037 0.40740741 0.44444444
  0.48148148]
 [0.51851852 0.55555556 0.59259259 0.62962963 0.66666667 0.7037037
  0.74074074]
 [0.77777778 0.81481481 0.85185185 0.88888889 0.92592593 0.96296296
  1.        ]]


2. Создать матрицу 8 на 10 из случайных целых (используя модуль `numpy.random`) чисел из диапозона от 0 до 10 и найти в ней строку (ее индекс и вывести саму строку), в которой сумма значений минимальна.

In [3]:
matrix = np.random.randint(0, 11, size = (8, 10))
summa = sum(matrix[0])
index = 0
for i in range(1, len(matrix)):
  if index < sum(matrix[i]):
    summa = sum(matrix[i])
    index = i
print('Матрица:\n', matrix)
print('Индекс строки с минимальной суммой:', index)
print('Строка с минимальной суммой:', matrix[index])

Матрица:
 [[ 3  6  3  7  8 10  2  9  6  4]
 [ 7  3  4  9  7  7  1  0  1  7]
 [ 1  5  2  1  1 10  8  1  8  5]
 [ 2  7  0  1  6  6  7  0  8  5]
 [ 7 10  8  2  0  6 10  2  5  5]
 [ 3  7  1 10  1  5 10  2  6  9]
 [ 7  2  1  4 10  0  7  8  9  1]
 [ 8  2  3  4  3  0  9  9  0  6]]
Индекс строки с минимальной суммой: 7
Строка с минимальной суммой: [8 2 3 4 3 0 9 9 0 6]


3. Найти евклидово расстояние между двумя одномерными векторами одинаковой размерности.

In [4]:
A = np.random.randint(0, 10, size = (1, 3))
B = np.random.randint(0, 10, size = (1, 3))
for i in range(len(A)):
  rasst = np.sqrt(np.sum(np.square(A[i]-B[i])))
print(A)
print(B)
print(rasst)

[[1 1 2]]
[[5 0 5]]
5.0990195135927845


4. Решить матричное уравнение `A*X*B=-C` - найти матрицу `X`. Где `A = [[-1, 2, 4], [-3, 1, 2], [-3, 0, 1]]`, `B=[[3, -1], [2, 1]]`, `C=[[7, 21], [11, 8], [8, 4]]`.

In [5]:
A = np.array([[-1, 2, 4], [-3, 1, 2], [-3, 0, 1]])
B = np.array([[3, -1], [2, 1]])
C = np.array([[7, 21], [11, 8], [8, 4]])
AX = np.dot(C*(-1), np.linalg.inv(B))
X = np.dot(np.linalg.inv(A), AX)
print(np.around(X, decimals = 2))

[[ 1.  0.]
 [-2.  1.]
 [ 3. -4.]]


## Лабораторная работа №1

Замечание: при решении данных задач не подразумевается использования циклов или генераторов Python, если в задании не сказано обратного. Решение должно опираться на использования функционала библиотеки `numpy`.

1. Файл `minutes_n_ingredients.csv` содержит информацию об идентификаторе рецепта, времени его выполнения в минутах и количестве необходимых ингредиентов. Считайте данные из этого файла в виде массива `numpy` типа `int32`, используя `np.loadtxt`. Выведите на экран первые 5 строк массива.

In [6]:
f = np.loadtxt('minutes_n_ingredients.csv', dtype = 'int32', skiprows = 1, delimiter = ',')
print(f[:5])

[[127244     60     16]
 [ 23891     25      7]
 [ 94746     10      6]
 [ 67660      5      6]
 [157911     60     14]]


2. Вычислите среднее значение, минимум, максимум и медиану по каждому из столбцов, кроме первого.

In [7]:
print(f'Среднее значение 2 столбца: {np.mean(f[:, 1])}, Cреднее значение 3 столбца {np.mean(f[:, 2])}')
print(f'Минимальное значение 2 столбца: {np.min(f[:, 1])}, Минимальное значение 3 столбца {np.min(f[:, 2])}')
print(f'Максимальное значение 2 столбца: {np.max(f[:, 1])}, Максимальное значение 3 столбца {np.max(f[:, 2])}')
print(f'Медиана 2 столбца: {np.median(f[:, 1])}, Медиана 3 столбца {np.median(f[:, 2])}')

Среднее значение 2 столбца: 21601.00169, Cреднее значение 3 столбца 9.05528
Минимальное значение 2 столбца: 0, Минимальное значение 3 столбца 1
Максимальное значение 2 столбца: 2147483647, Максимальное значение 3 столбца 39
Медиана 2 столбца: 40.0, Медиана 3 столбца 9.0


3. Ограничьте сверху значения продолжительности выполнения рецепта значением квантиля $q_{0.75}$. 

In [8]:
lim_by_quant = f.copy()
quant = np.quantile(lim_by_quant[:, 1], .75)
lim_by_quant[lim_by_quant[:, 1] > quant] = quant
print(lim_by_quant)

[[127244     60     16]
 [ 23891     25      7]
 [ 94746     10      6]
 ...
 [498432     65     15]
 [370915      5      4]
 [    65     65     65]]


4. Посчитайте, для скольких рецептов указана продолжительность, равная нулю. Замените для таких строк значение в данном столбце на 1.

In [9]:
f1 = f.copy()
print(np.count_nonzero(f1[:,1] == 0))
f[f1[:,1] == 0] = 1
print(f)

479
[[127244     60     16]
 [ 23891     25      7]
 [ 94746     10      6]
 ...
 [498432     65     15]
 [370915      5      4]
 [ 81993    140     14]]


5. Посчитайте, сколько уникальных рецептов находится в датасете.

In [10]:
f1 = f.copy()
print(np.unique(f1[:, 0]))

[     1     38     41 ... 537458 537485 537671]


6. Сколько и каких различных значений кол-ва ингредиентов присутвует в рецептах из датасета?

In [11]:
f1 = f.copy()
print(np.unique(f1[:, 2]))
print(np.unique(f1[:, 2]).size)

[ 1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
 25 26 27 28 29 30 31 32 33 34 35 37 39]
37


7. Создайте версию массива, содержащую информацию только о рецептах, состоящих не более чем из 5 ингредиентов.

In [12]:
f1 = f.copy()
vers_1 = f1[f1[:, 2] <= 5] 
print(vers_1)

[[446597     15      5]
 [204134      5      3]
 [ 25623      6      4]
 ...
 [ 52088     60      5]
 [128811     15      4]
 [370915      5      4]]


8. Для каждого рецепта посчитайте, сколько в среднем ингредиентов приходится на одну минуту рецепта. Найдите максимальное значение этой величины для всего датасета

In [13]:
f1 = f.copy()
masivik = f1[:, 2] / f1[:, 1]
print(masivik)
print(masivik.max())

[0.26666667 0.28       0.6        ... 0.23076923 0.8        0.1       ]
23.0


9. Вычислите среднее количество ингредиентов для топ-100 рецептов с наибольшей продолжительностью

In [14]:
f1 = f.copy()
kols = np.argsort(f[:, 1])[-100:]
print(np.mean(f[kols][:, 2]))

6.61


10. Выберите случайным образом и выведите информацию о 10 различных рецептах

In [15]:
f1 = f.copy()
print(f1[np.random.randint(0, f1.shape[0], 10)])

[[111091      5      7]
 [251715     10      5]
 [351980     50     17]
 [450521      2      6]
 [ 20120     45     11]
 [380856     30     16]
 [308003     90     12]
 [437179     60     10]
 [ 66455     15      7]
 [189635     40     11]]


11. Выведите процент рецептов, кол-во ингредиентов в которых меньше среднего.

In [16]:
f1 = f.copy()
sr = np.mean(f1[:, 2])
print((np.count_nonzero(f1[:, 2] < sr) * 100) / f.shape[0])

58.989


12. Назовем "простым" такой рецепт, длительность выполнения которого не больше 20 минут и кол-во ингредиентов в котором не больше 5. Создайте версию датасета с дополнительным столбцом, значениями которого являются 1, если рецепт простой, и 0 в противном случае.

In [17]:
f1 = f.copy()
mask = (f1[:, 1] <= 20) & (f1[:, 2] <= 5).astype(int)
mask_data = np.concatenate((f1, mask.reshape(1, mask.size).T), axis = 1)
print(mask_data)

[[127244     60     16      0]
 [ 23891     25      7      0]
 [ 94746     10      6      0]
 ...
 [498432     65     15      0]
 [370915      5      4      1]
 [ 81993    140     14      0]]


13. Выведите процент "простых" рецептов в датасете

In [18]:
f1 = f.copy()
simple_set =  np.count_nonzero(mask_data[:, 3])
print((simple_set * 100) / f1.shape[0])

9.943


14. Разделим рецепты на группы по следующему правилу. Назовем рецепты короткими, если их продолжительность составляет менее 10 минут; стандартными, если их продолжительность составляет более 10, но менее 20 минут; и длинными, если их продолжительность составляет не менее 20 минут. Создайте трехмерный массив, где нулевая ось отвечает за номер группы (короткий, стандартный или длинный рецепт), первая ось - за сам рецепт и вторая ось - за характеристики рецепта. Выберите максимальное количество рецептов из каждой группы таким образом, чтобы было возможно сформировать трехмерный массив. Выведите форму полученного массива.

In [19]:
f1 = f.copy()
mask_smo = f1[f1[:, 1] < 10]
mask_nor = f1[(f1[:, 1] >= 10) & (f1[:, 1] < 20)]
mask_big = f1[f1[:, 1] >= 20]
max_kol = np.min([mask_smo.shape[0], mask_nor.shape[0], mask_big.shape[0]])
res_mas = np.array([mask_smo[:max_kol], mask_nor[:max_kol], mask_big[:max_kol]])
print(res_mas)

[[[ 67660      5      6]
  [366174      7      9]
  [204134      5      3]
  ...
  [420725      5      3]
  [     1      1      1]
  [370915      5      4]]

 [[ 94746     10      6]
  [ 33941     18      9]
  [446597     15      5]
  ...
  [  9831     15      7]
  [335859     12     14]
  [256812     10      3]]

 [[127244     60     16]
  [ 23891     25      7]
  [157911     60     14]
  ...
  [168901     25      7]
  [392339     35     13]
  [206732     45     10]]]
