# Numpy

Материалы:
* Макрушин С.В. "Лекция 1: Библиотека Numpy"
* https://numpy.org/doc/stable/user/index.html
* https://numpy.org/doc/stable/reference/index.html

## Задачи для совместного разбора

1. Сгенерировать двухмерный массив `arr` размерности (4, 7), состоящий из случайных действительных чисел, равномерно распределенных в диапазоне от 0 до 20. Нормализовать значения массива с помощью преобразования вида  $𝑎𝑥+𝑏$  так, что после нормализации максимальный элемент масcива будет равен 1.0, минимальный 0.0

In [2]:
import numpy as np

In [19]:
matrix = np.random.uniform(0, 20, size = (4, 7))
matrix = matrix - matrix.min()
matrix = matrix / matrix.max()
print(matrix)

[[0.5283385  0.69994259 0.72212978 0.         0.78018165 0.33941077
  0.04969523]
 [0.31897425 0.79988048 0.59843137 0.50976681 0.81366359 0.7538006
  0.78895594]
 [0.32412173 0.87057478 0.39062833 0.09773989 0.72834942 0.43560777
  1.        ]
 [0.02178249 0.40755021 0.75604094 0.09354636 0.86114087 0.53176043
  0.9849707 ]]


2. Создать матрицу 8 на 10 из случайных целых (используя модуль `numpy.random`) чисел из диапозона от 0 до 10 и найти в ней строку (ее индекс и вывести саму строку), в которой сумма значений минимальна.

In [40]:
matrix = np.random.randint(0, 2, size = (8, 10))
print(matrix)
row_sum = matrix.sum(axis=1)
row_sum_min_value_index = row_sum.argmin(axis=0)
print(row_sum_min_value_index)
print(matrix[row_sum_min_value_index])

[[0 1 1 0 1 1 0 0 1 1]
 [1 0 1 0 1 1 0 1 0 0]
 [1 0 1 1 0 1 1 1 0 1]
 [1 1 1 1 1 1 1 0 1 0]
 [1 0 0 0 1 1 0 0 0 0]
 [1 1 0 1 1 0 1 1 0 0]
 [1 0 1 0 0 1 1 1 1 1]
 [0 0 1 1 0 1 1 0 1 1]]
4
[1 0 0 0 1 1 0 0 0 0]


3. Найти евклидово расстояние между двумя одномерными векторами одинаковой размерности.

In [43]:
from numpy.linalg import norm

a = np.array([2, 6, 7, 7, 5, 13, 14, 17, 11, 8])
b = np.array([3, 5, 5, 3, 7, 12, 13, 19, 22, 7])

print(norm(a - b))


12.409673645990857


4. Решить матричное уравнение `A*X*B=-C` - найти матрицу `X`. Где `A = [[-1, 2, 4], [-3, 1, 2], [-3, 0, 1]]`, `B=[[3, -1], [2, 1]]`, `C=[[7, 21], [11, 8], [8, 4]]`.

In [65]:
a = np.array([[-1, 2, 4], [-3, 1, 2], [-3, 0, 1]])
b = np.array([[3, -1], [2, 1]])
c = np.array([[7, 21], [11, 8], [8, 4]])

x = np.dot(np.dot(np.linalg.inv(a), -c), np.linalg.inv(b))

print(x)

array([[ 1.00000000e+00,  5.32907052e-16],
       [-2.00000000e+00,  1.00000000e+00],
       [ 3.00000000e+00, -4.00000000e+00]])

## Лабораторная работа №1

Замечание: при решении данных задач не подразумевается использования циклов или генераторов Python, если в задании не сказано обратного. Решение должно опираться на использования функционала библиотеки `numpy`.

1. Файл `minutes_n_ingredients.csv` содержит информацию об идентификаторе рецепта, времени его выполнения в минутах и количестве необходимых ингредиентов. Считайте данные из этого файла в виде массива `numpy` типа `int32`, используя `np.loadtxt`. Выведите на экран первые 5 строк массива.

In [288]:
minutes_n_ingredients = np.loadtxt(
    'minutes_n_ingredients.csv',
    dtype='int32',
    skiprows=1,
    delimiter=',',
)

print(minutes_n_ingredients[:5])

[[127244     60     16]
 [ 23891     25      7]
 [ 94746     10      6]
 [ 67660      5      6]
 [157911     60     14]]


2. Вычислите среднее значение, минимум, максимум и медиану по каждому из столбцов, кроме первого.

In [114]:
print(*minutes_n_ingredients[:, 1:].mean(axis=0), sep='\t')
print(*minutes_n_ingredients[:, 1:].min(axis=0), sep='\t\t')
print(*minutes_n_ingredients[:, 1:].max(axis=0), sep='\t')
print(*np.median(minutes_n_ingredients[:, 1:], axis=0), sep='\t\t')

21601.00169	9.05528
0		1
2147483647	39
40.0		9.0


3. Ограничьте сверху значения продолжительности выполнения рецепта значением квантиля $q_{0.75}$. 

In [137]:
q75duration = np.quantile(minutes_n_ingredients, 0.75, axis=0)[1]
print(minutes_n_ingredients[minutes_n_ingredients[:, 1] < q75duration])

[[127244     60     16]
 [ 23891     25      7]
 [ 94746     10      6]
 ...
 [371794     35      8]
 [ 43407     35      7]
 [370915      5      4]]


4. Посчитайте, для скольких рецептов указана продолжительность, равная нулю. Замените для таких строк значение в данном столбце на 1.

In [350]:
minutes_n_ingredients[minutes_n_ingredients[:, 1] == 0, 1] = 1

5. Посчитайте, сколько уникальных рецептов находится в датасете.

In [221]:
len(np.unique(minutes_n_ingredients[:, 1:], axis=0))

4183

6. Сколько и каких различных значений кол-ва ингредиентов присутвует в рецептах из датасета?

In [224]:
print(np.unique(minutes_n_ingredients[:, 2], axis=0))
print(len(np.unique(minutes_n_ingredients[:, 2], axis=0)))

[ 1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
 25 26 27 28 29 30 31 32 33 34 35 37 39]
37


7. Создайте версию массива, содержащую информацию только о рецептах, состоящих не более чем из 5 ингредиентов.

In [226]:
less5 = minutes_n_ingredients[minutes_n_ingredients[:, 2] < 5]
print(less5)

[[204134      5      3]
 [ 25623      6      4]
 [484223     18      4]
 ...
 [227056     30      4]
 [128811     15      4]
 [370915      5      4]]


8. Для каждого рецепта посчитайте, сколько в среднем ингредиентов приходится на одну минуту рецепта. Найдите максимальное значение этой величины для всего датасета

In [228]:
max(minutes_n_ingredients[:, 2] / minutes_n_ingredients[:, 1])

24.0

9. Вычислите среднее количество ингредиентов для топ-100 рецептов с наибольшей продолжительностью

In [244]:
min_of_max_duration = np.sort(minutes_n_ingredients[:, 1])[-100:].min()
minutes_n_ingredients[minutes_n_ingredients[:, 1] >= min_of_max_duration][:, 2].mean()

6.617647058823529

10. Выберите случайным образом и выведите информацию о 10 различных рецептах

In [259]:
idx = np.random.randint(minutes_n_ingredients.shape[0], size=10)
minutes_n_ingredients[idx, :]

array([[170119,     10,      8],
       [251717,     70,      9],
       [373878,    250,     10],
       [456871,     60,      7],
       [110375,    390,     20],
       [102460,     35,      8],
       [ 14130,     20,      7],
       [131609,    135,     10],
       [327461,      5,      4],
       [462134,     65,      9]])

11. Выведите процент рецептов, кол-во ингредиентов в которых меньше среднего.

In [265]:
(minutes_n_ingredients[
    minutes_n_ingredients[:, 2] < minutes_n_ingredients[:, 2].mean()
].shape[0] / minutes_n_ingredients.shape[0]) * 100

58.802

12. Назовем "простым" такой рецепт, длительность выполнения которого не больше 20 минут и кол-во ингредиентов в котором не больше 5. Создайте версию датасета с дополнительным столбцом, значениями которого являются 1, если рецепт простой, и 0 в противном случае.

In [348]:
mni_simple = minutes_n_ingredients.copy()
mni_simple = np.c_[mni_simple, np.zeros(mni_simple.shape[0])] 
mni_simple[(mni_simple[:, 1] <= 20) & (mni_simple[:, 2] <= 5), 3] = 1
simples = mni_simple[mni_simple[:, 3] == 1]

13. Выведите процент "простых" рецептов в датасете

In [349]:
(simples.shape[0] / mni_simple.shape[0]) * 100

9.552

14. Разделим рецепты на группы по следующему правилу. Назовем рецепты короткими, если их продолжительность составляет менее 10 минут; стандартными, если их продолжительность составляет более 10, но менее 20 минут; и длинными, если их продолжительность составляет не менее 20 минут. Создайте трехмерный массив, где нулевая ось отвечает за номер группы (короткий, стандартный или длинный рецепт), первая ось - за сам рецепт и вторая ось - за характеристики рецепта. Выберите максимальное количество рецептов из каждой группы таким образом, чтобы было возможно сформировать трехмерный массив. Выведите форму полученного массива.

In [372]:
shorts = minutes_n_ingredients.copy()
shorts = shorts[shorts[:, 1] < 10]

standarts = minutes_n_ingredients.copy()
standarts = standarts[(standarts[:, 1] >= 10) & (standarts[:, 1] < 20)]

longs = minutes_n_ingredients.copy()
longs = longs[longs[:, 1] >= 20]

elements = min(shorts.shape[0], standarts.shape[0], longs.shape[0])

res3d = np.zeros((3, elements, 3))
res3d[0, :, :] = shorts
res3d[1, :, :] = standarts[:elements]
res3d[2, :, :] = longs[:elements]
res3d

array([[[6.76600e+04, 5.00000e+00, 6.00000e+00],
        [3.66174e+05, 7.00000e+00, 9.00000e+00],
        [2.04134e+05, 5.00000e+00, 3.00000e+00],
        ...,
        [4.20725e+05, 5.00000e+00, 3.00000e+00],
        [4.74700e+03, 1.00000e+00, 9.00000e+00],
        [3.70915e+05, 5.00000e+00, 4.00000e+00]],

       [[9.47460e+04, 1.00000e+01, 6.00000e+00],
        [3.39410e+04, 1.80000e+01, 9.00000e+00],
        [4.46597e+05, 1.50000e+01, 5.00000e+00],
        ...,
        [9.83100e+03, 1.50000e+01, 7.00000e+00],
        [3.35859e+05, 1.20000e+01, 1.40000e+01],
        [2.56812e+05, 1.00000e+01, 3.00000e+00]],

       [[1.27244e+05, 6.00000e+01, 1.60000e+01],
        [2.38910e+04, 2.50000e+01, 7.00000e+00],
        [1.57911e+05, 6.00000e+01, 1.40000e+01],
        ...,
        [1.68901e+05, 2.50000e+01, 7.00000e+00],
        [3.92339e+05, 3.50000e+01, 1.30000e+01],
        [2.06732e+05, 4.50000e+01, 1.00000e+01]]])