# Numpy

Материалы:
* Макрушин С.В. "Лекция 1: Библиотека Numpy"
* https://numpy.org/doc/stable/user/index.html
* https://numpy.org/doc/stable/reference/index.html

## Задачи для совместного разбора

1. Сгенерировать двухмерный массив `arr` размерности (4, 7), состоящий из случайных действительных чисел, равномерно распределенных в диапазоне от 0 до 20. Нормализовать значения массива с помощью преобразования вида  $𝑎𝑥+𝑏$  так, что после нормализации максимальный элемент масcива будет равен 1.0, минимальный 0.0

In [3]:
import numpy as np

In [77]:
D = np.random.randint(0, 20, size = (4, 7))
D_normed = (D - D.min())/(D.max()-D.min())
print(D_normed)

[[0.1875 0.6875 1.     0.5625 0.5625 1.     0.    ]
 [0.1875 0.4375 0.3125 0.875  1.     0.9375 0.0625]
 [0.4375 0.0625 0.8125 0.75   0.75   0.625  0.8125]
 [0.9375 0.6875 0.375  0.8125 0.4375 0.1875 0.0625]]


2. Создать матрицу 8 на 10 из случайных целых (используя модуль `numpy.random`) чисел из диапозона от 0 до 10 и найти в ней строку (ее индекс и вывести саму строку), в которой сумма значений минимальна.

In [89]:
F = np.random.randint(0, 10, size = (8, 10))
F_rows_sum = np.sum(F, axis=1)
F_min_index = np.nonzero(F_rows_sum == np.min(F_rows_sum))
print('индекс строки: '+str(F_min_index))
print('строка: '+str(F[F_min_index]))

индекс строки: (array([1, 7]),)
строка: [[0 4 0 4 8 6 4 3 6 2]
 [2 4 7 4 5 3 0 1 8 3]]


3. Найти евклидово расстояние между двумя одномерными векторами одинаковой размерности.

In [102]:
n = np.random.randint(1, 100)
G = np.random.randint(0, 100, size=(2, n))
dist = np.linalg.norm(G[0]-G[1])
print(dist)

367.47652986279275


4. Решить матричное уравнение `A*X*B=-C` - найти матрицу `X`. Где `A = [[-1, 2, 4], [-3, 1, 2], [-3, 0, 1]]`, `B=[[3, -1], [2, 1]]`, `C=[[7, 21], [11, 8], [8, 4]]`.

In [75]:
A = np.array([[-1, 2, 4], 
              [-3, 1, 2], 
              [-3, 0, 1]])

B = np.array([[3, -1], 
              [2, 1]])

C = np.array([[7, 21], 
              [11, 8], 
              [8, 4]])

inv_A = np.linalg.inv(A)
inv_B = np.linalg.inv(B)
XB = np.dot(inv_A,-C)
X = np.dot(XB, inv_B)

print(X)

[[ 1.00000000e+00  5.32907052e-16]
 [-2.00000000e+00  1.00000000e+00]
 [ 3.00000000e+00 -4.00000000e+00]]


## Лабораторная работа №1

Замечание: при решении данных задач не подразумевается использования циклов или генераторов Python, если в задании не сказано обратного. Решение должно опираться на использования функционала библиотеки `numpy`.

1. Файл `minutes_n_ingredients.csv` содержит информацию об идентификаторе рецепта, времени его выполнения в минутах и количестве необходимых ингредиентов. Считайте данные из этого файла в виде массива `numpy` типа `int32`, используя `np.loadtxt`. Выведите на экран первые 5 строк массива.

In [4]:
minutes_n_ingredients = np.loadtxt('./minutes_n_ingredients.csv', dtype='int32', skiprows=1, delimiter=',')
minutes_n_ingredients[:5]

array([[127244,     60,     16],
       [ 23891,     25,      7],
       [ 94746,     10,      6],
       [ 67660,      5,      6],
       [157911,     60,     14]], dtype=int32)

2. Вычислите среднее значение, минимум, максимум и медиану по каждому из столбцов, кроме первого.

In [5]:
id = minutes_n_ingredients[:, 0]
time = minutes_n_ingredients[:, 1]
amount = minutes_n_ingredients[:, 2]

In [45]:
print('среднее значение по столбцу "время выполнения": ' + str(time.mean()))
print('минимум по столбцу "время выполнения": ' + str(time.min()))
print('максимум по столбцу "время выполнения": ' + str(time.max()))
print('медиана по столбцу "время выполнения": ' + str(np.median(time)))
print('среднее значение по столбцу "количество необходимых ингредиентов": ' + str(amount.mean()))
print('минимум по столбцу "количество необходимых ингредиентов": ' + str(amount.min()))
print('максимум по столбцу "количество необходимых ингредиентов": ' + str(amount.max()))
print('медиана по столбцу "количество необходимых ингредиентов": ' + str(np.median(amount)))

среднее значение по столбцу "время выполнения": 21601.00169
минимум по столбцу "время выполнения": 0
максимум по столбцу "время выполнения": 2147483647
медиана по столбцу "время выполнения": 40.0
среднее значение по столбцу "количество необходимых ингредиентов": 9.05528
минимум по столбцу "количество необходимых ингредиентов": 1
максимум по столбцу "количество необходимых ингредиентов": 39
медиана по столбцу "количество необходимых ингредиентов": 9.0


3. Ограничьте сверху значения продолжительности выполнения рецепта значением квантиля $q_{0.75}$. 

In [6]:
np.clip(time, 0, np.quantile(time, 0.75))

array([60., 25., 10., ..., 65.,  5., 65.])

4. Посчитайте, для скольких рецептов указана продолжительность, равная нулю. Замените для таких строк значение в данном столбце на 1.

In [137]:
print('количество рецептов, продолжительность которых равна нулю: '+str(np.sum(time==0)))
minutes_n_ingredients[time==0,1] = 1

количество рецептов, продолжительность которых равна нулю: 479


5. Посчитайте, сколько уникальных рецептов находится в датасете.

In [130]:
len(np.unique(id))

99522

6. Сколько и каких различных значений кол-ва ингредиентов присутвует в рецептах из датасета?

In [131]:
print('количество уникальных значений столбца "количество ингредиентов": '+str(len(np.unique(amount))))
print('уникальные значения: '+str(np.unique(amount)))

количество уникальных значений столбца "количество ингредиентов": 37
уникальные значения: [ 1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
 25 26 27 28 29 30 31 32 33 34 35 37 39]


7. Создайте версию массива, содержащую информацию только о рецептах, состоящих не более чем из 5 ингредиентов.

In [132]:
new_minutes_n_ingredients = minutes_n_ingredients[amount < 6]
print(new_minutes_n_ingredients)

[[446597     15      5]
 [204134      5      3]
 [ 25623      6      4]
 ...
 [ 52088     60      5]
 [128811     15      4]
 [370915      5      4]]


8. Для каждого рецепта посчитайте, сколько в среднем ингредиентов приходится на одну минуту рецепта. Найдите максимальное значение этой величины для всего датасета

In [56]:
np.max(amount/time)

24.0

9. Вычислите среднее количество ингредиентов для топ-100 рецептов с наибольшей продолжительностью

In [147]:
top_100_average = minutes_n_ingredients[minutes_n_ingredients[:, 1].argsort()[::-1]][:100, 2].mean()
print(top_100_average)

6.61


10. Выберите случайным образом и выведите информацию о 10 различных рецептах

In [158]:
rnd = np.random.choice(len(minutes_n_ingredients), 10, replace=False)
minutes_n_ingredients[rnd]

array([[208830,     20,      8],
       [413930,     25,      7],
       [311925,      5,      8],
       [233481,     30,      9],
       [ 62513,     20,      8],
       [517687,     70,      6],
       [391994,    100,     11],
       [106004,     40,     10],
       [434714,    120,     16],
       [ 93651,    240,     12]], dtype=int32)

11. Выведите процент рецептов, кол-во ингредиентов в которых меньше среднего.

In [159]:
len(amount[amount < amount.mean()])/len(amount)

0.58802

12. Назовем "простым" такой рецепт, длительность выполнения которого не больше 20 минут и кол-во ингредиентов в котором не больше 5. Создайте версию датасета с дополнительным столбцом, значениями которого являются 1, если рецепт простой, и 0 в противном случае.

In [181]:
is_recipe_easy = ((time < 21) & (amount < 6)) * 1
np.concatenate((minutes_n_ingredients, is_recipe_easy[:, np.newaxis]), axis=1)

array([[127244,     60,     16,      0],
       [ 23891,     25,      7,      0],
       [ 94746,     10,      6,      0],
       ...,
       [498432,     65,     15,      0],
       [370915,      5,      4,      1],
       [ 81993,    140,     14,      0]])

13. Выведите процент "простых" рецептов в датасете

In [182]:
np.sum(is_recipe_easy == 1)/len(is_recipe_easy)

0.09552

14. Разделим рецепты на группы по следующему правилу. Назовем рецепты короткими, если их продолжительность составляет менее 10 минут; стандартными, если их продолжительность составляет более 10, но менее 20 минут; и длинными, если их продолжительность составляет не менее 20 минут. Создайте трехмерный массив, где нулевая ось отвечает за номер группы (короткий, стандартный или длинный рецепт), первая ось - за сам рецепт и вторая ось - за характеристики рецепта. Выберите максимальное количество рецептов из каждой группы таким образом, чтобы было возможно сформировать трехмерный массив. Выведите форму полученного массива.

In [12]:
short = minutes_n_ingredients[time <= 10]
standart = minutes_n_ingredients[(10 < time) & (time < 20)]
long = minutes_n_ingredients[time >= 20]
size = np.min((len(short), len(standart), len(long)))
np.stack([short[:size], standart[:size], long[:size]])

array([[[ 94746,     10,      6],
        [ 67660,      5,      6],
        [366174,      7,      9],
        ...,
        [  7983,      0,      6],
        [184171,      5,      2],
        [ 89181,      5,      7]],

       [[ 33941,     18,      9],
        [446597,     15,      5],
        [ 81006,     12,      7],
        ...,
        [ 44120,     17,      5],
        [ 60756,     15,      5],
        [128811,     15,      4]],

       [[127244,     60,     16],
        [ 23891,     25,      7],
        [157911,     60,     14],
        ...,
        [186515,    220,     11],
        [372540,     50,      6],
        [172926,    120,     13]]], dtype=int32)