# Numpy

Материалы:
* Макрушин С.В. "Лекция 1: Библиотека Numpy"
* https://numpy.org/doc/stable/user/index.html
* https://numpy.org/doc/stable/reference/index.html

## Задачи для совместного разбора

1. Сгенерировать двухмерный массив `arr` размерности (4, 7), состоящий из случайных действительных чисел, равномерно распределенных в диапазоне от 0 до 20. Нормализовать значения массива с помощью преобразования вида  $𝑎𝑥+𝑏$  так, что после нормализации максимальный элемент масcива будет равен 1.0, минимальный 0.0

Hi JupyterLab


2. Создать матрицу 8 на 10 из случайных целых (используя модуль `numpy.random`) чисел из диапозона от 0 до 10 и найти в ней строку (ее индекс и вывести саму строку), в которой сумма значений минимальна.

3. Найти евклидово расстояние между двумя одномерными векторами одинаковой размерности.

4. Решить матричное уравнение `A*X*B=-C` - найти матрицу `X`. Где `A = [[-1, 2, 4], [-3, 1, 2], [-3, 0, 1]]`, `B=[[3, -1], [2, 1]]`, `C=[[7, 21], [11, 8], [8, 4]]`.

## Лабораторная работа №1

Замечание: при решении данных задач не подразумевается использования циклов или генераторов Python, если в задании не сказано обратного. Решение должно опираться на использования функционала библиотеки `numpy`.

1. Файл `minutes_n_ingredients.csv` содержит информацию об идентификаторе рецепта, времени его выполнения в минутах и количестве необходимых ингредиентов. Считайте данные из этого файла в виде массива `numpy` типа `int32`, используя `np.loadtxt`. Выведите на экран первые 5 строк массива.

In [4]:
import numpy as np

dataset = np.loadtxt("./data/minutes_n_ingredients.csv", delimiter=',',skiprows=1,dtype=np.int32)

dataset

array([[127244,     60,     16],
       [ 23891,     25,      7],
       [ 94746,     10,      6],
       ...,
       [498432,     65,     15],
       [370915,      5,      4],
       [ 81993,    140,     14]])

2. Вычислите среднее значение, минимум, максимум и медиану по каждому из столбцов, кроме первого.

In [5]:
print(dataset[:,1:].mean(axis=0),
      dataset[:,1:].min(axis=0),
      dataset[:,1:].max(axis=0),
      np.median(dataset[:,1:]), sep="\n")

[2.16010017e+04 9.05528000e+00]
[0 1]
[2147483647         39]
13.0


3. Ограничьте сверху значения продолжительности выполнения рецепта значением квантиля $q_{0.75}$. 

In [6]:
q = np.quantile(dataset[:,1], q =0.75)
display(q)

dataset[:,1] = dataset[:,1].clip(max=q)
dataset

65.0

array([[127244,     60,     16],
       [ 23891,     25,      7],
       [ 94746,     10,      6],
       ...,
       [498432,     65,     15],
       [370915,      5,      4],
       [ 81993,     65,     14]])

4. Посчитайте, для скольких рецептов указана продолжительность, равная нулю. Замените для таких строк значение в данном столбце на 1.

In [5]:
#sum(dataset[:,1]==0)
print(dataset[411])
dataset[dataset[:,1]==0, 1] = 1
print(dataset[411])

[9325    0   10]
[9325    1   10]


5. Посчитайте, сколько уникальных рецептов находится в датасете.

In [23]:
len(np.unique(dataset[:,0]))

100000

6. Сколько и каких различных значений кол-ва ингредиентов присутвует в рецептах из датасета?

In [26]:
print(len(np.unique(dataset[:,2])))
print(np.unique(dataset[:,2]))

37
[ 1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
 25 26 27 28 29 30 31 32 33 34 35 37 39]


7. Создайте версию массива, содержащую информацию только о рецептах, состоящих не более чем из 5 ингредиентов.

In [31]:

copy_d = dataset[dataset[:,2]<=5]
copy_d, copy_d.size

(array([[446597,     15,      5],
        [204134,      5,      3],
        [ 25623,      6,      4],
        ...,
        [ 52088,     60,      5],
        [128811,     15,      4],
        [370915,      5,      4]], dtype=int32),
 51786)

8. Для каждого рецепта посчитайте, сколько в среднем ингредиентов приходится на одну минуту рецепта. Найдите максимальное значение этой величины для всего датасета

In [9]:
data_2 = dataset[:,2]/dataset[:,1]
data_2.max()

24.0

9. Вычислите среднее количество ингредиентов для топ-100 рецептов с наибольшей продолжительностью

In [10]:
data_3 = dataset[dataset[:,1].argsort()]
data_3[-100:len(data_3), 2].mean()

9.96

10. Выберите случайным образом и выведите информацию о 10 различных рецептах

In [11]:
dataset[np.random.choice(len(dataset), size=10, replace=False)]

array([[ 91774,     60,      7],
       [ 53162,     20,      5],
       [448534,     65,     14],
       [230680,     65,      4],
       [377514,     40,      8],
       [452353,     25,     11],
       [489966,     30,      9],
       [247530,     23,      5],
       [391244,     60,     12],
       [354090,      2,      4]], dtype=int32)

11. Выведите процент рецептов, кол-во ингредиентов в которых меньше среднего.

In [12]:
len(dataset[dataset[:,2]<dataset[:,2].mean()])/len(dataset)*100

58.802

12. Назовем "простым" такой рецепт, длительность выполнения которого не больше 20 минут и кол-во ингредиентов в котором не больше 5. Создайте версию датасета с дополнительным столбцом, значениями которого являются 1, если рецепт простой, и 0 в противном случае.

In [59]:
simple = np.column_stack((dataset, (dataset[:, 1] <= 20) * (dataset[:, 2] <= 5)))
simple

array([[127244,     60,     16,      0],
       [ 23891,     25,      7,      0],
       [ 94746,     10,      6,      0],
       ...,
       [498432,     65,     15,      0],
       [370915,      5,      4,      1],
       [ 81993,     65,     14,      0]], dtype=int32)

13. Выведите процент "простых" рецептов в датасете

In [35]:
simple[:,3].sum()/len(simple)*100

9.552

14. Разделим рецепты на группы по следующему правилу. Назовем рецепты короткими, если их продолжительность составляет менее 10 минут; стандартными, если их продолжительность составляет более 10, но менее 20 минут; и длинными, если их продолжительность составляет не менее 20 минут. Создайте трехмерный массив, где нулевая ось отвечает за номер группы (короткий, стандартный или длинный рецепт), первая ось - за сам рецепт и вторая ось - за характеристики рецепта. Выберите максимальное количество рецептов из каждой группы таким образом, чтобы было возможно сформировать трехмерный массив. Выведите форму полученного массива.

In [57]:
arr1 = dataset[dataset[:, 1] < 10]
arr2 = dataset[(20 > dataset[:, 1]) * (dataset[:, 1] >= 10)]
arr3 = dataset[dataset[:, 1] >= 20]

l = np.min([len(arr1), len(arr2), len(arr3)])

arr1 = arr1[:l]
arr2 = arr2[:l]
arr3 = arr3[:l]

result = np.concatenate((arr1, arr2, arr3), axis=0).reshape((3, l, 3))
result

array([[[ 67660,      5,      6],
        [366174,      7,      9],
        [204134,      5,      3],
        ...,
        [420725,      5,      3],
        [  4747,      1,      9],
        [370915,      5,      4]],

       [[ 94746,     10,      6],
        [ 33941,     18,      9],
        [446597,     15,      5],
        ...,
        [  9831,     15,      7],
        [335859,     12,     14],
        [256812,     10,      3]],

       [[127244,     60,     16],
        [ 23891,     25,      7],
        [157911,     60,     14],
        ...,
        [168901,     25,      7],
        [392339,     35,     13],
        [206732,     45,     10]]], dtype=int32)

In [58]:
result.shape

(3, 7588, 3)