# Numpy

Материалы:
* Макрушин С.В. "Лекция 1: Библиотека Numpy"
* https://numpy.org/doc/stable/user/index.html
* https://numpy.org/doc/stable/reference/index.html
* Уэс Маккини. Python и анализ данных

## Задачи для совместного разбора

In [3]:
import numpy as np

1. Сгенерировать двухмерный массив `arr` размерности (4, 7), состоящий из случайных действительных чисел, равномерно распределенных в диапазоне от 0 до 20. Нормализовать значения массива с помощью преобразования вида  $𝑎𝑥+𝑏$  так, что после нормализации максимальный элемент масcива будет равен 1.0, минимальный 0.0

In [4]:
arr = np.random.uniform(0, 20, size=(4, 7))
arr = arr / ((maxx := arr.max()) - (m := arr.min())) - (m / (maxx - m))
print(arr)

[[0.68655603 0.63336171 0.39694607 0.44565017 0.6053382  0.33575756
  0.10539171]
 [0.54865573 0.13673631 0.3249279  0.64178898 0.45639019 0.17946485
  0.89275108]
 [0.66001339 0.         0.65601763 0.12145397 0.00677452 1.
  0.70532573]
 [0.100323   0.80980496 0.88429491 0.12301944 0.99317581 0.18685867
  0.64953977]]


2. Создать матрицу 8 на 10 из случайных целых (используя модуль `numpy.random`) чисел из диапозона от 0 до 10 и найти в ней строку (ее индекс и вывести саму строку), в которой сумма значений минимальна.

In [5]:
arr = np.random.randint(0, 10, size=(8, 10))
print(arr)
print(i := np.argmin(arr.sum(axis=1)), arr[i])

[[2 1 2 7 6 2 1 5 8 3]
 [0 7 3 7 8 3 3 4 3 2]
 [8 5 8 8 0 9 9 5 7 8]
 [6 2 0 0 6 2 8 5 0 9]
 [2 4 3 1 6 5 4 7 8 2]
 [3 7 0 3 7 5 5 6 5 5]
 [9 0 6 0 7 4 5 8 4 6]
 [0 2 2 0 5 9 3 4 2 5]]
7 [0 2 2 0 5 9 3 4 2 5]


3. Найти евклидово расстояние между двумя одномерными векторами одинаковой размерности.

In [6]:
arr1 = np.random.randint(0, 5, 3)
arr2 = np.random.randint(0, 5, 3)
print(arr1, arr2)
dist = np.sqrt(((arr1 - arr2) ** 2).sum())
print(dist)

[2 0 2] [4 0 1]
2.23606797749979


4. Решить матричное уравнение `A*X*B=-C` - найти матрицу `X`. Где `A = [[-1, 2, 4], [-3, 1, 2], [-3, 0, 1]]`, `B=[[3, -1], [2, 1]]`, `C=[[7, 21], [11, 8], [8, 4]]`.

In [7]:
A = np.array([[-1, 2, 4], [-3, 1, 2], [-3, 0, 1]])
B = np.array([[3, -1], [2, 1]])
C = np.array([[7, 21], [11, 8], [8, 4]])
X = np.linalg.inv(A) @ (-C) @ np.linalg.inv(B)
print(X)
#print(A@X@B)

[[ 1.00000000e+00  1.11022302e-15]
 [-2.00000000e+00  1.00000000e+00]
 [ 3.00000000e+00 -4.00000000e+00]]


## Лабораторная работа №1

Замечание: при решении данных задач не подразумевается использования циклов или генераторов Python, если в задании не сказано обратного. Решение должно опираться на использования функционала библиотеки `numpy`.

1. Файл `minutes_n_ingredients.csv` содержит информацию об идентификаторе рецепта, времени его выполнения в минутах и количестве необходимых ингредиентов. Считайте данные из этого файла в виде массива `numpy` типа `int32`, используя `np.loadtxt`. Выведите на экран первые 5 строк массива.

In [8]:
arr = np.loadtxt(r'data/minutes_n_ingredients.csv', delimiter=',', dtype=np.int32, skiprows=1)
arr[:5]

array([[127244,     60,     16],
       [ 23891,     25,      7],
       [ 94746,     10,      6],
       [ 67660,      5,      6],
       [157911,     60,     14]])

2. Вычислите среднее значение, минимум, максимум и медиану по каждому из столбцов, кроме первого.

In [9]:
print(arr[:,1:].min(axis=0))
print(arr[:,1:].max(axis=0))
print(arr[:,1:].mean(axis=0))
print(np.median(arr[:,1:], axis=0))

[0 1]
[2147483647         39]
[2.16010017e+04 9.05528000e+00]
[40.  9.]


3. Ограничьте сверху значения продолжительности выполнения рецепта значением квантиля $q_{0.75}$. 

In [10]:
arr[:, 1][arr[:, 1] > np.quantile(arr[:, 1], 0.75)] = np.quantile(arr[:, 1], 0.75)

In [11]:
arr[:, 1].max()

65

4. Посчитайте, для скольких рецептов указана продолжительность, равная нулю. Замените для таких строк значение в данном столбце на 1.

In [12]:
len(arr[:, 1][arr[:, 1] == 0])

479

In [13]:
arr[:, 1][arr[:, 1] == 0] = 1
len(arr[:, 1][arr[:, 1] == 0])

0

5. Посчитайте, сколько уникальных рецептов находится в датасете.

In [14]:
len(np.unique(arr[:, 0]))

100000

6. Сколько и каких различных значений кол-ва ингредиентов присутвует в рецептах из датасета?

In [15]:
len(np.unique(arr[:, 2]))

37

In [16]:
np.unique(arr[:, 2])

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16, 17,
       18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34,
       35, 37, 39])

7. Создайте версию массива, содержащую информацию только о рецептах, состоящих не более чем из 5 ингредиентов.

In [17]:
arr[arr[:, 2]<=5]

array([[446597,     15,      5],
       [204134,      5,      3],
       [ 25623,      6,      4],
       ...,
       [ 52088,     60,      5],
       [128811,     15,      4],
       [370915,      5,      4]])

8. Для каждого рецепта посчитайте, сколько в среднем ингредиентов приходится на одну минуту рецепта. Найдите максимальное значение этой величины для всего датасета

In [18]:
np.mean(arr[:, 2] / arr[:, 1])

0.3983000355850672

In [19]:
np.max(arr[:, 2] / arr[:, 1])

24.0

9. Вычислите среднее количество ингредиентов для топ-100 рецептов с наибольшей продолжительностью

In [25]:
np.mean(arr[arr[:,1].argsort()][::-1][:100][:, 2])

9.96

10. Выберите случайным образом и выведите информацию о 10 различных рецептах

In [52]:
np.random.shuffle(arr)
arr[:10]

array([[280291,     60,      8],
       [243314,     65,     13],
       [243448,     65,      9],
       [370641,     65,      8],
       [281462,     15,      9],
       [145064,     20,      4],
       [315373,     65,     19],
       [235628,      5,      5],
       [ 59437,     12,      7],
       [389468,     65,      4]])

11. Выведите процент рецептов, кол-во ингредиентов в которых меньше среднего.

In [32]:
len(arr[arr[:, 2] < np.mean(arr[:, 2])])/len(arr[:, 2])

0.58802

12. Назовем "простым" такой рецепт, длительность выполнения которого не больше 20 минут и кол-во ингредиентов в котором не больше 5. Создайте версию датасета с дополнительным столбцом, значениями которого являются 1, если рецепт простой, и 0 в противном случае.

In [53]:
new_arr = np.column_stack((arr, (arr[:, 1] <= 20) * (arr[:, 2] <= 5)))
new_arr

array([[280291,     60,      8,      0],
       [243314,     65,     13,      0],
       [243448,     65,      9,      0],
       ...,
       [389203,     65,      8,      0],
       [203549,     35,      9,      0],
       [168334,      7,      4,      1]])

13. Выведите процент "простых" рецептов в датасете

In [55]:
len(new_arr[new_arr[:, 3] == 1])/len(new_arr[:, 0])

0.09552

14. Разделим рецепты на группы по следующему правилу. Назовем рецепты короткими, если их продолжительность составляет менее 10 минут; стандартными, если их продолжительность составляет более 10, но менее 20 минут; и длинными, если их продолжительность составляет не менее 20 минут. Создайте трехмерный массив, где нулевая ось отвечает за номер группы (короткий, стандартный или длинный рецепт), первая ось - за сам рецепт и вторая ось - за характеристики рецепта. Выберите максимальное количество рецептов из каждой группы таким образом, чтобы было возможно сформировать трехмерный массив. Выведите форму полученного массива.

In [65]:
arr1 = arr[arr[:, 1] < 10]
arr2 = arr[(20 > arr[:, 1]) * (arr[:, 1] >= 10)]
arr3 = arr[arr[:, 1] >= 20]
l = np.min([len(arr1), len(arr2), len(arr3)])
arr1 = arr1[:l]
arr2 = arr2[:l]
arr3 = arr3[:l]
result = np.concatenate((arr1, arr2, arr3), axis=0).reshape((3, l, 3))
result

array([[[235628,      5,      5],
        [259902,      5,      4],
        [232501,      5,      5],
        ...,
        [243102,      5,      4],
        [427790,      5,      5],
        [168334,      7,      4]],

       [[281462,     15,      9],
        [ 59437,     12,      7],
        [367617,     10,      5],
        ...,
        [361252,     15,      4],
        [337582,     10,      4],
        [308940,     15,      6]],

       [[280291,     60,      8],
        [243314,     65,     13],
        [243448,     65,      9],
        ...,
        [285332,     25,      4],
        [219290,     65,     13],
        [138962,     40,     15]]])