# Numpy

Материалы:
* Макрушин С.В. "Лекция 1: Библиотека Numpy"
* https://numpy.org/doc/stable/user/index.html
* https://numpy.org/doc/stable/reference/index.html

## Задачи для совместного разбора

1. Сгенерировать двухмерный массив `arr` размерности (4, 7), состоящий из случайных действительных чисел, равномерно распределенных в диапазоне от 0 до 20. Нормализовать значения массива с помощью преобразования вида  $𝑎𝑥+𝑏$  так, что после нормализации максимальный элемент масcива будет равен 1.0, минимальный 0.0

In [None]:
import numpy as np

2. Создать матрицу 8 на 10 из случайных целых (используя модуль `numpy.random`) чисел из диапозона от 0 до 10 и найти в ней строку (ее индекс и вывести саму строку), в которой сумма значений минимальна.

In [None]:
arr = np.random.randint(0, 10, size=(8, 10))
print(arr)
row_index = np.sum(arr, axis=1).argmin()
print(row_index)
print(arr[row_index])

[[7 1 8 8 7 2 0 5 1 7]
 [1 1 4 2 6 7 1 8 6 8]
 [6 9 4 7 6 3 0 5 3 4]
 [5 6 7 3 8 2 3 5 6 3]
 [5 7 0 9 6 5 4 7 5 4]
 [5 5 7 0 3 7 5 2 7 5]
 [8 1 1 5 7 4 0 3 1 9]
 [9 6 3 2 5 5 0 4 7 4]]
6
[8 1 1 5 7 4 0 3 1 9]


3. Найти евклидово расстояние между двумя одномерными векторами одинаковой размерности.

In [None]:
def evklid(v1=list, v2=list):
  d = 0
  for i in range(len(v1)):
    d += (v1[i] - v2[i]) ** 2
  return d ** 0.5

v1 = [1, 3, 5]
v2 = [3, 5, 8]
print(evklid(v1, v2))

4.123105625617661


4. Решить матричное уравнение `A*X*B=-C` - найти матрицу `X`. Где `A = [[-1, 2, 4], [-3, 1, 2], [-3, 0, 1]]`, `B=[[3, -1], [2, 1]]`, `C=[[7, 21], [11, 8], [8, 4]]`.

In [None]:
A = np.array([[-1, 2, 4], [-3, 1, 2], [-3, 0, 1]])
B=np.array([[3, -1], [2, 1]])
C=np.array([[7, 21], [11, 8], [8, 4]])
X = np.dot(np.dot(np.linalg.inv(A), C), np.linalg.inv(B))
X

array([[-1.00000000e+00, -5.32907052e-16],
       [ 2.00000000e+00, -1.00000000e+00],
       [-3.00000000e+00,  4.00000000e+00]])

## Лабораторная работа №1

Замечание: при решении данных задач не подразумевается использования циклов или генераторов Python, если в задании не сказано обратного. Решение должно опираться на использования функционала библиотеки `numpy`.

1. Файл `minutes_n_ingredients.csv` содержит информацию об идентификаторе рецепта, времени его выполнения в минутах и количестве необходимых ингредиентов. Считайте данные из этого файла в виде массива `numpy` типа `int32`, используя `np.loadtxt`. Выведите на экран первые 5 строк массива.

In [2]:
import numpy as np
arr = np.loadtxt('minutes_n_ingredients.csv',delimiter=',', skiprows=1, dtype='int32')
arr[:5]


array([[127244,     60,     16],
       [ 23891,     25,      7],
       [ 94746,     10,      6],
       [ 67660,      5,      6],
       [157911,     60,     14]], dtype=int32)

2. Вычислите среднее значение, минимум, максимум и медиану по каждому из столбцов, кроме первого.

In [None]:
stolb2 = arr[:, 1]
print(f'СТОЛБЕЦ 2: среднее значение: {np.mean(stolb2)}, минимум: {np.min(stolb2)}, максимум: {np.max(stolb2)}, медиана: {np.median(stolb2)}')

stolb3 = arr[:, 2]
print(f'СТОЛБЕЦ 3: среднее значение: {np.mean(stolb3)}, минимум: {np.min(stolb3)}, максимум: {np.max(stolb3)}, медиана: {np.median(stolb3)}')

СТОЛБЕЦ 2: среднее значение: 21601.00169, минимум: 0, максимум: 2147483647, медиана: 40.0
СТОЛБЕЦ 3: среднее значение: 9.05528, минимум: 1, максимум: 39, медиана: 9.0


3. Ограничьте сверху значения продолжительности выполнения рецепта значением квантиля $q_{0.75}$.

In [9]:
q75 = np.quantile(arr[:, 1], 0.75)
print(q75)
arr[:, 1] = np.where(arr[:, 1] > q75, q75, arr[:, 1])
arr

65.0


array([[127244,     60,     16],
       [ 23891,     25,      7],
       [ 94746,     10,      6],
       ...,
       [498432,     65,     15],
       [370915,      5,      4],
       [ 81993,     65,     14]], dtype=int32)

4. Посчитайте, для скольких рецептов указана продолжительность, равная нулю. Замените для таких строк значение в данном столбце на 1.

In [10]:
print(np.count_nonzero(arr[:, 1] == 0))
arr[:, 1] = np.where(arr[:, 1] != 0, arr[:, 1], 1)


479


5. Посчитайте, сколько уникальных рецептов находится в датасете.

In [6]:
unique_recipes = np.unique(arr[:,0])
num_unique_recipes = len(unique_recipes)
num_unique_recipes

100000

6. Сколько и каких различных значений кол-ва ингредиентов присутвует в рецептах из датасета?

7. Создайте версию массива, содержащую информацию только о рецептах, состоящих не более чем из 5 ингредиентов.

In [8]:
for i in range(len(arr) - 1):
  if arr[i][2] > 5:
    new_arr = np.delete(arr, [i][2])
new_arr

IndexError: list index out of range

8. Для каждого рецепта посчитайте, сколько в среднем ингредиентов приходится на одну минуту рецепта. Найдите максимальное значение этой величины для всего датасета

In [13]:
sorted_arr8 = arr[arr[:, 1].argsort()[::-1]]
top100 = sorted_arr8[:100]
result = np.mean(top100[:, 2])
result

9.96

9. Вычислите среднее количество ингредиентов для топ-100 рецептов с наибольшей продолжительностью

In [12]:
sorted_arr = arr[arr[:, 1].argsort()[::-1]]
top100 = sorted_arr[:100]
res = np.average(top100[:, 2])
res

9.96

10. Выберите случайным образом и выведите информацию о 10 различных рецептах

In [11]:
ra = np.random.randint(arr.shape[0], size=10)
arr[ra, :]

array([[ 36086,     45,     10],
       [256810,     65,     14],
       [469384,     55,      6],
       [102415,     20,      5],
       [386283,     65,     15],
       [200971,     18,      8],
       [452144,     40,      9],
       [386332,     60,      4],
       [436330,     35,     11],
       [453110,     30,     12]], dtype=int32)

11. Выведите процент рецептов, кол-во ингредиентов в которых меньше среднего.

In [5]:
str(len(np.where(arr[:, 2] < arr[:, 2].mean())[0])/arr.shape[0]*100) + "%"

'58.802%'

12. Назовем "простым" такой рецепт, длительность выполнения которого не больше 20 минут и кол-во ингредиентов в котором не больше 5. Создайте версию датасета с дополнительным столбцом, значениями которого являются 1, если рецепт простой, и 0 в противном случае.

In [6]:
good_recepts = np.zeros((arr.shape[0], 4), dtype=int)
good_recepts[:, :3] = arr
good_recepts[np.where((arr[:, 2] <= 5) & (arr[:, 1] <= 20)), 3] = 1
good_recepts

array([[127244,     60,     16,      0],
       [ 23891,     25,      7,      0],
       [ 94746,     10,      6,      0],
       ...,
       [498432,     65,     15,      0],
       [370915,      5,      4,      1],
       [ 81993,    140,     14,      0]])

13. Выведите процент "простых" рецептов в датасете

In [8]:
str(sum(good_recepts[:, :3]) / arr.shape[0]*100)

'[2.22064324e+07 2.16010017e+06 9.05528000e+02]'

14. Разделим рецепты на группы по следующему правилу. Назовем рецепты короткими, если их продолжительность составляет менее 10 минут; стандартными, если их продолжительность составляет более 10, но менее 20 минут; и длинными, если их продолжительность составляет не менее 20 минут. Создайте трехмерный массив, где нулевая ось отвечает за номер группы (короткий, стандартный или длинный рецепт), первая ось - за сам рецепт и вторая ось - за характеристики рецепта. Выберите максимальное количество рецептов из каждой группы таким образом, чтобы было возможно сформировать трехмерный массив. Выведите форму полученного массива.