# Numpy

Материалы:
* Макрушин С.В. "Лекция 1: Библиотека Numpy"
* https://numpy.org/doc/stable/user/index.html
* https://numpy.org/doc/stable/reference/index.html

## Задачи для совместного разбора

1. Сгенерировать двухмерный массив `arr` размерности (4, 7), состоящий из случайных действительных чисел, равномерно распределенных в диапазоне от 0 до 20. Нормализовать значения массива с помощью преобразования вида  $𝑎𝑥+𝑏$  так, что после нормализации максимальный элемент масcива будет равен 1.0, минимальный 0.0

In [3]:
import numpy as np
arr = np.random.uniform(0, 20, size=(4, 7))
min_val = np.min(arr)
max_val = np.max(arr)
a = 1 / (max_val - min_val)
b = -min_val / (max_val - min_val)
norm_arr = a * arr + b
print("Минимальное значение в нормализованном массиве:", np.min(norm_arr))
print("Максимальное значение в нормализованном массиве:", np.max(norm_arr))

Минимальное значение в нормализованном массиве: -1.3877787807814457e-17
Максимальное значение в нормализованном массиве: 1.0


2. Создать матрицу 8 на 10 из случайных целых (используя модуль `numpy.random`) чисел из диапозона от 0 до 10 и найти в ней строку (ее индекс и вывести саму строку), в которой сумма значений минимальна.

3. Найти евклидово расстояние между двумя одномерными векторами одинаковой размерности.

4. Решить матричное уравнение `A*X*B=-C` - найти матрицу `X`. Где `A = [[-1, 2, 4], [-3, 1, 2], [-3, 0, 1]]`, `B=[[3, -1], [2, 1]]`, `C=[[7, 21], [11, 8], [8, 4]]`.

## Лабораторная работа №1

Замечание: при решении данных задач не подразумевается использования циклов или генераторов Python, если в задании не сказано обратного. Решение должно опираться на использования функционала библиотеки `numpy`.

In [9]:
import numpy as np

1. Файл `minutes_n_ingredients.csv` содержит информацию об идентификаторе рецепта, времени его выполнения в минутах и количестве необходимых ингредиентов. Считайте данные из этого файла в виде массива `numpy` типа `int32`, используя `np.loadtxt`. Выведите на экран первые 5 строк массива.

In [8]:
data = np.loadtxt('minutes_n_ingredients.csv', dtype=np.int32, delimiter = ',', skiprows = 1)
print(data[:5])

[[127244     60     16]
 [ 23891     25      7]
 [ 94746     10      6]
 [ 67660      5      6]
 [157911     60     14]]


2. Вычислите среднее значение, минимум, максимум и медиану по каждому из столбцов, кроме первого.

In [14]:
print("Минимальное значение:","\n", np.min(data[:5],axis=1))
print("Максимум:","\n", np.max(data[:5],axis=1))
print('Среднее значение:','\n', np.mean(data[:5],axis=1))
print('Медиана:','\n', np.median(data[:5],axis=1))

Минимальное значение: 
 [16  7  6  5 14]
Максимум: 
 [127244  23891  94746  67660 157911]
Среднее значение: 
 [42440.          7974.33333333 31587.33333333 22557.
 52661.66666667]
Медиана: 
 [60. 25. 10.  6. 60.]


3. Ограничьте сверху значения продолжительности выполнения рецепта значением квантиля $q_{0.75}$. 

In [17]:
print(np.quantile(data[:,1], 0.75, axis = 0))
q_075 = np.quantile(data[:, 1], 0.75)
data[:, 1] = np.clip(data[:, 1], a_min=0, a_max=q_075)
data[:10]

65.0


array([[127244,     60,     16],
       [ 23891,     25,      7],
       [ 94746,     10,      6],
       [ 67660,      5,      6],
       [157911,     60,     14],
       [152828,     40,      7],
       [ 33941,     18,      9],
       [446597,     15,      5],
       [366174,      7,      9],
       [ 74205,     20,      7]])

4. Посчитайте, для скольких рецептов указана продолжительность, равная нулю. Замените для таких строк значение в данном столбце на 1.

In [18]:
res = data[:, 1:2]
print(np.sum(res==0))
np.place(res, res < 1, 1)
print(res)

479
[[60]
 [25]
 [10]
 ...
 [65]
 [ 5]
 [65]]


5. Посчитайте, сколько уникальных рецептов находится в датасете.

In [19]:
print(len(np.unique(data[:, :1])))

100000


6. Сколько и каких различных значений кол-ва ингредиентов присутвует в рецептах из датасета?

In [None]:
ing = np.array(np.unique(data[:, 2])).T
print(f'Уникальных значений:{len(ing)} \n Значения:{ing}')

7. Создайте версию массива, содержащую информацию только о рецептах, состоящих не более чем из 5 ингредиентов.

In [27]:
recipes = data[data[:, 2] <= 5]
recipes

array([[446597,     15,      5],
       [204134,      5,      3],
       [ 25623,      6,      4],
       ...,
       [ 52088,     60,      5],
       [128811,     15,      4],
       [370915,      5,      4]])

8. Для каждого рецепта посчитайте, сколько в среднем ингредиентов приходится на одну минуту рецепта. Найдите максимальное значение этой величины для всего датасета

In [32]:
mean_recipe = data[:, 2] / data[:, 1]
print(f'Максимальное: {np.max(mean_recipe)} \n {mean_recipe}')

Максимальное: 24.0 
 [0.26666667 0.28       0.6        ... 0.23076923 0.8        0.21538462]


9. Вычислите среднее количество ингредиентов для топ-100 рецептов с наибольшей продолжительностью

In [36]:
print(np.mean(data[np.argsort(data[:,1])][-100:, 2])) 

9.96


10. Выберите случайным образом и выведите информацию о 10 различных рецептах

In [37]:
data[[np.random.choice(range(len(data)), 10)]]

array([[[103213,     10,      5],
        [434603,     35,      6],
        [275954,     65,     14],
        [441377,     15,      9],
        [135948,     10,      5],
        [472507,     65,      7],
        [ 35154,     30,      8],
        [ 53300,     40,      8],
        [363986,     50,      4],
        [285931,     65,      5]]])

11. Выведите процент рецептов, кол-во ингредиентов в которых меньше среднего.

In [28]:
print(data[data[:,2]<np.mean(data[:,2])].shape[0]/data.shape[0]*100)

58.802


12. Назовем "простым" такой рецепт, длительность выполнения которого не больше 20 минут и кол-во ингредиентов в котором не больше 5. Создайте версию датасета с дополнительным столбцом, значениями которого являются 1, если рецепт простой, и 0 в противном случае.

In [38]:
print(data[data[:, 2] < np.mean(data[:, 2])].shape[0] / data.shape[0] * 100)

58.802


13. Выведите процент "простых" рецептов в датасете

In [40]:
data[(data[:, 1] < 20) & (data[:,2] < 5)].size / data.size * 100


5.093

14. Разделим рецепты на группы по следующему правилу. Назовем рецепты короткими, если их продолжительность составляет менее 10 минут; стандартными, если их продолжительность составляет более 10, но менее 20 минут; и длинными, если их продолжительность составляет не менее 20 минут. Создайте трехмерный массив, где нулевая ось отвечает за номер группы (короткий, стандартный или длинный рецепт), первая ось - за сам рецепт и вторая ось - за характеристики рецепта. Выберите максимальное количество рецептов из каждой группы таким образом, чтобы было возможно сформировать трехмерный массив. Выведите форму полученного массива.

In [41]:
arr1 = data[data[:,1] < 10]
arr2 = data[(data[:,1] >= 10) & (data[:,1] < 20)]
arr3 = data[20 <= data[:,1]]
df = np.min([arr1.shape[0], arr2.shape[0], arr3.shape[0]])
res = np.array([arr1[:df], arr2[:df], arr3[:df]])
print(res.shape)
print(res)

(3, 7588, 3)
[[[ 67660      5      6]
  [366174      7      9]
  [204134      5      3]
  ...
  [420725      5      3]
  [  4747      1      9]
  [370915      5      4]]

 [[ 94746     10      6]
  [ 33941     18      9]
  [446597     15      5]
  ...
  [  9831     15      7]
  [335859     12     14]
  [256812     10      3]]

 [[127244     60     16]
  [ 23891     25      7]
  [157911     60     14]
  ...
  [168901     25      7]
  [392339     35     13]
  [206732     45     10]]]
