# Numpy

Материалы:
* Макрушин С.В. "Лекция 1: Библиотека Numpy"
* https://numpy.org/doc/stable/user/index.html
* https://numpy.org/doc/stable/reference/index.html

## Задачи для совместного разбора

1. Сгенерировать двухмерный массив `arr` размерности (4, 7), состоящий из случайных действительных чисел, равномерно распределенных в диапазоне от 0 до 20. Нормализовать значения массива с помощью преобразования вида  $𝑎𝑥+𝑏$  так, что после нормализации максимальный элемент масcива будет равен 1.0, минимальный 0.0

2. Создать матрицу 8 на 10 из случайных целых (используя модуль `numpy.random`) чисел из диапозона от 0 до 10 и найти в ней строку (ее индекс и вывести саму строку), в которой сумма значений минимальна.

3. Найти евклидово расстояние между двумя одномерными векторами одинаковой размерности.

4. Решить матричное уравнение `A*X*B=-C` - найти матрицу `X`. Где `A = [[-1, 2, 4], [-3, 1, 2], [-3, 0, 1]]`, `B=[[3, -1], [2, 1]]`, `C=[[7, 21], [11, 8], [8, 4]]`.

## Лабораторная работа №1

In [None]:
!pip install numpy

In [217]:
import numpy as np

Замечание: при решении данных задач не подразумевается использования циклов или генераторов Python, если в задании не сказано обратного. Решение должно опираться на использования функционала библиотеки `numpy`.

1. Файл `minutes_n_ingredients.csv` содержит информацию об идентификаторе рецепта, времени его выполнения в минутах и количестве необходимых ингредиентов. Считайте данные из этого файла в виде массива `numpy` типа `int32`, используя `np.loadtxt`. Выведите на экран первые 5 строк массива.

In [218]:
data = np.loadtxt('data/minutes_n_ingredients.csv', dtype=int, delimiter=',', skiprows=1)
data[:5]

array([[127244,     60,     16],
       [ 23891,     25,      7],
       [ 94746,     10,      6],
       [ 67660,      5,      6],
       [157911,     60,     14]])

2. Вычислите среднее значение, минимум, максимум и медиану по каждому из столбцов, кроме первого.

In [219]:
rows, columns = data.shape
print('Всего', columns, 'столбца', end='\n\n')

column = 1
print(f'среднее значение: {np.mean(data[:, column])}', f'минимум: {np.min(data[:, column])}', f'максимум: {np.max(data[:, column])}', f'медиана: {np.median(data[:, column])}', sep='\n', end='\n\n')

column = 2
print(f'среднее значение: {np.mean(data[:, column])}', f'минимум: {np.min(data[:, column])}', f'максимум: {np.max(data[:, column])}', f'медиана: {np.median(data[:, column])}', sep='\n', end='\n\n')

Всего 3 столбца

среднее значение: 21601.00169
минимум: 0
максимум: 2147483647
медиана: 40.0

среднее значение: 9.05528
минимум: 1
максимум: 39
медиана: 9.0



3. Ограничьте сверху значения продолжительности выполнения рецепта значением квантиля $q_{0.75}$. 

In [220]:
q = np.quantile(data[:,1], 0.75)
ogr = data[:,1] <= q
data[ogr]

array([[127244,     60,     16],
       [ 23891,     25,      7],
       [ 94746,     10,      6],
       ...,
       [ 43407,     35,      7],
       [498432,     65,     15],
       [370915,      5,      4]])

4. Посчитайте, для скольких рецептов указана продолжительность, равная нулю. Замените для таких строк значение в данном столбце на 1.

In [221]:
no_zeros = data.copy()
zero_in_column = no_zeros[:, 1] == 0
count_zeros = np.count_nonzero(zero_in_column)
no_zeros[:, 1][zero_in_column] = 1

print(count_zeros, no_zeros, sep='\n')

479
[[127244     60     16]
 [ 23891     25      7]
 [ 94746     10      6]
 ...
 [498432     65     15]
 [370915      5      4]
 [ 81993    140     14]]


5. Посчитайте, сколько уникальных рецептов находится в датасете.

In [222]:
unique_rec = np.unique(data[:, 1:], axis=0).shape[0]
print(unique_rec)

4195


6. Сколько и каких различных значений кол-ва ингредиентов присутвует в рецептах из датасета?

In [223]:
unique_ingredients = np.unique(data[:, 2])
col_unique_ingredients = unique_ingredients.shape[0]
print('Сколько:', col_unique_ingredients, 'Каких:', unique_ingredients, sep='\n')

Сколько:
37
Каких:
[ 1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
 25 26 27 28 29 30 31 32 33 34 35 37 39]


7. Создайте версию массива, содержащую информацию только о рецептах, состоящих не более чем из 5 ингредиентов.

In [224]:
not_more_5 = data.copy()
not_more_5 = not_more_5[not_more_5[:, 2] <= 5]
print(not_more_5)

[[446597     15      5]
 [204134      5      3]
 [ 25623      6      4]
 ...
 [ 52088     60      5]
 [128811     15      4]
 [370915      5      4]]


8. Для каждого рецепта посчитайте, сколько в среднем ингредиентов приходится на одну минуту рецепта. Найдите максимальное значение этой величины для всего датасета

In [225]:
sred = no_zeros[:,2]/no_zeros[:,1]
print('Для каждого:', sred, 'Максимальное значение:', max(sred), sep='\n')

Для каждого:
[0.26666667 0.28       0.6        ... 0.23076923 0.8        0.1       ]
Максимальное значение:
24.0


9. Вычислите среднее количество ингредиентов для топ-100 рецептов с наибольшей продолжительностью

In [226]:
top = data[data[:, 1].argsort()[::-1]][:100]
print(top[:,1].mean())

21518445.39


10. Выберите случайным образом и выведите информацию о 10 различных рецептах

In [227]:
rnd = data[np.random.randint(data.shape[0], size=10)]
print(rnd)

[[ 95481     45     12]
 [496609     15      3]
 [250376     70      6]
 [ 58559     10      7]
 [199054     75     14]
 [159408     30      8]
 [218084     65     13]
 [104431    140     11]
 [ 67169     30      7]
 [ 74211     85      8]]


11. Выведите процент рецептов, кол-во ингредиентов в которых меньше среднего.

In [228]:
sred = np.mean(data[:, 2])
less = data[:,2] < sred
count_less = np.count_nonzero(less)
print(count_less / data.shape[0] *100, '%')

58.802 %


12. Назовем "простым" такой рецепт, длительность выполнения которого не больше 20 минут и кол-во ингредиентов в котором не больше 5. Создайте версию датасета с дополнительным столбцом, значениями которого являются 1, если рецепт простой, и 0 в противном случае.

In [229]:
prost = data.copy()
mask = (data[:, 1] <= 20) & (data[:, 2] <= 5)
new_col = mask.astype(int)
prost = np.column_stack([prost, new_col])
print(prost)

[[127244     60     16      0]
 [ 23891     25      7      0]
 [ 94746     10      6      0]
 ...
 [498432     65     15      0]
 [370915      5      4      1]
 [ 81993    140     14      0]]


13. Выведите процент "простых" рецептов в датасете

In [230]:
edinic = prost[:,3] == 1
count_edinic = np.count_nonzero(edinic)
print(count_edinic / prost.shape[0] *100, '%')

9.552 %


14. Разделим рецепты на группы по следующему правилу. Назовем рецепты 
короткими, если их продолжительность составляет менее 10 минут; 
стандартными, если их продолжительность составляет более 10, но менее 20 минут; 
и длинными, если их продолжительность составляет не менее 20 минут. 
Создайте трехмерный массив, где нулевая ось отвечает за номер группы (короткий, стандартный или длинный рецепт), первая ось - за сам рецепт и вторая ось - за характеристики рецепта. Выберите максимальное количество рецептов из каждой группы таким образом, чтобы было возможно сформировать трехмерный массив. Выведите форму полученного массива.

In [231]:
short_group = data[data[:,1] < 10]
mask = (data[:,1] >= 10) & (data[:,1] < 20)
standart_group = data[mask]
long_group = data[data[:,1] >= 20]

min_amount = min(short_group.shape[0], standart_group.shape[0], long_group.shape[0])
final = np.array([short_group[:min_amount], standart_group[:min_amount], long_group[:min_amount]])
print(final)

[[[ 67660      5      6]
  [366174      7      9]
  [204134      5      3]
  ...
  [420725      5      3]
  [  4747      0      9]
  [370915      5      4]]

 [[ 94746     10      6]
  [ 33941     18      9]
  [446597     15      5]
  ...
  [  9831     15      7]
  [335859     12     14]
  [256812     10      3]]

 [[127244     60     16]
  [ 23891     25      7]
  [157911     60     14]
  ...
  [168901     25      7]
  [392339     35     13]
  [206732     45     10]]]
