# Numpy

Материалы:
* Макрушин С.В. "Лекция 1: Библиотека Numpy"
* https://numpy.org/doc/stable/user/index.html
* https://numpy.org/doc/stable/reference/index.html

## Задачи для совместного разбора

1. Сгенерировать двухмерный массив `arr` размерности (4, 7), состоящий из случайных действительных чисел, равномерно распределенных в диапазоне от 0 до 20. Нормализовать значения массива с помощью преобразования вида  $𝑎𝑥+𝑏$  так, что после нормализации максимальный элемент масcива будет равен 1.0, минимальный 0.0

In [None]:
import numpy as np 

arr = np.linspace(0, 20, 28, endpoint=False).reshape((4, 7))
print(arr)
arr = np.array([el/np.max(arr) for el in arr])
print(arr)

[[ 0.          0.71428571  1.42857143  2.14285714  2.85714286  3.57142857
   4.28571429]
 [ 5.          5.71428571  6.42857143  7.14285714  7.85714286  8.57142857
   9.28571429]
 [10.         10.71428571 11.42857143 12.14285714 12.85714286 13.57142857
  14.28571429]
 [15.         15.71428571 16.42857143 17.14285714 17.85714286 18.57142857
  19.28571429]]
[[0.         0.03703704 0.07407407 0.11111111 0.14814815 0.18518519
  0.22222222]
 [0.25925926 0.2962963  0.33333333 0.37037037 0.40740741 0.44444444
  0.48148148]
 [0.51851852 0.55555556 0.59259259 0.62962963 0.66666667 0.7037037
  0.74074074]
 [0.77777778 0.81481481 0.85185185 0.88888889 0.92592593 0.96296296
  1.        ]]


2. Создать матрицу 8 на 10 из случайных целых (используя модуль `numpy.random`) чисел из диапозона от 0 до 10 и найти в ней строку (ее индекс и вывести саму строку), в которой сумма значений минимальна.

In [None]:
arr = np.random.randint(0, 10, (8, 10))
temp = [sum(el) for el in arr]
print(min(temp), temp.index(min(temp)))

34 0


3. Найти евклидово расстояние между двумя одномерными векторами одинаковой размерности.

In [None]:
data = np.random.randint(0, 10, (2, 10))
distance = np.linalg.norm(data[0] - data[1])
print(distance)

11.74734012447073


4. Решить матричное уравнение `A*X*B=-C` - найти матрицу `X`. Где `A = [[-1, 2, 4], [-3, 1, 2], [-3, 0, 1]]`, `B=[[3, -1], [2, 1]]`, `C=[[7, 21], [11, 8], [8, 4]]`.

In [None]:
A = np.array([[-1, 2, 4], [-3, 1, 2], [-3, 0, 1]])
B = np.array([[3, -1], [2, 1]])
C = np.array([[7, 21], [11, 8], [8, 4]])

print(np.linalg.inv(A) @ (C * (-1)) @ np.linalg.inv(B))

[[ 1.00000000e+00  5.32907052e-16]
 [-2.00000000e+00  1.00000000e+00]
 [ 3.00000000e+00 -4.00000000e+00]]


## Лабораторная работа №1

Замечание: при решении данных задач не подразумевается использования циклов или генераторов Python, если в задании не сказано обратного. Решение должно опираться на использования функционала библиотеки `numpy`.

In [None]:
import numpy as np

1. Файл `minutes_n_ingredients.csv` содержит информацию об идентификаторе рецепта, времени его выполнения в минутах и количестве необходимых ингредиентов. Считайте данные из этого файла в виде массива `numpy` типа `int32`, используя `np.loadtxt`. Выведите на экран первые 5 строк массива.

In [None]:
columns = np.loadtxt('minutes_n_ingredients.csv', max_rows=1, dtype=str, delimiter=',')
data = np.loadtxt('minutes_n_ingredients.csv', skiprows=1, dtype=np.int32, delimiter=',')

print(data[:5])

[[127244     60     16]
 [ 23891     25      7]
 [ 94746     10      6]
 [ 67660      5      6]
 [157911     60     14]]


2. Вычислите среднее значение, минимум, максимум и медиану по каждому из столбцов, кроме первого.

In [None]:
import numpy as np

without_id = np.array(data[:, 1:])
by_cols = 0

means_by_cols = without_id.mean(axis=by_cols)
min_values_by_cols = without_id.min(axis=by_cols)
max_values_by_cols = without_id.max(axis=by_cols)
medians_by_cols = np.median(without_id, axis=by_cols)

print(columns[1:],'\n', means_by_cols,'\n', min_values_by_cols,'\n', max_values_by_cols,'\n', medians_by_cols,'\n')

['minutes' 'n_ingredients'] 
 [2.16010017e+04 9.05528000e+00] 
 [0 1] 
 [2147483647         39] 
 [40.  9.] 



3. Ограничьте сверху значения продолжительности выполнения рецепта значением квантиля $q_{0.75}$. 

In [None]:
with_limited_minutes = data.copy()

q_3 = np.quantile(with_limited_minutes[:, 1], q=0.75, axis=0)
with_limited_minutes[:, 1][with_limited_minutes[:, 1] > q_3] = q_3

print(with_limited_minutes)

[[127244     60     16]
 [ 23891     25      7]
 [ 94746     10      6]
 ...
 [498432     65     15]
 [370915      5      4]
 [ 81993     65     14]]


4. Посчитайте, для скольких рецептов указана продолжительность, равная нулю. Замените для таких строк значение в данном столбце на 1.

In [None]:
without_zeroes_minutes = with_limited_minutes.copy()
mask = without_zeroes_minutes[:, 1] == 0

zeros_n = np.count_nonzero(mask)
without_zeroes_minutes[:, 1][mask] = 1

print(zeros_n)
print(without_zeroes_minutes)

479
[[127244     60     16]
 [ 23891     25      7]
 [ 94746     10      6]
 ...
 [498432     65     15]
 [370915      5      4]
 [ 81993     65     14]]


5. Посчитайте, сколько уникальных рецептов находится в датасете.

In [None]:
unique_recipes_n = np.unique(without_zeroes_minutes[:, 1:], axis=0).shape[0]
print(unique_recipes_n)

1135


6. Сколько и каких различных значений кол-ва ингредиентов присутвует в рецептах из датасета?

In [None]:
print(len(np.unique(without_zeroes_minutes[:, 2])))

37


7. Создайте версию массива, содержащую информацию только о рецептах, состоящих не более чем из 5 ингредиентов.

In [None]:
print(without_zeroes_minutes[without_zeroes_minutes[:, 2] <= 5])

[[446597     15      5]
 [204134      5      3]
 [ 25623      6      4]
 ...
 [ 52088     60      5]
 [128811     15      4]
 [370915      5      4]]


8. Для каждого рецепта посчитайте, сколько в среднем ингредиентов приходится на одну минуту рецепта. Найдите максимальное значение этой величины для всего датасета

In [None]:
temp = without_zeroes_minutes.copy()
results = (temp[:,2]/temp[:,1])
print(results)
print((results).max())

[0.26666667 0.28       0.6        ... 0.23076923 0.8        0.21538462]
24.0


9. Вычислите среднее количество ингредиентов для топ-100 рецептов с наибольшей продолжительностью

In [None]:
top_100 = np.argsort(without_zeroes_minutes[:, 1])[:-100:-1]
print(without_zeroes_minutes[top_100][:, 2].mean())

9.94949494949495


10. Выберите случайным образом и выведите информацию о 10 различных рецептах

In [None]:
print(data[np.random.randint(data.shape[0], size=10), :])

[[376902     55     11]
 [382036     75     18]
 [150155     70      6]
 [338497    365      4]
 [142321     35      7]
 [284968    495      8]
 [382183     20     13]
 [ 41284      6      7]
 [146003     20     11]
 [ 13862     35     13]]


11. Выведите процент рецептов, кол-во ингредиентов в которых меньше среднего.

In [None]:
avg_count = without_zeroes_minutes[top_100][:, 2].mean()
mask = data[:, 2] < avg_count
print(len(data[mask])/len(data) * 100)

58.802


12. Назовем "простым" такой рецепт, длительность выполнения которого не больше 20 минут и кол-во ингредиентов в котором не больше 5. Создайте версию датасета с дополнительным столбцом, значениями которого являются 1, если рецепт простой, и 0 в противном случае.

In [None]:
with_added_column = data.copy()
mask = (data[:, 1] <= 20) & (data[:, 2] <= 5)
column = mask.astype(int)
with_added_column = np.column_stack([with_added_column, column])
print(with_added_column)

[[127244     60     16      0]
 [ 23891     25      7      0]
 [ 94746     10      6      0]
 ...
 [498432     65     15      0]
 [370915      5      4      1]
 [ 81993    140     14      0]]


13. Выведите процент "простых" рецептов в датасете

In [None]:
mask = with_added_column[:, 3] == 1
temp = with_added_column[:, 3][mask]
print(len(temp)/len(with_added_column) * 100)

9.552


14. Разделим рецепты на группы по следующему правилу. Назовем рецепты короткими, если их продолжительность составляет менее 10 минут; стандартными, если их продолжительность составляет более 10, но менее 20 минут; и длинными, если их продолжительность составляет не менее 20 минут. Создайте трехмерный массив, где нулевая ось отвечает за номер группы (короткий, стандартный или длинный рецепт), первая ось - за сам рецепт и вторая ось - за характеристики рецепта. Выберите максимальное количество рецептов из каждой группы таким образом, чтобы было возможно сформировать трехмерный массив. Выведите форму полученного массива.

In [None]:
short_arr = data[data[:,1] < 10]
mask = (data[:,1] >= 10) & (data[:,1] < 20)
standard_arr = data[mask]
long_arr = data[20 <= data[:,1]]

crop_value = np.min([short_arr.shape[0], standard_arr.shape[0], long_arr.shape[0]])

result_arr = np.array([short_arr[:crop_value], standard_arr[:crop_value], long_arr[:crop_value]])
print(result_arr)

[[[ 67660      5      6]
  [366174      7      9]
  [204134      5      3]
  ...
  [420725      5      3]
  [  4747      0      9]
  [370915      5      4]]

 [[ 94746     10      6]
  [ 33941     18      9]
  [446597     15      5]
  ...
  [  9831     15      7]
  [335859     12     14]
  [256812     10      3]]

 [[127244     60     16]
  [ 23891     25      7]
  [157911     60     14]
  ...
  [168901     25      7]
  [392339     35     13]
  [206732     45     10]]]
