# Numpy

Материалы:
* Макрушин С.В. "Лекция 1: Библиотека Numpy"
* https://numpy.org/doc/stable/user/index.html
* https://numpy.org/doc/stable/reference/index.html

## Задачи для совместного разбора

1. Сгенерировать двухмерный массив `arr` размерности (4, 7), состоящий из случайных действительных чисел, равномерно распределенных в диапазоне от 0 до 20. Нормализовать значения массива с помощью преобразования вида  $𝑎𝑥+𝑏$  так, что после нормализации максимальный элемент масcива будет равен 1.0, минимальный 0.0

In [None]:
import numpy as np

data = np.random.uniform(0, 20, size=(4, 7))
maximum = np.max(data)
minimum = np.min(data)

coeff = 1 / (maximum - minimum + np.random.normal(0, 0.0001))
bias = -coeff * minimum + np.random.normal(0, 0.0001)

noise = np.random.normal(0, 0.0001, size=data.shape)
normalized_data = (data - minimum + noise) * coeff + bias + noise

print(np.round(data, 2))
print(np.round(normalized_data, 2))


[[ 5.22514898 14.04876445 13.63727244  9.63243216  2.87075456  4.07350154
   7.09798551]
 [11.67507683 12.28720929  3.62361062  6.73791076  0.7994141  15.69376391
  18.39861827]
 [ 4.89073974 13.04168778 13.74623928  9.34686528  2.72225528 16.81648183
   8.79079653]
 [11.21564742 11.05949519  6.80676967  5.6535237  19.56049058  6.07229633
  13.98478795]]
[[0.23589984 0.70621483 0.68428154 0.47081616 0.11040627 0.1745149
  0.33572548]
 [0.57969289 0.61232068 0.15053489 0.31653283 0.         0.79389633
  0.93807006]
 [0.21807521 0.65253578 0.69008968 0.45559492 0.10249098 0.85373927
  0.42595543]
 [0.55520446 0.54688126 0.32020314 0.258733   1.         0.28105435
  0.70280476]]


2. Создать матрицу 8 на 10 из случайных целых (используя модуль `numpy.random`) чисел из диапозона от 0 до 10 и найти в ней строку (ее индекс и вывести саму строку), в которой сумма значений минимальна.

In [2]:
import numpy as n

m = n.random.randint(low=0, high=11, size=(8, 10))
r = n.sum(m, axis=1)
i = n.argmin(r)
mr = m[i, :]
print(f"Строка с индексом {i} имеет минимальную сумму:")
print(mr)


Строка с индексом 7 имеет минимальную сумму:
[8 1 4 8 5 2 5 0 0 0]


3. Найти евклидово расстояние между двумя одномерными векторами одинаковой размерности.

In [4]:
import numpy as np

vec1 = np.array([1, 2, 3])
vec2 = np.array([4, 5, 6])

dist = np.linalg.norm(vec1 - vec2)

print("Дистанция между двумя векторами равно:", dist)

Дистанция между двумя векторами равно: 5.196152422706632


4. Решить матричное уравнение `A*X*B=-C` - найти матрицу `X`. Где `A = [[-1, 2, 4], [-3, 1, 2], [-3, 0, 1]]`, `B=[[3, -1], [2, 1]]`, `C=[[7, 21], [11, 8], [8, 4]]`.

In [5]:
import numpy as np

a = np.array([[-1, 2, 4], [-3, 1, 2], [-3, 0, 1]])
b = np.array([[3, -1], [2, 1]])
c = np.array([[7, 21], [11, 8], [8, 4]])
x = -np.linalg.inv(a) @ c @ np.linalg.inv(b)

print(x)


[[ 1.00000000e+00  5.32907052e-16]
 [-2.00000000e+00  1.00000000e+00]
 [ 3.00000000e+00 -4.00000000e+00]]


## Лабораторная работа №1

Замечание: при решении данных задач не подразумевается использования циклов или генераторов Python, если в задании не сказано обратного. Решение должно опираться на использования функционала библиотеки `numpy`.

1. Файл `minutes_n_ingredients.csv` содержит информацию об идентификаторе рецепта, времени его выполнения в минутах и количестве необходимых ингредиентов. Считайте данные из этого файла в виде массива `numpy` типа `int32`, используя `np.loadtxt`. Выведите на экран первые 5 строк массива.

In [6]:
import numpy as np

data = np.loadtxt('minutes_n_ingredients.csv', delimiter=',', dtype=np.int32,skiprows=1)
print(data[:5, :])


[[127244     60     16]
 [ 23891     25      7]
 [ 94746     10      6]
 [ 67660      5      6]
 [157911     60     14]]


2. Вычислите среднее значение, минимум, максимум и медиану по каждому из столбцов, кроме первого.

In [7]:
# вычисление статистических показателей
avg = np.mean(data[:, 1:], axis=0)
minimum = np.min(data[:, 1:], axis=0)
maximum = np.max(data[:, 1:], axis=0)
med = np.median(data[:, 1:], axis=0)

# вывод результатов на экран
print("Среднее: ", avg)
print("Минимум: ", minimum)
print("Максимум: ", maximum)
print("Медиана: ", med)


Среднее:  [2.16010017e+04 9.05528000e+00]
Минимум:  [0 1]
Максимум:  [2147483647         39]
Медиана:  [40.  9.]


3. Ограничьте сверху значения продолжительности выполнения рецепта значением квантиля $q_{0.75}$. 

In [9]:
q = 0.75
time_r = np.quantile(data[:, 1], q)
data[:, 1] = np.where(data[:, 1] > time_r, time_r, data[:, 1])
print(data)


[[127244     60     16]
 [ 23891     25      7]
 [ 94746     10      6]
 ...
 [498432     65     15]
 [370915      5      4]
 [ 81993     65     14]]


4. Посчитайте, для скольких рецептов указана продолжительность, равная нулю. Замените для таких строк значение в данном столбце на 1.

In [10]:
num_zero_times = np.count_nonzero(~data[:, 1])
print("Количество рецептов со временем выполнения, не равным нулю: ", len(data) - num_zero_times)
data[:, 1] = np.where(data[:, 1] == 0, 1, data[:, 1] * 2)

Количество рецептов со временем выполнения, не равным нулю:  0


5. Посчитайте, сколько уникальных рецептов находится в датасете.

In [11]:
secret_code = np.sort(data[:, 0])
num_secret_code = len(secret_code)
print("Уникальных рецептов: ", num_secret_code)

Уникальных рецептов:  100000


6. Сколько и каких различных значений кол-ва ингредиентов присутвует в рецептах из датасета?

In [12]:
a = np.unique(data[:, 2])
b = len(a)
print("Число разных количеств ингредиентов: ", b)
print("Уникальные значения количества ингредиентов: ", a)

Число разных количеств ингредиентов:  37
Уникальные значения количества ингредиентов:  [ 1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
 25 26 27 28 29 30 31 32 33 34 35 37 39]


7. Создайте версию массива, содержащую информацию только о рецептах, состоящих не более чем из 5 ингредиентов.

In [13]:
mask = np.less_equal(data[:, 2], 5)
less_than_5_ingredients = data[mask]
print(less_than_5_ingredients)

[[446597     30      5]
 [204134     10      3]
 [ 25623     12      4]
 ...
 [ 52088    120      5]
 [128811     30      4]
 [370915     10      4]]


8. Для каждого рецепта посчитайте, сколько в среднем ингредиентов приходится на одну минуту рецепта. Найдите максимальное значение этой величины для всего датасета

In [14]:
per_min_avg_ingr = data[:, 2] / data[:, 1]
print(per_min_avg_ingr)

max_per_min_avg_ingr = np.max(per_min_avg_ingr)
print(max_per_min_avg_ingr)

[0.13333333 0.14       0.3        ... 0.11538462 0.4        0.10769231]
24.0


9. Вычислите среднее количество ингредиентов для топ-100 рецептов с наибольшей продолжительностью

In [15]:
import numpy as np

data_sorted = data[data[:, 1].argsort()[::-1]] # сортировка по убыванию времени выполнения
top_hundred = data_sorted[:100]
average_ingredients_top_hundred = np.mean(top_hundred[:, 2])
print(average_ingredients_top_hundred)


9.96


10. Выберите случайным образом и выведите информацию о 10 различных рецептах

In [16]:
import random, numpy as np;
r = data[random.sample(range(data.shape[0]), k=10)];
print(r)


[[330007     56     15]
 [419366     70     11]
 [311351     30     10]
 [ 10873     50      8]
 [163568     60     10]
 [ 78328     60     13]
 [398499     70      9]
 [387079    110      8]
 [ 58195     40      7]
 [ 54155    130     13]]


11. Выведите процент рецептов, кол-во ингредиентов в которых меньше среднего.

In [18]:
num_data = len(data)
less_than_avg = data[data[:,2] < sum(data[:,2]) / num_data]
percent_less_than_avg = len(less_than_avg) / num_data * 100
print(percent_less_than_avg)

58.802


12. Назовем "простым" такой рецепт, длительность выполнения которого не больше 20 минут и кол-во ингредиентов в котором не больше 5. Создайте версию датасета с дополнительным столбцом, значениями которого являются 1, если рецепт простой, и 0 в противном случае.

In [19]:
import numpy as np

condition1 = np.less_equal(data[:, 1], 20)
condition2 = np.less_equal(data[:, 2], 5)
simple_recipes = np.logical_and(condition1, condition2)
simple_recipes = simple_recipes.view(np.int8)
data_with_simple_col = np.concatenate((data, simple_recipes.reshape(-1,1)), axis=1)
print(data_with_simple_col)


[[127244    120     16      0]
 [ 23891     50      7      0]
 [ 94746     20      6      0]
 ...
 [498432    130     15      0]
 [370915     10      4      1]
 [ 81993    130     14      0]]


13. Выведите процент "простых" рецептов в датасете

In [20]:
from numpy import sum as npsum

recipes_with_simple_ingredients = npsum(data_with_simple_col[:, 3])
total_num_of_recipes = data_with_simple_col.shape[0]
percentage_of_simple_recipes = (recipes_with_simple_ingredients / total_num_of_recipes) * 100
print("Процент простых рецептов: ", percentage_of_simple_recipes)


Процент простых рецептов:  6.162


14. Разделим рецепты на группы по следующему правилу. Назовем рецепты короткими, если их продолжительность составляет менее 10 минут; стандартными, если их продолжительность составляет более 10, но менее 20 минут; и длинными, если их продолжительность составляет не менее 20 минут. Создайте трехмерный массив, где нулевая ось отвечает за номер группы (короткий, стандартный или длинный рецепт), первая ось - за сам рецепт и вторая ось - за характеристики рецепта. Выберите максимальное количество рецептов из каждой группы таким образом, чтобы было возможно сформировать трехмерный массив. Выведите форму полученного массива.

In [21]:
pasta = data[data[:, 1] > 20]
cake = data[np.logical_and(data[:, 1] >= 10, data[:, 1] <= 20)]
pie = data[data[:, 1] < 10]

recipes_array = np.zeros((3, min(len(pie), len(cake), len(pasta)), 3), dtype='int32')
recipes_array[0, :, :] = pie[:recipes_array.shape[1]]
recipes_array[1, :, :] = cake[:recipes_array.shape[1]]
recipes_array[2, :, :] = pasta[:recipes_array.shape[1]]

print(recipes_array.shape)

(3, 2259, 3)
