# Numpy

Материалы:
* Макрушин С.В. "Лекция 1: Библиотека Numpy"
* https://numpy.org/doc/stable/user/index.html
* https://numpy.org/doc/stable/reference/index.html

## Задачи для совместного разбора

1. Сгенерировать двухмерный массив `arr` размерности (4, 7), состоящий из случайных действительных чисел, равномерно распределенных в диапазоне от 0 до 20. Нормализовать значения массива с помощью преобразования вида  $𝑎𝑥+𝑏$  так, что после нормализации максимальный элемент масcива будет равен 1.0, минимальный 0.0

In [6]:
import numpy as np
import csv

In [7]:
# заполнение массива 4 строки 7 столбцов рандомом в диапазоне от 0 до 20

arr = np.array([[0, 1, 2, 3, 4], [5, 6, 7, 8, 9], [10, 11, 12, 13, 14], [10, 11, 12, 13, 14]])
arr

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14],
       [10, 11, 12, 13, 14]])

2. Создать матрицу 8 на 10 из случайных целых (используя модуль `numpy.random`) чисел из диапозона от 0 до 10 и найти в ней строку (ее индекс и вывести саму строку), в которой сумма значений минимальна.

In [39]:
arr = np.random.randint(0, 10, size=(8, 10))
arr

array([[1, 0, 7, 9, 7, 7, 1, 0, 8, 8],
       [1, 4, 9, 6, 8, 8, 4, 8, 7, 8],
       [7, 0, 1, 7, 8, 1, 3, 6, 7, 1],
       [5, 4, 8, 7, 9, 3, 1, 2, 2, 2],
       [7, 8, 1, 9, 3, 2, 4, 6, 6, 7],
       [2, 5, 6, 9, 9, 0, 1, 0, 2, 2],
       [9, 7, 4, 2, 0, 6, 5, 1, 2, 9],
       [9, 1, 2, 1, 1, 1, 1, 9, 1, 8]])

In [36]:
min_index = np.argmin(arr.sum(axis=1))
print(min_index)
arr[min_index, :]

1


array([3, 3, 5, 7, 0, 8, 0, 0, 0, 5])

3. Найти евклидово расстояние между двумя одномерными векторами одинаковой размерности.

In [37]:
arr1 = np.random.randint(0, 10, size=10)
print(arr1)
arr2 = np.random.randint(0, 10, size=10)
print(arr2)
dist_auto = np.linalg.norm(arr1-arr2)
print(dist_auto)

dist_manual = np.sum((arr1-arr2) ** 2) ** (1/2)
print(dist_manual)

print(dist_auto == dist_manual)

[9 4 1 4 8 3 3 3 6 5]
[7 7 4 4 8 4 1 0 6 6]
6.082762530298219
6.082762530298219
True


4. Решить матричное уравнение `A*X*B=-C` - найти матрицу `X`. Где `A = [[-1, 2, 4], [-3, 1, 2], [-3, 0, 1]]`, `B=[[3, -1], [2, 1]]`, `C=[[7, 21], [11, 8], [8, 4]]`.

In [38]:
a = np.matrix([[-1, 2, 4], [-3, 1, 2], [-3, 0, 1]])
b = np.matrix([[3, -1], [2, 1]])
c = np.matrix([[7, 21], [11, 8], [8, 4]])

"""
A*X*B=-C, при выражении X получаем:
X=A^-1*(-C)*B^-1
"""
result1 = np.linalg.inv(a) @ -c @ np.linalg.inv(b)
result1

matrix([[ 1.00000000e+00,  1.11022302e-15],
        [-2.00000000e+00,  1.00000000e+00],
        [ 3.00000000e+00, -4.00000000e+00]])

## Лабораторная работа №1

Замечание: при решении данных задач не подразумевается использования циклов или генераторов Python, если в задании не сказано обратного. Решение должно опираться на использования функционала библиотеки `numpy`.

1. Файл `minutes_n_ingredients.csv` содержит информацию об идентификаторе рецепта, времени его выполнения в минутах и количестве необходимых ингредиентов. Считайте данные из этого файла в виде массива `numpy` типа `int32`, используя `np.loadtxt`. Выведите на экран первые 5 строк массива.

In [8]:
# using loadtxt()
# delimiter="," - разделитель
# skiprows=1 - пропуск первой строки в датасете
array_dataset = np.loadtxt("minutes_n_ingredients.csv",
                 delimiter=",",skiprows=1, dtype=np.int32)
display(array_dataset)

array([[127244,     60,     16],
       [ 23891,     25,      7],
       [ 94746,     10,      6],
       ...,
       [498432,     65,     15],
       [370915,      5,      4],
       [ 81993,    140,     14]])

2. Вычислите среднее значение, минимум, максимум и медиану по каждому из столбцов, кроме первого.

In [9]:
# mean - среднее знач
print("среднее",array_dataset[:,1:].mean(axis=0))
# min
print("минимум", array_dataset[:,1:].min(axis=0))
#max
print("максимум", array_dataset[:,1:].max(axis=0))

#median - медиана
print("медиана", np.median(array_dataset[:,1:],axis=0))


среднее [2.16010017e+04 9.05528000e+00]
минимум [0 1]
максимум [2147483647         39]
медиана [40.  9.]


3. Ограничьте сверху значения продолжительности выполнения рецепта значением квантиля $q_{0.75}$. 

In [10]:
#np.quantile - вычисление квантиля в дата сете
quant = np.quantile(array_dataset[:,1], 0.75)
print(array_dataset[array_dataset[:,1] <= quant])

[[127244     60     16]
 [ 23891     25      7]
 [ 94746     10      6]
 ...
 [ 43407     35      7]
 [498432     65     15]
 [370915      5      4]]


4. Посчитайте, для скольких рецептов указана продолжительность, равная нулю. Замените для таких строк значение в данном столбце на 1.

In [11]:
print(array_dataset[array_dataset[:,1]==0].shape) # проверка для скольких рецептов указана продолжительность равна нулю
array_dataset[array_dataset[:,1]==0, 1] = 1 # замена на единицы

(479, 3)


5. Посчитайте, сколько уникальных рецептов находится в датасете.

In [12]:
len(np.unique(array_dataset[:,0]))

100000

6. Сколько и каких различных значений кол-ва ингредиентов присутвует в рецептах из датасета?

In [15]:
#np.unique - находит уникальные элементы в массиве (столбец ингредиентов)
print(np.unique(array_dataset[:, 2]))
len(np.unique(array_dataset[:, 2]))

[ 1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
 25 26 27 28 29 30 31 32 33 34 35 37 39]


37

7. Создайте версию массива, содержащую информацию только о рецептах, состоящих не более чем из 5 ингредиентов.

In [16]:
# сортировка массива по 2 столбцу (столбец ингредиентов)
array_dataset[array_dataset[:, 2]<=5]

array([[446597,     15,      5],
       [204134,      5,      3],
       [ 25623,      6,      4],
       ...,
       [ 52088,     60,      5],
       [128811,     15,      4],
       [370915,      5,      4]])

8. Для каждого рецепта посчитайте, сколько в среднем ингредиентов приходится на одну минуту рецепта. Найдите максимальное значение этой величины для всего датасета

In [17]:
array_dataset[:,2] / array_dataset[:,1]

array([0.26666667, 0.28      , 0.6       , ..., 0.23076923, 0.8       ,
       0.1       ])

In [18]:
(array_dataset[:,2] / array_dataset[:,1]).max()

24.0

9. Вычислите среднее количество ингредиентов для топ-100 рецептов с наибольшей продолжительностью

In [68]:
# сортировка по столбцу игридиентов (1 столбец датасета)
rows = array_dataset[:, 1].argsort()[-100:]
# определение среднего количества
array_dataset[rows,2].mean()

6.61

10. Выберите случайным образом и выведите информацию о 10 различных рецептах

In [69]:
array_dataset[np.random.randint(0, len(array_dataset), 10)] # с помощью рандома выбираем 10 рецептов

array([[201538,    210,     16],
       [118561,    184,      8],
       [283702,    375,     11],
       [245515,      5,      8],
       [ 27508,     50,      7],
       [286311,     90,     14],
       [ 67950,     10,      3],
       [429056,     23,      6],
       [109104,    210,      9],
       [  8698,     65,      9]])

11. Выведите процент рецептов, кол-во ингредиентов в которых меньше среднего.

In [70]:
# сортировка по 2 столбцу датасета 
# mean - вычисление среднего
len(array_dataset[array_dataset[:,2] < array_dataset[:,2].mean()]) / len(array_dataset)

0.58802

12. Назовем "простым" такой рецепт, длительность выполнения которого не больше 20 минут и кол-во ингредиентов в котором не больше 5. Создайте версию датасета с дополнительным столбцом, значениями которого являются 1, если рецепт простой, и 0 в противном случае.

In [34]:
#np.zeros - создает матрицу заполненую нулями
#.astype(np.int32) - преобразование к указанному типу массива
array_dataset_2 = np.zeros((len(array_dataset),4), dtype=np.int32)
array_dataset_2[:,:3] = array_dataset
array_dataset_2[:,3] =(array_dataset[:,1]<=20) & (array_dataset[:,2]<= 5).astype(np.int32)
print(array_dataset_2.shape)
array_dataset_2

(100000, 4)


array([[127244,     60,     16,      0],
       [ 23891,     25,      7,      0],
       [ 94746,     10,      6,      0],
       ...,
       [498432,     65,     15,      0],
       [370915,      5,      4,      1],
       [ 81993,    140,     14,      0]])

13. Выведите процент "простых" рецептов в датасете

In [72]:
easy_one_recipes = (array_dataset_2[:,-1] == 1).sum()
easy_one_recipes/len(array_dataset_2), 1 - easy_one_recipes/len(array_dataset_2)

# первое число в скобках показывает процент простых рецептов
# второе число показывает процент сложных рецептов 1 - easy_one_recipes/len(....)

(0.09552, 0.90448)

14. Разделим рецепты на группы по следующему правилу. Назовем рецепты короткими, если их продолжительность составляет менее 10 минут; стандартными, если их продолжительность составляет более 10, но менее 20 минут; и длинными, если их продолжительность составляет не менее 20 минут. Создайте трехмерный массив, где нулевая ось отвечает за номер группы (короткий, стандартный или длинный рецепт), первая ось - за сам рецепт и вторая ось - за характеристики рецепта. Выберите максимальное количество рецептов из каждой группы таким образом, чтобы было возможно сформировать трехмерный массив. Выведите форму полученного массива.

In [30]:
shorten = array_dataset[array_dataset[:,1]<10]
standartnie = array_dataset[array_dataset[:,1]>=10 & (array_dataset[:,1]<20)]
dlinnie = array_dataset[array_dataset[:,1]>=20]

In [31]:
max_number = min(len(shorten),len(standartnie),len(dlinnie))
massive = np.stack([shorten[:max_number], standartnie[:max_number], dlinnie[:max_number]])

In [32]:
massive.shape

(3, 7588, 3)