# Numpy

Материалы:
* Макрушин С.В. "Лекция 1: Библиотека Numpy"
* https://numpy.org/doc/stable/user/index.html
* https://numpy.org/doc/stable/reference/index.html

## Задачи для совместного разбора

1. Сгенерировать двухмерный массив `arr` размерности (4, 7), состоящий из случайных действительных чисел, равномерно распределенных в диапазоне от 0 до 20. Нормализовать значения массива с помощью преобразования вида  $𝑎𝑥+𝑏$  так, что после нормализации максимальный элемент масcива будет равен 1.0, минимальный 0.0

In [41]:
import numpy as np
arr=np.random.rand(4,7)*20
max_var=np.max(arr)
min_var=np.min(arr)
a=1.0/(max_var-min_var)
b=-min_var*a

normalized_arr=a*arr+b
print("Исходный массив:\n", arr)
print("\nНормализованный массив:\n", normalized_arr)




Исходный массив:
 [[18.39282995  2.73297384 17.66783539 15.60429211 11.95377421 12.50437732
   5.96241353]
 [ 9.94521591  8.45038211  9.0723141  17.17038542 10.87632512 14.96210944
  17.79247485]
 [ 5.94237864 12.22951388  6.13357699 13.70456044 14.10053136 17.74497612
   0.15894613]
 [ 4.61896809  9.26826181 18.13419133 14.92624273 17.84414822  6.01325137
   0.71865804]]

Нормализованный массив:
 [[1.         0.14116728 0.96023916 0.84706836 0.64686318 0.67705988
  0.31827928]
 [0.53670792 0.45472682 0.4888354  0.93295753 0.58777269 0.81184916
  0.96707475]
 [0.31718051 0.66198556 0.32766639 0.74288146 0.76459768 0.96446978
  0.        ]
 [0.24460077 0.49958176 0.98581549 0.80988213 0.96990867 0.32106738
  0.03069625]]


2. Создать матрицу 8 на 10 из случайных целых (используя модуль `numpy.random`) чисел из диапозона от 0 до 10 и найти в ней строку (ее индекс и вывести саму строку), в которой сумма значений минимальна.

In [61]:
import numpy as np
matrix=np.round(np.random.rand(8,10)*10).astype(int)

min_sum=float('inf')
row_index=None
for ind in range(matrix.shape[0]):
    cur_summ=matrix[ind].sum()
    if cur_summ<min_sum:
        min_sum=cur_summ
        row_index=ind
if row_index is not None:
    print(f'Минимальная сумма в строке {row_index}:', matrix[row_index])
else:
    print('Все строки имеют одинаковую минимальную сумму!')

Минимальная сумма в строке 4: [3 1 1 0 5 9 8 0 2 6]


3. Найти евклидово расстояние между двумя одномерными векторами одинаковой размерности.

In [71]:
import numpy as np
def euclid(a,b):
    diff = np.subtract(a,b)
    return np.linalg.norm(diff)
a=np.array([1,2,3])
b=np.array([4,5,6])
print(f'Расстояние между векторами A и B: {euclid(a,b)}')

Расстояние между векторами A и B: 5.196152422706632


4. Решить матричное уравнение `A*X*B=-C` - найти матрицу `X`. Где `A = [[-1, 2, 4], [-3, 1, 2], [-3, 0, 1]]`, `B=[[3, -1], [2, 1]]`, `C=[[7, 21], [11, 8], [8, 4]]`.

In [78]:
import numpy as np
a=np.array([[-1, 2, 4], [-3, 1, 2], [-3, 0, 1]])
b=np.array([[3, -1], [2, 1]])
c=np.array([[7, 21], [11, 8], [8, 4]])
ainv=np.linalg.inv(a) #обратная матрица а
binv=np.linalg.inv(b) #обратная матрица б
x=-np.dot(np.dot(ainv,c),binv) #.dot- перемножение матриц
print("Матрица X:")
print(x)

Матрица X:
[[ 1.00000000e+00  1.11022302e-15]
 [-2.00000000e+00  1.00000000e+00]
 [ 3.00000000e+00 -4.00000000e+00]]
Матрица X:
[[ 1.00000000e+00  1.11022302e-15]
 [-2.00000000e+00  1.00000000e+00]
 [ 3.00000000e+00 -4.00000000e+00]]


## Лабораторная работа №1

Замечание: при решении данных задач не подразумевается использования циклов или генераторов Python, если в задании не сказано обратного. Решение должно опираться на использования функционала библиотеки `numpy`.

1. Файл `minutes_n_ingredients.csv` содержит информацию об идентификаторе рецепта, времени его выполнения в минутах и количестве необходимых ингредиентов. Считайте данные из этого файла в виде массива `numpy` типа `int32`, используя `np.loadtxt`. Выведите на экран первые 5 строк массива.

In [102]:
import numpy as np
arr=np.loadtxt('minutes_n_ingredients.csv',delimiter=',',skiprows=1,dtype=np.int32)
print(arr[:5])

[[127244     60     16]
 [ 23891     25      7]
 [ 94746     10      6]
 [ 67660      5      6]
 [157911     60     14]]


2. Вычислите среднее значение, минимум, максимум и медиану по каждому из столбцов, кроме первого.

In [123]:
mean_arr=np.mean(arr[:,1:],axis=0)
max_arr=np.max(arr[:,1:],axis=0)
min_arr=np.min(arr[:,1:],axis=0)
median_arr=np.mean(arr[:,1:],axis=0)
print("Среднее значение по каждому столбцу (кроме первого):", mean_arr)
print("Минимум по каждому столбцу (кроме первого):", min_arr)
print("Максимум по каждому столбцу (кроме первого):", max_arr)
print("Медиана по каждому столбцу (кроме первого):", median_arr)

Среднее значение по каждому столбцу (кроме первого): [2.16010017e+04 9.05528000e+00]
Минимум по каждому столбцу (кроме первого): [0 1]
Максимум по каждому столбцу (кроме первого): [2147483647         39]
Медиана по каждому столбцу (кроме первого): [2.16010017e+04 9.05528000e+00]


3. Ограничьте сверху значения продолжительности выполнения рецепта значением квантиля $q_{0.75}$. 

In [151]:
arr=np.loadtxt('minutes_n_ingredients.csv',delimiter=',',skiprows=1,dtype=np.int32)
minutes_column=arr[:,1:2]
q=0.75
block=np.clip(minutes_column,0,np.quantile(minutes_column,q))
print(block)

check = block.max()
print(check)

[[60.]
 [25.]
 [10.]
 ...
 [65.]
 [ 5.]
 [65.]]
65.0


4. Посчитайте, для скольких рецептов указана продолжительность, равная нулю. Замените для таких строк значение в данном столбце на 1.

In [175]:
arr=np.loadtxt('minutes_n_ingredients.csv',delimiter=',',skiprows=1,dtype=np.int32)
minutes_column=arr[:,1:2]
print(100000-np.count_nonzero(minutes_column))
before_min=np.min(minutes_column,axis=0)
minutes_column[minutes_column==0]=1
after_min=np.min(minutes_column,axis=0)
print(100000-np.count_nonzero(minutes_column),before_min,after_min)


479
0 [0] [1]


5. Посчитайте, сколько уникальных рецептов находится в датасете.

In [182]:
arr=np.loadtxt('minutes_n_ingredients.csv',delimiter=',',skiprows=1,dtype=np.int32)
print(np.unique(arr,axis=0).shape[0])

100000


6. Сколько и каких различных значений кол-ва ингредиентов присутвует в рецептах из датасета?

In [188]:
n_ingridients_column=arr[:,2:]

different_ingridients=np.unique(n_ingridients_column,axis=0).shape[0]
print(different_ingridients,np.unique(n_ingridients_column))

37 [ 1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
 25 26 27 28 29 30 31 32 33 34 35 37 39]


7. Создайте версию массива, содержащую информацию только о рецептах, состоящих не более чем из 5 ингредиентов.

In [239]:
arr=np.loadtxt('minutes_n_ingredients.csv',delimiter=',',skiprows=1,dtype=np.int32)
print(arr[arr[:,2]<=5])


[[446597     15      5]
 [204134      5      3]
 [ 25623      6      4]
 ...
 [ 52088     60      5]
 [128811     15      4]
 [370915      5      4]]


8. Для каждого рецепта посчитайте, сколько в среднем ингредиентов приходится на одну минуту рецепта. Найдите максимальное значение этой величины для всего датасета

In [268]:
import numpy as np

arr = np.loadtxt('minutes_n_ingredients.csv', delimiter=',', skiprows=1, dtype=np.float64)
new_array = np.array([])
min_column = arr[:, 1:2]
ingredients_column = arr[:, 2:]

for el in np.arange(min_column.size):
    if min_column[el] != 0:
        ing_1_min = ingredients_column[el] / min_column[el]
        new_array = np.append(new_array, ing_1_min)
    else:
        new_array = np.append(new_array, 0)  # Заменяем деление на ноль на 0

print(new_array)
print(np.nanmax(new_array))  # Используем np.nanmax для игнорирования NaN значений


[0.26666667 0.28       0.6        ... 0.23076923 0.8        0.1       ]
23.0


9. Вычислите среднее количество ингредиентов для топ-100 рецептов с наибольшей продолжительностью

In [None]:
sorted_array = arr[arr[:,1].argsort()[::-1]]
average_n_ing = np.average(sorted_array[:101,2:], axis = 0)
print(*average_n_ing)

10. Выберите случайным образом и выведите информацию о 10 различных рецептах

In [241]:
random_array = np.random.randint(0, 100001, (1, 10))[0]
for el in np.arange(random_array.size):
    print(arr[random_array[el]])

[470970     23      7]
[161498     10      6]
[67936    75     4]
[190428    210     12]
[387839      5      2]
[137345     65      8]
[94042    25     6]
[443330     30     15]
[182708     45      7]
[329240    310      6]


11. Выведите процент рецептов, кол-во ингредиентов в которых меньше среднего.

In [270]:
average_n_ing = mean_arr[1]
count = 0
n_ing = arr[:,2:]

for el in np.arange(n_ing.size):
    if n_ing[el] < average_n_ing:
        count+=1
print(((count/n_ing.size)*100)) 

58.802


12. Назовем "простым" такой рецепт, длительность выполнения которого не больше 20 минут и кол-во ингредиентов в котором не больше 5. Создайте версию датасета с дополнительным столбцом, значениями которого являются 1, если рецепт простой, и 0 в противном случае.

13. Выведите процент "простых" рецептов в датасете

14. Разделим рецепты на группы по следующему правилу. Назовем рецепты короткими, если их продолжительность составляет менее 10 минут; стандартными, если их продолжительность составляет более 10, но менее 20 минут; и длинными, если их продолжительность составляет не менее 20 минут. Создайте трехмерный массив, где нулевая ось отвечает за номер группы (короткий, стандартный или длинный рецепт), первая ось - за сам рецепт и вторая ось - за характеристики рецепта. Выберите максимальное количество рецептов из каждой группы таким образом, чтобы было возможно сформировать трехмерный массив. Выведите форму полученного массива.