# Numpy

Материалы:
* Макрушин С.В. "Лекция 1: Библиотека Numpy"
* https://numpy.org/doc/stable/user/index.html
* https://numpy.org/doc/stable/reference/index.html

## Задачи для совместного разбора

1. Сгенерировать двухмерный массив `arr` размерности (4, 7), состоящий из случайных действительных чисел, равномерно распределенных в диапазоне от 0 до 20. Нормализовать значения массива с помощью преобразования вида  $𝑎𝑥+𝑏$  так, что после нормализации максимальный элемент масcива будет равен 1.0, минимальный 0.0

In [None]:
import numpy as np

In [2]:
import numpy as np
def normalize_array(arr):
    max_val = arr.max()
    min_val = arr.min()
    offset = -min_val
    scale = 1 / (max_val - min_val)
    return (arr + offset) * scale

In [3]:
import numpy as np 
arr = np.random.uniform(0, 20, size=(4, 7))
print(arr)

[[ 1.31603725 13.70771885  7.15203357  4.48954638  7.98345175 15.55491645
   8.48701703]
 [17.92532929 18.9380862  13.75933595 19.76352768 19.72368538  5.03525469
  10.93687232]
 [ 4.38679594 17.23896247  0.34724836  0.40074556 19.60730842  1.3826411
   5.00651039]
 [ 6.22193185 17.38555839  9.0572901   5.30201662  0.0390049  12.27114624
  19.66228041]]


In [4]:
normalized_arr = normalize_array(arr)
print('Исходный массив:')
print(arr)
print('Нормализованный массив:')
print(normalized_arr)

Исходный массив:
[[ 1.31603725 13.70771885  7.15203357  4.48954638  7.98345175 15.55491645
   8.48701703]
 [17.92532929 18.9380862  13.75933595 19.76352768 19.72368538  5.03525469
  10.93687232]
 [ 4.38679594 17.23896247  0.34724836  0.40074556 19.60730842  1.3826411
   5.00651039]
 [ 6.22193185 17.38555839  9.0572901   5.30201662  0.0390049  12.27114624
  19.66228041]]
Нормализованный массив:
[[0.06474338 0.69298072 0.36061854 0.22563494 0.40277004 0.78663052
  0.42829995]
 [0.90680645 0.95815151 0.69559762 1.         0.99798006 0.25330143
  0.55250348]
 [0.22042566 0.87200881 0.01562742 0.01833964 0.99207995 0.06812009
  0.25184414]
 [0.31346396 0.87944097 0.45721183 0.26682581 0.         0.62014891
  0.99486693]]


2. Создать матрицу 8 на 10 из случайных целых (используя модуль `numpy.random`) чисел из диапозона от 0 до 10 и найти в ней строку (ее индекс и вывести саму строку), в которой сумма значений минимальна.

In [5]:
matrix = np.random.randint(0, 11, size=(8, 10))
sums = matrix.sum(axis=1)
min_index = sums.argmin()
print('Индекс строки с минимальной суммой:', min_index)
print('Сама строка с минимальной суммой:')
print(matrix[min_index])

Индекс строки с минимальной суммой: 3
Сама строка с минимальной суммой:
[ 8  3  4  1 10  6  1  6  2  0]


3. Найти евклидово расстояние между двумя одномерными векторами одинаковой размерности.

In [None]:
import math
dist = math.sqrt(sum([pow(a[i] - b[i], 2)] for i in range(len(a))))
# Где a и b - векторы, pow - возведение в степень, sum - сумма элементов списка, range - генератор диапазона, len - длина списка

4. Решить матричное уравнение `A*X*B=-C` - найти матрицу `X`. Где `A = [[-1, 2, 4], [-3, 1, 2], [-3, 0, 1]]`, `B=[[3, -1], [2, 1]]`, `C=[[7, 21], [11, 8], [8, 4]]`.

In [6]:
import numpy as np

A = np.array([[-1, 2, 4], [-3, 1, 2], [-3, 0, 1]])
B = np.array([[3, -1], [2, 1]])
C = np.array([[7, 21], [11, 8], [8, 4]])

# Сначала найдем обратную матрицу A
At = np.linalg.inv(A)
# Вычислим (A^(-1)) * C
temp = np.dot(At, C)
# Найдем решение X как -temp * B
X = -1 * np.dot(temp, B)
print(X)

[[  7.  -4.]
 [ -6.   7.]
 [-11.  -8.]]


## Лабораторная работа №1

Замечание: при решении данных задач не подразумевается использования циклов или генераторов Python, если в задании не сказано обратного. Решение должно опираться на использования функционала библиотеки `numpy`.

1. Файл `minutes_n_ingredients.csv` содержит информацию об идентификаторе рецепта, времени его выполнения в минутах и количестве необходимых ингредиентов. Считайте данные из этого файла в виде массива `numpy` типа `int32`, используя `np.loadtxt`. Выведите на экран первые 5 строк массива.

In [15]:
import numpy as np 
data = np.loadtxt('file.csv', delimiter=',')
print(data[0:5])

[[1.27244e+05 6.00000e+01 1.60000e+01]
 [2.38910e+04 2.50000e+01 7.00000e+00]
 [9.47460e+04 1.00000e+01 6.00000e+00]
 [6.76600e+04 5.00000e+00 6.00000e+00]
 [1.57911e+05 6.00000e+01 1.40000e+01]]


2. Вычислите среднее значение, минимум, максимум и медиану по каждому из столбцов, кроме первого.

In [21]:
means = np.mean(data[1:], axis=0)
print(means)
min_ = np.min(data[1:],0)
print(min_)
max_ = np.max(data[1:],0)
print(max_)
mediana = np.median(data[1:],0)
print(mediana)

[2.22065272e+05 2.16012171e+04 9.05521055e+00]
[38.  0.  1.]
[5.37671000e+05 2.14748365e+09 3.90000000e+01]
[2.07196e+05 4.00000e+01 9.00000e+00]


3. Ограничьте сверху значения продолжительности выполнения рецепта значением квантиля $q_{0.75}$. 

In [None]:
from scipy.stats import qnorm
import numpy as np

quantile = 0.75 
upper_limit = qnorm.ppf(quantile) 

data = np.random.normal(loc=0, scale=1, size=1000)
data_capped = np.minimum(data, upper_limit)

4. Посчитайте, для скольких рецептов указана продолжительность, равная нулю. Замените для таких строк значение в данном столбце на 1.

In [23]:
data[data == 0] = 1

5. Посчитайте, сколько уникальных рецептов находится в датасете.

In [24]:
print(len(np.unique(data)))

100544


6. Сколько и каких различных значений кол-ва ингредиентов присутвует в рецептах из датасета?

In [25]:
print(len(np.unique(data)))
print(np.unique(data))

100544
[1.00000000e+00 2.00000000e+00 3.00000000e+00 ... 5.37485000e+05
 5.37671000e+05 2.14748365e+09]


7. Создайте версию массива, содержащую информацию только о рецептах, состоящих не более чем из 5 ингредиентов.

In [None]:
recipes_with_5_ingredients = [recipe for recipe in data if len(recipe[1]) <= 5]

8. Для каждого рецепта посчитайте, сколько в среднем ингредиентов приходится на одну минуту рецепта. Найдите максимальное значение этой величины для всего датасета

In [None]:
data['ingredients_per_minute'] = (data['ingredients'] / data['time']).apply(np.maximum, axis=1)
maximum = data['ingredients_per_minute'].max()

9. Вычислите среднее количество ингредиентов для топ-100 рецептов с наибольшей продолжительностью

In [None]:
import numpy as np
print(np.sort(data))
print(sum(data[0:101]) // 100)

10. Выберите случайным образом и выведите информацию о 10 различных рецептах

In [None]:
import numpy as np 
n = 10
result = np.random.choice(data, n)

11. Выведите процент рецептов, кол-во ингредиентов в которых меньше среднего.

In [None]:
mean_ingredients_count = data['ingredients'].mean()
percentage = (data['ingredients'] < mean_ingredients_count).mean() * 100
print(percentage)

12. Назовем "простым" такой рецепт, длительность выполнения которого не больше 20 минут и кол-во ингредиентов в котором не больше 5. Создайте версию датасета с дополнительным столбцом, значениями которого являются 1, если рецепт простой, и 0 в противном случае.

In [None]:
data['simple_recipe'] = np.where((data['time'] <= 20) & (data['ingredients'] <= 5), 1, 0)

13. Выведите процент "простых" рецептов в датасете

In [None]:
percentage = (data['simple_recipe'] == 1).mean() * 100
print(percentage)

14. Разделим рецепты на группы по следующему правилу. Назовем рецепты короткими, если их продолжительность составляет менее 10 минут; стандартными, если их продолжительность составляет более 10, но менее 20 минут; и длинными, если их продолжительность составляет не менее 20 минут. Создайте трехмерный массив, где нулевая ось отвечает за номер группы (короткий, стандартный или длинный рецепт), первая ось - за сам рецепт и вторая ось - за характеристики рецепта. Выберите максимальное количество рецептов из каждой группы таким образом, чтобы было возможно сформировать трехмерный массив. Выведите форму полученного массива.