# Numpy

Материалы:
* Макрушин С.В. "Лекция 1: Библиотека Numpy"
* https://numpy.org/doc/stable/user/index.html
* https://numpy.org/doc/stable/reference/index.html

## Задачи для совместного разбора

1. Сгенерировать двухмерный массив `arr` размерности (4, 7), состоящий из случайных действительных чисел, равномерно распределенных в диапазоне от 0 до 20. Нормализовать значения массива с помощью преобразования вида  $𝑎𝑥+𝑏$  так, что после нормализации максимальный элемент масcива будет равен 1.0, минимальный 0.0

In [4]:
import numpy as np

In [6]:
np.random.randint(0, 20, size = (4, 7))

array([[ 4, 10, 12, 18,  3,  0, 12],
       [ 0,  8,  6,  4,  2,  1, 11],
       [ 8, 17,  1, 10, 17,  6,  8],
       [ 7,  1,  9, 11,  6, 16, 11]])

2. Создать матрицу 8 на 10 из случайных целых (используя модуль `numpy.random`) чисел из диапозона от 0 до 10 и найти в ней строку (ее индекс и вывести саму строку), в которой сумма значений минимальна.

In [7]:
np.random.randint(0, 10, size = (8, 10))

array([[3, 7, 9, 1, 9, 6, 9, 3, 2, 9],
       [7, 8, 9, 7, 8, 3, 1, 5, 3, 9],
       [1, 4, 2, 3, 9, 4, 1, 5, 4, 1],
       [1, 4, 7, 9, 4, 7, 6, 8, 7, 8],
       [0, 9, 4, 7, 8, 4, 5, 2, 4, 6],
       [6, 1, 2, 9, 6, 8, 1, 9, 0, 2],
       [5, 2, 4, 5, 9, 2, 1, 7, 5, 1],
       [9, 2, 8, 5, 1, 4, 7, 9, 6, 2]])

3. Найти евклидово расстояние между двумя одномерными векторами одинаковой размерности.

In [10]:
import matplotlib.pyplot as pl
from mpl_toolkits.mplot3d import Axes3D

4. Решить матричное уравнение `A*X*B=-C` - найти матрицу `X`. Где `A = [[-1, 2, 4], [-3, 1, 2], [-3, 0, 1]]`, `B=[[3, -1], [2, 1]]`, `C=[[7, 21], [11, 8], [8, 4]]`.

## Лабораторная работа №1

Замечание: при решении данных задач не подразумевается использования циклов или генераторов Python, если в задании не сказано обратного. Решение должно опираться на использования функционала библиотеки `numpy`.

1. Файл `minutes_n_ingredients.csv` содержит информацию об идентификаторе рецепта, времени его выполнения в минутах и количестве необходимых ингредиентов. Считайте данные из этого файла в виде массива `numpy` типа `int32`, используя `np.loadtxt`. Выведите на экран первые 5 строк массива.

In [33]:
import numpy as np
text = np.loadtxt('minutes_n_ingredients.csv', delimiter=',', dtype='int32', skiprows=1)
print(text[:5])

[[127244     60     16]
 [ 23891     25      7]
 [ 94746     10      6]
 [ 67660      5      6]
 [157911     60     14]]


2. Вычислите среднее значение, минимум, максимум и медиану по каждому из столбцов, кроме первого.

In [34]:
minutes = text[:, 1]
ingredients = text[:, 2]

print(np.average(minutes))
print(np.average(ingredients))
print()

print(np.amin(minutes))
print(np.amin(ingredients))
print()

print(np.amax(minutes))
print(np.amax(ingredients))
print()

print(np.median(minutes))
print(np.median(ingredients))

21601.00169
9.05528

0
1

2147483647
39

40.0
9.0


3. Ограничьте сверху значения продолжительности выполнения рецепта значением квантиля $q_{0.75}$. 

In [35]:
quant = np.quantile(text[:, 1], 0.75)
print(quant)
text[:, 1] = text[:, 1].clip(max=quant)
print(text)

65.0
[[127244     60     16]
 [ 23891     25      7]
 [ 94746     10      6]
 ...
 [498432     65     15]
 [370915      5      4]
 [ 81993     65     14]]


4. Посчитайте, для скольких рецептов указана продолжительность, равная нулю. Замените для таких строк значение в данном столбце на 1.

In [36]:
zero_minutes = text[:, 1] == 0
print(np.sum(zero_minutes))
text[:, 1] = np.where(zero_minutes, 1, text[:, 1])
print(np.sum(text[:, 1] == 0))

479
0


5. Посчитайте, сколько уникальных рецептов находится в датасете.

In [37]:
unique_recipes = np.unique(text[:, 0])
print(unique_recipes.shape[0])

100000


6. Сколько и каких различных значений кол-ва ингредиентов присутвует в рецептах из датасета?

In [38]:
unique_ingredients = np.unique(text[:, 2])
print(unique_ingredients.shape[0])
print()
print(unique_ingredients)

37

[ 1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
 25 26 27 28 29 30 31 32 33 34 35 37 39]


7. Создайте версию массива, содержащую информацию только о рецептах, состоящих не более чем из 5 ингредиентов.

In [41]:
new_vers = text[text[:, 2] <= 5]
print(new_vers)

[[446597     15      5]
 [204134      5      3]
 [ 25623      6      4]
 ...
 [ 52088     60      5]
 [128811     15      4]
 [370915      5      4]]


8. Для каждого рецепта посчитайте, сколько в среднем ингредиентов приходится на одну минуту рецепта. Найдите максимальное значение этой величины для всего датасета

In [42]:
ingredients_avg_minutes = text[:, 2] / text[:, 1]
print(ingredients_avg_minutes.max())


24.0


9. Вычислите среднее количество ингредиентов для топ-100 рецептов с наибольшей продолжительностью

In [43]:
sorted_text = text[text[:, 1].argsort()][::-1]    # сортируем рецепты по убыванию продолжительности
avg_ingredients = np.average(sorted_text[:, 2][:100])
print(avg_ingredients)

9.96


10. Выберите случайным образом и выведите информацию о 10 различных рецептах

In [44]:
print(text[np.random.choice(text.shape[0], 10, replace=False)])

[[459269      5      5]
 [ 13093     65      6]
 [519887     40      7]
 [401094     10      5]
 [151752     30      6]
 [338594     15      9]
 [154986     65      4]
 [207339     60     14]
 [ 62832     65     11]
 [417995     40      9]]


11. Выведите процент рецептов, кол-во ингредиентов в которых меньше среднего.

In [45]:
ingrs = text[:, 2]
avg_ingrs = np.average(ingrs)
less_avg_ingredients = text[ingrs < avg_ingrs]
percent = (len(less_avg_ingredients) / len(text)) * 100
print(percent)

58.802


12. Назовем "простым" такой рецепт, длительность выполнения которого не больше 20 минут и кол-во ингредиентов в котором не больше 5. Создайте версию датасета с дополнительным столбцом, значениями которого являются 1, если рецепт простой, и 0 в противном случае.

In [46]:
simple_recipes = (text[:, 1] <= 20) & (text[:, 2] <= 5)
simple_column = np.where(simple_recipes, 1, 0)
simple_text = np.insert(text, 3, simple_column, axis=1)
print(simple_text)

[[127244     60     16      0]
 [ 23891     25      7      0]
 [ 94746     10      6      0]
 ...
 [498432     65     15      0]
 [370915      5      4      1]
 [ 81993     65     14      0]]


13. Выведите процент "простых" рецептов в датасете

In [47]:
simple_percent = np.average(simple_text[:, 3]) * 100
print(simple_percent)

9.552


14. Разделим рецепты на группы по следующему правилу. Назовем рецепты короткими, если их продолжительность составляет менее 10 минут; стандартными, если их продолжительность составляет более 10, но менее 20 минут; и длинными, если их продолжительность составляет не менее 20 минут. Создайте трехмерный массив, где нулевая ось отвечает за номер группы (короткий, стандартный или длинный рецепт), первая ось - за сам рецепт и вторая ось - за характеристики рецепта. Выберите максимальное количество рецептов из каждой группы таким образом, чтобы было возможно сформировать трехмерный массив. Выведите форму полученного массива.

In [48]:
short = text[text[:, 1] < 10 ]
standard = text[(10 <= text[:, 1]) & (text[:, 1] < 20)]
long = text[text[:, 1] >= 20]
max_recipes = min([len(short), len(standard), len(long)])
short = short[:max_recipes]
standard = standard[:max_recipes]
long = long[:max_recipes]

new_text = np.array([short, standard, long])
print(new_text)
print()
print(new_text.shape)

[[[ 67660      5      6]
  [366174      7      9]
  [204134      5      3]
  ...
  [420725      5      3]
  [  4747      1      9]
  [370915      5      4]]

 [[ 94746     10      6]
  [ 33941     18      9]
  [446597     15      5]
  ...
  [  9831     15      7]
  [335859     12     14]
  [256812     10      3]]

 [[127244     60     16]
  [ 23891     25      7]
  [157911     60     14]
  ...
  [168901     25      7]
  [392339     35     13]
  [206732     45     10]]]

(3, 7588, 3)
