# Numpy

Материалы:
* Макрушин С.В. "Лекция 1: Библиотека Numpy"
* https://numpy.org/doc/stable/user/index.html
* https://numpy.org/doc/stable/reference/index.html

## Задачи для совместного разбора

1. Сгенерировать двухмерный массив `arr` размерности (4, 7), состоящий из случайных действительных чисел, равномерно распределенных в диапазоне от 0 до 20. Нормализовать значения массива с помощью преобразования вида  $𝑎𝑥+𝑏$  так, что после нормализации максимальный элемент масcива будет равен 1.0, минимальный 0.0

In [4]:
import numpy as np

In [6]:
np.random.randint(0, 20, size = (4, 7))

array([[ 4, 10, 12, 18,  3,  0, 12],
       [ 0,  8,  6,  4,  2,  1, 11],
       [ 8, 17,  1, 10, 17,  6,  8],
       [ 7,  1,  9, 11,  6, 16, 11]])

2. Создать матрицу 8 на 10 из случайных целых (используя модуль `numpy.random`) чисел из диапозона от 0 до 10 и найти в ней строку (ее индекс и вывести саму строку), в которой сумма значений минимальна.

In [7]:
np.random.randint(0, 10, size = (8, 10))

array([[3, 7, 9, 1, 9, 6, 9, 3, 2, 9],
       [7, 8, 9, 7, 8, 3, 1, 5, 3, 9],
       [1, 4, 2, 3, 9, 4, 1, 5, 4, 1],
       [1, 4, 7, 9, 4, 7, 6, 8, 7, 8],
       [0, 9, 4, 7, 8, 4, 5, 2, 4, 6],
       [6, 1, 2, 9, 6, 8, 1, 9, 0, 2],
       [5, 2, 4, 5, 9, 2, 1, 7, 5, 1],
       [9, 2, 8, 5, 1, 4, 7, 9, 6, 2]])

3. Найти евклидово расстояние между двумя одномерными векторами одинаковой размерности.

In [10]:
import matplotlib.pyplot as pl
from mpl_toolkits.mplot3d import Axes3D

4. Решить матричное уравнение `A*X*B=-C` - найти матрицу `X`. Где `A = [[-1, 2, 4], [-3, 1, 2], [-3, 0, 1]]`, `B=[[3, -1], [2, 1]]`, `C=[[7, 21], [11, 8], [8, 4]]`.

## Лабораторная работа №1

Замечание: при решении данных задач не подразумевается использования циклов или генераторов Python, если в задании не сказано обратного. Решение должно опираться на использования функционала библиотеки `numpy`.

1. Файл `minutes_n_ingredients.csv` содержит информацию об идентификаторе рецепта, времени его выполнения в минутах и количестве необходимых ингредиентов. Считайте данные из этого файла в виде массива `numpy` типа `int32`, используя `np.loadtxt`. Выведите на экран первые 5 строк массива.

In [1]:
import numpy as np
import random
s_l = np.loadtxt('minutes_n_ingredients.csv', skiprows = 1, delimiter = ',', dtype = np.int32)
s = s_l[:5, :]
s # массив для вывода

array([[127244,     60,     16],
       [ 23891,     25,      7],
       [ 94746,     10,      6],
       [ 67660,      5,      6],
       [157911,     60,     14]])

2. Вычислите среднее значение, минимум, максимум и медиану по каждому из столбцов, кроме первого.

In [2]:
print(list(s_l[:, 1:].mean(axis = 0))) # список средних значений из столбцов
print(list(s_l[:, 1:].min(axis = 0))) # список минимальных значений из столбцов
print(list(s_l[:, 1:].max(axis = 0))) # список максимальных значений из столбцов
print(list(np.median(s_l[:, 1:], axis = 0))) # список медиан из столбцов

[21601.00169, 9.05528]
[0, 1]
[2147483647, 39]
[40.0, 9.0]


3. Ограничьте сверху значения продолжительности выполнения рецепта значением квантиля $q_{0.75}$. 

In [3]:
new_s = s_l[:, 1:] # создаём новый массив без столбца 'id'
q = new_s.copy()
quant = np.quantile(s_l[:, 1], 0.75) # равен 65
q = np.clip(q, 0, quant, q)
s_l = np.concatenate((s_l[:,0].reshape(100000,1),q), axis = 1)
print(s_l) # получившийся массив
np.savetxt('quantile_75', s_l, delimiter = ', ', fmt = '%.0f', header = 'minutes, ingredients', comments = "")

[[127244     60     16]
 [ 23891     25      7]
 [ 94746     10      6]
 ...
 [498432     65     15]
 [370915      5      4]
 [ 81993     65     14]]


4. Посчитайте, для скольких рецептов указана продолжительность, равная нулю. Замените для таких строк значение в данном столбце на 1.

In [4]:
new_s = s_l[:, 1:]
zero_s = (new_s[:, 0] == 0) # булев массив той же формы что и new_s, который является маской для исходного массива
print(np.sum(new_s[:, 0] == 0)) # смотрим, сколько значений раных нулю есть изначально
np.place(new_s[:, 0], zero_s, 1) # заменяем 0 на 1
print(np.sum(new_s[:, 0] == 0)) # видим, что нулей больше нет

479
0


5. Посчитайте, сколько уникальных рецептов находится в датасете.

In [5]:
print(len(np.unique(s_l, axis = 0))) # количество уникальных рецептов

100000


6. Сколько и каких различных значений кол-ва ингредиентов присутвует в рецептах из датасета?

In [6]:
unique, counts = np.unique (new_s[:,1], return_counts= True )
print(np.asarray((unique, counts)).T )

[[    1    13]
 [    2   926]
 [    3  2895]
 [    4  5515]
 [    5  7913]
 [    6  9376]
 [    7 10628]
 [    8 10951]
 [    9 10585]
 [   10  9591]
 [   11  8297]
 [   12  6605]
 [   13  4997]
 [   14  3663]
 [   15  2595]
 [   16  1767]
 [   17  1246]
 [   18   790]
 [   19   573]
 [   20   376]
 [   21   217]
 [   22   161]
 [   23   105]
 [   24    69]
 [   25    50]
 [   26    28]
 [   27    16]
 [   28    16]
 [   29    12]
 [   30    12]
 [   31     3]
 [   32     1]
 [   33     2]
 [   34     1]
 [   35     3]
 [   37     1]
 [   39     1]]


7. Создайте версию массива, содержащую информацию только о рецептах, состоящих не более чем из 5 ингредиентов.

In [7]:
five_ingr = np.where(s_l[:,2] > 5) # находим индексы строк, где количество ингредиентов не более пяти
five_s = np.delete(s_l, five_ingr, axis = 0) # удаляем строки
np.savetxt('ingr_less_than_five', five_s, delimiter = ", ", fmt = "%.0f", header = 'id, minutes, n_ingredients', comments = "") # сохраняем в формате csv
print(five_s, len(five_s))

[[446597     15      5]
 [204134      5      3]
 [ 25623      6      4]
 ...
 [ 52088     60      5]
 [128811     15      4]
 [370915      5      4]] 17262


8. Для каждого рецепта посчитайте, сколько в среднем ингредиентов приходится на одну минуту рецепта. Найдите максимальное значение этой величины для всего датасета

In [8]:
mid_s = new_s[:, 1] / new_s[:, 0]
print(mid_s.reshape(100000, 1))
print('max:', mid_s.max())

[[0.26666667]
 [0.28      ]
 [0.6       ]
 ...
 [0.23076923]
 [0.8       ]
 [0.21538462]]
max: 24.0


9. Вычислите среднее количество ингредиентов для топ-100 рецептов с наибольшей продолжительностью

In [9]:
sorted_down = new_s[new_s[:, 0].argsort()[::-1]] # получаем топ-100 рецептов
print(sorted_down)
print(sorted_down[:100,1].mean(), 'ингредиентов')

[[65 14]
 [65 12]
 [65 14]
 ...
 [ 1  7]
 [ 1  8]
 [ 1 14]]
9.96 ингредиентов


10. Выберите случайным образом и выведите информацию о 10 различных рецептах

In [10]:
rand_s = np.random.permutation(s_l)
rand_s[:10,:]

array([[255237,     35,     16],
       [342565,     30,      7],
       [239891,     40,      8],
       [160990,     45,      7],
       [ 25516,     50,      5],
       [ 72773,     65,      8],
       [ 61059,     20,      8],
       [250551,     40,      7],
       [278203,     50,      6],
       [218429,      5,      6]])

11. Выведите процент рецептов, кол-во ингредиентов в которых меньше среднего.

In [23]:
print('{:.3%}'.format((new_s[:, 1] < new_s[:,1].mean()).mean()))

58.802%


12. Назовем "простым" такой рецепт, длительность выполнения которого не больше 20 минут и кол-во ингредиентов в котором не больше 5. Создайте версию датасета с дополнительным столбцом, значениями которого являются 1, если рецепт простой, и 0 в противном случае.

In [12]:
simple = np.linspace(0,0,100000, dtype = np.int32).reshape(100000,1)
cond = ((s_l[:,1] <= 20) & (s_l[:,2] <= 5)).reshape(100000, 1)
np.place(simple, cond, 1)
a = np.concatenate((s_l, simple), axis = 1)
np.savetxt('simple_recipe', a, delimiter = ', ', fmt = "%.0f", header = 'id, minutes, ingredients, simple', comments = "")
a 

array([[127244,     60,     16,      0],
       [ 23891,     25,      7,      0],
       [ 94746,     10,      6,      0],
       ...,
       [498432,     65,     15,      0],
       [370915,      5,      4,      1],
       [ 81993,     65,     14,      0]])

13. Выведите процент "простых" рецептов в датасете

In [24]:
print('{:.3%}'.format((a[:,3] == 1).mean()))

9.552%


14. Разделим рецепты на группы по следующему правилу. Назовем рецепты короткими, если их продолжительность составляет менее 10 минут; стандартными, если их продолжительность составляет более 10, но менее 20 минут; и длинными, если их продолжительность составляет не менее 20 минут. Создайте трехмерный массив, где нулевая ось отвечает за номер группы (короткий, стандартный или длинный рецепт), первая ось - за сам рецепт и вторая ось - за характеристики рецепта. Выберите максимальное количество рецептов из каждой группы таким образом, чтобы было возможно сформировать трехмерный массив. Выведите форму полученного массива.

In [14]:
short = s_l[:][new_s[:,0] < 10] # версия массива с короткими рецептами
medium = s_l[:][(new_s[:,0] > 10) & (new_s[:,0] < 20)] # массив со стандартными рецептами
long = s_l[:][new_s[:,0] >= 20] # массив с длинными рецептами
predel = min(len(short), len(medium), len(long)) # вычисляем, какое кол-во рецептов взять, чтобы сформировать массив
three_d = np.array([short[:predel,:], 
                    medium[:predel,:],
                    long[:predel,:]])
print(three_d, three_d.ndim, three_d.shape) 

[[[ 67660      5      6]
  [366174      7      9]
  [204134      5      3]
  ...
  [420725      5      3]
  [  4747      1      9]
  [370915      5      4]]

 [[ 33941     18      9]
  [446597     15      5]
  [ 81006     12      7]
  ...
  [278297     12      7]
  [ 66970     15      8]
  [ 90921     18      8]]

 [[127244     60     16]
  [ 23891     25      7]
  [157911     60     14]
  ...
  [168901     25      7]
  [392339     35     13]
  [206732     45     10]]] 3 (3, 7588, 3)
