# Numpy

Материалы:
* Макрушин С.В. "Лекция 1: Библиотека Numpy"
* https://numpy.org/doc/stable/user/index.html
* https://numpy.org/doc/stable/reference/index.html

In [1]:
import numpy as np

## Задачи для совместного разбора

1. Сгенерировать двухмерный массив `arr` размерности (4, 7), состоящий из случайных действительных чисел, равномерно распределенных в диапазоне от 0 до 20. Нормализовать значения массива с помощью преобразования вида  $𝑎𝑥+𝑏$  так, что после нормализации максимальный элемент масcива будет равен 1.0, минимальный 0.0

2. Создать матрицу 8 на 10 из случайных целых (используя модуль `numpy.random`) чисел из диапозона от 0 до 10 и найти в ней строку (ее индекс и вывести саму строку), в которой сумма значений минимальна.

3. Найти евклидово расстояние между двумя одномерными векторами одинаковой размерности.

4. Решить матричное уравнение `A*X*B=-C` - найти матрицу `X`. Где `A = [[-1, 2, 4], [-3, 1, 2], [-3, 0, 1]]`, `B=[[3, -1], [2, 1]]`, `C=[[7, 21], [11, 8], [8, 4]]`.

## Лабораторная работа №1

Замечание: при решении данных задач не подразумевается использования циклов или генераторов Python, если в задании не сказано обратного. Решение должно опираться на использования функционала библиотеки `numpy`.

1. Файл `minutes_n_ingredients.csv` содержит информацию об идентификаторе рецепта, времени его выполнения в минутах и количестве необходимых ингредиентов. Считайте данные из этого файла в виде массива `numpy` типа `int32`, используя `np.loadtxt`. Выведите на экран первые 5 строк массива.

In [19]:
data = np.loadtxt("data/minutes_n_ingredients.csv", delimiter=",", dtype="int32", skiprows=1)
print(data[:5])

[[127244     60     16]
 [ 23891     25      7]
 [ 94746     10      6]
 [ 67660      5      6]
 [157911     60     14]]


2. Вычислите среднее значение, минимум, максимум и медиану по каждому из столбцов, кроме первого.

In [3]:
print(data[:, 1:].mean(axis=0),
     data[:, 1:].min(axis=0),
     data[:, 1:].max(axis=0),
     np.median(data[:, 1:], axis=0), sep="\n")

[2.16010017e+04 9.05528000e+00]
[0 1]
[2147483647         39]
[40.  9.]


3. Ограничьте сверху значения продолжительности выполнения рецепта значением квантиля $q_{0.75}$. 

In [4]:
q = np.quantile(data[:, 1], q=0.75)
data[:, 1] = data[:, 1].clip(max=q)
q

65.0

4. Посчитайте, для скольких рецептов указана продолжительность, равная нулю. Замените для таких строк значение в данном столбце на 1.

In [5]:
print(len(np.where(data[:, 1] == 0)[0]))

479


In [7]:
data[data[:, 1] == 0] = 1
data

array([[127244,     60,     16],
       [ 23891,     25,      7],
       [ 94746,     10,      6],
       ...,
       [498432,     65,     15],
       [370915,      5,      4],
       [ 81993,     65,     14]])

5. Посчитайте, сколько уникальных рецептов находится в датасете.

In [20]:
print(len(np.unique(data[:, 0])))

100000


6. Сколько и каких различных значений кол-ва ингредиентов присутвует в рецептах из датасета?

In [8]:
print(len(np.unique(data[:, 2])))
print(np.unique(data[:, 2]))

37
[ 1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
 25 26 27 28 29 30 31 32 33 34 35 37 39]


7. Создайте версию массива, содержащую информацию только о рецептах, состоящих не более чем из 5 ингредиентов.

In [9]:
data[data[:, 2] <= 5]

array([[446597,     15,      5],
       [204134,      5,      3],
       [ 25623,      6,      4],
       ...,
       [ 52088,     60,      5],
       [128811,     15,      4],
       [370915,      5,      4]])

8. Для каждого рецепта посчитайте, сколько в среднем ингредиентов приходится на одну минуту рецепта. Найдите максимальное значение этой величины для всего датасета.

In [10]:
(data[:, 2] / data[:, 1])

array([0.26666667, 0.28      , 0.6       , ..., 0.23076923, 0.8       ,
       0.21538462])

In [11]:
max(data[:, 2] / data[:, 1])

23.0

9. Вычислите среднее количество ингредиентов для топ-100 рецептов с наибольшей продолжительностью.

In [12]:
sortedList = data[data[:,1].argsort()[::-1][:100]]
print(np.mean(sortedList[:,2]))

9.96


10. Выберите случайным образом и выведите информацию о 10 различных рецептах

In [13]:
arr_1 = np.random.randint(data)
print(arr_1[:10])

[[ 78211      5      5]
 [  6418      5      2]
 [ 25076      7      5]
 [ 56294      3      1]
 [115892      9      2]
 [ 95811     24      5]
 [ 19779      3      1]
 [ 38746      9      0]
 [245167      5      8]
 [ 48853     15      5]]


11. Выведите процент рецептов, кол-во ингредиентов в которых меньше среднего.

In [14]:
avg = np.mean(data[:,2])
count = np.where(data[:,2]<avg)
avg = data[count].size #рецептов, кол-во ингредиентов в которых меньше среднего

count = np.where(data[:,0])
percent = avg * 100 / data[count].size
print(percent)

58.989


12. Назовем "простым" такой рецепт, длительность выполнения которого не больше 20 минут и кол-во ингредиентов в котором не больше 5. Создайте версию датасета с дополнительным столбцом, значениями которого являются 1, если рецепт простой, и 0 в противном случае.

In [15]:
easy = (data[:,1] <= 20) & (data[:,2] <= 5) # длительность выполнения которого не больше 20 минут и кол-во ингредиентов в котором не больше 5
nulls = np.zeros((len(data),1), dtype = 'int32')
easyList= np.append(data,nulls,axis=1)
easyList[:,3]=np.where(easy,1,easy)
print(easyList[:13])

[[127244     60     16      0]
 [ 23891     25      7      0]
 [ 94746     10      6      0]
 [ 67660      5      6      0]
 [157911     60     14      0]
 [152828     40      7      0]
 [ 33941     18      9      0]
 [446597     15      5      1]
 [366174      7      9      0]
 [ 74205     20      7      0]
 [504666     65     20      0]
 [ 81006     12      7      0]
 [280968     65     11      0]]


13. Выведите процент "простых" рецептов в датасете

In [16]:
print(data[easy].size * 100 / data[count].size)

9.943


14. Разделим рецепты на группы по следующему правилу. Назовем рецепты короткими, если их продолжительность составляет менее 10 минут; стандартными, если их продолжительность составляет более 10, но менее 20 минут; и длинными, если их продолжительность составляет не менее 20 минут. Создайте трехмерный массив, где нулевая ось отвечает за номер группы (короткий, стандартный или длинный рецепт), первая ось - за сам рецепт и вторая ось - за характеристики рецепта. Выберите максимальное количество рецептов из каждой группы таким образом, чтобы было возможно сформировать трехмерный массив. Выведите форму полученного массива.

In [40]:
data.size

300000

In [35]:
short = np.where(data[:,1]<=10)
normal = np.where((data[:,1] < 20) & (data[:,1] > 10))
long = np.where(data[:,1]>=20)

#maxi = max(len(short), len(normal), len(long)) #7783 - ValueError: all input arrays must have the same shape
tDim = np.stack((data[short][:7783],data[normal],data[long][:7783]))
print(tDim)
tDim.ndim

[[[ 94746     10      6]
  [ 67660      5      6]
  [366174      7      9]
  ...
  [  7983      0      6]
  [184171      5      2]
  [ 89181      5      7]]

 [[ 33941     18      9]
  [446597     15      5]
  [ 81006     12      7]
  ...
  [ 44120     17      5]
  [ 60756     15      5]
  [128811     15      4]]

 [[127244     60     16]
  [ 23891     25      7]
  [157911     60     14]
  ...
  [186515    220     11]
  [372540     50      6]
  [172926    120     13]]]


3

In [36]:
tDim[0]

array([[ 94746,     10,      6],
       [ 67660,      5,      6],
       [366174,      7,      9],
       ...,
       [  7983,      0,      6],
       [184171,      5,      2],
       [ 89181,      5,      7]])

In [37]:
tDim[1]

array([[ 33941,     18,      9],
       [446597,     15,      5],
       [ 81006,     12,      7],
       ...,
       [ 44120,     17,      5],
       [ 60756,     15,      5],
       [128811,     15,      4]])

In [38]:
tDim[2]

array([[127244,     60,     16],
       [ 23891,     25,      7],
       [157911,     60,     14],
       ...,
       [186515,    220,     11],
       [372540,     50,      6],
       [172926,    120,     13]])

In [39]:
tDim.shape

(3, 7783, 3)