# Numpy

Материалы:
* Макрушин С.В. "Лекция 1: Библиотека Numpy"
* https://numpy.org/doc/stable/user/index.html
* https://numpy.org/doc/stable/reference/index.html

In [1]:
import numpy as np

In [2]:
arr = np.array([2,8,6,28,299,38459,3,85])

In [3]:
arr = np.arange(20).reshape(5,4)
arr

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15],
       [16, 17, 18, 19]])

## Задачи для совместного разбора

1. Сгенерировать двухмерный массив `arr` размерности (4, 7), состоящий из случайных действительных чисел, равномерно распределенных в диапазоне от 0 до 20. Нормализовать значения массива с помощью преобразования вида  $𝑎𝑥+𝑏$  так, что после нормализации максимальный элемент масcива будет равен 1.0, минимальный 0.0

In [4]:
arr = np.random.uniform(0, 20, (4,7))
arr

array([[ 4.89878705,  9.10816518,  1.13333298, 19.92760339, 17.4874991 ,
         4.05192615,  0.17559322],
       [16.49944237,  5.21374112, 13.76203544, 18.3345993 , 10.82355747,
         8.08479403,  5.28442034],
       [ 8.17771408,  3.01178133,  9.9118636 , 15.60974382,  5.08978132,
         0.98503326, 13.2178444 ],
       [ 0.71570421, 14.80731497,  3.82613281,  9.4226768 , 14.53467681,
        19.66529994, 13.27505587]])

In [5]:
a = 1 / (np.max(arr) - np.min(arr))
b = - np.min(arr)/(np.max(arr) - np.min(arr))
arr*a +b

array([[0.23912472, 0.4522361 , 0.04848822, 1.        , 0.87646299,
        0.19625005, 0.        ],
       [0.82643989, 0.25507013, 0.68785112, 0.91934977, 0.53908256,
        0.40042511, 0.25864847],
       [0.40512944, 0.14358985, 0.49292554, 0.78139645, 0.24879433,
        0.04098013, 0.66029994],
       [0.02734461, 0.74077127, 0.18481864, 0.46815911, 0.72696822,
        0.98672016, 0.66319643]])

2. Создать матрицу 8 на 10 из случайных целых (используя модуль `numpy.random`) чисел из диапозона от 0 до 10 и найти в ней строку (ее индекс и вывести саму строку), в которой сумма значений минимальна.

In [6]:
arr2 = np.random.randint(0, 11, (8,10))
arr2

array([[ 3,  9, 10,  1,  3,  4,  1,  5,  7,  9],
       [ 5,  1,  1,  5,  6,  4,  7,  0, 10,  4],
       [ 9,  7,  6,  4,  0,  7,  1,  3,  2,  1],
       [ 2,  0,  9,  5,  6,  8,  1,  0,  9,  3],
       [ 9,  4,  8,  6,  4,  2,  0,  7,  1, 10],
       [10, 10,  5,  3,  0,  2,  2,  1,  5,  4],
       [ 3,  3,  1,  8,  8,  4,  6,  3,  9,  7],
       [ 0,  8,  8,  2,  0,  5,  7,  5,  0,  0]])

In [7]:
k = np.sum(arr2, axis = 1)
k

array([52, 43, 40, 43, 51, 42, 52, 35])

In [8]:
np.argmin(k)

7

In [9]:
arr2[np.argmin(k)]

array([0, 8, 8, 2, 0, 5, 7, 5, 0, 0])

3. Найти евклидово расстояние между двумя одномерными векторами одинаковой размерности.

In [10]:
a = np.array([5, 45])
b = np.array([4289, 427])

In [11]:
((b-a)**2).sum()**0.5

4300.997558706585

4. Решить матричное уравнение `A*X*B=-C` - найти матрицу `X`. Где `A = [[-1, 2, 4], [-3, 1, 2], [-3, 0, 1]]`, `B=[[3, -1], [2, 1]]`, `C=[[7, 21], [11, 8], [8, 4]]`.

$A \cdot X \cdot B = -C \Rightarrow X = A^{-1} \cdot -C \cdot B^{-1}$ 

In [12]:
A = np.array([[-1, 2, 4], [-3, 1, 2], [-3, 0, 1]])
B = np.array([[3, -1], [2, 1]])
C = np.array([[7, 21], [11, 8], [8, 4]])

In [13]:
Amin1 = np.linalg.inv(A)
Bmin1 = np.linalg.inv(B)

In [14]:
X = np.linalg.multi_dot([Amin1, -C, Bmin1])
X

array([[ 1.0000000e+00,  8.8817842e-16],
       [-2.0000000e+00,  1.0000000e+00],
       [ 3.0000000e+00, -4.0000000e+00]])

## Лабораторная работа №1

Замечание: при решении данных задач не подразумевается использования циклов или генераторов Python, если в задании не сказано обратного. Решение должно опираться на использования функционала библиотеки `numpy`.

1. Файл `minutes_n_ingredients.csv` содержит информацию об идентификаторе рецепта, времени его выполнения в минутах и количестве необходимых ингредиентов. Считайте данные из этого файла в виде массива `numpy` типа `int32`, используя `np.loadtxt`. Выведите на экран первые 5 строк массива.

In [15]:
df = np.loadtxt('minutes_n_ingredients.csv', dtype='int32', delimiter=',', skiprows=1)
df[:5]

array([[127244,     60,     16],
       [ 23891,     25,      7],
       [ 94746,     10,      6],
       [ 67660,      5,      6],
       [157911,     60,     14]], dtype=int32)

2. Вычислите среднее значение, минимум, максимум и медиану по каждому из столбцов, кроме первого.

In [16]:
def mean_min_max_median(arr):
    print('Среднее значение:', np.mean(arr))
    print('Минимум:', np.min(arr))
    print('Максимум:', np.max(arr))
    print('Медиана:', np.median(arr))
    return ''
    
print('По времени')
print(mean_min_max_median(df[:, 1]))
print('По количеству ингредиентов')
print(mean_min_max_median(df[:, 2]))

По времени
Среднее значение: 21601.00169
Минимум: 0
Максимум: 2147483647
Медиана: 40.0

По количеству ингредиентов
Среднее значение: 9.05528
Минимум: 1
Максимум: 39
Медиана: 9.0



3. Ограничьте сверху значения продолжительности выполнения рецепта значением квантиля $q_{0.75}$. 

In [17]:
df_q = df[df[:, 1] <= np.quantile(df[:, 1], q=0.75)]
df_q

array([[127244,     60,     16],
       [ 23891,     25,      7],
       [ 94746,     10,      6],
       ...,
       [ 43407,     35,      7],
       [498432,     65,     15],
       [370915,      5,      4]], dtype=int32)

4. Посчитайте, для скольких рецептов указана продолжительность, равная нулю. Замените для таких строк значение в данном столбце на 1.

In [18]:
print('Количество рецептов с нулевой продолжительностью: ', np.sum(df[:, 1] == 0))
df[df[:, 1] == 0] = 1
df

Количество рецептов с нулевой продолжительностью:  479


array([[127244,     60,     16],
       [ 23891,     25,      7],
       [ 94746,     10,      6],
       ...,
       [498432,     65,     15],
       [370915,      5,      4],
       [ 81993,    140,     14]], dtype=int32)

5. Посчитайте, сколько уникальных рецептов находится в датасете.

In [19]:
print('Количество уникальных рецептов:', len(np.unique(df[:, 0])))

Количество уникальных рецептов: 99522


6. Сколько и каких различных значений кол-ва ингредиентов присутвует в рецептах из датасета?

In [20]:
from collections import Counter

dict(Counter(df[:, 2]).most_common())

{8: 10887,
 7: 10579,
 9: 10542,
 10: 9548,
 6: 9328,
 11: 8262,
 5: 7874,
 12: 6574,
 4: 5479,
 13: 4985,
 14: 3639,
 3: 2884,
 15: 2583,
 16: 1760,
 17: 1237,
 2: 924,
 18: 787,
 19: 566,
 1: 492,
 20: 376,
 21: 214,
 22: 161,
 23: 105,
 24: 68,
 25: 50,
 26: 28,
 27: 16,
 28: 16,
 30: 12,
 29: 12,
 35: 3,
 31: 3,
 33: 2,
 39: 1,
 37: 1,
 32: 1,
 34: 1}

7. Создайте версию массива, содержащую информацию только о рецептах, состоящих не более чем из 5 ингредиентов.

In [21]:
df_5ing = df[df[:, 2] <= 5]
df_5ing

array([[446597,     15,      5],
       [204134,      5,      3],
       [ 25623,      6,      4],
       ...,
       [ 52088,     60,      5],
       [128811,     15,      4],
       [370915,      5,      4]], dtype=int32)

8. Для каждого рецепта посчитайте, сколько в среднем ингредиентов приходится на одну минуту рецепта. Найдите максимальное значение этой величины для всего датасета

In [22]:
speed_rec = df[:, 2] / df[:, 1]

print('Максимальное значение количество ингредиентов используемых в минуту:', speed_rec.max())

Максимальное значение количество ингредиентов используемых в минуту: 23.0


9. Вычислите среднее количество ингредиентов для топ-100 рецептов с наибольшей продолжительностью

In [23]:
df_top100 = df[df[:,1].argsort()][:100:-1]

print('Среднее количество ингредиентов для топ-100 рецептов с наибольшей продолжительностью:', df_top100[:, 2].mean())

Среднее количество ингредиентов для топ-100 рецептов с наибольшей продолжительностью: 9.02408432516842


10. Выберите случайным образом и выведите информацию о 10 различных рецептах

In [24]:
df[np.random.randint(0, len(df), 10)]

array([[ 58900,      5,      5],
       [146177,    210,      9],
       [136891,     70,     16],
       [ 55560,     60,     16],
       [504498,    100,     12],
       [102463,     15,      5],
       [ 33088,     25,      4],
       [178855,    135,     16],
       [242882,    120,     11],
       [ 97733,     15,      5]], dtype=int32)

11. Выведите процент рецептов, кол-во ингредиентов в которых меньше среднего.

In [25]:
np.sum(df[:, 2] < df[:, 2].mean()) / len(df)

0.58989

12. Назовем "простым" такой рецепт, длительность выполнения которого не больше 20 минут и кол-во ингредиентов в котором не больше 5. Создайте версию датасета с дополнительным столбцом, значениями которого являются 1, если рецепт простой, и 0 в противном случае.

In [26]:
easy_column = (df[:, 1] <= 20) & (df[:, 2] <= 5).astype('int')
easy_column

df_easy_column = np.hstack((df, np.atleast_2d(easy_column).T))
df_easy_column

array([[127244,     60,     16,      0],
       [ 23891,     25,      7,      0],
       [ 94746,     10,      6,      0],
       ...,
       [498432,     65,     15,      0],
       [370915,      5,      4,      1],
       [ 81993,    140,     14,      0]])

13. Выведите процент "простых" рецептов в датасете

In [27]:
print('Процент "простых" рецептов: {:.2%}'.format(np.sum(df_easy_column[:, 3])/len(df)))

Процент "простых" рецептов: 9.94%


14. Разделим рецепты на группы по следующему правилу. Назовем рецепты короткими, если их продолжительность составляет менее 10 минут; стандартными, если их продолжительность составляет более 10, но менее 20 минут; и длинными, если их продолжительность составляет не менее 20 минут. Создайте трехмерный массив, где нулевая ось отвечает за номер группы (короткий, стандартный или длинный рецепт), первая ось - за сам рецепт и вторая ось - за характеристики рецепта. Выберите максимальное количество рецептов из каждой группы таким образом, чтобы было возможно сформировать трехмерный массив. Выведите форму полученного массива.

In [29]:
short_rec = df[df[:, 1] < 10]
stand_rec = df[(df[:, 1] >= 10) & (df[:, 1] < 20)]
long_rec = df[df[:, 1] >= 20]

rec = min(short_rec.shape[0], stand_rec.shape[0], long_rec.shape[0])
rec
df_3 = np.array([short_rec, stand_rec[:rec], long_rec[:rec]])
df_3.shape

(3, 7588, 3)