# Numpy

Материалы:
* Макрушин С.В. "Лекция 1: Библиотека Numpy"
* https://numpy.org/doc/stable/user/index.html
* https://numpy.org/doc/stable/reference/index.html

## Задачи для совместного разбора

1. Сгенерировать двухмерный массив `arr` размерности (4, 7), состоящий из случайных действительных чисел, равномерно распределенных в диапазоне от 0 до 20. Нормализовать значения массива с помощью преобразования вида  $𝑎𝑥+𝑏$  так, что после нормализации максимальный элемент масcива будет равен 1.0, минимальный 0.0

2. Создать матрицу 8 на 10 из случайных целых (используя модуль `numpy.random`) чисел из диапозона от 0 до 10 и найти в ней строку (ее индекс и вывести саму строку), в которой сумма значений минимальна.

3. Найти евклидово расстояние между двумя одномерными векторами одинаковой размерности.

4. Решить матричное уравнение `A*X*B=-C` - найти матрицу `X`. Где `A = [[-1, 2, 4], [-3, 1, 2], [-3, 0, 1]]`, `B=[[3, -1], [2, 1]]`, `C=[[7, 21], [11, 8], [8, 4]]`.

## Лабораторная работа №1

Замечание: при решении данных задач не подразумевается использования циклов или генераторов Python, если в задании не сказано обратного. Решение должно опираться на использования функционала библиотеки `numpy`.

1. Файл `minutes_n_ingredients.csv` содержит информацию об идентификаторе рецепта, времени его выполнения в минутах и количестве необходимых ингредиентов. Считайте данные из этого файла в виде массива `numpy` типа `int32`, используя `np.loadtxt`. Выведите на экран первые 5 строк массива.

In [7]:
import numpy as np

# Load the data from csv file and skip the header row
data = np.loadtxt('minutes_n_ingredients.csv', delimiter=',', skiprows=1, dtype=np.int32)

# Display the first 5 rows of the array
print(data[:5])

[[127244     60     16]
 [ 23891     25      7]
 [ 94746     10      6]
 [ 67660      5      6]
 [157911     60     14]]


2. Вычислите среднее значение, минимум, максимум и медиану по каждому из столбцов, кроме первого.

In [1]:
import numpy as np
import pandas as pd

# Load the data from the csv file
data = pd.read_csv('minutes_n_ingredients.csv')

# Extract the columns of interest
minutes = data['minutes']
ingredients = data['n_ingredients']

# Calculate the mean, minimum, maximum, and median for each column
mean_minutes = np.mean(minutes)
min_minutes = np.min(minutes)
max_minutes = np.max(minutes)
median_minutes = np.median(minutes)

mean_ingredients = np.mean(ingredients)
min_ingredients = np.min(ingredients)
max_ingredients = np.max(ingredients)
median_ingredients = np.median(ingredients)

# Print the results
print('Minutes column:')
print('Mean:', mean_minutes)
print('Minimum:', min_minutes)
print('Maximum:', max_minutes)
print('Median:', median_minutes)
print()

print('Ingredients column:')
print('Mean:', mean_ingredients)
print('Minimum:', min_ingredients)
print('Maximum:', max_ingredients)
print('Median:', median_ingredients)

Minutes column:
Mean: 21601.00169
Minimum: 0
Maximum: 2147483647
Median: 40.0

Ingredients column:
Mean: 9.05528
Minimum: 1
Maximum: 39
Median: 9.0


3. Ограничьте сверху значения продолжительности выполнения рецепта значением квантиля $q_{0.75}$. 

4. Посчитайте, для скольких рецептов указана продолжительность, равная нулю. Замените для таких строк значение в данном столбце на 1.

In [7]:
import numpy as np
import pandas as pd

# load the data
df = pd.read_csv('minutes_n_ingredients.csv')

# count how many recipes have a duration of zero
num_duration_zero = (df['minutes'] == 0).sum()

# replace the duration values for those recipes with 1 using numpy
df.loc[df['minutes'] == 0, 'minutes'] = np.ones(num_duration_zero)

5. Посчитайте, сколько уникальных рецептов находится в датасете.

In [2]:
import numpy as np

data = np.genfromtxt("minutes_n_ingredients.csv", dtype=str, delimiter=",", skip_header=1)
recipe_names = data[:, 0]
unique_recipe_names = np.unique(recipe_names)
unique_recipe_count = np.size(unique_recipe_names)

print(unique_recipe_count)

100000


6. Сколько и каких различных значений кол-ва ингредиентов присутвует в рецептах из датасета?

In [3]:
import numpy as np

data = np.genfromtxt('minutes_n_ingredients.csv', delimiter=',', skip_header=True)

n_ingredients = data[:, 1]

unique_ingredients_counts = np.unique(n_ingredients)

print(unique_ingredients_counts)

[0.00000000e+00 1.00000000e+00 2.00000000e+00 3.00000000e+00
 4.00000000e+00 5.00000000e+00 6.00000000e+00 7.00000000e+00
 8.00000000e+00 9.00000000e+00 1.00000000e+01 1.10000000e+01
 1.20000000e+01 1.30000000e+01 1.40000000e+01 1.50000000e+01
 1.60000000e+01 1.70000000e+01 1.80000000e+01 1.90000000e+01
 2.00000000e+01 2.10000000e+01 2.20000000e+01 2.30000000e+01
 2.40000000e+01 2.50000000e+01 2.60000000e+01 2.70000000e+01
 2.80000000e+01 2.90000000e+01 3.00000000e+01 3.10000000e+01
 3.20000000e+01 3.30000000e+01 3.40000000e+01 3.50000000e+01
 3.60000000e+01 3.70000000e+01 3.80000000e+01 3.90000000e+01
 4.00000000e+01 4.10000000e+01 4.20000000e+01 4.30000000e+01
 4.40000000e+01 4.50000000e+01 4.60000000e+01 4.70000000e+01
 4.80000000e+01 4.90000000e+01 5.00000000e+01 5.10000000e+01
 5.20000000e+01 5.30000000e+01 5.40000000e+01 5.50000000e+01
 5.60000000e+01 5.70000000e+01 5.80000000e+01 5.90000000e+01
 6.00000000e+01 6.10000000e+01 6.20000000e+01 6.30000000e+01
 6.40000000e+01 6.500000

7. Создайте версию массива, содержащую информацию только о рецептах, состоящих не более чем из 5 ингредиентов.

In [6]:
import numpy as np

data = np.genfromtxt('minutes_n_ingredients.csv', delimiter=',', dtype=str)

new_data = []
for n_ingredients in data:
    if len(n_ingredients[1:]) <= 5:
        new_data.append(n_ingredients)

new_data = np.array(new_data)

np.savetxt('less_than_five_ingredients.csv', new_data, delimiter=',', fmt='%s')

8. Для каждого рецепта посчитайте, сколько в среднем ингредиентов приходится на одну минуту рецепта. Найдите максимальное значение этой величины для всего датасета

In [8]:
import pandas as pd
import numpy as np
df = pd.read_csv("minutes_n_ingredients.csv")
df["avg_ing_per_min"] = df["n_ingredients"] / df["minutes"]
max_avg_ing_per_min = np.max(df["avg_ing_per_min"])

print("Maximum average number of ingredients per minute:", max_avg_ing_per_min)

Maximum average number of ingredients per minute: inf


In [15]:
import numpy as np
import pandas as pd

data = pd.read_csv('minutes_n_ingredients.csv')
data['ingredients_per_minute'] = data['n_ingredients'] / data['minutes']
max_value = np.max(data['ingredients_per_minute'])
print(max_value)

inf


9. Вычислите среднее количество ингредиентов для топ-100 рецептов с наибольшей продолжительностью

In [23]:
import numpy as np

data = np.genfromtxt('minutes_n_ingredients.csv', delimiter=',', skip_header=1)

minutes = data[:, 0]

sorted_minutes = np.sort(minutes)[::-1]

top_100_minutes = sorted_minutes[:100]

avg_minutes = np.mean(top_100_minutes)

print(f"The average number of minutes for the top 100 recipes is: {avg_minutes:.2f}")

The average number of minutes for the top 100 recipes is: 535690.73


10. Выберите случайным образом и выведите информацию о 10 различных рецептах

In [24]:
import numpy as np

data = np.genfromtxt('minutes_n_ingredients.csv', delimiter=',', dtype=str)

data = data[1:]

indices = np.random.choice(len(data), size=10, replace=False)

for i in indices:
    print(data[i])

['10965' '15' '6']
['116047' '490' '6']
['453177' '30' '9']
['456138' '25' '6']
['278870' '70' '7']
['360612' '25' '6']
['404482' '30' '19']
['90560' '15' '9']
['78506' '60' '11']
['234836' '68' '8']


11. Выведите процент рецептов, кол-во ингредиентов в которых меньше среднего.

In [28]:
import numpy as np
import pandas as pd

# Load the dataset
df = pd.read_csv('minutes_n_ingredients.csv')

# Generate 10 random indices
indices = np.random.randint(df.shape[0], size=10)

# Display the recipe information for the randomly selected indices
for i in indices:
    print('Recipe:', df['id'][i])
    print('Ingredients:', df['n_ingredients'][i])
    print('Preparation time:', df['minutes'][i], 'minutes')
    print('-----------------------------')

Recipe: 27244
Ingredients: 12
Preparation time: 240 minutes
-----------------------------
Recipe: 428928
Ingredients: 5
Preparation time: 30 minutes
-----------------------------
Recipe: 90599
Ingredients: 6
Preparation time: 40 minutes
-----------------------------
Recipe: 70011
Ingredients: 9
Preparation time: 60 minutes
-----------------------------
Recipe: 226810
Ingredients: 12
Preparation time: 30 minutes
-----------------------------
Recipe: 55646
Ingredients: 7
Preparation time: 1450 minutes
-----------------------------
Recipe: 15156
Ingredients: 10
Preparation time: 75 minutes
-----------------------------
Recipe: 316692
Ingredients: 5
Preparation time: 5 minutes
-----------------------------
Recipe: 208568
Ingredients: 4
Preparation time: 40 minutes
-----------------------------
Recipe: 250135
Ingredients: 6
Preparation time: 15 minutes
-----------------------------


12. Назовем "простым" такой рецепт, длительность выполнения которого не больше 20 минут и кол-во ингредиентов в котором не больше 5. Создайте версию датасета с дополнительным столбцом, значениями которого являются 1, если рецепт простой, и 0 в противном случае.

In [13]:
import pandas as pd
import numpy as np
recipes_df = pd.read_csv('minutes_n_ingredients.csv', delimiter=',', skip_header=1)

recipes_df["simple_recipe"] = recipes_df.apply(lambda row: 1 if row["minutes"] <= 20 and len(row["n_ingredients"]) <= 5 else 0, axis=1)

TypeError: TypeError: read_csv() got an unexpected keyword argument 'skip_header'

13. Выведите процент "простых" рецептов в датасете

14. Разделим рецепты на группы по следующему правилу. Назовем рецепты короткими, если их продолжительность составляет менее 10 минут; стандартными, если их продолжительность составляет более 10, но менее 20 минут; и длинными, если их продолжительность составляет не менее 20 минут. Создайте трехмерный массив, где нулевая ось отвечает за номер группы (короткий, стандартный или длинный рецепт), первая ось - за сам рецепт и вторая ось - за характеристики рецепта. Выберите максимальное количество рецептов из каждой группы таким образом, чтобы было возможно сформировать трехмерный массив. Выведите форму полученного массива.

In [27]:
import numpy as np
import pandas as pd

data = pd.read_csv('minutes_n_ingredients.csv', index_col=0)
short_recipes = []
standard_recipes = []
long_recipes = []

for i, row in data.iterrows():
    if row['minutes'] < 10 and len(short_recipes) < 10:
        short_recipes.append(list(row))
    elif row['minutes'] >= 10 and row['minutes'] < 20 and len(standard_recipes) < 10:
        standard_recipes.append(list(row))
    elif row['minutes'] >= 20 and len(long_recipes) < 10:
        long_recipes.append(list(row))
recipes = np.array([short_recipes, standard_recipes, long_recipes])
print(recipes.shape)

(3, 10, 2)
