## Упражнения по библиотеке Numpy

In [1]:
import numpy as np
from tensorflow.python.ops.ragged.ragged_array_ops import boolean_mask

**1.** Дан случайный массив, поменять знак у элементов, значения которых между 3 и 8

In [13]:
random_array = np.random.randint(0, 11, 20)
print(f'Исходный массив:\n{random_array}')

boolean_mask = (random_array > 3) & (random_array < 8)

random_array[boolean_mask] = -random_array[boolean_mask]

print(f'Результат:\n{random_array}')

Исходный массив:
[ 9  4  4  3  4  2  2  0  7  3  6  3  3  2 10  8 10  1  6  4]
Результат:
[ 9 -4 -4  3 -4  2  2  0 -7  3 -6  3  3  2 10  8 10  1 -6 -4]


**2.** Заменить максимальный элемент случайного массива на 0

In [14]:
print(f'Исходный массив:\n{random_array}')

random_array[random_array == np.max(random_array)] = 0

print(f'Результат:\n{random_array}')

Исходный массив:
[ 9 -4 -4  3 -4  2  2  0 -7  3 -6  3  3  2 10  8 10  1 -6 -4]
Результат:
[ 9 -4 -4  3 -4  2  2  0 -7  3 -6  3  3  2  0  8  0  1 -6 -4]


**3.** Построить прямое произведение массивов (все комбинации с каждым элементом). На вход подается двумерный массив

In [16]:
import numpy as np

def cartesian_product_meshgrid(arrays):

    arrays = [np.asarray(row) for row in arrays]

    grids = np.meshgrid(*arrays, indexing='ij')

    result = np.stack([grid.ravel() for grid in grids], axis=-1)

    return result

input_arrays = np.array([[1, 2],
                         [3, 4],
                         [5, 6],
                         [7, 8],])

result = cartesian_product_meshgrid(input_arrays)
print(result)

[[1 3 5 7]
 [1 3 5 8]
 [1 3 6 7]
 [1 3 6 8]
 [1 4 5 7]
 [1 4 5 8]
 [1 4 6 7]
 [1 4 6 8]
 [2 3 5 7]
 [2 3 5 8]
 [2 3 6 7]
 [2 3 6 8]
 [2 4 5 7]
 [2 4 5 8]
 [2 4 6 7]
 [2 4 6 8]]


**4.** Даны 2 массива A (8x3) и B (2x2). Найти строки в A, которые содержат элементы из каждой строки в B, независимо от порядка элементов в B

In [21]:
def find_rows_with_B_elements(A, B):
    mask = np.zeros(A.shape[0], dtype=bool)
    for b in B:
        eq = (A[:, :, None] == b[None, None, :])
        found = eq.any(axis=1)
        contains_all = found.all(axis=1)
        mask |= contains_all
    return A[mask]

A = np.random.randint(0, 10, (8, 3))
B = np.array([[1, 2], [5, 6]])
print(f'A:\n{A}\nB:\n{B}\n')

result = find_rows_with_B_elements(A, B)
print(f'Result:\n{result}')

A:
[[3 7 9]
 [9 2 3]
 [6 2 1]
 [4 8 3]
 [7 8 5]
 [1 8 0]
 [7 6 3]
 [0 6 2]]
B:
[[1 2]
 [5 6]]

Result:
[[6 2 1]]


**5.** Дана 10x3 матрица, найти строки из неравных значений (например строка [2,2,3] остается, строка [3,3,3] удаляется)

In [26]:
X = np.random.randint(0, 5, size = (10, 3))
print(f'X:\n{X}')

mask = X.min(axis=1) == X.max(axis=1)

result = X[mask]
print(f'Result:\n{result}')

X:
[[1 0 1]
 [2 2 2]
 [0 4 1]
 [1 2 0]
 [4 2 1]
 [0 3 3]
 [2 3 3]
 [4 3 4]
 [0 3 0]
 [3 3 3]]
Result:
[[2 2 2]
 [3 3 3]]


**6.** Дан двумерный массив. Удалить те строки, которые повторяются

In [31]:
def remove_duplicates(array):
    _, indices = np.unique(array, axis=0, return_index=True)
    return array[np.sort(indices)]


X = np.random.randint(0, 5, size = (10, 2))
print(f'X:\n{X}')

result = remove_duplicates(X)
print(f'Result:\n{result}')

X:
[[0 3]
 [1 3]
 [2 4]
 [1 0]
 [0 1]
 [2 0]
 [4 2]
 [4 4]
 [3 4]
 [2 4]]
Result:
[[0 3]
 [1 3]
 [2 4]
 [1 0]
 [0 1]
 [2 0]
 [4 2]
 [4 4]
 [3 4]]


______
______

Для каждой из следующих задач (1-5) нужно привести 2 реализации – одна без использования numpy (cчитайте, что там, где на входе или выходе должны быть numpy array, будут просто списки), а вторая полностью векторизованная с использованием numpy (без использования питоновских циклов/map/list comprehension).


__Замечание 1.__ Можно считать, что все указанные объекты непустые (к примеру, в __задаче 1__ на диагонали матрицы есть ненулевые элементы).

__Замечание 2.__ Для большинства задач решение занимает не больше 1-2 строк.

___

* __Задача 1__: Подсчитать произведение ненулевых элементов на диагонали прямоугольной матрицы.  
 Например, для X = np.array([[1, 0, 1], [2, 0, 2], [3, 0, 3], [4, 4, 4]]) ответ 3.

In [35]:
def diag_nonzero_product(matrix):
    prod = 1
    n_rows = len(matrix)
    n_cols = len(matrix[0]) if n_rows >0 else 0
    for i in range(min(n_rows, n_cols)):
        if(matrix[i][i] != 0):
            prod *= matrix[i][i]
    return prod

def diag_nonzero_product_np(matrix):
    diag = np.diag(matrix)
    return np.prod(diag[diag != 0])

X = [[1, 0, 1],
     [2, 0, 2],
     [3, 0, 3],
     [4, 4, 4]]

print(diag_nonzero_product(X))
print(diag_nonzero_product_np(X))

3
3


* __Задача 2__: Даны два вектора x и y. Проверить, задают ли они одно и то же мультимножество.  
  Например, для x = np.array([1, 2, 2, 4]), y = np.array([4, 2, 1, 2]) ответ True.

In [36]:
def same_multiset_py(x, y):
    if len(x) != len(y):
        return False
    from collections import Counter
    return Counter(x) == Counter(y)

def same_multiset_np(x, y):
    if x.size != y.size:
        return False
    return np.array_equal(np.sort(x), np.sort(y))

x = [1, 2, 2, 4]
y = [4, 2, 1, 2]

print(same_multiset_py(x, y))   # True
print(same_multiset_np(np.array(x), np.array(y)))  # True

True
True


* __Задача 3__: Найти максимальный элемент в векторе x среди элементов, перед которыми стоит ноль. 
 Например, для x = np.array([6, 2, 0, 3, 0, 0, 5, 7, 0]) ответ 5.

In [37]:
def max_after_zero_py(x):
    max_val = None
    for i in range(1, len(x)):
        if x[i - 1] == 0:
            if max_val is None or x[i] > max_val:
                max_val = x[i]
    return max_val

def max_after_zero_np(x):
    return np.max(x[1:][x[:-1] == 0])

x = np.array([6, 2, 0, 3, 0, 0, 5, 7, 0])

print(max_after_zero_py(x))
print(max_after_zero_np(x))


5
5


* __Задача 4__: Реализовать кодирование длин серий (Run-length encoding). Для некоторого вектора x необходимо вернуть кортеж из двух векторов одинаковой длины. Первый содержит числа, а второй - сколько раз их нужно повторить.  
 Например, для x = np.array([2, 2, 2, 3, 3, 3, 5]) ответ (np.array([2, 3, 5]), np.array([3, 3, 1])).

In [40]:
def run_length_encoding_py(x):
    if not x:
        return [], []
    values, counts = [x[0]], [1]
    for i in range(1, len(x)):
        if x[i] == x[i - 1]:
            counts[-1] += 1
        else:
            values.append(x[i])
            counts.append(1)
    return values, counts

def run_length_encoding_np(x):
    if x.size == 0:
        return np.array([]), np.array([])
    idx = np.concatenate(([0], np.where(x[1:] != x[:-1])[0] + 1, [x.size]))
    values = x[idx[:-1]]
    counts = np.diff(idx)
    return values, counts

x_list = [2, 2, 2, 3, 3, 3, 5]          # для pure Python
x_np   = np.array(x_list)                # для NumPy

values_py, counts_py = run_length_encoding_py(x_list)

values_np, counts_np = run_length_encoding_np(x_np)

print("Исходный вектор:", x_list)
print()
print("Pure Python реализация:")
print("  Значения:", values_py)
print("  Длины:  ", counts_py)
print()
print("NumPy реализация:")
print("  Значения:", values_np)
print("  Длины:  ", counts_np)

Исходный вектор: [2, 2, 2, 3, 3, 3, 5]

Pure Python реализация:
  Значения: [2, 3, 5]
  Длины:   [3, 3, 1]

NumPy реализация:
  Значения: [2 3 5]
  Длины:   [3 3 1]


* __Задача 5__: Даны две выборки объектов - X и Y. Вычислить матрицу евклидовых расстояний между объектами. Сравните с функцией scipy.spatial.distance.cdist по скорости работы.

In [42]:
def euclidean_distances_py(X, Y):
    n, m = len(X), len(Y)
    D = [[0.0] * m for _ in range(n)]
    for i in range(n):
        for j in range(m):
            s = 0.0
            for k in range(len(X[i])):
                diff = X[i][k] - Y[j][k]
                s += diff * diff
            D[i][j] = s ** 0.5
    return D

def euclidean_distances_np(X, Y):
    X, Y = np.asarray(X), np.asarray(Y)
    return np.sqrt(np.sum((X[:, None, :] - Y[None, :, :]) ** 2, axis=2))

from scipy.spatial.distance import cdist

import time

X = np.random.rand(500, 100)
Y = np.random.rand(400, 100)

start = time.time()
D1 = euclidean_distances_py(X, Y)
t_py = time.time() - start

start = time.time()
D2 = euclidean_distances_np(X, Y)
t_np = time.time() - start

# SciPy
start = time.time()
D3 = cdist(X, Y, metric='euclidean')
t_scipy = time.time() - start

print(f"Python:  {t_py:.4f} сек")
print(f"NumPy:   {t_np:.4f} сек")
print(f"SciPy:   {t_scipy:.4f} сек")

Python:  5.5377 сек
NumPy:   0.0561 сек
SciPy:   0.0049 сек
Разница: 2.66e-15


_______
________

* #### __Задача 6__: CrunchieMunchies __*__

Вы работаете в отделе маркетинга пищевой компании MyCrunch, которая разрабатывает новый вид вкусных, полезных злаков под названием **CrunchieMunchies**.

Вы хотите продемонстрировать потребителям, насколько полезны ваши хлопья по сравнению с другими ведущими брендами, поэтому вы собрали данные о питании нескольких разных конкурентов.

Ваша задача - использовать вычисления Numpy для анализа этих данных и доказать, что ваши **СrunchieMunchies** - самый здоровый выбор для потребителей.


In [77]:
import numpy as np

1. Просмотрите файл cereal.csv. Этот файл содержит количества калорий для различных марок хлопьев. Загрузите данные из файла и сохраните их как calorie_stats.

In [44]:
calorie_stats = np.loadtxt("./data/cereal.csv", delimiter=",")
calorie_stats

array([ 70., 120.,  70.,  50., 110., 110., 110., 130.,  90.,  90., 120.,
       110., 120., 110., 110., 110., 100., 110., 110., 110., 100., 110.,
       100., 100., 110., 110., 100., 120., 120., 110., 100., 110., 100.,
       110., 120., 120., 110., 110., 110., 140., 110., 100., 110., 100.,
       150., 150., 160., 100., 120., 140.,  90., 130., 120., 100.,  50.,
        50., 100., 100., 120., 100.,  90., 110., 110.,  80.,  90.,  90.,
       110., 110.,  90., 110., 140., 100., 110., 110., 100., 100., 110.])

2. В одной порции CrunchieMunchies содержится 60 калорий. Насколько выше среднее количество калорий у ваших конкурентов?

Сохраните ответ в переменной average_calories и распечатайте переменную в терминале

In [46]:
average_competitors = np.mean(calorie_stats)

average_calories = average_competitors - 60

print("Среднее количество калорий у конкурентов выше ваших на:", average_calories, "ккал")

Среднее количество калорий у конкурентов выше ваших на: 46.883116883116884 ккал


3. Корректно ли среднее количество калорий отражает распределение набора данных? Давайте отсортируем данные и посмотрим.

Отсортируйте данные и сохраните результат в переменной calorie_stats_sorted. Распечатайте отсортированную информацию

In [51]:
calorie_stats_sorted = np.sort(calorie_stats)

calorie_stats_sorted

array([ 50.,  50.,  50.,  70.,  70.,  80.,  90.,  90.,  90.,  90.,  90.,
        90.,  90., 100., 100., 100., 100., 100., 100., 100., 100., 100.,
       100., 100., 100., 100., 100., 100., 100., 100., 110., 110., 110.,
       110., 110., 110., 110., 110., 110., 110., 110., 110., 110., 110.,
       110., 110., 110., 110., 110., 110., 110., 110., 110., 110., 110.,
       110., 110., 110., 110., 120., 120., 120., 120., 120., 120., 120.,
       120., 120., 120., 130., 130., 140., 140., 140., 150., 150., 160.])

4. Похоже, что большинство значений выше среднего. Давайте посмотрим, является ли медиана наиболее корректным показателем набора данных.

Вычислите медиану набора данных и сохраните свой ответ в median_calories. Выведите медиану, чтобы вы могли видеть, как она сравнивается со средним значением.

In [54]:
median_calories = np.median(calorie_stats)
avg_calories = np.mean(calorie_stats)

print(f'Медиана: {median_calories}')
print(f'Среднее: {avg_calories}')

Медиана: 110.0
Среднее: 106.88311688311688


5. В то время как медиана показывает, что по крайней мере половина наших значений составляет более 100 калорий, было бы более впечатляюще показать, что значительная часть конкурентов имеет более высокое количество калорий, чем CrunchieMunchies.

Рассчитайте различные процентили и распечатайте их, пока не найдете наименьший процентиль, превышающий 60 калорий. Сохраните это значение в переменной nth_percentile.

In [55]:
nth_percentile = None
for p in range(1, 101):
    val = np.percentile(calorie_stats, p)
    if val > 60:
        nth_percentile = p
        break

print(f"Наименьший процентиль, превышающий 60 калорий: {nth_percentile}")
print(f"Значение на {nth_percentile}-м процентиле: {np.percentile(calorie_stats, nth_percentile):.1f} ккал")

Наименьший процентиль, превышающий 60 калорий: 4
Значение на 4-м процентиле: 70.0 ккал


6. Хотя процентиль показывает нам, что у большинства конкурентов количество калорий намного выше, это неудобная концепция для использования в маркетинговых материалах.

Вместо этого давайте подсчитаем процент хлопьев, в которых содержится более 60 калорий на порцию. Сохраните свой ответ в переменной more_calories и распечатайте его

In [56]:
more_calories = np.mean(calorie_stats > 60)

more_calories_percent = more_calories * 100

print(f"Процент хлопьев с более чем 60 калориями: {more_calories_percent:.2f}%")

Процент хлопьев с более чем 60 калориями: 96.10%


7. Это действительно высокий процент. Это будет очень полезно, когда мы будем продвигать CrunchieMunchies. Но один вопрос заключается в том, насколько велики различия в наборе данных? Можем ли мы сделать обобщение, что в большинстве злаков содержится около 100 калорий или разброс еще больше?

Рассчитайте величину отклонения, найдя стандартное отклонение, Сохраните свой ответ в calorie_std и распечатайте на терминале. Как мы можем включить эту ценность в наш анализ?

In [57]:
calorie_std = np.std(calorie_stats)

calorie_std

19.35718533390827

8. Напишите короткий абзац, в котором кратко изложите свои выводы и то, как, по вашему мнению, эти данные могут быть использованы в интересах Mycrunch при маркетинге CrunchieMunchies.

Анализ показал, что CrunchieMunchies (60 ккал) значительно ниже среднего значения калорийности конкурентов (около 107 ккал). 96% брендов содержат более 60 ккал, а стандартное отклонение (около 19 ккал) подтверждает, что наш продукт находится далеко за пределами типичного диапазона (87–126 ккал). Эти данные позволяют MyCrunch позиционировать CrunchieMunchies как один из самых низкокалорийных вариантов на рынке, подкрепляя заявления точной статистикой.