## Упражнения по библиотеке Numpy

In [142]:
import numpy as np

np.random.seed(21)

**1.** Дан случайный массив, поменять знак у элементов, значения которых между 3 и 8

In [143]:
array = np.random.randint(0, 11, size=10)
array

array([ 9,  8,  4,  0,  0,  8,  3,  2,  1, 10], dtype=int32)

In [144]:
array = np.where((array > 3) & (array < 8), -array, array)
array

array([ 9,  8, -4,  0,  0,  8,  3,  2,  1, 10], dtype=int32)

**2.** Заменить максимальный элемент случайного массива на 0

In [145]:
array = np.random.randint(1, 11, size=10)
array

array([ 9, 10,  7,  1,  5,  7,  5,  5,  8,  9], dtype=int32)

In [146]:
# Замена
array[array == np.max(array)] = 0
array

array([9, 0, 7, 1, 5, 7, 5, 5, 8, 9], dtype=int32)

**3.** Построить прямое произведение массивов (все комбинации с каждым элементом). На вход подается двумерный массив

In [147]:
array = [[0, 2, 4],
         [1, 3, 5]]
array

[[0, 2, 4], [1, 3, 5]]

In [148]:
# Генерируем сетку координат
# indexing='ij' гарантирует правильный порядок при переборе
grid = np.meshgrid(*array, indexing='ij')
grid

(array([[0, 0, 0],
        [2, 2, 2],
        [4, 4, 4]]),
 array([[1, 3, 5],
        [1, 3, 5],
        [1, 3, 5]]))

In [149]:
# Объединяем сетки в один массив комбинаций
# stack склеивает массивы, а reshape(-1, N) вытягивает их в список пар
result_array = np.stack(grid, axis=-1).reshape(-1, len(array))
print(result_array)

[[0 1]
 [0 3]
 [0 5]
 [2 1]
 [2 3]
 [2 5]
 [4 1]
 [4 3]
 [4 5]]


**4.** Даны 2 массива A (8x3) и B (2x2). Найти строки в A, которые содержат элементы из каждой строки в B, независимо от порядка элементов в B

In [150]:
array_a = np.random.randint(0, 10, (8, 3))
print(array_a)

[[9 5 6]
 [5 2 6]
 [2 8 2]
 [0 5 5]
 [0 3 0]
 [8 1 0]
 [2 6 4]
 [9 0 0]]


In [151]:
array_b = np.array([
    [1, 2],
    [3, 4]
])
print(array_b)

[[1 2]
 [3 4]]


In [152]:
#Сравниваем каждый элемент A с каждым элементом B, используя broadcasting
matches = (array_a[None, :, :, None] == array_b[:, None, None, :])

# .any(axis=(2, 3)) — есть ли совпадение элементов в паре (строка A, строка B)
# .all(axis=0) — выполняется ли это для ВСЕХ строк B
final_mask = matches.any(axis=(2,3)).all(axis=0)
print(array_a[final_mask])

[[2 6 4]]


**5.** Дана 10x3 матрица, найти строки из неравных значений (например строка [2,2,3] остается, строка [3,3,3] удаляется)

In [153]:
matrix = np.random.randint(0, 3, (10, 3))
matrix

array([[1, 1, 1],
       [2, 0, 0],
       [2, 2, 0],
       [2, 1, 0],
       [2, 2, 2],
       [0, 0, 1],
       [1, 2, 2],
       [1, 1, 0],
       [2, 2, 2],
       [0, 1, 2]], dtype=int32)

In [154]:
# Вычисляем размах для каждой строки
# axis=1 означает, что мы ищем max и min внутри каждой строки
# np.ptp (Peak-to-Peak) вычисляет разницу max - min.
# Если она равна 0, значит все числа в строке идентичны.
ranges = np.ptp(matrix, axis=1)

In [155]:
# Создаем маску: оставляем только те строки, где размах больше 0
matrix[ranges > 0]

array([[2, 0, 0],
       [2, 2, 0],
       [2, 1, 0],
       [0, 0, 1],
       [1, 2, 2],
       [1, 1, 0],
       [0, 1, 2]], dtype=int32)

**6.** Дан двумерный массив. Удалить те строки, которые повторяются

In [156]:
matrix = np.array([
    [1, 2, 3],
    [4, 5, 6],
    [1, 2, 3],  # Дубликат
    [0, 0, 0],
    [7, 8, 9],
    [0, 0, 0],  # Дубликат
    [1, 2, 3]  # Еще один дубликат
])
matrix

array([[1, 2, 3],
       [4, 5, 6],
       [1, 2, 3],
       [0, 0, 0],
       [7, 8, 9],
       [0, 0, 0],
       [1, 2, 3]])

In [157]:
# np.unique удаляет дубликаты
# axis=0 - сравнение строк
# return_index - номера строк исходной матрицы, которые остались
np.unique(matrix, axis=0, return_index=True)

(array([[0, 0, 0],
        [1, 2, 3],
        [4, 5, 6],
        [7, 8, 9]]),
 array([3, 0, 1, 4]))

______
______

Для каждой из следующих задач (1-5) нужно привести 2 реализации – одна без использования numpy (cчитайте, что там, где на входе или выходе должны быть numpy array, будут просто списки), а вторая полностью векторизованная с использованием numpy (без использования питоновских циклов/map/list comprehension).


__Замечание 1.__ Можно считать, что все указанные объекты непустые (к примеру, в __задаче 1__ на диагонали матрицы есть ненулевые элементы).

__Замечание 2.__ Для большинства задач решение занимает не больше 1-2 строк.

___

* __Задача 1__: Подсчитать произведение ненулевых элементов на диагонали прямоугольной матрицы.  
 Например, для X = np.array([[1, 0, 1], [2, 0, 2], [3, 0, 3], [4, 4, 4]]) ответ 3.

In [158]:
X = np.array([[1, 0, 1], [2, 0, 2], [3, 0, 3], [4, 4, 4]])
print(X)

[[1 0 1]
 [2 0 2]
 [3 0 3]
 [4 4 4]]


In [159]:
# --------- Numpy ---------
non_zero_elements = X.diagonal()[X.diagonal() != 0]

if non_zero_elements.size > 0:
    product = np.prod(non_zero_elements)
else:
    product = 0

print(f"Non zero elements: {non_zero_elements}")
print(f"Product: {product}")

Non zero elements: [1 3]
Product: 3


In [160]:
# --------- Python ---------
import math
def py_non_zero_elements(arr: list) -> int:
    prod = 1
    elements = [row[i] for i, row in zip(range(len(arr[0])), arr) if row[i] != 0]
    if elements:
        prod *= math.prod(elements)
        return prod
    return -1

print(f"Py product: {py_non_zero_elements(X)}")

Py product: 3


* __Задача 2__: Даны два вектора x и y. Проверить, задают ли они одно и то же мультимножество.  
  Например, для x = np.array([1, 2, 2, 4]), y = np.array([4, 2, 1, 2]) ответ True.

In [161]:
x = np.array([1, 2, 2, 4])
x

array([1, 2, 2, 4])

In [162]:
y = np.array([4, 2, 1, 2])
y

array([4, 2, 1, 2])

In [163]:
# --------- Numpy ---------

# Мультимножество - элементы и их количесво совпадают
# 1. Сортируем оба вектора
# 2. Сравниваем их поэлементно
# 3. Проверяем, что все элементы совпали
are_equal = np.array_equal(np.sort(x), np.sort(y))

print(f"Are equal? {are_equal}")

Are equal? True


In [164]:
# --------- Python ---------

from collections import Counter

print(f"Py equal: {Counter(x) == Counter(y)}")

Py equal: True


* __Задача 3__: Найти максимальный элемент в векторе x среди элементов, перед которыми стоит ноль. 
 Например, для x = np.array([6, 2, 0, 3, 0, 0, 5, 7, 0]) ответ 5.

In [165]:
x = np.array([6, 2, 0, 3, 0, 0, 5, 7, 0])
x

array([6, 2, 0, 3, 0, 0, 5, 7, 0])

In [166]:
# --------- Numpy ---------

# Получаем все элементы, стоящие после нулей
targets = x[1:][x[:-1] == 0]
print(f"Targets: {targets}")

if targets.size > 0:
    max_elem_after_zero = targets.max()
    print(f"Max element after 0: {max_elem_after_zero}")
else:
    print("No elements found")

Targets: [3 0 5]
Max element after 0: 5


In [167]:
# --------- Python ---------

py_targets = [curr for prev, curr in zip(x, x[1:]) if prev == 0]
if py_targets:
    print(f"Py max element after 0: {max(py_targets)}")

Py max element after 0: 5


* __Задача 4__: Реализовать кодирование длин серий (Run-length encoding). Для некоторого вектора x необходимо вернуть кортеж из двух векторов одинаковой длины. Первый содержит числа, а второй - сколько раз их нужно повторить.  
 Например, для x = np.array([2, 2, 2, 3, 3, 3, 5]) ответ (np.array([2, 3, 5]), np.array([3, 3, 1])).

In [168]:
x = np.array([2, 2, 2, 3, 3, 3, 5])
x

array([2, 2, 2, 3, 3, 3, 5])

In [169]:
# --------- Numpy ---------

# Находим индексы, где значения меняются
# Сравниваем соседние элементы: x[i] != x[i+1]
mask = x[1:] != x[:-1]

# Индексы изменений (добавляем индекс последнего элемента вручную)
indices = np.append(np.where(mask)[0], x.size - 1)

# Значения (первый вектор кортежа)
# Это просто элементы массива x в точках, где серия заканчивается
values = x[indices]

# Длины серий — это разность между индексами изменений
counts = np.diff(np.append(-1, indices))
print(f"Np: {values, counts}")

Np: (array([2, 3, 5]), array([3, 3, 1]))


In [170]:
# --------- Python ---------

from itertools import groupby

def py_rle(x):
    py_values = []
    py_counts = []

    # groupby собирает идущие подряд одинаковые элементы
    # k - сам элемент, g - итератор группы этих элементов
    for k, g in groupby(x):
        py_values.append(int(k))
        # Суммируем единицы для каждого элемента в группе, чтобы получить длину
        py_counts.append(sum(1 for _ in g))

    return py_values, py_counts

print(f"Py: {py_rle(x)}")

Py: ([2, 3, 5], [3, 3, 1])


* __Задача 5__: Даны две выборки объектов - X и Y. Вычислить матрицу евклидовых расстояний между объектами. Сравните с функцией scipy.spatial.distance.cdist по скорости работы.

In [171]:
import time
x = np.random.rand(1000, 30)
y = np.random.rand(1100, 30)

In [172]:
# NumPy
def np_dist(x, y):
    x_sq = np.sum(x**2, axis=1)[:, np.newaxis]
    y_sq = np.sum(y**2, axis=1)
    # Матричное умножение @
    return np.sqrt(np.maximum(x_sq + y_sq - 2 * x @ y.T, 0))

# Тайминг NumPy
start = time.time()
res_numpy = np_dist(x, y)
time_np = time.time() - start
print(f"Time NumPy: {time_np}")

Time NumPy: 0.015631675720214844


In [173]:
#Python
import math
def py_dist(x, y):
    result = []
    # по каждой строке матрицы 1
    for row_x in x:
        current_row_distances = []
        # по каждой строке матрицы 2
        for row_y in y:
            # считаем сумму квадратов разностей координат
            squared_dif_sum = 0
            for i in range(len(row_x)):
                dif = row_x[i] - row_y[i]
                squared_dif_sum += dif**2

            # извлекаем корень и добавляем текущую строку расстояний
            distane = math.sqrt(squared_dif_sum)
            current_row_distances.append(distane)

        result.append(current_row_distances)
    return result

x_list = x.tolist()
y_list = y.tolist()

start_py = time.time()
res_py = py_dist(x_list, y_list)
time_py = time.time() - start_py
print(f"Time Python: {time_py}")

Time Python: 4.90373682975769


In [174]:
from scipy.spatial.distance import cdist

# Тайминг SciPy cdist
start = time.time()
res_scipy = cdist(x, y, metric='euclidean')
time_scipy = time.time() - start
print(f"Time SciPy: {time_scipy}")

Time SciPy: 0.015128135681152344


_______
________

* #### __Задача 6__: CrunchieMunchies __*__

Вы работаете в отделе маркетинга пищевой компании MyCrunch, которая разрабатывает новый вид вкусных, полезных злаков под названием **CrunchieMunchies**.

Вы хотите продемонстрировать потребителям, насколько полезны ваши хлопья по сравнению с другими ведущими брендами, поэтому вы собрали данные о питании нескольких разных конкурентов.

Ваша задача - использовать вычисления Numpy для анализа этих данных и доказать, что ваши **СrunchieMunchies** - самый здоровый выбор для потребителей.


In [175]:
import numpy as np

1. Просмотрите файл cereal.csv. Этот файл содержит количества калорий для различных марок хлопьев. Загрузите данные из файла и сохраните их как calorie_stats.

In [176]:
calorie_stats = np.loadtxt("./data/cereal.csv", delimiter=",")
calorie_stats

array([ 70.00, 120.00,  70.00,  50.00, 110.00, 110.00, 110.00, 130.00,  90.00,  90.00, 120.00,
       110.00, 120.00, 110.00, 110.00, 110.00, 100.00, 110.00, 110.00, 110.00, 100.00, 110.00,
       100.00, 100.00, 110.00, 110.00, 100.00, 120.00, 120.00, 110.00, 100.00, 110.00, 100.00,
       110.00, 120.00, 120.00, 110.00, 110.00, 110.00, 140.00, 110.00, 100.00, 110.00, 100.00,
       150.00, 150.00, 160.00, 100.00, 120.00, 140.00,  90.00, 130.00, 120.00, 100.00,  50.00,
        50.00, 100.00, 100.00, 120.00, 100.00,  90.00, 110.00, 110.00,  80.00,  90.00,  90.00,
       110.00, 110.00,  90.00, 110.00, 140.00, 100.00, 110.00, 110.00, 100.00, 100.00, 110.00])

2. В одной порции CrunchieMunchies содержится 60 калорий. Насколько выше среднее количество калорий у ваших конкурентов?

Сохраните ответ в переменной average_calories и распечатайте переменную в терминале

In [177]:
crunchie_munchies_calories = 60
average_calories = np.mean(calorie_stats)
average_calories_diff = average_calories- crunchie_munchies_calories
print(f"Average calories: {average_calories}")
print(f"Average calories difference: {average_calories_diff}")

Average calories: 106.88311688311688
Average calories difference: 46.883116883116884


3. Корректно ли среднее количество калорий отражает распределение набора данных? Давайте отсортируем данные и посмотрим.

Отсортируйте данные и сохраните результат в переменной calorie_stats_sorted. Распечатайте отсортированную информацию

In [178]:
calorie_stats_sorted = np.sort(calorie_stats)
calorie_stats_sorted

array([ 50.00,  50.00,  50.00,  70.00,  70.00,  80.00,  90.00,  90.00,  90.00,  90.00,  90.00,
        90.00,  90.00, 100.00, 100.00, 100.00, 100.00, 100.00, 100.00, 100.00, 100.00, 100.00,
       100.00, 100.00, 100.00, 100.00, 100.00, 100.00, 100.00, 100.00, 110.00, 110.00, 110.00,
       110.00, 110.00, 110.00, 110.00, 110.00, 110.00, 110.00, 110.00, 110.00, 110.00, 110.00,
       110.00, 110.00, 110.00, 110.00, 110.00, 110.00, 110.00, 110.00, 110.00, 110.00, 110.00,
       110.00, 110.00, 110.00, 110.00, 120.00, 120.00, 120.00, 120.00, 120.00, 120.00, 120.00,
       120.00, 120.00, 120.00, 130.00, 130.00, 140.00, 140.00, 140.00, 150.00, 150.00, 160.00])

4. Похоже, что большинство значений выше среднего. Давайте посмотрим, является ли медиана наиболее корректным показателем набора данных.

Вычислите медиану набора данных и сохраните свой ответ в median_calories. Выведите медиану, чтобы вы могли видеть, как она сравнивается со средним значением.

In [179]:
median_calories = np.median(calorie_stats_sorted)
median_calories

np.float64(110.0)

5. В то время как медиана показывает, что по крайней мере половина наших значений составляет более 100 калорий, было бы более впечатляюще показать, что значительная часть конкурентов имеет более высокое количество калорий, чем CrunchieMunchies.

Рассчитайте различные процентили и распечатайте их, пока не найдете наименьший процентиль, превышающий 60 калорий. Сохраните это значение в переменной nth_percentile.

In [180]:
# Перебираем процентили от 1 до 100
for p in range(1, 101):
    current_percentile_value = np.percentile(calorie_stats, p)
    print(f"{p}th percentile: {current_percentile_value}")

    # Как только значение превысило 60, сохраняем и выходим из цикла
    if current_percentile_value > 60:
        nth_percentile = p
        break

# 4% Конкурентов имеют колорийность, равную нам или ниже
print(f"Final percentile: {nth_percentile}")

1th percentile: 50.0
2th percentile: 50.0
3th percentile: 55.599999999999994
4th percentile: 70.0
Final percentile: 4


6. Хотя процентиль показывает нам, что у большинства конкурентов количество калорий намного выше, это неудобная концепция для использования в маркетинговых материалах.

Вместо этого давайте подсчитаем процент хлопьев, в которых содержится более 60 калорий на порцию. Сохраните свой ответ в переменной more_calories и распечатайте его

In [181]:
more_calories = np.mean(calorie_stats > 60) * 100
more_calories

np.float64(96.1038961038961)

7. Это действительно высокий процент. Это будет очень полезно, когда мы будем продвигать CrunchieMunchies. Но один вопрос заключается в том, насколько велики различия в наборе данных? Можем ли мы сделать обобщение, что в большинстве злаков содержится около 100 калорий или разброс еще больше?

Рассчитайте величину отклонения, найдя стандартное отклонение, Сохраните свой ответ в calorie_std и распечатайте на терминале. Как мы можем включить эту ценность в наш анализ?

In [182]:
calorie_std = np.std(calorie_stats)
calorie_std

np.float64(19.35718533390827)

8. Напишите короткий абзац, в котором кратко изложите свои выводы и то, как, по вашему мнению, эти данные могут быть использованы в интересах Mycrunch при маркетинге CrunchieMunchies.

In [183]:
#Выбирайте CrunchieMunchies! Мы гарантируем стабильные 60 калорий в каждой пачке!