## Упражнения по библиотеке Numpy

In [27]:
import numpy as np
import math
import time
from scipy import spatial

**1.** Дан случайный массив, поменять знак у элементов, значения которых между 3 и 8

In [2]:
random_array = np.random.randint(1, 10, size=(2, 5))

print("Исходный массив:")
print(random_array)

random_array[(random_array > 3) & (random_array < 8)] *= -1

print("\nИзмененный массив:")
print(random_array)

Исходный массив:
[[4 5 4 1 7]
 [7 4 3 3 5]]

Измененный массив:
[[-4 -5 -4  1 -7]
 [-7 -4  3  3 -5]]


**2.** Заменить максимальный элемент случайного массива на 0

In [3]:
random_array = np.random.randint(1, 10, size=(2, 5))

print("Исходный массив:")
print(random_array)

max_value = np.max(random_array)

random_array[random_array == max_value] = 0

print("\nИзмененный массив:")
print(random_array)

Исходный массив:
[[1 5 9 4 5]
 [5 3 8 9 1]]

Измененный массив:
[[1 5 0 4 5]
 [5 3 8 0 1]]


**3.** Построить прямое произведение массивов (все комбинации с каждым элементом). На вход подается двумерный массив

In [4]:
def cartesian(arrays):
    arrays = [np.asarray(a) for a in arrays]
    shape = (len(x) for x in arrays)

    ix = np.indices(shape, dtype=int)
    cartesian = np.transpose([x.flatten() for x in ix])

    result = np.array([tuple(arr[i] for arr, i in zip(arrays, indices)) for indices in cartesian])

    return result


result = cartesian([[1, 2, 3], ['a', 'b']])
print("Прямое произведение массивов:")
print(result)

Прямое произведение массивов:
[['1' 'a']
 ['1' 'b']
 ['2' 'a']
 ['2' 'b']
 ['3' 'a']
 ['3' 'b']]


**4.** Даны 2 массива A (8x3) и B (2x2). Найти строки в A, которые содержат элементы из каждой строки в B, независимо от порядка элементов в B

In [28]:
A = np.random.randint(1, 10, size=(8, 3))
B = np.random.randint(1, 10, size=(2, 2))

print("Исходный массив A:")
print(A)
print("\nИсходный массив B:")
print(B)

result_indices = []

# Перебираем строки в массиве A
for i, row_A in enumerate(A):
    # Проверяем, содержит ли текущая строка ВСЕ элементы из каждой строки в B
    if any(np.isin(row_B, row_A).all() for row_B in B):
        result_indices.append(i)

# Используем индексы, чтобы получить соответствующие строки из массива A
result_rows = A[result_indices, :]

# Выводим результат
print("\nСтроки в A, удовлетворяющие условию:")
print(result_rows)

Исходный массив A:
[[3 8 1]
 [7 4 1]
 [2 4 4]
 [9 6 6]
 [5 9 5]
 [2 6 9]
 [8 2 5]
 [2 7 1]]

Исходный массив B:
[[4 9]
 [2 1]]

Строки в A, удовлетворяющие условию:
[[2 7 1]]


**5.** Дана 10x3 матрица, найти строки из неравных значений (например строка [2,2,3] остается, строка [3,3,3] удаляется)

In [6]:
matrix = np.array([[2, 2, 3],
                   [3, 3, 3],
                   [1, 2, 1]])

print("Исходная матрица:")
print(matrix)

rows_with_unequal_values = np.any(matrix[:, 1:] != matrix[:, :-1], axis=1)

# Используем индексы для выбора нужных строк
result_matrix = matrix[rows_with_unequal_values]

print("\nРезультат:")
print(result_matrix)

Исходная матрица:
[[2 2 3]
 [3 3 3]
 [1 2 1]]

Результат:
[[2 2 3]
 [1 2 1]]


**6.** Дан двумерный массив. Удалить те строки, которые повторяются

In [7]:
matrix = np.array([[1, 1, 1],
                   [2, 2, 2],
                   [3, 3, 3],
                   [1, 1, 1],
                   [4, 4, 4],
                   [3, 3, 3]])

print("Исходная матрица:")
print(matrix)

res = np.unique(matrix, axis=0)

print("\nРезультат:")
print(res)

Исходная матрица:
[[1 1 1]
 [2 2 2]
 [3 3 3]
 [1 1 1]
 [4 4 4]
 [3 3 3]]

Результат:
[[1 1 1]
 [2 2 2]
 [3 3 3]
 [4 4 4]]


______
______

Для каждой из следующих задач (1-5) нужно привести 2 реализации – одна без использования numpy (cчитайте, что там, где на входе или выходе должны быть numpy array, будут просто списки), а вторая полностью векторизованная с использованием numpy (без использования питоновских циклов/map/list comprehension).


__Замечание 1.__ Можно считать, что все указанные объекты непустые (к примеру, в __задаче 1__ на диагонали матрицы есть ненулевые элементы).

__Замечание 2.__ Для большинства задач решение занимает не больше 1-2 строк.

___

* __Задача 1__: Подсчитать произведение ненулевых элементов на диагонали прямоугольной матрицы.  
 Например, для X = np.array([[1, 0, 1], [2, 0, 2], [3, 0, 3], [4, 4, 4]]) ответ 3.

In [8]:
x = [[1, 0, 1], [2, 0, 2], [3, 0, 3], [4, 4, 4]]

product = 1
for i in range(len(x)):
    for j in range(len(x[i])):
        if i == j and x[i][j] != 0:
            product *= x[i][j]

print(product)

3


In [9]:
x = [[1, 0, 1], [2, 0, 2], [3, 0, 3], [4, 4, 4]]

diagonal_elements = np.diagonal(x)
product = np.prod(diagonal_elements[diagonal_elements != 0])

print(product)

3


* __Задача 2__: Даны два вектора x и y. Проверить, задают ли они одно и то же мультимножество.  
  Например, для x = np.array([1, 2, 2, 4]), y = np.array([4, 2, 1, 2]) ответ True.

In [10]:
x = [1, 2, 2, 4]
y = [4, 2, 1, 2]

print(sorted(x) == sorted(y))

True


In [11]:
x = np.array([1, 2, 2, 4])
y = np.array([4, 2, 1, 2])

print(np.array_equal(np.sort(x), np.sort(y)))

True


* __Задача 3__: Найти максимальный элемент в векторе x среди элементов, перед которыми стоит ноль. 
 Например, для x = np.array([6, 2, 0, 3, 0, 0, 5, 7, 0]) ответ 5.

In [12]:
x = [6, 2, 0, 3, 0, 0, 5, 7, 0]

max = int()
zero_found = False

for i in range(len(x) - 1):
    if x[i] == 0 and x[i + 1] > max:
        max = x[i + 1]

print(max)

5


In [13]:
x = np.array([6, 2, 0, 3, 0, 0, 5, 7, 0])

indices_of_zeros = np.where(x[:-1] == 0)[0]
max_element = np.max(x[indices_of_zeros + 1])
print(max_element)

5


* __Задача 4__: Реализовать кодирование длин серий (Run-length encoding). Для некоторого вектора x необходимо вернуть кортеж из двух векторов одинаковой длины. Первый содержит числа, а второй - сколько раз их нужно повторить.  
 Например, для x = np.array([2, 2, 2, 3, 3, 3, 5]) ответ (np.array([2, 3, 5]), np.array([3, 3, 1])).

In [14]:
x = [2, 2, 2, 3, 3, 3, 5]

numbers = [x[0]]
count = [0]

for i in range(len(x)):
    if x[i] != numbers[-1]:
        numbers.append(x[i])
        count.append(1)
    else:
        count[-1] += 1

print((numbers, count))

([2, 3, 5], [3, 3, 1])


In [15]:
x = np.array([2, 2, 2, 3, 3, 3, 5])

print(np.unique(x, return_counts=True))

(array([2, 3, 5]), array([3, 3, 1], dtype=int64))


* __Задача 5__: Даны две выборки объектов - X и Y. Вычислить матрицу евклидовых расстояний между объектами. Сравните с функцией scipy.spatial.distance.cdist по скорости работы.

In [16]:
X = [[1, 2, 3], [4, 5, 6], [7, 8, 9]]
Y = [[9, 8, 7], [6, 5, 4], [3, 2, 1]]

start_time = time.time()

distances = [
    [round(math.sqrt(sum((x - y) ** 2 for x, y in zip(X[i], Y[j]))), 8) for j in range(len(Y))]
    for i in range(len(X))
]

end_time = time.time()
py_time = end_time-start_time

print("Матрица евклидовых расстояний:")
print(distances)
print("Время:")
print(py_time)

Матрица евклидовых расстояний:
[[10.77032961, 5.91607978, 2.82842712], [5.91607978, 2.82842712, 5.91607978], [2.82842712, 5.91607978, 10.77032961]]
Время:
0.0010058879852294922


In [27]:
X = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
Y = np.array([[9, 8, 7], [6, 5, 4], [3, 2, 1]])

start_time = time.time()

distances_np = np.sqrt(np.sum((X[:, np.newaxis, :] - Y) ** 2, axis=2))

end_time = time.time()
numpy_time = end_time-start_time

print("Матрица евклидовых расстояний:")
print(distances_np)
print("Время:")
print(numpy_time)

Матрица евклидовых расстояний:
[[10.77032961  5.91607978  2.82842712]
 [ 5.91607978  2.82842712  5.91607978]
 [ 2.82842712  5.91607978 10.77032961]]
Время:
0.0009970664978027344


In [28]:
print("Сравнение скорости работы:")
if py_time < numpy_time:
    print("Код без использования numpy быстрее.") 
elif numpy_time < py_time:
    print("Код с использованием numpy быстрее.")
else:
    print("Время выполнения одинаково.")

Сравнение скорости работы:
Код с использованием numpy быстрее.


_______
________

* #### __Задача 6__: CrunchieMunchies __*__

Вы работаете в отделе маркетинга пищевой компании MyCrunch, которая разрабатывает новый вид вкусных, полезных злаков под названием **CrunchieMunchies**.

Вы хотите продемонстрировать потребителям, насколько полезны ваши хлопья по сравнению с другими ведущими брендами, поэтому вы собрали данные о питании нескольких разных конкурентов.

Ваша задача - использовать вычисления Numpy для анализа этих данных и доказать, что ваши **СrunchieMunchies** - самый здоровый выбор для потребителей.


In [19]:
import numpy as np

1. Просмотрите файл cereal.csv. Этот файл содержит количества калорий для различных марок хлопьев. Загрузите данные из файла и сохраните их как calorie_stats.

In [20]:
calorie_stats = np.loadtxt("../data/cereal.csv", delimiter=",")
calorie_stats

array([ 70., 120.,  70.,  50., 110., 110., 110., 130.,  90.,  90., 120.,
       110., 120., 110., 110., 110., 100., 110., 110., 110., 100., 110.,
       100., 100., 110., 110., 100., 120., 120., 110., 100., 110., 100.,
       110., 120., 120., 110., 110., 110., 140., 110., 100., 110., 100.,
       150., 150., 160., 100., 120., 140.,  90., 130., 120., 100.,  50.,
        50., 100., 100., 120., 100.,  90., 110., 110.,  80.,  90.,  90.,
       110., 110.,  90., 110., 140., 100., 110., 110., 100., 100., 110.])

2. В одной порции CrunchieMunchies содержится 60 калорий. Насколько выше среднее количество калорий у ваших конкурентов?

Сохраните ответ в переменной average_calories и распечатайте переменную в терминале

In [21]:
calories = 60
average_calories = np.mean(calorie_stats)
average_difference = np.round(abs(calories - average_calories))

print("Разница:")
print(average_difference)

Разница:
47.0


3. Корректно ли среднее количество калорий отражает распределение набора данных? Давайте отсортируем данные и посмотрим.

Отсортируйте данные и сохраните результат в переменной calorie_stats_sorted. Распечатайте отсортированную информацию

In [22]:
calorie_stats_sorted = np.sort(calorie_stats)
calorie_stats_sorted

array([ 50.,  50.,  50.,  70.,  70.,  80.,  90.,  90.,  90.,  90.,  90.,
        90.,  90., 100., 100., 100., 100., 100., 100., 100., 100., 100.,
       100., 100., 100., 100., 100., 100., 100., 100., 110., 110., 110.,
       110., 110., 110., 110., 110., 110., 110., 110., 110., 110., 110.,
       110., 110., 110., 110., 110., 110., 110., 110., 110., 110., 110.,
       110., 110., 110., 110., 120., 120., 120., 120., 120., 120., 120.,
       120., 120., 120., 130., 130., 140., 140., 140., 150., 150., 160.])

4. Похоже, что большинство значений выше среднего. Давайте посмотрим, является ли медиана наиболее корректным показателем набора данных.

Вычислите медиану набора данных и сохраните свой ответ в median_calories. Выведите медиану, чтобы вы могли видеть, как она сравнивается со средним значением.

In [23]:
median_calories = np.median(calorie_stats)
median_calories

110.0

5. В то время как медиана показывает, что по крайней мере половина наших значений составляет более 100 калорий, было бы более впечатляюще показать, что значительная часть конкурентов имеет более высокое количество калорий, чем CrunchieMunchies.

Рассчитайте различные процентили и распечатайте их, пока не найдете наименьший процентиль, превышающий 60 калорий. Сохраните это значение в переменной nth_percentile.

In [24]:
nth_percentile = np.percentile(calorie_stats, 4)
nth_percentile

70.0

6. Хотя процентиль показывает нам, что у большинства конкурентов количество калорий намного выше, это неудобная концепция для использования в маркетинговых материалах.

Вместо этого давайте подсчитаем процент хлопьев, в которых содержится более 60 калорий на порцию. Сохраните свой ответ в переменной more_calories и распечатайте его

In [25]:
more_calories = np.round(100*len(calorie_stats[calorie_stats > 60])/len(calorie_stats))
more_calories

96.0

7. Это действительно высокий процент. Это будет очень полезно, когда мы будем продвигать CrunchieMunchies. Но один вопрос заключается в том, насколько велики различия в наборе данных? Можем ли мы сделать обобщение, что в большинстве злаков содержится около 100 калорий или разброс еще больше?

Рассчитайте величину отклонения, найдя стандартное отклонение, Сохраните свой ответ в calorie_std и распечатайте на терминале. Как мы можем включить эту ценность в наш анализ?

In [26]:
calorie_std = np.std(calorie_stats)
calorie_std

19.35718533390827

8. Напишите короткий абзац, в котором кратко изложите свои выводы и то, как, по вашему мнению, эти данные могут быть использованы в интересах Mycrunch при маркетинге CrunchieMunchies.

### Вывод:
На основе проведенного анализа данных о калорийности злаков, мы пришли к нескольким ключевым выводам, подчеркивающим превосходство CrunchieMunchies в контексте здорового питания. 

Во-первых, среднее количество калорий в порции CrunchieMunchies (60 калорий) заметно ниже среднего у конкурентов (107 калорий). Это свидетельствует о том, что наши хлопья предлагают более легкий и здоровый вариант для потребителей.

Во-вторых, анализ процентилей показывает, что всего 4% конкурентов имеют калорийность менее 60, что делает CrunchieMunchies значительно более привлекательным выбором для тех, кто следит за своим здоровьем.

Эти выводы предоставляют нам сильные аргументы для маркетинговой кампании CrunchieMunchies. Мы можем акцентировать внимание на низкой калорийности в сравнении с конкурентами, выделяя не только среднюю, но и медианную калорийность, что подчеркнет уникальность продукта. Кроме того, важно подчеркнуть, что значительная часть рынка предлагает продукты с высоким содержанием калорий, в то время как CrunchieMunchies являются исключением, предоставляя здоровую и легкую альтернативу.