## Упражнения по библиотеке Numpy

In [3]:
import numpy as np

**1.** Дан случайный массив, поменять знак у элементов, значения которых между 3 и 8

In [12]:
arr = np.random.randint(-10, 10, size=10)
print('before: ', arr)
arr[(3 < arr) & (arr <= 8)] *= -1
print('after:  ', arr)

before:  [  0  -4   6 -10   0  -5   8  -6   5  -3]
after:   [  0  -4  -6 -10   0  -5  -8  -6  -5  -3]


**2.** Заменить максимальный элемент случайного массива на 0

In [10]:
arr = np.random.randint(-10, 15, size=10)
print('before: ', arr)
arr[arr.argmax()] = 0
print('after:  ', arr)

before:  [  7  -1   2  -8  12  13  14   8   2 -10]
after:   [  7  -1   2  -8  12  13   0   8   2 -10]


**3.** Построить прямое произведение массивов (все комбинации с каждым элементом). На вход подается двумерный массив

In [46]:
def cartesian_product(arrays):
    arrays = [np.asarray(array) for array in arrays]
    shape = map(len, arrays)

    ix = np.indices(shape, dtype=int)
    ix = ix.reshape(len(arrays), -1).T

    for n, _ in enumerate(arrays):
        ix[:, n] = arrays[n][ix[:, n]]

    return ix


arr = np.random.randint(-9, 10, (3, 2))

print(f'before:\n{arr}\n')
print(f'after:\n{cartesian_product(arr)}')

before:
[[-8  9]
 [ 0  2]
 [ 0 -7]]

after:
[[-8  0  0]
 [-8  0 -7]
 [-8  2  0]
 [-8  2 -7]
 [ 9  0  0]
 [ 9  0 -7]
 [ 9  2  0]
 [ 9  2 -7]]


**4.** Даны 2 массива A (8x3) и B (2x2). Найти строки в A, которые содержат элементы из каждой строки в B, независимо от порядка элементов в B

In [21]:
a = np.random.randint(0, 4, size=(8, 3))
print(f'A:\n{a}\n')

b = np.random.randint(0, 4, size=(2, 2))
print(f'B:\n{b}\n')

index = [np.setdiff1d(b[0], i).size == 0 and np.setdiff1d(b[1], i).size == 0 for i in a]
print('Rows in A with each unique element from B:\n', a[index])

A:
[[2 3 3]
 [0 2 1]
 [3 3 1]
 [2 1 2]
 [1 0 1]
 [0 2 3]
 [0 3 3]
 [1 3 0]]

B:
[[3 2]
 [2 3]]

Rows in A with each unique element from B:
 [[2 3 3]
 [0 2 3]]


**5.** Дана 10x3 матрица, найти строки из неравных значений (например строка [2,2,3] остается, строка [3,3,3] удаляется)

In [20]:
arr = np.random.randint(0, 4, (10, 3))
print(f'before:\n{arr}\n')

unique_ind = [np.unique(i).size != 1 for i in arr]
print(f'after:\n{arr[unique_ind]}')

before:
[[2 0 3]
 [2 1 1]
 [0 3 2]
 [2 2 0]
 [0 1 3]
 [1 2 3]
 [1 0 0]
 [1 1 0]
 [2 1 0]
 [1 1 1]]

after:
[[2 0 3]
 [2 1 1]
 [0 3 2]
 [2 2 0]
 [0 1 3]
 [1 2 3]
 [1 0 0]
 [1 1 0]
 [2 1 0]]


**6.** Дан двумерный массив. Удалить те строки, которые повторяются

In [19]:
arr = np.random.randint(0, 4, (7, 2))
print(f'before:\n{arr}\n')

arr, ind = np.unique(arr, axis=0, return_index=True)
arr = arr[ind.argsort()]

print(f'after:\n{arr}')

before:
[[2 0]
 [2 3]
 [2 3]
 [3 3]
 [3 3]
 [0 3]
 [2 3]]

after:
[[2 0]
 [2 3]
 [3 3]
 [0 3]]


______
______

Для каждой из следующих задач (1-5) нужно привести 2 реализации – одна без использования numpy (cчитайте, что там, где на входе или выходе должны быть numpy array, будут просто списки), а вторая полностью векторизованная с использованием numpy (без использования питоновских циклов/map/list comprehension).


__Замечание 1.__ Можно считать, что все указанные объекты непустые (к примеру, в __задаче 1__ на диагонали матрицы есть ненулевые элементы).

__Замечание 2.__ Для большинства задач решение занимает не больше 1-2 строк.

___

* __Задача 1__: Подсчитать произведение ненулевых элементов на диагонали прямоугольной матрицы.  
 Например, для X = np.array([[1, 0, 1], [2, 0, 2], [3, 0, 3], [4, 4, 4]]) ответ 3.

In [39]:
from functools import reduce

x = [[1, 0, 1], [2, 0, 2], [3, 0, 3], [4, 4, 4]]
print('Initial array:\n', x)

#python
result_python = reduce(lambda a, b: a * b, [x[i][i] if x[i][i] != 0 else 1 for i in range(min(len(x), len(x[0])))])
print('result(python): ', result_python)
#numpy
x = np.array(x)
result_numpy = np.prod(np.diag(x)[np.diag(x)!=0])
print('result(numpy): ', result_numpy)

Initial array:
 [[1, 0, 1], [2, 0, 2], [3, 0, 3], [4, 4, 4]]
result(python):  3
result(numpy):  3


* __Задача 2__: Даны два вектора x и y. Проверить, задают ли они одно и то же мультимножество.  
  Например, для x = np.array([1, 2, 2, 4]), y = np.array([4, 2, 1, 2]) ответ True.

In [41]:
from collections import Counter

#python
x = [1, 2, 2, 4]
y = [4, 2, 1, 2]
result_python = Counter(x) == Counter(y)

#numpy
x = np.array(x)
y = np.array(y)
result_numpy = np.array_equal(np.sort(x), np.sort(y))

print(f'result (python): {result_python}')
print(f'result (numpy): {result_numpy}')

result (python): True
result (numpy): True


* __Задача 3__: Найти максимальный элемент в векторе x среди элементов, перед которыми стоит ноль. 
 Например, для x = np.array([6, 2, 0, 3, 0, 0, 5, 7, 0]) ответ 5.

In [42]:
#python
x = [6, 2, 0, 3, 0, 0, 5, 7, 0]
max_python = max([x[i] for i in range(1, len(x)) if x[i - 1] == 0])

#numpy
x = np.array(x)
max_numpy = np.max(x[np.where(x[:-1] == 0)[0] + 1])

print(f'result (python): {max_python}')
print(f'result (numpy): {max_numpy}')

result (python): 5
result (numpy): 5


* __Задача 4__: Реализовать кодирование длин серий (Run-length encoding). Для некоторого вектора x необходимо вернуть кортеж из двух векторов одинаковой длины. Первый содержит числа, а второй - сколько раз их нужно повторить.  
 Например, для x = np.array([2, 2, 2, 3, 3, 3, 5]) ответ (np.array([2, 3, 5]), np.array([3, 3, 1])).

In [43]:
#python
x = [2, 2, 2, 3, 3, 3, 5]
result_python = list(set(x)), [x.count(i) for i in set(x)]

#numpy
x = np.array(x)
result_numpy = np.unique(x, return_counts=True)

print(f'result (python): {result_python}')
print(f'result (numpy): {result_numpy}')

result (python): ([2, 3, 5], [3, 3, 1])
result (numpy): (array([2, 3, 5]), array([3, 3, 1], dtype=int64))


* __Задача 5__: Даны две выборки объектов - X и Y. Вычислить матрицу евклидовых расстояний между объектами. Сравните с функцией scipy.spatial.distance.cdist по скорости работы.

In [45]:
from scipy.spatial import distance

#python
def eucl_dist_python(x, y):
    return distance.cdist(x, y, 'euclidean')

#numpy
def eucl_dist_numpy(x, y):
    return np.sqrt(np.abs(np.add.outer(np.sum(x ** 2, axis=1), np.sum(y ** 2, axis=1)) - 2 * np.dot(x, y.T)))

x = np.random.randint(-15, 15, (4, 4))
y = np.random.randint(-15, 15, (4, 4))
result_numpy = eucl_dist_numpy(x, y)

x = x.tolist()
y = y.tolist()
result_python = eucl_dist_python(x, y)

print(f'result (python):\n{result_python}\n')
print(f'result (numpy):\n{result_numpy}')

result (python):
[[16.09347694 18.1934054  27.69476485 32.68026928]
 [20.5669638  20.61552813 11.87434209 25.0998008 ]
 [23.06512519 23.19482701 24.20743687 16.94107435]
 [27.         27.69476485 26.36285265 17.3781472 ]]

result (numpy):
[[16.09347694 18.1934054  27.69476485 32.68026928]
 [20.5669638  20.61552813 11.87434209 25.0998008 ]
 [23.06512519 23.19482701 24.20743687 16.94107435]
 [27.         27.69476485 26.36285265 17.3781472 ]]


_______
________

* #### __Задача 6__: CrunchieMunchies __*__

Вы работаете в отделе маркетинга пищевой компании MyCrunch, которая разрабатывает новый вид вкусных, полезных злаков под названием **CrunchieMunchies**.

Вы хотите продемонстрировать потребителям, насколько полезны ваши хлопья по сравнению с другими ведущими брендами, поэтому вы собрали данные о питании нескольких разных конкурентов.

Ваша задача - использовать вычисления Numpy для анализа этих данных и доказать, что ваши **СrunchieMunchies** - самый здоровый выбор для потребителей.


In [22]:
import numpy as np

1. Просмотрите файл cereal.csv. Этот файл содержит количества калорий для различных марок хлопьев. Загрузите данные из файла и сохраните их как calorie_stats.

In [23]:
calorie_stats = np.loadtxt("./data/cereal.csv", delimiter=",")
calorie_stats

array([ 70., 120.,  70.,  50., 110., 110., 110., 130.,  90.,  90., 120.,
       110., 120., 110., 110., 110., 100., 110., 110., 110., 100., 110.,
       100., 100., 110., 110., 100., 120., 120., 110., 100., 110., 100.,
       110., 120., 120., 110., 110., 110., 140., 110., 100., 110., 100.,
       150., 150., 160., 100., 120., 140.,  90., 130., 120., 100.,  50.,
        50., 100., 100., 120., 100.,  90., 110., 110.,  80.,  90.,  90.,
       110., 110.,  90., 110., 140., 100., 110., 110., 100., 100., 110.])

2. В одной порции CrunchieMunchies содержится 60 калорий. Насколько выше среднее количество калорий у ваших конкурентов?

Сохраните ответ в переменной average_calories и распечатайте переменную в терминале

In [27]:
crunchie_calories = 60
average_calories = np.mean(calorie_stats) - crunchie_calories

print(f'The average number of calories of other cereal is {average_calories} more than the average number of calories of CrunchieMunchies')

The average number of calories of other cereal is 46.883116883116884 more than the average number of calories of CrunchieMunchies


3. Корректно ли среднее количество калорий отражает распределение набора данных? Давайте отсортируем данные и посмотрим.

Отсортируйте данные и сохраните результат в переменной calorie_stats_sorted. Распечатайте отсортированную информацию

In [26]:
calorie_stats_sorted = np.sort(calorie_stats)
calorie_stats_sorted

array([ 50.,  50.,  50.,  70.,  70.,  80.,  90.,  90.,  90.,  90.,  90.,
        90.,  90., 100., 100., 100., 100., 100., 100., 100., 100., 100.,
       100., 100., 100., 100., 100., 100., 100., 100., 110., 110., 110.,
       110., 110., 110., 110., 110., 110., 110., 110., 110., 110., 110.,
       110., 110., 110., 110., 110., 110., 110., 110., 110., 110., 110.,
       110., 110., 110., 110., 120., 120., 120., 120., 120., 120., 120.,
       120., 120., 120., 130., 130., 140., 140., 140., 150., 150., 160.])

4. Похоже, что большинство значений выше среднего. Давайте посмотрим, является ли медиана наиболее корректным показателем набора данных.

Вычислите медиану набора данных и сохраните свой ответ в median_calories. Выведите медиану, чтобы вы могли видеть, как она сравнивается со средним значением.

In [28]:
median_calories = np.median(calorie_stats_sorted)
print('Median of the data set:', median_calories)

Median of the data set: 110.0


5. В то время как медиана показывает, что по крайней мере половина наших значений составляет более 100 калорий, было бы более впечатляюще показать, что значительная часть конкурентов имеет более высокое количество калорий, чем CrunchieMunchies.

Рассчитайте различные процентили и распечатайте их, пока не найдете наименьший процентиль, превышающий 60 калорий. Сохраните это значение в переменной nth_percentile.

In [29]:
nth_percentile, percentiles_list= .0, []
while np.percentile(calorie_stats, nth_percentile) <= 60:
    nth_percentile += 0.01
    percentiles_list.append((round(nth_percentile, 3), np.percentile(calorie_stats, nth_percentile)))

print('The smallest percentile over 60 calories:', nth_percentile)
percentiles_list

The smallest percentile over 60 calories: 3.289999999999974


[(0.01, 50.0),
 (0.02, 50.0),
 (0.03, 50.0),
 (0.04, 50.0),
 (0.05, 50.0),
 (0.06, 50.0),
 (0.07, 50.0),
 (0.08, 50.0),
 (0.09, 50.0),
 (0.1, 50.0),
 (0.11, 50.0),
 (0.12, 50.0),
 (0.13, 50.0),
 (0.14, 50.0),
 (0.15, 50.0),
 (0.16, 50.0),
 (0.17, 50.0),
 (0.18, 50.0),
 (0.19, 50.0),
 (0.2, 50.0),
 (0.21, 50.0),
 (0.22, 50.0),
 (0.23, 50.0),
 (0.24, 50.0),
 (0.25, 50.0),
 (0.26, 50.0),
 (0.27, 50.0),
 (0.28, 50.0),
 (0.29, 50.0),
 (0.3, 50.0),
 (0.31, 50.0),
 (0.32, 50.0),
 (0.33, 50.0),
 (0.34, 50.0),
 (0.35, 50.0),
 (0.36, 50.0),
 (0.37, 50.0),
 (0.38, 50.0),
 (0.39, 50.0),
 (0.4, 50.0),
 (0.41, 50.0),
 (0.42, 50.0),
 (0.43, 50.0),
 (0.44, 50.0),
 (0.45, 50.0),
 (0.46, 50.0),
 (0.47, 50.0),
 (0.48, 50.0),
 (0.49, 50.0),
 (0.5, 50.0),
 (0.51, 50.0),
 (0.52, 50.0),
 (0.53, 50.0),
 (0.54, 50.0),
 (0.55, 50.0),
 (0.56, 50.0),
 (0.57, 50.0),
 (0.58, 50.0),
 (0.59, 50.0),
 (0.6, 50.0),
 (0.61, 50.0),
 (0.62, 50.0),
 (0.63, 50.0),
 (0.64, 50.0),
 (0.65, 50.0),
 (0.66, 50.0),
 (0.67, 50.0),
 

6. Хотя процентиль показывает нам, что у большинства конкурентов количество калорий намного выше, это неудобная концепция для использования в маркетинговых материалах.

Вместо этого давайте подсчитаем процент хлопьев, в которых содержится более 60 калорий на порцию. Сохраните свой ответ в переменной more_calories и распечатайте его

In [33]:
more_calories = len(calorie_stats[calorie_stats_sorted > 60]) / len(calorie_stats_sorted)
print(f'{more_calories*100} % of other cereal contain more calories than CrunchieMunchies')

96.1038961038961 % of other cereal contain more calories than CrunchieMunchies


7. Это действительно высокий процент. Это будет очень полезно, когда мы будем продвигать CrunchieMunchies. Но один вопрос заключается в том, насколько велики различия в наборе данных? Можем ли мы сделать обобщение, что в большинстве злаков содержится около 100 калорий или разброс еще больше?

Рассчитайте величину отклонения, найдя стандартное отклонение, Сохраните свой ответ в calorie_std и распечатайте на терминале. Как мы можем включить эту ценность в наш анализ?

In [34]:
calorie_std = np.std(calorie_stats)
print('The standard deviation is', calorie_std)

The standard deviation is 19.35718533390827


8. Напишите короткий абзац, в котором кратко изложите свои выводы и то, как, по вашему мнению, эти данные могут быть использованы в интересах Mycrunch при маркетинге CrunchieMunchies.

In [167]:
справедливо сказать, что хлопья CrunchieMunchies практически лучшие в плане калорийности(меньше ккал чем у 96% хлопьев). однако
значение стандартного отклонения - 19 при размере выборки 77. это означает, что разброс достаточно большой, что делает данные 
ненадёжными. таким образом, нельзя сказать, что в большинстве злаков, в отличие от CrunchieMunchies, содержится около 100 ккал:
вероятно, разброс больше. тем не менее, это может быть использовано в маркетинговых целях.

исходя из полученных данных, а именно медианы и процентиля, также можно сказать, что стандартная порция
CrunchieMunchies содержит на 50 ккал меньше, чем такая же порция хлопьев как минимум половины их конкурентов, что само по себе
является хорошим подспорьем для маркетинга. 

