<center>
<img src="https://cdn.megabonus.com/images/shop_logo/skillbox.png"/> 
    
# Курс аналитик данных на Python
## Модуль 2.1. Numpy basics. Ищем пересечение в 2-х массивах.

Это библиотека для всевозможных математических операций, с большим количеством реализованных методов и возможностью реализовывать свою логику эффективно.  <br>
Например векторные и матричные произведения, которые используюся в машинном обучении, а также рассчет различных статистик. 

Импортируем библиотеку [**numpy**](https://docs.scipy.org/doc/numpy-1.15.1/reference/) и сократим ее название для удобства и поддержания общепринятых обозначений. <br>

In [3]:
import numpy as np

Основа [**numpy**](https://docs.scipy.org/doc/numpy-1.15.1/reference/) это вектора (**array**) и матрицы (**matrix**).<br>
Создадим вектор и попробуем возможности библиотеки.

### Вектора

In [0]:
a = np.array([1, 2, 3, 4, 5])

In [0]:
print(type(a))

<class 'numpy.ndarray'>


In [0]:
print(a.shape)

(5,)


In [0]:
print(a[0], a[1], a[3]) # индексация по элементам

1 2 4


In [0]:
a[:2] # индексация диапазоном

array([1, 2])

In [0]:
a[-2:] # берем последний элемент в массиве

array([4, 5])

In [0]:
a[::-1] # перевернуть массив

array([5, 4, 3, 2, 1])

In [0]:
a[0] = 5 # операция присвоения
a

array([5, 2, 3, 4, 5])

In [0]:
print(a + 5)

b = np.array([1, 2.0, 3, 4, 'lol'])
b * 5

[10  7  8  9 10]


TypeError: ufunc 'multiply' did not contain a loop with signature matching types dtype('<U32') dtype('<U32') dtype('<U32')

### Матрицы 

Матрицы по сути это таблички без границ.

In [4]:
a = np.array([[1,2,3,4], [5,6,7,8], [9,10,11,12]])

In [0]:
a[:,::]

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [0]:
print(type(a))

<class 'numpy.ndarray'>


In [5]:
a[:,::-1]

array([[ 4,  3,  2,  1],
       [ 8,  7,  6,  5],
       [12, 11, 10,  9]])

In [6]:
print('Наша матрица:')
print(a)
print('---')
print('Наша распрямленная матрица:')
print(a.flatten())

Наша матрица:
[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]]
---
Наша распрямленная матрица:
[ 1  2  3  4  5  6  7  8  9 10 11 12]


In [7]:
a.nbytes

96

In [0]:
a.shape

(3, 4)

In [8]:
a.shape[0]* a.shape[1]*8

96

In [14]:
row_r1 = a[1, :] # Индексируемся по строкам матрицы. Первый ряд, помните о том что индексация в Python начинается с 0.
row_r1

array([5, 6, 7, 8])

In [9]:
a

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [11]:
row_r2 = a[:2, :3]
row_r2

array([[1, 2, 3],
       [5, 6, 7]])

In [12]:
row_r2.base

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [16]:
print(row_r1, row_r1.shape)
print(row_r2, row_r2.shape)

[5 6 7 8] (4,)
[[1 2 3]
 [5 6 7]] (2, 3)


In [0]:
row_r2

array([[1, 2, 3],
       [5, 6, 7]])

In [0]:
row_r2.base # Посмотреть изначальную матрицу

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [0]:
col_r1 = a[:, 1] # Индексируемся по колонкам матрицы.
print(col_r1)
print('---')
print(col_r1.shape)

[ 2  6 10]
---
(3,)


In [0]:
col_r2 = a[:, 1:3]
print(col_r2)
print('---')
print(col_r2.shape)

[[ 2  3]
 [ 6  7]
 [10 11]]
---
(3, 2)


### Операции

In [17]:
x = np.array([[1,2],[3,4]], dtype=np.float64)
y = np.array([[5,6],[7,8]], dtype=np.float64)

# Поэлементное сложение
print(x + y)
print(np.add(x, y))

[[ 6.  8.]
 [10. 12.]]
[[ 6.  8.]
 [10. 12.]]


In [18]:
# Поэлементное вычитание
# [[-4.0 -4.0]
#  [-4.0 -4.0]]
print(x - y)
print(np.subtract(x, y))

[[-4. -4.]
 [-4. -4.]]
[[-4. -4.]
 [-4. -4.]]


In [21]:
import time

print('Поэлементное умножение')
# [[ 5.0 12.0]
#  [21.0 32.0]]
print(x * y)
print(np.multiply(x, y))
print('---')
print('Поэлементное деление')
# [[ 0.2         0.33333333]
#  [ 0.42857143  0.5       ]]
print(x / y)
print(np.divide(x, y))
print('---')
print('Поэлементное взятие квадратного корня')
# [[ 1.          1.41421356]
#  [ 1.73205081  2.        ]]
print(np.sqrt(x))

%time

Поэлементное умножение
[[ 5. 12.]
 [21. 32.]]
[[ 5. 12.]
 [21. 32.]]
---
Поэлементное деление
[[0.2        0.33333333]
 [0.42857143 0.5       ]]
[[0.2        0.33333333]
 [0.42857143 0.5       ]]
---
Поэлементное взятие квадратного корня
[[1.         1.41421356]
 [1.73205081 2.        ]]
CPU times: total: 0 ns
Wall time: 0 ns


### Некоторые полезные методы

### Argmax/argmin

In [22]:
x = np.array(list(range(0,11)))
print(x)
print(type(x))

[ 0  1  2  3  4  5  6  7  8  9 10]
<class 'numpy.ndarray'>


In [0]:
print(x.argmax())
print(x.argmin())

10
0


In [0]:
x[5] = 99
x[9] = -99
x

array([  0,   1,   2,   3,   4,  99,   6,   7,   8, -99,  10])

In [0]:
print(x.argmax()) # Показывает индекс максимального значения, бывает очень полезно при поиске значений в массиве
print(x.argmin()) # Показывает индекс минимального значения

5
9


### Transpose

In [0]:
a = np.array([[1,2,3,4], [5,6,7,8]])
a

array([[1, 2, 3, 4],
       [5, 6, 7, 8]])

In [0]:
a.T # транспонирование или переворачивание объекта вокруг диагональной оси

array([[1, 5],
       [2, 6],
       [3, 7],
       [4, 8]])

In [0]:
a = np.array([['may','june','july','august'], [100,101,102,500]])
print(a)
print('---')
print(a.T)

[['may' 'june' 'july' 'august']
 ['100' '101' '102' '500']]
---
[['may' '100']
 ['june' '101']
 ['july' '102']
 ['august' '500']]


In [0]:
print(x)
print(x.T)

[  0   1   2   3   4  99   6   7   8 -99  10]
[  0   1   2   3   4  99   6   7   8 -99  10]


### Append

In [23]:
a = np.array(['may', 'june', 'july', 'august'])
a.append('august')

AttributeError: 'numpy.ndarray' object has no attribute 'append'

In [0]:
?np.append()

In [24]:
print(np.append(a,'august'))
print(a)
a = np.append(a,'august') # Надо переназначать объект/ присваивать его заново после операций, чтобы он обновился.
print(a)

['may' 'june' 'july' 'august' 'august']
['may' 'june' 'july' 'august']
['may' 'june' 'july' 'august' 'august']


### Unique

In [26]:
np.unique(a)

array(['august', 'july', 'june', 'may'], dtype='<U6')

In [25]:
b = np.unique(a)
b

array(['august', 'july', 'june', 'may'], dtype='<U6')

In [27]:
a

array(['may', 'june', 'july', 'august', 'august'], dtype='<U6')

### Concatenate

In [28]:
spring = np.array(['march', 'april', 'may'])
summer = np.array(['june', 'july', 'august'])
warm_months = np.concatenate([spring, summer])
warm_months

array(['march', 'april', 'may', 'june', 'july', 'august'], dtype='<U6')

In [0]:
??np.concatenate

### Nonzero

In [31]:
a = np.array([100,101,102,500,0])
print('Наш вектор длиной:')
print(len(a))
print('---'*10)

print('Метод покажет ненулевые индексы:')
print(np.nonzero(a)) 

print('Вывести значения можно так:')
print(a[np.nonzero(a)]) 

print('Проверим длину:')
print(len(a[np.nonzero(a)]))

print(len(np.argwhere(a)))

Наш вектор длиной:
5
------------------------------
Метод покажет ненулевые индексы:
(array([0, 1, 2, 3]),)
Вывести значения можно так:
[100 101 102 500]
Проверим длину:
4
4


## Пересечение двух массивов

Нередко стоит задача найти общие объекты среди 2-х массивов и найти общие элементы. 

In [36]:
a = np.array([1,10,100,1000,5])
b = np.array([1,4,100,5])

А теперь пересечем их методом **np.intersect1d()** и передадим 2 вектора в качестве аргументов.

In [37]:
c = np.intersect1d(a, b)
c

array([  1,   5, 100])

Чтобы не лезть в интеренет и искать документацию, опять же, можно использовать встроенную документацию в Python.

In [35]:
??np.intersect1d

[1;31mSignature:[0m       [0mnp[0m[1;33m.[0m[0mintersect1d[0m[1;33m([0m[0mar1[0m[1;33m,[0m [0mar2[0m[1;33m,[0m [0massume_unique[0m[1;33m=[0m[1;32mFalse[0m[1;33m,[0m [0mreturn_indices[0m[1;33m=[0m[1;32mFalse[0m[1;33m)[0m[1;33m[0m[1;33m[0m[0m
[1;31mCall signature:[0m  [0mnp[0m[1;33m.[0m[0mintersect1d[0m[1;33m([0m[1;33m*[0m[0margs[0m[1;33m,[0m [1;33m**[0m[0mkwargs[0m[1;33m)[0m[1;33m[0m[1;33m[0m[0m
[1;31mType:[0m            _ArrayFunctionDispatcher
[1;31mString form:[0m     <function intersect1d at 0x0000016BC29D56C0>
[1;31mFile:[0m            c:\users\mary_\appdata\local\programs\python\python312\lib\site-packages\numpy\lib\_arraysetops_impl.py
[1;31mSource:[0m         
[1;33m@[0m[0marray_function_dispatch[0m[1;33m([0m[0m_intersect1d_dispatcher[0m[1;33m)[0m[1;33m
[0m[1;32mdef[0m [0mintersect1d[0m[1;33m([0m[0mar1[0m[1;33m,[0m [0mar2[0m[1;33m,[0m [0massume_unique[0m[1;33m=[0m[1;32mFalse

Этот метод, конечно, работает не только с цифрами, но и с другими объектами, например с строками.

In [38]:
a = np.array(['Юля', 'Олег', 'Роман', 'Иван'])
b = np.array(['Юля','Иван','Леонид'])

In [39]:
c = np.intersect1d(a,b)
c

array(['Иван', 'Юля'], dtype='<U6')

Вспомним метод, который показывает размерности объекта. <br>
И не смотря на то, что у нас всего-лишь вектор, метод **.size** выведет нам количество объектов, которые содержатся в результирующем векторе ( который тоже в свою очередь является объектом, потому что все в Python, как мы помним, это объект!).

In [40]:
c.size

2

Тоже самое мы можем найти, используя метод **len( )**, встроенный в язык Python, который измеряет длину вектора.

In [41]:
len(c)

2

Так же часто встает задача найти значения, которые не являются общими, эдакие эксклюзивные значения из 2х векторов/наборов объектов.
Это тоже можно сделать в одну строчку с помощью метода **.setxor1d()** передав ему 2 вектора в качестве аргументов.

In [43]:
np.setxor1d(a, b)

array(['Леонид', 'Олег', 'Роман'], dtype='<U6')

### Более жизненный пример.

На "игрушечном" ималеньком массиве мы смогли построить пересечение. Принцип остается тот же, если мы ,например, хотим найти пересечение между большим количеством объектов.<br>
Допустим у нас есть какие-либо id пользователей и нам нужно найти пересечение между группами.

Импортируем ниже библиотеку random, с помощью которой можно нагенерить числа, например 4-х значные.<br>
Сделаем списки 

In [44]:
import random
import time

%time
customer_ids_a = random.sample(range(1000000, 5000000), 1000000)
customer_ids_b = random.sample(range(1000000, 5000000), 1000000)

CPU times: total: 0 ns
Wall time: 0 ns


Посмотрим на наши массивы, делая срезы в 5 и 10 элементов.

In [45]:
print('Массив А:%s'%customer_ids_a[:5])
print('Массив Б:%s'%customer_ids_b[:10])

Массив А:[3314353, 3691496, 1665593, 2660267, 1806029]
Массив Б:[1624871, 3668566, 3415646, 3437749, 4321884, 4449779, 2263107, 3248916, 1265051, 2091693]


В таких задачах так же могут попадаться неуникальные или повторяющиеся значения, которые не хотелось бы использовать, чтобы избежать ошибок и коллизий.<br>
Вспомним упомянутый выше удобный метод **.unique()**, который возвращает нам только уникальные значения обхекта к которому мы его применям.<br>
Проверим наши вектора на уникальность.

In [46]:
print('Уникальныых значений в массиве А: %s'% len(np.unique(customer_ids_a)))
print('Уникальныых значений в массиве Б: %s'% len(np.unique(customer_ids_b)))

Уникальныых значений в массиве А: 1000000
Уникальныых значений в массиве Б: 1000000


Все проверив, мы можем применить метод **.intersect1d()** и посмотреть на пересечение.

In [47]:
%time
c = np.intersect1d(customer_ids_a,customer_ids_b)

CPU times: total: 0 ns
Wall time: 0 ns


In [51]:
c

array([1000006, 1000009, 1000021, ..., 4999989, 4999996, 4999997])

Так как у нас довольно большое количество элементов в списке, то веротяность того что будет хотя бы одно пересечение довольно высока. 
Посмотрим на то, что у нас получилось.

У нас получился вектор пересечений, который не вмещается строчку отображения в Jupyter notebook, так что давайте посмотрим на то сколько у нас получилось в нем объектов, используя метод **len()**.

In [58]:
print('Наше пересечение равно %s объектам.' %len(c))

Наше пересечение равно 249484 объектам.


В 1 строчкe можно посчитать отношение нашего пересечения к количеству id нашего массива, в котором мы искали пересечение.

In [52]:
len(c)/len(customer_ids_b)*100

24.9484

И предстваить его в более читаемом и осмысленном виде.

In [53]:
print('Наше пересечение равно %s процентов.'%round(len(c)/len(customer_ids_b)*100,2))

Наше пересечение равно 24.95 процентов.


Другие методы для выполнения математических и логических операций с векторами и матрицами можно найти в документации на официальном сайте [библиотеки](https://docs.scipy.org/doc/numpy-1.15.1/reference/).

### Домашнее задание.

1) Попробуйте сами найти значения, которые не входят в наши вектора и являются противоположностью нашего пересечения.<br>

In [62]:
d = np.setxor1d(customer_ids_a,customer_ids_b)
d

array([1000000, 1000002, 1000004, ..., 4999985, 4999991, 4999999])

2) Сколько объектов получилось в векторе "эксклюзивных" значений?

In [59]:
len(d)

1501032