<center>
<img src="https://cdn.megabonus.com/images/shop_logo/skillbox.png"/> 
    
# Курс аналитик данных на Python
## Модуль 2.1. Numpy basics. Ищем пересечение в 2-х массивах.

Это библиотека для всевозможных математических операций, с большим количеством реализованных методов и возможностью реализовывать свою логику эффективно.  <br>
Например векторные и матричные произведения, которые используюся в машинном обучении, а также рассчет различных статистик. 

Импортируем библиотеку [**numpy**](https://docs.scipy.org/doc/numpy-1.15.1/reference/) и сократим ее название для удобства и поддержания общепринятых обозначений. <br>

In [8]:
import numpy as np

Основа [**numpy**](https://docs.scipy.org/doc/numpy-1.15.1/reference/) это вектора (**array**) и матрицы (**matrix**).<br>
Создадим вектор и попробуем возможности библиотеки.

### Вектора

In [9]:
a = np.array([1, 2, 3, 4, 5])

In [10]:
print(type(a))

<class 'numpy.ndarray'>


In [11]:
print(a.shape) # размерность вектора

(5,)


In [12]:
print(a[0], a[1], a[3]) # индексация по элементам

1 2 4


In [13]:
a[:2] # индексация диапазоном (срез)

array([1, 2])

In [14]:
a[-2:] # берем последний элемент в массиве

array([4, 5])

In [15]:
a[::-1] # перевернуть массив

array([5, 4, 3, 2, 1])

In [16]:
a[0] = 5 # операция присвоения
a

array([5, 2, 3, 4, 5])

In [17]:
print(a + 5)

b = np.array([1, 2.0, 3, 4, 'lol'])
b * 5

[10  7  8  9 10]


UFuncTypeError: ufunc 'multiply' did not contain a loop with signature matching types (dtype('<U32'), dtype('int32')) -> None

### Матрицы 

Матрицы по сути это таблички без границ.

In [None]:
a = np.array([[1,2,3,4], [5,6,7,8], [9,10,11,12]])

In [None]:
a[:,::]

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [None]:
print(type(a))

<class 'numpy.ndarray'>


In [None]:
a[:,::-1]

array([[ 4,  3,  2,  1],
       [ 8,  7,  6,  5],
       [12, 11, 10,  9]])

In [None]:
print('Наша матрица:')
print(a)
print('---')
print('Наша распрямленная матрица:')
print(a.flatten())

Наша матрица:
[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]]
---
Наша распрямленная матрица:
[ 1  2  3  4  5  6  7  8  9 10 11 12]


In [None]:
a.nbytes

96

In [None]:
a.shape

(3, 4)

In [None]:
a.shape[0]* a.shape[1]*8

96

In [None]:
row_r1 = a[1, :] # Индексируемся по строкам матрицы. Первый ряд, помните о том что индексация в Python начинается с 0.
row_r1

array([5, 6, 7, 8])

In [None]:
row_r2 = a[:2, :3]
row_r2

array([[1, 2, 3],
       [5, 6, 7]])

In [None]:
row_r2.base

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [None]:
print(row_r1, row_r1.shape)
print(row_r2, row_r2.shape)

[5 6 7 8] (4,)
[[1 2 3]
 [5 6 7]] (2, 3)


In [None]:
row_r2

array([[1, 2, 3],
       [5, 6, 7]])

In [None]:
row_r2.base # Посмотреть изначальную матрицу

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [None]:
col_r1 = a[:, 1] # Индексируемся по колонкам матрицы.
print(col_r1)
print('---')
print(col_r1.shape)

[ 2  6 10]
---
(3,)


In [None]:
col_r2 = a[:, 1:3]
print(col_r2)
print('---')
print(col_r2.shape)

[[ 2  3]
 [ 6  7]
 [10 11]]
---
(3, 2)


### Операции

In [None]:
x = np.array([[1,2],[3,4]], dtype=np.float64)
y = np.array([[5,6],[7,8]], dtype=np.float64)

# Поэлементное сложение
print(x + y)
print(np.add(x, y))

[[ 6.  8.]
 [10. 12.]]
[[ 6.  8.]
 [10. 12.]]


In [None]:
# Поэлементное вычитание
# [[-4.0 -4.0]
#  [-4.0 -4.0]]
print(x - y)
print(np.subtract(x, y))

[[-4. -4.]
 [-4. -4.]]
[[-4. -4.]
 [-4. -4.]]


In [None]:
import time

print('Поэлементное умножение')
# [[ 5.0 12.0]
#  [21.0 32.0]]
print(x * y)
print(np.multiply(x, y))
print('---')
print('Поэлементное деление')
# [[ 0.2         0.33333333]
#  [ 0.42857143  0.5       ]]
print(x / y)
print(np.divide(x, y))
print('---')
print('Поэлементное взятие квадратного корня')
# [[ 1.          1.41421356]
#  [ 1.73205081  2.        ]]
print(np.sqrt(x))

%time

Поэлементное умножение
[[ 5. 12.]
 [21. 32.]]
[[ 5. 12.]
 [21. 32.]]
---
Поэлементное деление
[[0.2        0.33333333]
 [0.42857143 0.5       ]]
[[0.2        0.33333333]
 [0.42857143 0.5       ]]
---
Поэлементное взятие квадратного корня
[[1.         1.41421356]
 [1.73205081 2.        ]]
CPU times: user 3 µs, sys: 1 µs, total: 4 µs
Wall time: 8.34 µs


### Некоторые полезные методы

### Argmax/argmin

In [None]:
x = np.array(list(range(0,11)))
print(x)
print(type(x))

[ 0  1  2  3  4  5  6  7  8  9 10]
<class 'numpy.ndarray'>


In [None]:
print(x.argmax())
print(x.argmin())

10
0


In [None]:
x[5] = 99
x[9] = -99
x

array([  0,   1,   2,   3,   4,  99,   6,   7,   8, -99,  10])

In [None]:
print(x.argmax()) # Показывает индекс максимального значения, бывает очень полезно при поиске значений в массиве
print(x.argmin()) # Показывает индекс минимального значения

5
9


### Transpose

In [None]:
a = np.array([[1,2,3,4], [5,6,7,8]])
a

array([[1, 2, 3, 4],
       [5, 6, 7, 8]])

In [None]:
a.T # транспонирование или переворачивание объекта вокруг диагональной оси

array([[1, 5],
       [2, 6],
       [3, 7],
       [4, 8]])

In [None]:
a = np.array([['may','june','july','august'], [100,101,102,500]])
print(a)
print('---')
print(a.T)

[['may' 'june' 'july' 'august']
 ['100' '101' '102' '500']]
---
[['may' '100']
 ['june' '101']
 ['july' '102']
 ['august' '500']]


In [None]:
print(x)
print(x.T)

[  0   1   2   3   4  99   6   7   8 -99  10]
[  0   1   2   3   4  99   6   7   8 -99  10]


### Append

In [None]:
a = np.array(['may', 'june', 'july', 'august'])
a.append('august')

AttributeError: 'numpy.ndarray' object has no attribute 'append'

In [None]:
?np.append()

In [None]:
print(np.append(a,'august'))
print(a)
a = np.append(a,'august') # Надо переназначать объект/ присваивать его заново после операций, чтобы он обновился.
print(a)

['may' 'june' 'july' 'august' 'august']
['may' 'june' 'july' 'august']
['may' 'june' 'july' 'august' 'august']


### Unique

In [None]:
np.unique(a)

array(['august', 'july', 'june', 'may'], dtype='<U6')

In [None]:
b = np.unique(a)
b

array(['august', 'july', 'june', 'may'], dtype='<U6')

In [None]:
a

array(['may', 'june', 'july', 'august', 'august'], dtype='<U6')

### Concatenate

In [None]:
spring = np.array(['march', 'april', 'may'])
summer = np.array(['june', 'july', 'august'])
warm_months = np.concatenate([spring, summer])
warm_months

array(['march', 'april', 'may', 'june', 'july', 'august'], dtype='<U6')

In [None]:
??np.concatenate

### Nonzero

In [None]:
a = np.array([100,101,102,500,0])
print('Наш вектор длиной:')
print(len(a))
print('---')
print('Метод покажет ненулевые индексы:')
print(np.nonzero(a)) 
print('Вывести значения можно так:')
print(a[np.nonzero(a)]) 
print('Проверим длину:')
print(len(a[np.nonzero(a)]))

#print(len(np.argwhere(a)))

Наш вектор длиной:
5
---
Метод покажет ненулевые индексы:
(array([0, 1, 2, 3]),)
Вывести значения можно так:
[100 101 102 500]
Проверим длину:
4


## Пересечение двух массивов

Нередко стоит задача найти общие объекты среди 2-х массивов и найти общие элементы. 

In [None]:
a = np.array([1,10,100,1000])
b = np.array([1,4,100])

А теперь пересечем их методом **np.intersect1d()** и передадим 2 вектора в качестве аргументов.

In [None]:
c = np.intersect1d(a, b)
c

array([  1, 100])

Чтобы не лезть в интеренет и искать документацию, опять же, можно использовать встроенную документацию в Python.

In [None]:
??np.intersect1d

Этот метод, конечно, работает не только с цифрами, но и с другими объектами, например с строками.

In [None]:
a = np.array(['Юля', 'Олег', 'Роман', 'Иван'])
b = np.array(['Юля','Иван','Леонид'])

In [None]:
c = np.intersect1d(a,b)
c

array(['Иван', 'Юля'], dtype='<U6')

Вспомним метод, который показывает размерности объекта. <br>
И не смотря на то, что у нас всего-лишь вектор, метод **.size** выведет нам количество объектов, которые содержатся в результирующем векторе ( который тоже в свою очередь является объектом, потому что все в Python, как мы помним, это объект!).

In [None]:
c.size

2

Тоже самое мы можем найти, используя метод **len( )**, встроенный в язык Python, который измеряет длину вектора.

In [None]:
len(c)

2

Так же часто встает задача найти значения, которые не являются общими, эдакие эксклюзивные значения из 2х векторов/наборов объектов.
Это тоже можно сделать в одну строчку с помощью метода **.setxor1d()** передав ему 2 вектора в качестве аргументов.

In [None]:
??np.
(a, b)

### Более жизненный пример.

На "игрушечном" ималеньком массиве мы смогли построить пересечение. Принцип остается тот же, если мы ,например, хотим найти пересечение между большим количеством объектов.<br>
Допустим у нас есть какие-либо id пользователей и нам нужно найти пересечение между группами.

Импортируем ниже библиотеку random, с помощью которой можно нагенерить числа, например 4-х значные.<br>
Сделаем списки 

In [None]:
import random
import time

%time
customer_ids_a = random.sample(range(1000000, 5000000), 1000000)
customer_ids_b = random.sample(range(1000000, 5000000), 1000000)

CPU times: user 3 µs, sys: 1e+03 ns, total: 4 µs
Wall time: 7.15 µs


Посмотрим на наши массивы, делая срезы в 5 и 10 элементов.

In [None]:
print('Массив А:%s'%customer_ids_a[:5])
print('Массив Б:%s'%customer_ids_b[:10])

Массив А:[4434230, 2368217, 2720332, 4622161, 2712340]
Массив Б:[1731702, 4233100, 1471734, 1256888, 1319135, 3151110, 1667405, 1174521, 1667687, 1282628]


В таких задачах так же могут попадаться неуникальные или повторяющиеся значения, которые не хотелось бы использовать, чтобы избежать ошибок и коллизий.<br>
Вспомним упомянутый выше удобный метод **.unique()**, который возвращает нам только уникальные значения обхекта к которому мы его применям.<br>
Проверим наши вектора на уникальность.

In [None]:
print('Уникальныых значений в массиве А: %s'% len(np.unique(customer_ids_a)))
print('Уникальныых значений в массиве Б: %s'% len(np.unique(customer_ids_b)))

Уникальныых значений в массиве А: 1000000
Уникальныых значений в массиве Б: 1000000


Все проверив, мы можем применить метод **.intersect1d()** и посмотреть на пересечение.

In [None]:
%time
c = np.intersect1d(customer_ids_a,customer_ids_b)

CPU times: user 4 µs, sys: 1 µs, total: 5 µs
Wall time: 11.2 µs


In [None]:
c

array([1000022, 1000024, 1000035, ..., 4999951, 4999973, 4999997])

Так как у нас довольно большое количество элементов в списке, то веротяность того что будет хотя бы одно пересечение довольно высока. 
Посмотрим на то, что у нас получилось.

У нас получился вектор пересечений, который не вмещается строчку отображения в Jupyter notebook, так что давайте посмотрим на то сколько у нас получилось в нем объектов, используя метод **len()**.

In [None]:
print('Наше пересечение равно %s объектам.' %len(c))

Наше пересечение равно 250572 объектам.


В 1 строчкe можно посчитать отношение нашего пересечения к количеству id нашего массива, в котором мы искали пересечение.

In [None]:
len(c)/len(customer_ids_b)*100

25.0572

И предстваить его в более читаемом и осмысленном виде.

In [None]:
print('Наше пересечение равно %s процентов.'%round(len(c)/len(customer_ids_b)*100,2))

Наше пересечение равно 25.06 процентов.


Другие методы для выполнения математических и логических операций с векторами и матрицами можно найти в документации на официальном сайте [библиотеки](https://docs.scipy.org/doc/numpy-1.15.1/reference/).

### Домашнее задание.

1) Попробуйте сами найти значения, которые не входят в наши вектора и являются противоположностью нашего пересечения.<br>

2) Сколько объектов получилось в векторе "эксклюзивных" значений?