<table>
<tr style="background:transparent">
 <td><font size="7" face="serif"><b>Курс анализа данных на Python</b></font></td>   
 <td><img src="Image_fifth_lecture/Unknown.png" alt="Змейка" width="200" height="100"></td>
</tr>
</table>

<img src="Image_fifth_lecture/harry.jpg" alt="Гарри" width="700">

<center><font size="6" face="serif"><b>Библиотека NumPy для работы с данными</b></font></center>

## Навигация

[Что такое и зачем нужен Numpy](#what_is_it)

[Создание NumPy массивов](#create)

[Полезные атрибуты  NumPy массивов](#attributes)

[Работа с элементами и подмассивами](#index)

[Математатические операции с массивами](#math)

[Функции агрегирования](#agreg)

[Сравнения и логические маски](#logical)

[Слияние и разбиение массивов](#concat)

### Что такое и зачем нужен NumPy <a class="anchor" id="what_is_it"></a>

Библиотека **NumPy** (Numerical Python) - это библиотека для эффективного хранения и работы с массивами данных. Массивы NumPy формируют ядро самых основных пакетов для исследования данных в Python.

По традиции, принятой в сообществе, библиотеку NumPy импортируют с псевдонимом **np**

In [1]:
import numpy as np

*Далее места помеченные * будут означать материалы, взятые из книги Дж. Вандера Пласа - Python Data Science Handbook.*

Для того, чтобы эффективно работать с данными необходимо понять, как они хранятся. Как вы уже в курсе, все в Python - это объекты. 

К примеру рассмотрим хранение целого числа в языке C и языке Python:

- В языке C отдельное целое число является указателем на место в памяти, в котором в двоичной форме хранится число.
- В языке Python целое число является объектом класса, записанного на языке C (\*):

Фактически целое число состоит из четырех частей (\*):
- **ob_refcnt** - счетчика ссылок, с помощью которого Python незаметно выполняет выделение и освобождение памяти;
- **ob_type** - кодирующей тип переменной;
- **ob_size** - задающей размер следующих элементов данных;
- **ob_digit** - содержащей фактическое целочисленное значение, которое представляет переменная языка Python.

<img src="Image_fifth_lecture/cint_vs_pyint.png" alt="Число" width="400">

**PyObject_HEAD** обозночается часть структуры, содержащая счетчик ссылок, кодирующий тип и размер.

Именно такая структура хранения данных позволяет быть Python таким гибким (читай динамически типизированным) языком. Однако, такое хранение данных не является эффективным для выполнения быстрых операций с ними. Это одна из причин почему Python работает гораздо медленнее, чем тот же C.

Рассмотрим хранение большого кол-ва объектов в Python. Самым очевидным представителем структуры-котнейнера в языке Python, который хранит много данных - является список. Если даже целое число хранится в памяти целым объектом, то хранение списка представляет из себя довольно громоздкую структуру (\*):

<img src="Image_fifth_lecture/list_date.png" alt="Список" width="500">

В Python есть встроенная библиотека **array** для эффективного хранения массивов данных. Хранение похоже на хранение в языке С, тип данных элементов массива остается **одинаковым**! Фактически это отхождение от питоновских особенностей в сторону статически типизированных языков. Однако, операции с массивами одного типа происходят гораздо быстрее, а места в памяти занимают они меньше.

Проведем сравнение занимаемого места одного и того же массива данных с помощью встроенного списка, массива **array** библиотеки **array** и массива **ndarray** библиотеки **NumPy**

In [2]:
import sys

L = list(range(10))

print(f'Список {L} занимает {sys.getsizeof(L)} байт')

Список [0, 1, 2, 3, 4, 5, 6, 7, 8, 9] занимает 200 байт


In [3]:
import array as ar

A = ar.array('i', L)

print(f'Массив {A} занимает {sys.getsizeof(A)} байт')

Массив array('i', [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]) занимает 104 байт


In [4]:
def array(n):
    return np.arange(10, dtype=f'int{n}')

L8 = array(8)
L16 = array(16)
L32 = array(32)
L64 = array(64)

print(f'NumPy массив {L8} занимает {sys.getsizeof(L8)} байт с типом int8')
print(f'NumPy массив {L16} занимает {sys.getsizeof(L16)} байт с типом int16')
print(f'NumPy массив {L32} занимает {sys.getsizeof(L32)} байт с типом int32')
print(f'NumPy массив {L64} занимает {sys.getsizeof(L64)} байт с типом int64')

NumPy массив [0 1 2 3 4 5 6 7 8 9] занимает 106 байт с типом int8
NumPy массив [0 1 2 3 4 5 6 7 8 9] занимает 116 байт с типом int16
NumPy массив [0 1 2 3 4 5 6 7 8 9] занимает 136 байт с типом int32
NumPy массив [0 1 2 3 4 5 6 7 8 9] занимает 176 байт с типом int64


Как видно массив встроенной библиотеки **array** занимает даже меньше места в памяти, чем самый маленький тип int **NumPy** массива. Возникает вопрос - зачем тогда нужна библиотека **NumPy**, если имеется встроенная библиотека, обеспечивающая эффективное хранение данных в питоне. 

Ответ прост: библиотека **array** обеспечивает **ТОЛЬКО** эффективное хранение, а библиотека **NumPy** в добавок позволяет проводить эффективные операции с массивами.

In [5]:
%%timeit

L = list(range(10000))

for i in range(len(L)):
    L[i] **= 2

3.19 ms ± 528 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [6]:
%%timeit

L = [i ** 2 for i in range(10000)]

2.31 ms ± 3.5 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [7]:
%%timeit

L = ar.array('i', list(range(10000)))

for i in range(len(L)):
    L[i] **= 2

3.68 ms ± 376 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [8]:
%%timeit

L = np.arange(10000) ** 2

15.3 µs ± 1.28 µs per loop (mean ± std. dev. of 7 runs, 100000 loops each)


<img src="Image_fifth_lecture/prevoshodno.jpg" alt="Превосходно" width="600">

### Создание  NumPy массивов <a class="anchor" id="create"></a>

#### Создание одномерного массива из списка Python

In [9]:
a = np.array([1, 2, 3, 4])

print(a)
print(type(a))
print(a.dtype)

[1 2 3 4]
<class 'numpy.ndarray'>
int64


#### Создание двухмерного массива из списков Python

In [10]:
a = np.array([[1, 2, 3, 4],
              [5, 6, 7, 8]])

print(a)
print(type(a))
print(a.dtype)

[[1 2 3 4]
 [5 6 7 8]]
<class 'numpy.ndarray'>
int64


#### Задание типа данных

In [11]:
a = np.array([1, 2, 3, 4], dtype='int8')

print(a)
print(type(a))
print(a.dtype)

[1 2 3 4]
<class 'numpy.ndarray'>
int8


In [12]:
a = np.array([1, 2, 3, 4], dtype=np.int8)

print(a)
print(type(a))
print(a.dtype)

[1 2 3 4]
<class 'numpy.ndarray'>
int8


#### Иерархическая структура типов данных в NumPy 

<img src="Image_fifth_lecture/dtype-hierarchy.png" alt="Иерархия" width="600">

#### Основные стандартные типы данных NumPy 

Тип данных	|  Описание (\*)
:-----------|:--------------
bool_	    | Булев тип (True или False), хранящийся в виде 1 байта
int8	    | Целое число (от -128 до 127)
int16	    | Целое число (от -32768 до 32767)
int32	    | Целое число (от -2147483648 до 2147483647)
int64	    | Целое число (от -9223372036854775808 до 9223372036854775807)
uint8	    | Беззнаковое целое число (от 0 до 255)
uint16	    | Беззнаковое целое число (от 0 до 65535)
uint32	    | Беззнаковое целое число (от 0 до 4294967295)
uint64	    | Беззнаковое целое число (от 0 до 18446744073709551615)
float16	    | Число с плавающей точкой с половинной точностью: 1 бит знак, 5 бит порядок, 10 бит мантисса
float32	    | Число с плавающей точкой с одинарной точностью: 1 бит знак, 8 бит порядок, 23 бит мантисса
float64	    | Число с плавающей точкой с двойной точностью: 1 бит знак, 11 бит порядок, 52 бит мантисса
unicode_    | Является гибким типом данных (не имеют заранее определенного размера)
object_     | Данные являются ссылками на объекты Python (объектные массивы ведут себя почти также как и обычные списки)

Ссылка на типы данных в документации - https://docs.scipy.org/doc/numpy/reference/arrays.scalars.html#arrays-scalars-built-in

In [13]:
a = np.array(['1', 'asd'])

print(a)
print(type(a))
print(a.dtype)

['1' 'asd']
<class 'numpy.ndarray'>
<U3


In [14]:
a = np.array(['1', 'asd', 3], dtype='object')

print(a)
print(type(a))
print(a.dtype)

['1' 'asd' 3]
<class 'numpy.ndarray'>
object


При задании массива с элементами разного типа - numpy массив создается с более высоким типом данных

In [15]:
a = np.array([1, 3.0, 4])

print(a)
print(type(a))
print(a.dtype)

[1. 3. 4.]
<class 'numpy.ndarray'>
float64


In [16]:
a = np.array(['1', 'asd', 19])

print(a)
print(type(a))
print(a.dtype)

['1' 'asd' '19']
<class 'numpy.ndarray'>
<U3


#### Изменение типа данных

Тип даных NumPy массива можно изменить с помощью функции **astype**

In [17]:
a = np.array([1, 2, 3, 4])

a.astype('float16')

array([1., 2., 3., 4.], dtype=float16)

<div class="alert alert-block alert-danger">
<b>АЛАРМ:</b> Не забывайте, что если будете приводить тип с плавающей точкой к целому типу, дробная часть НЕ ОКРУГЛИТСЯ, А ОТБРОСИТСЯ
</div>

In [18]:
a = np.array([1.3, 2.6, 3.8, 4.3])

a.astype('int8')

array([1, 2, 3, 4], dtype=int8)

Если вы хотите привести к целому типу с округлением, то вначале округлите, а потом меняйте тип

In [19]:
a.round().astype('int8')

array([1, 3, 4, 4], dtype=int8)

#### Создание нулевого массива

In [20]:
np.zeros(5, dtype='int16')

array([0, 0, 0, 0, 0], dtype=int16)

#### Создание одномерного массива, заполненного единицами

In [21]:
np.ones(5, dtype='int16')

array([1, 1, 1, 1, 1], dtype=int16)

#### Создание двухмерного массива, заполненного единицами

In [22]:
np.ones((2,3), dtype='int16')

array([[1, 1, 1],
       [1, 1, 1]], dtype=int16)

#### Создание массива размером 5, заполненного значением 7

In [23]:
np.full(5, 7)

array([7, 7, 7, 7, 7])

#### Создание массива размером (3,3), заполненного значением 3

In [24]:
np.full((3,3), 3)

array([[3, 3, 3],
       [3, 3, 3],
       [3, 3, 3]])

#### Создание массива, заполненного линейной последовательностью, начинающего с 0, заканчивающегося 8 (не включительно) с шагом 2

In [25]:
np.arange(0, 8, 2, dtype='int16')

array([0, 2, 4, 6], dtype=int16)

Первое значение не обязательно, начнет с нуля, шаг по-умолчанию равен 1

In [26]:
np.arange(8, dtype='int8')

array([0, 1, 2, 3, 4, 5, 6, 7], dtype=int8)

#### Создание массива с использованием изменении формы

За изменение формы массива отвечает функция **reshape**, в которую необходимо передать кортежем конечную размерность массива

In [27]:
np.arange(8).reshape((2,4))

array([[0, 1, 2, 3],
       [4, 5, 6, 7]])

<div class="alert alert-block alert-danger">
<b>АЛАРМ:</b> Однако, если изначальное кол-во элементов не совпадает с кол-во элементов необходимых после изменения формы, сгенерируется исключение 
</div>

In [28]:
np.arange(8).reshape((2,2))

ValueError: cannot reshape array of size 8 into shape (2,2)

In [29]:
np.arange(8).reshape((2,5))

ValueError: cannot reshape array of size 8 into shape (2,5)

С помощью функции **reshape** также обычно создают вектор-строки и вектор-столбцы

In [30]:
a = np.array([1, 2, 3, 4])

print(f'{a} - изначальный массив\n')
print(f'{a.reshape(1, 4)} - вектор-строка\n')
print(f'{a.reshape(4, 1)} - вектор-столбец')

[1 2 3 4] - изначальный массив

[[1 2 3 4]] - вектор-строка

[[1]
 [2]
 [3]
 [4]] - вектор-столбец


#### Создание массива из 5 значений, располагающихся между 0 и 1

In [31]:
np.linspace(0, 1, 5)

array([0.  , 0.25, 0.5 , 0.75, 1.  ])

#### Создание пустого массива

В отличии от нулевого массива, пустой массив будет заполнен произвольными значениями, которые уже находятся в памяти

In [32]:
np.empty(5)

array([0.  , 0.25, 0.5 , 0.75, 1.  ])

#### Создание массивов такого же размерка, как другой массив

Для этого используются те же функции с приставкой _like

In [33]:
a

array([1, 2, 3, 4])

In [34]:
np.zeros_like(a)

array([0, 0, 0, 0])

In [35]:
np.ones_like(a)

array([1, 1, 1, 1])

In [36]:
np.full_like(a, 10)

array([10, 10, 10, 10])

In [37]:
np.empty_like(a)

array([ 306812384654131200, 8028074745930326651, 2464364226844172910,
       4189022153932546604])

### Полезные атрибуты  NumPy массивов <a class="anchor" id="attributes"></a>

In [38]:
a

array([1, 2, 3, 4])

#### Размерность массива

In [39]:
a.ndim

1

#### Размер каждого измерения

In [40]:
a.shape

(4,)

#### Общий размер массива

In [41]:
a.size

4

#### Тип данных массива

In [42]:
a.dtype

dtype('int64')

#### Размер массива в байтах

In [43]:
a.nbytes

32

#### Размер каждого элемента массива в байтах

In [44]:
a.itemsize

8

### Работа с элементами и подмассивами <a class="anchor" id="index"></a>

#### Индексация и слайсинг (взятие срезов) одномерных массивов производится также, как и в списках

In [45]:
a = np.array([1, 2, 3, 4])

print(a[0])
print(a[1:3])
print(a[::-1])

1
[2 3]
[4 3 2 1]


#### Индексация и слайсинг (взятие срезов) многомерных массивов

In [46]:
a = np.array([[1,2],
              [3,4],
              [5,6],
              [7,8]])

Обращаться к элементам многомерного массива можно двумя способами. Первый способ аналогичен обращению к вложенным спискам.

In [47]:
l = [[1,2],[3,4],[5,6],[7,8]]

In [48]:
l[0][1]

2

In [49]:
a[0][1]

2

Второй способ представлен только в библиотеки NumPy

In [50]:
a[0, 1]

2

И да, второй способ, предусмотренный NumPy, работает в 2 раза быстрее первого

In [51]:
%timeit a[0][0]

227 ns ± 30.4 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)


In [52]:
%timeit a[0, 0]

101 ns ± 3.93 ns per loop (mean ± std. dev. of 7 runs, 10000000 loops each)


Слайсинг многомерных массивов осуществляется похоже, только по двум осям

In [53]:
a

array([[1, 2],
       [3, 4],
       [5, 6],
       [7, 8]])

In [54]:
a[1:, :1]

array([[3],
       [5],
       [7]])

In [55]:
a[::-1, ::-1]

array([[8, 7],
       [6, 5],
       [4, 3],
       [2, 1]])

<div class="alert alert-block alert-success">
<b>Справка:</b> Срезы массивов возвращают не копию (отдельный элемент), а представление данного массива. Рассмотрим что это значит.
</div>

In [56]:
b = a[1:, :1]
b

array([[3],
       [5],
       [7]])

In [57]:
b[0, 0] = 100
a

array([[  1,   2],
       [100,   4],
       [  5,   6],
       [  7,   8]])

Можно увидеть, что при изменении элемента в подмассиве **b** изменился и массив **a**. Для создания новго элементра требуется делать копию с помощью метода **copy()**

In [58]:
b = a[1:, :1].copy()

print(f'{b} - изначальный массив b\n')

b[0, 0] = 10000

print(f'{b} - измененный массив b\n')
print(f'{a} - массив a')

[[100]
 [  5]
 [  7]] - изначальный массив b

[[10000]
 [    5]
 [    7]] - измененный массив b

[[  1   2]
 [100   4]
 [  5   6]
 [  7   8]] - массив a


#### Как и списки, NumPy массивы изменяемая структура

In [59]:
print(f'{a}\n')

a[1, 1] = 100

print(a)

[[  1   2]
 [100   4]
 [  5   6]
 [  7   8]]

[[  1   2]
 [100 100]
 [  5   6]
 [  7   8]]


<div class="alert alert-block alert-danger">
<b>АЛАРМ:</b> Однако, в отличии от списков, NumPy массивы имеют фиксированный тип данных! Посмотрим к чему это приводит.
</div>

In [60]:
print(f'{a}\n')

a[1, 0] = 200.68
a[0, 0] = '10'

print(a)

[[  1   2]
 [100 100]
 [  5   6]
 [  7   8]]

[[ 10   2]
 [200 100]
 [  5   6]
 [  7   8]]


In [61]:
print(f'{a}\n')

a[0, 1] = '40.8'

print(a)

[[ 10   2]
 [200 100]
 [  5   6]
 [  7   8]]



ValueError: invalid literal for int() with base 10: '40.8'

In [62]:
print(f'{a}\n')

a[0, 1] = 'asdasd'

print(a)

[[ 10   2]
 [200 100]
 [  5   6]
 [  7   8]]



ValueError: invalid literal for int() with base 10: 'asdasd'

### Математатические операции с массивами  <a class="anchor" id="math"></a>

Как уже говорилось выше структура NumPy массивов позволяет не только эффективно хранить данные, но и эффективно выполнять операции над ними. Сравним операцию прибавления к элементам массива числа у списка и NumPy массива.

In [63]:
l = list(range(10000))

In [64]:
%%timeit

l_new = []

for i in l:
    l_new.append(i + 1000)

1.32 ms ± 125 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [65]:
a = np.arange(10000)

In [66]:
%%timeit 

a_new = a + 1000

5.01 µs ± 149 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)


NumPy массивы поддеживают все арифмитческие операции Python

Также NumPy удобен в поэлементных операциях с несколькими массивами

In [67]:
a = np.array([1, 2, 3])
b = np.array([4, 5, 6])

print(a)
print(b)
print(f'a + b - {a + b}')
print(f'a - b - {a - b}')
print(f'a * b - {a * b}')
print(f'a / b - {a / b}')
print(f'a ** b - {a ** b}')
print(f'b // a - {b // a}')
print(f'b % a - {b % a}')

[1 2 3]
[4 5 6]
a + b - [5 7 9]
a - b - [-3 -3 -3]
a * b - [ 4 10 18]
a / b - [0.25 0.4  0.5 ]
a ** b - [  1  32 729]
b // a - [4 2 2]
b % a - [0 1 0]


Для вычисления абсолютных значений используется функция **abs()**

In [68]:
np.abs(np.array([-1, -3, -5]))

array([1, 3, 5])

Помимо этого библиотека NumPy содержит свои тригонометрические, логаривмические и другие математические функции, присутствующие во встроенной библиотеке **math**. К слову, все они работают быстрее.

В качестве примера:

In [69]:
print(np.arcsin(np.array([-1, 0, 1])))
print(np.exp(np.array([-1, 0, 1])))

[-1.57079633  0.          1.57079633]
[0.36787944 1.         2.71828183]


### Функции агрегирования  <a class="anchor" id="agreg"></a>

Функция	       | NaN-безопасная версия | Описание(\*)
:--------------|:----------------------|:------------------------------------------------
np.sum	       | np.nansum	           | Вычисляет сумму элементов
np.prod	       | np.nanprod	           | Вычисляет произведение элементов
np.mean	       | np.nanmean	           | Вычисляет среднее элементов
np.std	       | np.nanstd	           | Вычисляет стандартное отклонение
np.var	       | np.nanvar	           | Вычисляет дисперсию
np.min	       | np.nanmin	           | Находит минимальное значение
np.max	       | np.nanmax	           | Находит максимальное значение
np.argmin      | np.nanargmin	       | Находит индекс минимального значения
np.argmax      | np.nanargmax	       | Находит индекс максимального значения
np.median      | np.nanmedian	       | Вычисляет медиану элементов
np.percentile  | np.nanpercentile	   | Вычисляет квантили элементов
np.any	       | -	                   | Проверяет существует ли хоть один элемент со значением True
np.all	       | -	                   | Проверят все ли элементы имеют значение True

In [70]:
a = np.arange(10)
a

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [71]:
print(f'Сумма элементов - {a.sum()}')
print(f'Произведение элементов - {a.prod()}')
print(f'Среднее элементов - {a.mean()}')
print(f'Стандартное отклонение - {a.std()}')
print(f'Дисперсия - {a.var()}')
print(f'Минимальное значение - {a.min()}')
print(f'Максимальное значение - {a.max()}')
print(f'Индекс минимального значения - {a.argmin()}')
print(f'Индекс максимального значения - {a.argmax()}')
print(f'Медиана - {np.median(a)}')
print(f'25% перцентиль - {np.percentile(a, 25)}')
print(f'Существует хотя бы 1 элемент со значением True - {a.any()}')
print(f'Все элементы имеют значение True - {a.all()}')

Сумма элементов - 45
Произведение элементов - 0
Среднее элементов - 4.5
Стандартное отклонение - 2.8722813232690143
Дисперсия - 8.25
Минимальное значение - 0
Максимальное значение - 9
Индекс минимального значения - 0
Индекс максимального значения - 9
Медиана - 4.5
25% перцентиль - 2.25
Существует хотя бы 1 элемент со значением True - True
Все элементы имеют значение True - False


<div class="alert alert-block alert-danger">
<b>АЛАРМ:</b> Обратите внимание, что функция медианы и перцентиля не вызывается, как a.median() и a.percentile(). Все же другие функции можно записать в виде np.sum(a).
</div>

Как видно из вышеприведенной таблицы существуют аналогичные так называемые NaN-безопасные функции. Рассмотрим, что это значит.

In [72]:
b = np.array([1, np.nan, 2, np.nan, 3])

print(f'Обычная сумма элементов - {np.sum(b)}')
print(f'Обычное среднее элементов - {np.mean(b)}')

Обычная сумма элементов - nan
Обычное среднее элементов - nan


Как видно присутствие NaN значений ломаент все агрегированные функции. Именно для этого существуют NaN-безопасные аналоги.

In [73]:
print(f'NaN-безопасная сумма элементов - {np.nansum(b)}')
print(f'NaN-безопасная среднее элементов - {np.nanmean(b)}')

NaN-безопасная сумма элементов - 6.0
NaN-безопасная среднее элементов - 2.0


<div class="alert alert-block alert-danger">
<b>АЛАРМ:</b> Запомните, если у вас не получается вызвать какую-либо numpy функцию у конкретного объекта (a.nansum() к примеру) всегда вызываете эту функцию из библиотеки, передавая в качестве аргумента массив - np.nansum(a).
</div>

В случае многомерных массивов можно искать агрегированные значения только по одной из осей

In [82]:
a = np.array([[1,2],
              [3,4],
              [5,6],
              [7,8]])

<img src="Image_fifth_lecture/axis.png" alt="Оси" width="400">

In [84]:
a.mean(axis=0)

array([4., 5.])

In [86]:
a.mean(axis=1)

array([1.5, 3.5, 5.5, 7.5])

Помимо стандартных функций агрегирования, существуют еще пару похожих и полезных функций

In [81]:
a = np.arange(10)
a

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [75]:
b = np.array([2, 0, 3, 5, 6, 4, 5, 10, 7, 12])
b

array([ 2,  0,  3,  5,  6,  4,  5, 10,  7, 12])

In [78]:
print(f'a.cumsum() - промежуточная сумма - {a.cumsum()}')
print(f'a.cumprod() - промежуточное произведение - {a.cumprod()}')

a.cumsum() - промежуточная сумма - [ 0  0  1  3  6  9 12 16 21 26]
a.cumprod() - промежуточное произведение - [0 0 0 0 0 0 0 0 0 0]


#### Очень полезной функцией является функция unique(), которая показывает уникальные элементы массива

In [91]:
a = np.array([0, 0, 1, 2, 3, 3, 3, 4, 5, 5])

np.unique(a)

array([0, 1, 2, 3, 4, 5])

### Сравнения и логические маски  <a class="anchor" id="logical"></a>

####  Логическое сравнение и булевы операторы

In [155]:
a = np.arange(10)
a

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [166]:
b = np.array([-1, 2, 5, 1, 10, 3, 5, 4, 6, 15])
b

array([-1,  2,  5,  1, 10,  3,  5,  4,  6, 15])

При сравнение двух массивов создается булев массив, содержащий **True** и **False** в зависимости от выполнения логического условия

In [168]:
a > b

array([ True, False, False,  True, False,  True,  True,  True,  True,
       False])

NumPy массивы поддерживают все логические операторы

Если необходимо применить несколько логических операций, то используются побитовые булевы операторы

Побитовый булев оператор	|  Описание
:---------------------------|:--------------
&	                        |  Логическое И
\|	                        |  Логическое ИЛИ
^	                        |  Логическое Исключающее ИЛИ
~	                        |  Логическое НЕ

In [186]:
(a % 2 == 0) & (a > 3)

array([False, False, False, False,  True, False,  True, False,  True,
       False])

<div class="alert alert-block alert-danger">
<b>АЛАРМ:</b> НЕ ЗАБЫВАЙТЕ ставить скобки для каждой логической операции!!!
</div>

<div class="alert alert-block alert-success">
<b>Справка:</b> По факту логические операции вкупе с булевыми операторами являются для NumPy массивов обычными фильтрами!
</div>

С помощью булевых массивов можно посчитать кол-во ненулевых элементов, удовлетворяющих определенным условиям. Это работает, так как **True** воспринимает питоном при сложении, как 1, а **False**, как 0.

In [183]:
np.sum((a % 2 == 0) & (a > 3))

3

С булевыми массивами, также хорошо работают функции **np.any** и **np.all**

In [184]:
np.any((a % 2 == 0) & (a > 3))

True

In [185]:
np.all((a % 2 == 0) & (a > 3))

False

#### Макси булевыми массивами

Если передать булев массив в квадратные скобки массива, то останутся только те элементы для которых по индексу выполняется **True**

In [188]:
a

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [189]:
b

array([-1,  2,  5,  1, 10,  3,  5,  4,  6, 15])

In [169]:
a[a > b]

array([0, 3, 5, 6, 7, 8])

Если же надо взять элементы с логическим значением **False** необходимо это явно указать

In [171]:
a[(a > b) == False]

array([1, 2, 4, 9])

In [187]:
a[(a % 2 == 0) & (a > 3)]

array([4, 6, 8])

#### Помимо фильтров очень важной функцией является функция np.where(), которая принимает 3 аргумента, булев массив, значение которое будет подставлено на место True, и значение которое будет подставлено на место False

In [190]:
np.where(a > 5, a, 1000)

array([1000, 1000, 1000, 1000, 1000, 1000,    6,    7,    8,    9])

Фактически внутри скобок можно читать так: 

    ЕСЛИ a > 5, ТО a, ИНАЧЕ 1000

<div class="alert alert-block alert-danger">
<b>АЛАРМ:</b> Эта функция действительно является очень полезной! Запомните ее!
</div>

Приведу еще пару полезных функций

In [191]:
print(f'a.count_nonzero() - показывает кол-во ненулевых элементов - {a.nonzero()}')
print(f'a.nonzero() - показывает индексы ненулевых элементов - {a.nonzero()}')
print(f'np.maximum(a, 5) - сравнивает поэлементно с числом 5 и оставляет в массиве максимальное из них - {np.maximum(a, 5)}')
print(f'np.maximum(a, b) - сравнивает поэлементно массив a и b и оставляет в массиве максимальное из них - {np.maximum(a, b)}')
print(f'np.minimum(a, 5) - сравнивает поэлементно с числом 5 и оставляет в массиве минимальное из них - {np.minimum(a, 5)}')
print(f'np.maximum(a, b) - сравнивает поэлементно массив a и b и оставляет в массиве минимальное из них - {np.minimum(a, b)}')

a.count_nonzero() - показывает кол-во ненулевых элементов - (array([1, 2, 3, 4, 5, 6, 7, 8, 9]),)
a.nonzero() - показывает индексы ненулевых элементов - (array([1, 2, 3, 4, 5, 6, 7, 8, 9]),)
np.maximum(a, 5) - сравнивает поэлементно с числом 5 и оставляет в массиве максимальное из них - [5 5 5 5 5 5 6 7 8 9]
np.maximum(a, b) - сравнивает поэлементно массив a и b и оставляет в массиве максимальное из них - [ 0  2  5  3 10  5  6  7  8 15]
np.minimum(a, 5) - сравнивает поэлементно с числом 5 и оставляет в массиве минимальное из них - [0 1 2 3 4 5 5 5 5 5]
np.maximum(a, b) - сравнивает поэлементно массив a и b и оставляет в массиве минимальное из них - [-1  1  2  1  4  3  5  4  6  9]


### Слияние и разбиение массивов  <a class="anchor" id="concat"></a>

#### Слияние 

In [95]:
a = np.array([1, 2, 3])
b = np.array([4, 5, 6])

Функция np.concatenate() принмает на вход список (или кортеж) массивов, которые нужно объединить

In [97]:
np.concatenate([a, b])

array([1, 2, 3, 4, 5, 6])

В случае многомерных массивов можно указывать ось, по которой будет осуществляться объединение

In [98]:
a = np.array([[1, 2, 3],
              [4, 5, 6]])

b = np.array([[7, 8, 9],
              [10, 11, 12]])

По-умолчанию объединение происходит по оси 0 (строки).

In [101]:
np.concatenate([a, b])

array([[ 1,  2,  3],
       [ 4,  5,  6],
       [ 7,  8,  9],
       [10, 11, 12]])

In [100]:
np.concatenate([a, b], axis=1)

array([[ 1,  2,  3,  7,  8,  9],
       [ 4,  5,  6, 10, 11, 12]])

Если в массивах отличается одно измерение, то удобней использовать функции np.vstack (вертикальное объединение) и np.hstack (горизонтальное объединение)

In [106]:
a = np.array([1, 2, 3])

b = np.array([[4, 5, 6],
              [7, 8, 9]])

c = np.array([[10],
              [11]])

In [107]:
np.vstack([a, b])

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [108]:
np.hstack([b, c])

array([[ 4,  5,  6, 10],
       [ 7,  8,  9, 11]])

#### Разбиение

В случае одномерных массивов

In [128]:
a = np.arange(10)
a

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [134]:
b, c, d, e = np.split(a, [1, 4, 6])

print(f'b - {b}')
print(f'c - {c}')
print(f'd - {d}')
print(f'e - {e}')

b - [0]
c - [1 2 3]
d - [4 5]
e - [6 7 8 9]


В случае двухмерных массивов

In [138]:
a = np.array([[1, 2, 3],
              [4, 5, 6],
              [7, 8, 9]])

In [139]:
b, c = np.split(a, [1], axis=0)

In [140]:
b

array([[1, 2, 3]])

In [141]:
c

array([[4, 5, 6],
       [7, 8, 9]])

In [142]:
d, e = np.split(a, [2], axis=1)

In [143]:
d

array([[1, 2],
       [4, 5],
       [7, 8]])

In [144]:
e

array([[3],
       [6],
       [9]])

Функции np.hsplit и np.vsplit аналогичны, просто оси в них по-умолчанию уже подразумеваются

In [148]:
b, c = np.vsplit(a, [1])

In [149]:
b

array([[1, 2, 3]])

In [150]:
c

array([[4, 5, 6],
       [7, 8, 9]])

In [151]:
b, c = np.hsplit(a, [2])

In [152]:
b

array([[1, 2],
       [4, 5],
       [7, 8]])

In [153]:
c

array([[3],
       [6],
       [9]])

<table>
<tr style="background:transparent">
 <td><img src="Image_fifth_lecture/dog_python.jpg" alt="Обработка питоном" width="500"></td>
 <td><img src="Image_fifth_lecture/dog_numpy.jpg" alt="Обработка numpy" width="490"></td>
</tr>
</table>