# Пакет NumPy. Часть 2
## Массивы с фиксированным типом данных

In [6]:
import numpy as np

### Операции над массивами. Транслирование
Еще один способ применения операций векторизации — использовать имеющиеся в библиотеке
NumPy возможности **транслирования (broadcasting)**.  
Транслирование представляет собой набор правил по применению **бинарных** универсальных функций (сложение, вычитание, умножение и т. д.) к массивам различного размера.

In [5]:
a = np.array([0, 1, 2])
b = np.array([5, 5, 5])
# Сложение массивов одинаковой размерности
a + b

array([5, 6, 7])

In [4]:
# Прибавление скалярного значения (нульмерного массива)
a + 3

array([3, 4, 5])

**Транслирование на массивы большей размерности**  
Здесь одномерный массив a растягивается (транслируется) на второе измерение, чтобы соответствовать форме массива M.

In [6]:
M = np.ones((3, 3))
M

array([[1., 1., 1.],
       [1., 1., 1.],
       [1., 1., 1.]])

In [7]:
M + a

array([[1., 2., 3.],
       [1., 2., 3.],
       [1., 2., 3.]])

**Транслирование обоих массивов**  
Аналогично тому, как мы раньше растягивали (транслировали) один массив, чтобы
он соответствовал форме другого, здесь мы растягиваем оба массива a и b, чтобы
привести их к общей форме.

In [9]:
a = np.arange(3)
b = np.arange(3)[:, np.newaxis]
print(a)
print(b)
a + b

[0 1 2]
[[0]
 [1]
 [2]]


array([[0, 1, 2],
       [1, 2, 3],
       [2, 3, 4]])

### Правила транслирования
1. Если размерность двух массивов отличается, форма массива с меньшей размерностью дополняется единицами с ведущей (левой) стороны.
2. Если форма двух массивов не совпадает в каком-то измерении, массив с формой, равной 1 в данном измерении, растягивается вплоть до соответствия форме другого массива.
3. Если в каком-либо измерении размеры массивов различаются и ни один не равен 1, генерируется ошибка.

### Сравнения, маски и булева логика

**Операторы сравнения как универсальные функции**

In [10]:
x = np.array([1, 2, 3, 4, 5])
x >= 3

array([False, False,  True,  True,  True])

In [11]:
(2 * x) == (x ** 2)

array([False,  True, False, False, False])

In [15]:
x = np.random.random((3, 4)) * 10
x

array([[7.70500863, 3.9678357 , 3.76224305, 9.46314727],
       [2.17052022, 1.15627312, 2.38275176, 6.11990502],
       [8.73860517, 6.06284708, 2.98402703, 2.98386139]])

In [16]:
x < 6

array([[False,  True,  True, False],
       [ True,  True,  True, False],
       [False, False,  True,  True]])

### Работа с булевыми массивами
**Подсчет количества элементов**

In [17]:
# Сколько значений массива меньше 6?
np.count_nonzero(x < 6)

7

In [18]:
np.sum(x < 6)

7

In [19]:
# Сколько значений меньше 6 содержится в каждой строке?
np.sum(x < 6, axis=1)

array([2, 3, 2])

In [20]:
# Имеются ли в массиве какие-либо значения, превышающие 8?
np.any(x > 8)

True

In [21]:
# Все ли значения меньше 10?
np.all(x < 10)

True

In [22]:
# Количество значений между 2 и 5
np.sum((x > 2) & (x < 5))

6

**Булевы массивы как маски**  
Наложение маски или маскирование

In [29]:
x[(x < 5) | (x > 7)]

array([7.70500863, 3.9678357 , 3.76224305, 9.46314727, 2.17052022,
       1.15627312, 2.38275176, 8.73860517, 2.98402703, 2.98386139])

In [30]:
x[(x >= 2) & (x <= 4)]

array([3.9678357 , 3.76224305, 2.17052022, 2.38275176, 2.98402703,
       2.98386139])

### «Прихотливая» индексация
«Прихотливая» индексация похожа на уже рассмотренную нами простую индексацию, но вместо скалярных значений передаются массивы индексов.

In [31]:
rand = np.random.RandomState(42)
x = rand.randint(100, size=10)
print(x)
ind = [3, 7, 4]
x[ind]

[51 92 14 71 60 20 82 86 74 74]


array([71, 86, 60])

В случае «прихотливой» индексации форма результата отражает форму массивов индексов (index arrays), а не форму индексируемого массива.

In [32]:
ind = np.array([[3, 7],
               [4, 5]])
x[ind]

array([[71, 86],
       [60, 20]])

In [33]:
x = np.arange(12).reshape((3, 4))
x

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [34]:
row = np.array([0, 1, 2])
col = np.array([2, 1, 3])
x[row, col]
# Первое значение в результате — X[0, 2], второе — X[1, 1], и третье — X[2, 3].

array([ 2,  5, 11])

### Комбинированная индексация
Для реализации еще более сложных операций «прихотливую» индексацию можно использовать совместно с другими схемами индексации.

In [35]:
x

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [36]:
x[2, [2, 0, 1]]

array([10,  8,  9])

In [37]:
x[1:, [2, 0, 1]]

array([[ 6,  4,  5],
       [10,  8,  9]])

In [38]:
mask = np.array([1, 0, 1, 0], dtype=bool)
x[row[:, np.newaxis], mask]

array([[ 0,  2],
       [ 4,  6],
       [ 8, 10]])

### Сортировка массивов

In [7]:
x = np.array([2, 1, 4, 3, 5])
np.sort(x)
# или x.sort()

array([1, 2, 3, 4, 5])

Функция argsort возвращает индексы отсортированных элементов.

In [15]:
x = np.array([2, 1, 4, 3, 5])
i = np.argsort(x)
i

array([1, 0, 3, 2, 4], dtype=int64)

In [16]:
x[i] # прихотливая индексация -> отсортированный массив

array([1, 2, 3, 4, 5])

**Сортировка по строкам и столбцам** путем задания аргумента axis

In [14]:
rand = np.random.RandomState(42)
X = rand.randint(0, 10, (4, 6))
print(X, "\n")
print(np.sort(X, axis=0), "\n") # Сортируем все столбцы
print(np.sort(X, axis=1)) # Сортируем все строки 

[[6 3 7 4 6 9]
 [2 6 7 4 3 7]
 [7 2 5 4 1 7]
 [5 1 4 0 9 5]] 

[[2 1 4 0 1 5]
 [5 2 5 4 3 7]
 [6 3 7 4 6 7]
 [7 6 7 4 9 9]] 

[[3 4 6 6 7 9]
 [2 3 4 6 7 7]
 [1 2 4 5 7 7]
 [0 1 4 5 5 9]]


**Частичные сортировки: секционирование**  
Иногда нам не требуется сортировать весь массив, а просто нужно найти K наименьших значений в нем. Библиотека NumPy предоставляет для этой цели функцию **np.partition**. Функция np.partition принимает на входе массив и число K.  
Результат представляет собой новый массив с K наименьшими значениями слева от точки разбиения и остальные значения справа от нее в произвольном порядке.

In [17]:
x = np.array([7, 2, 3, 1, 6, 5, 4])
np.partition(x, 3)

array([2, 1, 3, 4, 6, 5, 7])

Первые три значения в итоговом массиве — три наименьших значения в нем, а на
остальных позициях массива располагаются все прочие значения. Внутри каждой
из двух секций элементы располагаются в произвольном порядке.

In [18]:
np.partition(X, 2, axis=1)

array([[3, 4, 6, 7, 6, 9],
       [2, 3, 4, 7, 6, 7],
       [1, 2, 4, 5, 7, 7],
       [0, 1, 4, 5, 9, 5]])

Результат представляет собой массив, в котором на первых двух позициях в каждой строке находятся наименьшие значения из этой строки, а остальные значения заполняют прочие места.

Наконец, аналогично функции np.argsort, вычисляющей индексы для сортировки, существует функция **np.argpartition**, вычисляющая индексы для секции.

### Структурированные массивы

In [28]:
name_lst = ['Alice', 'Bob', 'Cathy', 'Doug']
age_lst = [25, 45, 37, 19]
weight_lst = [55.0, 85.5, 68.0, 61.5]

**Создание** с использованием словаря

In [27]:
# Используем для структурированного массива составной тип данных
data = np.zeros(4, dtype={'names':('name', 'age', 'weight'),
                          'formats':('U10', 'i4', 'f8')})
print(data.dtype)

[('name', '<U10'), ('age', '<i4'), ('weight', '<f8')]


U10 означает «строку в кодировке Unicode максимальной длины 10»,  
i4 — «4-байтное (то есть 32-битное) целое число»,  
f8 — «8-байтное (то есть 64-битное) число с плавающей точкой». 

Первый (необязательный) символ — **< или >**,
означает «число с прямым порядком байтов» или «число с обратным порядком байтов» соответственно и задает порядок значащих битов.  
Следующий символ задает **тип данных**. Последний символ или символы отражают размер объекта в байтах.  

'b' Байтовый тип  
'i' Знаковое целое число  
'u' Беззнаковое целое число  
'f' Число с плавающей точкой  
'c' Комплексное число с плавающей точкой  
'S', 'a' Строка  
'U' Строка в кодировке Unicode  
'V' Неформатированные данные (тип void)

**Ссылки на значения**

In [29]:
data['name'] = name_lst
data['age'] = age_lst
data['weight'] = weight_lst
print(data)

[('Alice', 25, 55. ) ('Bob', 45, 85.5) ('Cathy', 37, 68. )
 ('Doug', 19, 61.5)]


In [30]:
# Извлечь все имена
data['name']

array(['Alice', 'Bob', 'Cathy', 'Doug'], dtype='<U10')

In [31]:
# Извлечь первую строку данных
data[0]

('Alice', 25, 55.)

In [32]:
# Извлечь имя из последней строки
data[-1]['name']

'Doug'

In [33]:
# Извлечь имена людей с возрастом менее 30
data[data['age'] < 30]['name']

array(['Alice', 'Doug'], dtype='<U10')

Составные типы данных можно задавать в виде **списка кортежей:**

In [34]:
np.dtype([('name', 'S10'), ('age', 'i4'), ('weight', 'f8')])

dtype([('name', 'S10'), ('age', '<i4'), ('weight', '<f8')])

### Массивы записей: структурированные массивы с дополнительными возможностями
Библиотека NumPy предоставляет класс **np.recarray**, практически идентичный
только что описанным структурированным массивам, но с одной дополнительной
возможностью: доступ к полям можно осуществлять как к атрибутам, а не только
как к ключам словаря.  
Как вы помните, ранее мы обращались к значениям возраста
путем написания следующей строки кода:

In [35]:
data['age']

array([25, 45, 37, 19])

Если же представить наши данные как массив записей, то можно обращаться к этим
данным с помощью чуть более короткого синтаксиса:

In [36]:
data_rec = data.view(np.recarray)
data_rec.age

array([25, 45, 37, 19])

Недостаток использования -- медлительность.