<a href="https://colab.research.google.com/github/hairymax/Python-for-science-lecture-notes/blob/main/02_NumPy/2.3.elaborate_arrays.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Более сложные массивы

Этот ноутбук является переводом раздела [More elaborate arrays](https://scipy-lectures.org/intro/numpy/elaborate_arrays.html) из онлайн-курса [scipy-lectures](https://scipy-lectures.org/)

In [None]:
import numpy as np


## Дополнительные типы данных

**“Bigger” (более ресурсоёмкий) тип выигрывает в операциях смешанного типа:**

### Приведение типов

In [None]:
np.array([1, 2, 3]) + 1.5

array([2.5, 3.5, 4.5])

Присвоение никогда не меняет тип!

In [None]:
a = np.array([1, 2, 3])
a.dtype

dtype('int64')

In [None]:
a[0] = 1.9  # <-- float усекается до целого числа
a

array([1, 2, 3])

Принудительное приведение типов:

In [None]:
a = np.array([1.7, 1.2, 1.6])
b = a.astype(int)  # <-- приводение к integer
b

array([1, 1, 1])

Округление:

In [None]:
a = np.array([1.2, 1.5, 1.6, 2.5, 3.5, 4.5])
b = np.around(a)
b                    # все еще с плавающей запятой

array([1., 2., 2., 2., 4., 4.])

In [None]:
c = np.around(a).astype(int)
c

array([1, 2, 2, 2, 4, 4])

### Размеры чисел различных типов данных

*Целые числа со знаком* (Signed integers):

|**Тип**| Размер|
|-------|-------|
|**`int8`**|	8 бит|
|**`int16`**|  16 бит|
|**`int32`**|	32 бит (то же, что `int` на 32-разрядной платформе)|
|**`int64`**|	64 бит (то же, что `int` на 64-разрядной платформе)|

In [None]:
np.array([1], dtype=int).dtype

dtype('int64')

In [None]:
np.iinfo(np.int32).max, 2**31 - 1

(2147483647, 2147483647)

*Целые числа без знака* (Unsigned integers):

|**Тип**| Размер|
|-------|-------|
|**`uint8`**|	8 бит|
|**`uint16`**|  16 бит|
|**`uint32`**|	32 бит|
|**`uint64`**|	64 бит|

In [None]:
np.iinfo(np.uint32).max, 2**32 - 1

(4294967295, 4294967295)

*Числа с плавающей запятой* (Floating-point numbers):

|**Тип**| Размер|
|-------|-------|
|**`float16`**|	16 бит|
|**`float32`**|	32 бит|
|**`float64`**|	64 бит (то же, что и `float`)|
|**`float96`**|	96 бит, зависит от платформы (то же, что и `np.longdouble`)|
|**`float128`**|	128 бит, зависит от платформы (то же, что и `np.longdouble`)|

In [None]:
np.finfo(np.float32).eps

1.1920929e-07

In [None]:
np.finfo(np.float64).eps

2.220446049250313e-16

In [None]:
np.float32(1e-8) + np.float32(1) == 1

True

In [None]:
np.float64(1e-8) + np.float64(1) == 1

False

*Длинные целые числа* (Long integers):

*Python 2* имеет определенный тип для ‘длинных’ целых чисел, которые не могут переполняться, представленные буквой ‘L’ в конце.  
В *Python 3* все целые числа типа long и, следовательно, не могут переполняться.

In [None]:
np.iinfo(np.int64).max, 2**63 - 1  

(9223372036854775807, 9223372036854775807)

*Комплексные числа с плавающей запятой* (Complex floating-point numbers):

|**Тип**| Размер|
|-------|-------|
|**`complex64`**|	два 32-битных числа с плавающей точкой|
|**`complex128`**|	два 64-битных числа с плавающей точкой|
|**`complex192`**|	два 96-битных с плавающей точкой, зависит от платформы|
|**`complex256`**| два 128-битных с плавающей точкой, зависит от платформы|

#### *Меньшие типы данных*

Если вы не уверены, что вам нужны специальные типы данных, то, скорее всего, они и не нужны.

Сравнение использования `float32` вместо `float64`:
- Вдвое меньше места в памяти и на диске
- Требуется вдвое меньше пропускной способности памяти (в некоторых операциях может быть немного быстрее)
- **Но**: бОльшие ошибки округления — иногда в неожиданных местах (не используйте их, если они вам действительно не нужны)

In [None]:
a = np.zeros((int(1e6),), dtype=np.float64)
b = np.zeros((int(1e6),), dtype=np.float32)
%timeit a*a

1000 loops, best of 5: 1.09 ms per loop


In [None]:
%timeit b*b

1000 loops, best of 5: 372 µs per loop


## Структурированные типы данных

Зададим поля с указанными типами

| Поле  | Тип   |
|-------|-------|
|sensor_code|	(4-символьная строка)|
|position|	(float)|
|value|	(float)|

In [None]:
samples = np.zeros((6,), dtype=[('sensor_code', 'S4'),
                                ('position', float), ('value', float)])
samples.ndim

1

In [None]:
samples.shape

(6,)

In [None]:
samples.dtype.names

('sensor_code', 'position', 'value')

In [None]:
samples[:] = [('ALFA',   1, 0.37), ('BETA', 1, 0.11), ('TAU', 1,   0.13),
              ('ALFA', 1.5, 0.37), ('ALFA', 3, 0.11), ('TAU', 1.2, 0.13)]
samples

array([(b'ALFA', 1. , 0.37), (b'BETA', 1. , 0.11), (b'TAU', 1. , 0.13),
       (b'ALFA', 1.5, 0.37), (b'ALFA', 3. , 0.11), (b'TAU', 1.2, 0.13)],
      dtype=[('sensor_code', 'S4'), ('position', '<f8'), ('value', '<f8')])

Доступ к полю осуществляется путем индексации с помощью имен полей:

In [None]:
samples['sensor_code']    

array([b'ALFA', b'BETA', b'TAU', b'ALFA', b'ALFA', b'TAU'], dtype='|S4')

In [None]:
samples['value']

array([0.37, 0.11, 0.13, 0.37, 0.11, 0.13])

In [None]:
samples[0]    

(b'ALFA', 1., 0.37)

In [None]:
samples[0]['sensor_code'] = 'TAU'
samples[0] 

(b'TAU', 1., 0.37)

Несколько полей одновременно:

In [None]:
samples[['position', 'value']] 

array([(1. , 0.37), (1. , 0.11), (1. , 0.13), (1.5, 0.37), (3. , 0.11),
       (1.2, 0.13)],
      dtype={'names':['position','value'], 'formats':['<f8','<f8'], 'offsets':[4,12], 'itemsize':20})

Индексация по маске работает, как обычно:

In [None]:
samples[samples['sensor_code'] == b'ALFA']    

array([(b'ALFA', 1.5, 0.37), (b'ALFA', 3. , 0.11)],
      dtype=[('sensor_code', 'S4'), ('position', '<f8'), ('value', '<f8')])

## `maskedarray`: обработка (заполенение) отсутствующих данных

- Для `floats` можно было бы использовать *NaN*, но маски работают для всех типов:

In [None]:
x = np.ma.array([1, 2, 3, 4], mask=[0, 1, 0, 1])
x

masked_array(data=[1, --, 3, --],
             mask=[False,  True, False,  True],
       fill_value=999999)

In [None]:
y = np.ma.array([1, 2, 3, 4], mask=[0, 1, 1, 1])
x + y

masked_array(data=[2, --, --, --],
             mask=[False,  True,  True,  True],
       fill_value=999999)

- Версии масок через общие функции:

In [None]:
np.ma.sqrt([1, -1, 2, -2]) 

masked_array(data=[1.0, --, 1.4142135623730951, --],
             mask=[False,  True, False,  True],
       fill_value=1e+20)

Хотя это и не относится к главе о numpy, давайте отвлечемся на минуту и вспомним о хороших практиках кодинга, которые действительно окупаются в долгосрочной перспективе:

## Хорошие практики

- Давайте говорящие имена переменным (отпадает необходимость в написании комментариев для объяснения, что находится в переменной).
- Стиль: пробелы после запятых, вокруг знаков присваивания `=` и т.д. (так код более читаем)
- Некоторые правила написания "красивого" кода (и, что более важно, использования общепринятых соглашений!) приведено в Руководстве по стилю кода Python ([Style Guide for Python Code](https://peps.python.org/pep-0008/)) и на странице [Docstring Conventions](https://peps.python.org/pep-0257/).

- За исключением некоторых редких случаев, имена переменных и комментарии на английском языке.