# Типы данных

## Целочисленные типы данных в NumPy

In [2]:
-(2**128)*2 

-680564733841876926926749214863536422912

In [None]:
import numpy as np
a = np.int8(25)
print(a)
# 25

print(type(a))
# <class 'numpy.int8'>

# Можно применить к самому
# названию типа данных
np.iinfo(np.int8)
# iinfo(min=-128, max=127, dtype=int8)

# Можно применить к существующему
# конкретному объекту
np.iinfo(a)
# iinfo(min=-128, max=127, dtype=int8)

b = np.int64(36)
print(np.iinfo(b))


b = np.uint8(124) #беззнаковые целочисленные типы данных
print(b)
# 124
print(type(b))
# <class 'numpy.uint8'>
np.iinfo(b)
# iinfo(min=0, max=255, dtype=uint8)

#Тип данных не сохранится, если просто присвоить переменной с заданным NumPy-типом данных новое значение:

a = np.int32(1000)
print(a)
# 1000
print(type(a))
# <class 'numpy.int32'>
a = 2056
print(a)
# 2056
print(type(a))
# <class 'int'>

#Вместо этого следует снова указать нужный NumPy-тип данных:

a = np.int32(1000)
print(a)
# 1000
print(type(a))
# <class 'numpy.int32'>
a = np.int32(2056)
print(a)
# 2056
print(type(a))
# <class 'numpy.int32'>
#А вот арифметические операции сохраняют NumPy-тип данных:

a = np.int32(1000)
b = a + 25
print(b)
# 1025
print(type(b))
# <class 'numpy.int64'>

#Если операция проводится с двумя NumPy-типами с фиксированным объёмом памяти, в результате сохраняется наиболее «старший» тип:

a = np.int32(1000)
b = np.int8(25)
c = a + b
print(c)
# 1025
print(type(c))
# <class 'numpy.int32'>

#Следует понимать, что произойдёт, если выделенной памяти для хранения переменной окажется недостаточно.

#Например, попробуем преобразовать число 260 в тип данных np.int8. Вспомните, какое максимальное число может храниться в этом типе данных.

a = np.int8(260)
print(a)
# 4
#В переменной a теперь оказалось число 4, а не 260. По сути в переменную записался остаток от деления 260 на 256, а не само число. Ошибка при этом не возникла.

#Если же при арифметических операциях происходит переполнение максимально выделенной памяти для типа, возникает предупреждение.

#Например, выполним сложение двух очень больших чисел типа int32 (максимум для этого типа — 2147483647):

a = np.int32(2147483610)
b = np.int32(2147483605)
print(a, b)
# 2147483610 2147483605
print(a + b)
# -81
# RuntimeWarning: overflow encountered in int_scalars
# Переполнено int'овое значение
#Значение было посчитано, но при этом оно явно отличается от той суммы, которую мы хотели получить.

#Чтобы избежать этой ошибки, вначале следовало преобразовать переменные к большему типу:

a = np.int32(2147483610)
b = np.int32(2147483605)
print(a, b)
# 2147483610 2147483605
print(np.int64(a) + np.int64(b))
# 4294967215




25
<class 'numpy.int8'>
Machine parameters for int64
---------------------------------------------------------------
min = -9223372036854775808
max = 9223372036854775807
---------------------------------------------------------------



## Типы данных с плавающей точкой в NumPy

In [None]:
#Помимо целых чисел, в NumPy, конечно, есть и дробные — float. Их названия строятся по тому же принципу: корень + объём памяти в битах. Беззнаковых float нет.

#Доступны следующие типы данных float: float16, float32, float64 (применяется по умолчанию, если объём памяти не задан дополнительно), float128.

#Чтобы узнать границы float и его точность, можно воспользоваться функцией np.finfo(<float тип данных>) (от англ. float info):

np.finfo(np.float16)
# finfo(resolution=0.001, min=-6.55040e+04, max=6.55040e+04, dtype=float16)
np.finfo(np.float32)
# finfo(resolution=1e-06, min=-3.4028235e+38, max=3.4028235e+38, dtype=float32)
np.finfo(np.float64)
# finfo(resolution=1e-15, min=-1.7976931348623157e+308, max=1.7976931348623157e+308, dtype=float64)
np.finfo(np.float128)
# finfo(resolution=1e-18, min=-1.189731495357231765e+4932, max=1.189731495357231765e+4932, dtype=float128)
#Примечание. Если ввести в VS Code команду np.finfo(np.float128), ответом будет AttributeError: module 'numpy' has no attribute 'float128'. Всё потому, что numpy.float128 не поддерживается в Windows с использованием компилятора MS. Если вам всё же нужно поработать с numpy.float128, воспользуйтесь онлайн-IDE.

R#esolution (от англ. «разрешение») в выводе finfo означает точность, с которой сохраняется десятичная часть числа в стандартном виде. Для float16 это 0.001, то есть числа 4.12 и 4.13 будут отличимы друг от друга, а вот 4.124 и 4.125 — нет. Третий знак числа float16 идёт уже с шагом 0.005:

print(np.float16(4.12))
# 4.12
print(np.float16(4.13))
# 4.13
print(np.float16(4.123))
# 4.12
print(np.float16(4.124))
# 4.125
print(np.float16(4.125))
# 4.125



## Дополнительные типы данных в NumPy

In [None]:
#Полный список (а точнее, словарь) типов данных в NumPy можно получить с помощью атрибута sctypeDict. Вывод не приводится, поскольку в этом словаре содержится более 100 ключей (их число может варьироваться в зависимости от версии NumPy)! Однако основные названия типов данных в NumPy не меняются от версии к версии.

print(np.sctypeDict)
print(len(np.sctypeDict))
# 158, но может быть 135 или 139
#Н#а самом деле реальных типов данных гораздо меньше, просто одни и те же типы данных могут иметь разные ярлыки. Получить список названий уникальных типов данных NumPy можно с помощью следующего выражения. Попробуйте вспомнить, что делают все функции, которые в нём использованы:

print(*sorted(map(str, set(np.sctypeDict.values()))), sep='\n')
#Всего в выдаче будет 24 строки. Int, uint и float мы уже изучили. Datetime и timedelta используются для хранения времени, complex используется для работы с комплéксными числами.

#Пример с bool:

a = True
print(type(a))
# <class 'bool'>
a = np.bool(a)
print(type(a))
# <class 'bool'>
a = np.bool_(a)
print(type(a))
# <class 'numpy.bool_'>
 
# Значения равны
print(np.bool(True) == np.bool_(True))
# True
# А типы — нет:
print(type(np.bool(True)) == type(np.bool_(True)))
# False
#Пример со str:

a = "Hello world!"
print(type(a))
# <class 'str'>
a = np.str(a)
print(type(a))
# <class 'str'>
a = np.str_(a)
print(type(a))
# <class 'numpy.str_'>



# Модуль NumPy. Массивы

Итак, массив — это структура данных, в которой:

1
Элементы хранятся в указанном порядке.

2
Каждый элемент можно получить по индексу за одинаковое время.

3
Все элементы приведены к одному и тому же типу данных.

4
Максимальное число элементов и объём выделенной памяти заданы заранее.
Именно это происходит при работе компьютера с массивами: чтобы получить десятый элемент массива, если известно, например, что каждый элемент занимает 64 бита, достаточно прочитать элемент в памяти длиной 64 бита, который находится через 640 бит от начала массива. Компьютер умеет выполнять эту операцию очень быстро.

Также, поскольку элементы в массиве располагаются в памяти последовательно, рядом друг с другом, это позволяет быстрее выполнять операции сразу с совокупностью элементов.
азмерностью массива называют то число индексов, которое необходимо для однозначного получения элемента из массива.

Соответственно, чтобы найти элемент в массиве размерности 1 (строка из чисел) достаточно одного индекса.
В двумерном массиве (таблице из чисел) потребуется уже два индекса: номер строки и номер столбца.
Для трёхмерного массива (например, контейнеры на судне расположены по длине, ширине и высоте судна) потребуется уже три индекса.
Максимальная размерность массива программно не ограничена, но с добавлением каждой размерности в несколько раз увеличивается объём требуемой для его хранения памяти. Поэтому в какой-то момент места для массива большой размерности может не хватить, однако фактическая максимальная размерность зависит от возможностей компьютера.

Форма (структура) массива — это информация о количестве размерностей массива и протяжённости массива по каждой из размерностей. Например, можно задать двумерный массив размера 3x5 — у этой таблицы две размерности: 3 строки и 5 столбцов.

## Создание массивов

In [None]:
#Создать массив из списка можно с помощью функции np.array(<объект>):

import numpy as np
arr = np.array([1,5,2,9,10])
arr
# array([ 1,  5,  2,  9, 10])
#Функция np.array возвращает объекты типа numpy.ndarray:

print(type(arr))
# <class 'numpy.ndarray'>
#Название ndarray — это сокращение от n-dimensional array, n-мерный массив.
# Перечислить список из списков можно
# было и в одну строку, но на нескольких
# строках получается нагляднее
nd_arr = np.array([
               [12, 45, 78],
               [34, 56, 13],
               [12, 98, 76]
               ])
nd_arr
# array([[12, 45, 78],
#        [34, 56, 13],
#        [12, 98, 76]])

## Типы данных в массиве

In [None]:
arr = np.array([1,5,2,9,10])
arr.dtype
# dtype('int64')

#Задать тип данных сразу при создании массива можно с помощью параметра dtype:

arr = np.array([1,5,2,9,10], dtype=np.int8)
arr
# array([ 1,  5,  2,  9, 10], dtype=int8)

#Поменять тип данных во всём массиве можно с помощью тех же функций, которыми мы пользовались для преобразования типов отдельных переменных в предыдущем уроке (например, np.int32 или np.float128):

arr = np.float128(arr)
arr
# array([ 1.,  5., 12.,  9., 10.], dtype=float128)

#При преобразовании типов данных в массиве не забывайте о том, что часть чисел может потерять смысл, если менять тип данных с более ёмкого на менее ёмкий:

arr = np.array([12321, -1234, 3435, -214, 100], dtype=np.int32)
arr
# array([12321, -1234,  3435,  -214,   100], dtype=int32)
 
arr = np.uint8(arr)
arr
# array([ 33,  46, 107,  42, 100], dtype=uint8)



In [9]:
import numpy as np
arr = np.array([345234, 876362.12, 0, -1000, 99999999], dtype=np.float64)
print(arr)

[ 3.4523400e+05  8.7636212e+05  0.0000000e+00 -1.0000000e+03
  9.9999999e+07]


## Свойства NumPy-массивов

In [None]:
import numpy as np
arr = np.array([1,5,2,9,10], dtype=np.int8)
nd_arr = np.array([
               [12, 45, 78],
               [34, 56, 13],
               [12, 98, 76]
               ], dtype=np.int16)

#Узнать размерность массива можно с помощью .ndim:

arr.ndim
# 1
nd_arr.ndim
# 2

#Узнать общее число элементов в массиве можно с помощью .size:

arr.size
# 5
nd_arr.size
# 9

#Форма или структура массива хранится в атрибуте .shape:

arr.shape
# (5,)
nd_arr.shape
# (3, 3)




Форма массива хранится в виде кортежа с числом элементов, равным размерности массива. Соответственно, для одномерного массива напечатан кортеж длины 1. Обратите внимание, что для двумерного массива вначале было напечатано число «строк», а затем число «столбцов». Это так только отчасти. На самом деле массив как бы состоит из внешних и внутренних массивов: вспомните, что мы передавали список, состоящий из трёх списков, длина каждого из которых равнялась трём. Форма массива определяется от длины внешнего массива (3) к внутреннему (3).

In [None]:
import numpy as np
#Наконец, узнать, сколько «весит» каждый элемент массива в байтах позволяет .itemsize:

arr.itemsize
# 1
nd_arr.itemsize
# 2

## Заполнение новых массивов

Можно заранее подготовить массив заданной размерности, заполненный нулями, а потом загружать в него реальные данные по мере необходимости.

Массив из нулей создаётся функцией np.zeros. Она принимает аргументы shape (обязательный) — форма массива (одно число или кортеж) и dtype (необязательный) — тип данных, который будет храниться в массиве.

In [None]:
import numpy as np
#Создадим одномерный массив из пяти элементов:

zeros_1d = np.zeros(5)
zeros_1d
# array([0., 0., 0., 0., 0.])
#Создадим трёхмерный массив с формой 5x4x3 и типом float32:

zeros_3d = np.zeros((5,4,3), dtype=np.float32)
print(zeros_3d.shape)
# (5, 4, 3)



Ещё одной удобной функцией для создания одномерных массивов является arange. Она аналогична встроенной функции range, но обладает рядом особенностей. Вот её сигнатура: arange([start,] stop, [step,], dtype=None).

Аргументы start (по умолчанию 0), step (по умолчанию 1) и dtype (определяется автоматически) являются необязательными:

start (входит в диапазон возвращаемых значений) задаёт начальное число;
stop (не входит в диапазон возвращаемых значений, как и при использовании range) задаёт правую границу диапазона;
step задаёт шаг, с которым в массив добавляются новые значения.
В отличие от range, в функции arange все перечисленные параметры могут иметь тип float.

In [None]:
#Поэкспериментируем. Создадим массив из пяти чисел от 0 до 4:

np.arange(5)
# array([0, 1, 2, 3, 4])
#Создадим массив от 2.5 до 5:

np.arange(2.5, 5)
# array([2.5, 3.5, 4.5])
#Создадим массив от 2.5 до 5 с шагом 0.5:

np.arange(2.5, 5, 0.5)
# array([2.5, 3. , 3.5, 4. , 4.5])
#Создадим массив от 2.5 до 5 с шагом 0.5 и с типом float16:

np.arange(2.5, 5, 0.5, dtype=np.float16)
# array([2.5, 3. , 3.5, 4. , 4.5], dtype=float16)

На самом деле операции с плавающей точкой не всегда бывают предсказуемыми из-за особенностей хранения таких чисел в памяти компьютера. Поэтому для работы с дробными параметрами start, stop и step лучше использовать функцию linspace (англ. linear space — линейное пространство). Она тоже возвращает одномерный массив из чисел, расположенных на равном удалении друг от друга между началом и концом диапазона, но обладает немного другим поведением и сигнатурой:

np.linspace(start, stop, num=50, endpoint=True, retstep=False, dtype=None)

start и stop являются обязательными параметрами, задающими начало и конец возвращаемого диапазона;
num — параметр, задающий число элементов, которое должно оказаться в массиве (по умолчанию 50);
endpoint — включён или исключён конец диапазона (по умолчанию включён);
retstep (по умолчанию False) позволяет указать, возвращать ли использованный шаг между значениями, помимо самого массива;
dtype — уже хорошо знакомый нам параметр, задающий тип данных (если не задан, определяется автоматически).

In [None]:
#Давайте потренируемся. Создадим массив из десяти чисел между 1 и 2:

arr = np.linspace(1, 2, 10)
arr
# array([1.        , 1.11111111, 1.22222222, 1.33333333, 1.44444444,
#        1.55555556, 1.66666667, 1.77777778, 1.88888889, 2.        ])
#Создадим массив из десяти чисел между 1 и 2, не включая 2:

arr = np.linspace(1, 2, 10, endpoint=False)
arr
# array([1. , 1.1, 1.2, 1.3, 1.4, 1.5, 1.6, 1.7, 1.8, 1.9])
#Узнаем, какой шаг был использован для создания массива из десяти чисел между 1 и 2, где 2 включалось и не включалось:

arr, step = np.linspace(1, 2, 10, endpoint=True, retstep=True)
print(step)
# 0.1111111111111111

arr, step = np.linspace(1, 2, 10, endpoint=False, retstep=True)
print(step)
# 0.1
#→ Функцию linspace очень удобно использовать при построении графиков различных функций, поскольку она позволяет получить равномерный массив чисел, к которому можно применить исследуемую функцию и показать результат на графике. Вы научитесь это делать в модуле, посвящённом визуализации.

In [12]:
import numpy as np
arr, step = np.linspace(-6,21,60, endpoint = False, retstep = True)
print(round(step, 2))

0.45
