## Типы данных в NumPy

In [22]:
import numpy as np
print(*sorted(map(str, set(np.sctypeDict.values()))), sep='\n') #выводим весь перечень типов

<class 'numpy.bool_'>
<class 'numpy.bytes_'>
<class 'numpy.clongdouble'>
<class 'numpy.complex128'>
<class 'numpy.complex64'>
<class 'numpy.datetime64'>
<class 'numpy.float16'>
<class 'numpy.float32'>
<class 'numpy.float64'>
<class 'numpy.int16'>
<class 'numpy.int32'>
<class 'numpy.int64'>
<class 'numpy.int8'>
<class 'numpy.intc'>
<class 'numpy.longdouble'>
<class 'numpy.object_'>
<class 'numpy.str_'>
<class 'numpy.timedelta64'>
<class 'numpy.uint16'>
<class 'numpy.uint32'>
<class 'numpy.uint64'>
<class 'numpy.uint8'>
<class 'numpy.uintc'>
<class 'numpy.void'>


### Узнаем границы значений для типов:

In [23]:
np.iinfo(np.int8)
np.finfo(np.float64) #в VS code нет типа float128

finfo(resolution=1e-15, min=-1.7976931348623157e+308, max=1.7976931348623157e+308, dtype=float64)

Массив — это структура данных, в которой:

1. Элементы хранятся в указанном порядке.
2. Каждый элемент можно получить по индексу за одинаковое время.
3. Все элементы приведены к одному и тому же типу данных.
4. Максимальное число элементов и объём выделенной памяти заданы заранее.

In [94]:
import numpy as np
arr = np.array([1,5,2,9,10])
arr
print(type(arr))
arr.dtype #тип данных хранящийся в массиве

<class 'numpy.ndarray'>


dtype('int32')

In [95]:
np.finfo(np.float16)
arr=np.float16(99999999)
print(arr)

inf


  arr=np.float16(99999999)


In [130]:
arr = np.array([1,5,2,9,10], dtype=np.int8) #задаем тип данных
arr[2] = 2000
arr

For the old behavior, usually:
    np.array(value).astype(dtype)`
will give the desired result (the cast overflows).
  arr[2] = 2000


array([  1,   5, -48,   9,  10], dtype=int8)

In [131]:
arr = np.array([1,5,2,9,10], dtype=np.int8)
nd_arr = np.array([
               [12, 45, 78],
               [34, 56, 13],
               [12, 98, 76]
               ], dtype=np.int16)

print(arr.ndim) #размерность массива
print(nd_arr.size) #число элементов
print(nd_arr.shape) #форма массива данных
print(arr.itemsize) #сколько весит один элемент массива
print(nd_arr.itemsize)

1
9
(3, 3)
1
2


### ЗАПОЛНЕНИЕ НОВЫХ МАССИВОВ
Массив из нулей создаётся функцией np.zeros. Она принимает аргументы shape (обязательный) — форма массива (одно число или кортеж) и dtype (необязательный) — тип данных, который будет храниться в массиве.

In [132]:
zeros_3d = np.zeros((5,4,3), dtype=np.float32)
print(zeros_3d)

[[[0. 0. 0.]
  [0. 0. 0.]
  [0. 0. 0.]
  [0. 0. 0.]]

 [[0. 0. 0.]
  [0. 0. 0.]
  [0. 0. 0.]
  [0. 0. 0.]]

 [[0. 0. 0.]
  [0. 0. 0.]
  [0. 0. 0.]
  [0. 0. 0.]]

 [[0. 0. 0.]
  [0. 0. 0.]
  [0. 0. 0.]
  [0. 0. 0.]]

 [[0. 0. 0.]
  [0. 0. 0.]
  [0. 0. 0.]
  [0. 0. 0.]]]


Для создания одномерных массивов: arange([start,] stop, [step,], dtype=None).
Аргументы start (по умолчанию 0), step (по умолчанию 1) и dtype (определяется автоматически) являются необязательными:
start (входит в диапазон возвращаемых значений) задаёт начальное число;
stop (не входит в диапазон возвращаемых значений, как и при использовании range) задаёт правую границу диапазона;
step задаёт шаг, с которым в массив добавляются новые значения.

In [133]:
print(np.arange(2.5, 5, 0.5, dtype=np.float16))

[2.5 3.  3.5 4.  4.5]


Операции с плавающей точкой не всегда бывают предсказуемыми из-за особенностей хранения таких чисел в памяти компьютера. Поэтому для работы с дробными параметрами start, stop и step лучше использовать функцию linspace:
np.linspace(start, stop, num=50, endpoint=True, retstep=False, dtype=None)
start и stop являются обязательными параметрами, задающими начало и конец возвращаемого диапазона;
num — параметр, задающий число элементов, которое должно оказаться в массиве (по умолчанию 50);
endpoint — включён или исключён конец диапазона (по умолчанию включён);
retstep (по умолчанию False) позволяет указать, возвращать ли использованный шаг между значениями, помимо самого массива;
dtype — уже хорошо знакомый нам параметр, задающий тип данных (если не задан, определяется автоматически).

In [134]:
arr = np.linspace(1, 2, 10, endpoint=False)
arr

array([1. , 1.1, 1.2, 1.3, 1.4, 1.5, 1.6, 1.7, 1.8, 1.9])

Узнаем, какой шаг был использован для создания массива из десяти чисел между 1 и 2, где 2 включалось и не включалось:

In [135]:
arr, step = np.linspace(1, 2, 10, endpoint=True, retstep=True) 
print(step)
arr, step = np.linspace(1, 2, 10, endpoint=False, retstep=True)
print(step)

0.1111111111111111
0.1


In [136]:
arr, step = np.linspace(-6, 21,60,  endpoint=False, retstep=True) 
print(step)

0.45


### Действия с массивами
ИЗМЕНЕНИЕ ФОРМЫ МАССИВА

In [137]:
arr = np.arange(8)
arr.shape = (2, 4)
print(arr)

[[0 1 2 3]
 [4 5 6 7]]


Если нужно создать массив с новой фрмой сохранив старый

In [138]:
arr = np.arange(8)
arr_new = arr.reshape((2, 4)) #заполнение по строкам
print(arr_new)
arr_new1 = arr.reshape((2, 4), order='F') #заполнение по столбцам
print(arr_new1)

[[0 1 2 3]
 [4 5 6 7]]
[[0 2 4 6]
 [1 3 5 7]]


Транспонирование

In [139]:
arr.shape=(2,4)
print(arr)
arr_trans = arr.transpose()
arr_trans

[[0 1 2 3]
 [4 5 6 7]]


array([[0, 4],
       [1, 5],
       [2, 6],
       [3, 7]])

ИНДЕКСЫ И СРЕЗЫ В МАССИВАХ

In [140]:
arr = np.linspace(1, 2, 6)
print(arr[2:4])
print(arr[::-1])

nd_array =  np.linspace(0, 6, 12, endpoint=False).reshape(3,4)
nd_array
nd_array[1, 2]
nd_array[1:, 2:4]

[1.4 1.6]
[2.  1.8 1.6 1.4 1.2 1. ]


array([[3. , 3.5],
       [5. , 5.5]])

Сортировка массивов
1. Функция np.sort(<массив>) возвращает новый отсортированный массив:

In [141]:
arr = np.array([23,12,45,12,23,4,15,3])
arr_new = np.sort(arr)
print(arr)
print(arr_new)

[23 12 45 12 23  4 15  3]
[ 3  4 12 12 15 23 23 45]


Функция <массив>.sort() сортирует исходный массив и возвращает None:

In [142]:
arr = np.array([23,12,45,12,23,4,15,3])
print(arr.sort())
# None
print(arr)

None
[ 3  4 12 12 15 23 23 45]


РАБОТА С ПРОПУЩЕННЫМИ ДАННЫМИ

In [143]:
data = np.array([4, 9, -4, 3])
roots = np.sqrt(data)
roots

  roots = np.sqrt(data)


array([2.        , 3.        ,        nan, 1.73205081])

На том месте, где должен был оказаться корень из -4, теперь присутствует объект nan. Он расшифровывается как Not a number. Отличия nan от none:
1.  None является отдельным объектом типа NoneType. np.nan — это отдельный представитель класса float:

In [144]:
print(type(None))
# <class 'NoneType'>
print(type(np.nan))
# <class 'float'>
type(np.nan)

<class 'NoneType'>
<class 'float'>


float

2. None могут быть равны друг другу, а np.nan — нет:

In [145]:
print(None == None)
print(np.nan == np.nan)
print(None is None)
print(np.nan is np.nan)
print(np.nan is None)

True
False
True
True
False


### Как работать с объектами nan
заполнить пропущенные значения, например, нулями

In [146]:
roots[np.isnan(roots)] = 0
roots

array([2.        , 3.        , 0.        , 1.73205081])

## ВЕКТОРЫ В NUMPY

In [147]:
import numpy as np
vec1 = np.array([2, 4, 7, 2.5])
vec2 = np.array([12, 6, 3.6, 13])
print(vec1 + vec2)
print(vec1 * vec2)
print(vec1 > vec2)
print(vec1**2)
print(vec1*2)
print(vec1 <= 4)

[14.  10.  10.6 15.5]
[24.  24.  25.2 32.5]
[False False  True False]
[ 4.   16.   49.    6.25]
[ 4.  8. 14.  5.]
[ True  True False  True]


Длина вектора

In [148]:
vec = np.array([3, 4])
length = np.sqrt(np.sum(vec ** 2))
print(length)

length1 = np.linalg.norm(vec) #для расчета есть специальный подмодуль
print(length1)

5.0
5.0


Расстояние м/у векторами:

In [149]:
vec1 = np.array([0, 3, 5])
vec2 = np.array([12, 4, 7])
distance = np.sqrt(np.sum((vec1 - vec2) ** 2))
print(distance)

12.206555615733702


Можно посчиnfnm  с помощью ф-и:

In [150]:
distance_= np.linalg.norm(vec1 - vec2)
print(distance_)

12.206555615733702


Скалярное произведение

In [151]:
vec1 = np.arange(1, 6)
vec2 = np.linspace(10, 20, 5)
scalar_product = np.sum(vec1 * vec2)
scalar_product = np.dot(vec1, vec2) #встроенная ф-я

БАЗОВЫЕ СТАТИСТИЧЕСКИЕ ФУНКЦИИ ДЛЯ ВЕКТОРОВ

In [152]:
vec = np.array([2,7,18,28,18,1,8,4])
vec.min()
np.max(vec)
vec.mean()
np.median(vec)
np.std(vec)

8.954747344286158

## Генерация случайных чисел
ГЕНЕРАЦИЯ FLOAT

In [153]:
import numpy as np
print(np.random.rand())
np.random.rand(2, 3)

0.6707490847267786


array([[0.82585276, 0.13670659, 0.57509333],
       [0.89132195, 0.20920212, 0.18532822]])

In [154]:
shape = (2, 3)
np.random.sample(shape)

array([[0.10837689, 0.21969749, 0.97862378],
       [0.81168315, 0.17194101, 0.81622475]])

In [155]:
np.random.uniform(-1000, 500, size=(2, 3))

array([[-588.88937944, -352.44372451,  410.04472943],
       [ 226.47406817, -495.83207482, -736.88431939]])

ГЕНЕРАЦИЯ INT
randint(low, high=None, size=None, dtype=int)

In [156]:
np.random.randint(6, 12, size=(3,3))

array([[ 9,  6,  8],
       [ 7,  7,  9],
       [ 8, 11,  9]])

### Перемешать значения
.shuffle перемешивает тот массив, к которому применяется, и возвращает None. 

In [157]:
arr = np.arange(6)
print(arr)
print(np.random.shuffle(arr))
arr

[0 1 2 3 4 5]
None


array([3, 4, 5, 2, 1, 0])

Чтобы получить новый перемешанный массив, а исходный оставить без изменений, можно использовать функцию random.permutation. 

In [158]:
playlist = ["The Beatles", "Pink Floyd", "ACDC", "Deep Purple"]
shuffled = np.random.permutation(playlist)
print(shuffled)
print(playlist)

['ACDC' 'The Beatles' 'Pink Floyd' 'Deep Purple']
['The Beatles', 'Pink Floyd', 'ACDC', 'Deep Purple']


Перемешать набор чисел от 0 до n-1 можно с помощью записи np.random.permutation(n), где n — верхняя граница, которая бы использовалась для генерации набора чисел функцией arange.

In [159]:
np.random.permutation(10)

array([4, 3, 7, 1, 6, 5, 9, 8, 0, 2])

Чтобы получить случайный набор объектов из массива, используется функция random.choice:
choice(a, size=None, replace=True)
a — одномерный массив или число для генерации arange(a);
size — желаемая форма массива (число для получения одномерного массива, кортеж — для многомерного; если параметр не задан, возвращается один объект);
replace — параметр, задающий, могут ли элементы повторяться (по умолчанию могут).

In [160]:
workers = ['Ivan', 'Nikita', 'Maria', 'John', 'Kate']
 
choice = np.random.choice(workers, size=2, replace=True)
print(choice)

['Maria' 'Nikita']


Основа для генерации случайных чисел - seed. Можем зафиксировать данное число для воспроизводимости нашего кода:

In [161]:
np.random.seed(23)
np.random.randint(10, size=(3,4))

array([[3, 6, 8, 9],
       [6, 8, 7, 9],
       [3, 6, 1, 2]])

При этом запуск одной и той же функции генерации случайных чисел несколько  раз после задания seed не приводит к генерации одних и тех же чисел. Однако итоговый результат работы всегда будет одинаковый в совокупности.

In [162]:
np.random.seed(100)
print(np.random.randint(10, size=3))
# [8 8 3]
print(np.random.randint(10, size=3))
# [7 7 0]
print(np.random.randint(10, size=3))

[8 8 3]
[7 7 0]
[4 2 5]


In [163]:
np.iinfo(np.int16)

iinfo(min=-32768, max=32767, dtype=int16)