## Модуль NumPy. Типы данных

In [36]:
import numpy as np
a = np.int8(25)
print(a)
# 25

25


In [37]:
b = np.uint8(124)
print(b)
# 124
print(type(b))
# <class 'numpy.uint8'>
np.iinfo(b)
# iinfo(min=0, max=255, dtype=uint8)

124
<class 'numpy.uint8'>


iinfo(min=0, max=255, dtype=uint8)

***

### Несколько замечаний о приведении типов

Тип данных не сохранится, если просто присвоить переменной с заданным NumPy-типом данных новое значение:

In [38]:
a = np.int32(1000)
print(a)
# 1000
print(type(a))
# <class 'numpy.int32'>
a = 2056
print(a)
# 2056
print(type(a))
# <class 'int'>

1000
<class 'numpy.int32'>
2056
<class 'int'>


Вместо этого следует снова указать нужный NumPy-тип данных:

In [39]:
a = np.int32(1000)
print(a)
# 1000
print(type(a))
# <class 'numpy.int32'>
a = np.int32(2056)
print(a)
# 2056
print(type(a))
# <class 'numpy.int32'>

1000
<class 'numpy.int32'>
2056
<class 'numpy.int32'>


А вот арифметические операции сохраняют NumPy-тип данных:

In [40]:
a = np.int32(1000)
b = a + 25
print(b)
# 1025
print(type(b))
# <class 'numpy.int64'>

1025
<class 'numpy.int32'>


Если операция проводится с двумя NumPy-типами с фиксированным объёмом памяти, в результате сохраняется наиболее «старший» тип:

In [41]:
a = np.int32(1000)
b = np.int8(25)
c = a + b
print(c)
# 1025
print(type(c))
# <class 'numpy.int32'>

1025
<class 'numpy.int32'>


Следует понимать, что произойдёт, если выделенной памяти для хранения переменной окажется недостаточно.

In [42]:
a = np.int8(260)
print(a)
# 4

4


For the old behavior, usually:
    np.array(value).astype(dtype)
will give the desired result (the cast overflows).
  a = np.int8(260)


In [43]:
a = np.int32(2147483610)
b = np.int32(2147483605)
print(a, b)
# 2147483610 2147483605
print(a + b)
# -81
# RuntimeWarning: overflow encountered in int_scalars
# Переполнено int'овое значение

2147483610 2147483605
-81


  print(a + b)


Чтобы избежать этой ошибки, вначале следовало преобразовать переменные к большему типу:

In [44]:
a = np.int32(2147483610)
b = np.int32(2147483605)
print(a, b)
# 2147483610 2147483605
print(np.int64(a) + np.int64(b))
# 4294967215

2147483610 2147483605
4294967215


***

### Типы данных с плавающей точкой в NumPy

In [45]:
print(np.float16(4.12))
# 4.12
print(np.float16(4.13))
# 4.13
print(np.float16(4.123))
# 4.12
print(np.float16(4.124))
# 4.125
print(np.float16(4.125))
# 4.125

4.12
4.13
4.12
4.125
4.125


***

# Массивы в Numpy

In [46]:
import numpy as np
arr = np.array([1,5,2,9,10])
arr
# array([ 1,  5,  2,  9, 10])

array([ 1,  5,  2,  9, 10])

In [47]:
# Перечислить список из списков можно
# было и в одну строку, но на нескольких
# строках получается нагляднее
nd_arr = np.array([
               [12, 45, 78],
               [34, 56, 13],
               [12, 98, 76]
               ])
nd_arr
# array([[12, 45, 78],
#        [34, 56, 13],
#        [12, 98, 76]])

array([[12, 45, 78],
       [34, 56, 13],
       [12, 98, 76]])

***

### Типы данных в массиве

In [48]:
arr = np.array([1,5,2,9,10])
arr.dtype

dtype('int32')

 Задать тип данных сразу при создании массива можно с помощью параметра dtype:

In [49]:
arr = np.array([1,5,2,9,10], dtype=np.int8)
arr
# array([ 1,  5,  2,  9, 10], dtype=int8)

array([ 1,  5,  2,  9, 10], dtype=int8)

Теперь, если добавить в arr число больше 127 или меньше -128, оно потеряет исходное значение, как и при преобразовании к меньшему типу:

In [50]:
arr[2] = 2000
arr
# array([  1,   5, -48,   9,  10], dtype=int8)

For the old behavior, usually:
    np.array(value).astype(dtype)
will give the desired result (the cast overflows).
  arr[2] = 2000


array([  1,   5, -48,   9,  10], dtype=int8)

Если добавить float в массив int, пропадёт десятичная часть:

In [51]:
arr[2] = 125.5
arr
# array([  1,   5, 125,   9,  10], dtype=int8)

array([  1,   5, 125,   9,  10], dtype=int8)

Строку, которую можно преобразовать в число, можно сразу положить в массив. Она будет приведена к нужному типу автоматически:

In [52]:
arr[2] = '12'
arr
# array([ 1,  5, 12,  9, 10], dtype=int8)

array([ 1,  5, 12,  9, 10], dtype=int8)

А вот при попытке положить в массив строку, которую нельзя преобразовать в число, возникнет ошибка:

In [53]:
arr[2] = 'test'
# ValueError: invalid literal for int() with base 10: 'test'

ValueError: invalid literal for int() with base 10: 'test'

При преобразовании типов данных в массиве не забывайте о том, что часть чисел может потерять смысл, если менять тип данных с более ёмкого на менее ёмкий:

In [56]:
arr = np.array([12321, -1234, 3435, -214, 100], dtype=np.int32)
arr
# array([12321, -1234,  3435,  -214,   100], dtype=int32)
 
arr = np.uint8(arr)
arr
# array([ 33,  46, 107,  42, 100], dtype=uint8)

array([ 33,  46, 107,  42, 100], dtype=uint8)

***

### Свойства NumPy-массивов

In [57]:
arr = np.array([1,5,2,9,10], dtype=np.int8)
nd_arr = np.array([
               [12, 45, 78],
               [34, 56, 13],
               [12, 98, 76]
               ], dtype=np.int16)

Узнать размерность массива можно с помощью .ndim:

In [58]:
arr.ndim
# 1
nd_arr.ndim
# 2

2

***

Узнать общее число элементов в массиве можно с помощью .size:

In [59]:
arr.size
# 5
nd_arr.size
# 9

9

***

Форма или структура массива хранится в атрибуте .shape:

In [60]:
arr.shape
# (5,)
nd_arr.shape
# (3, 3)

(3, 3)

***

Наконец, узнать, сколько «весит» каждый элемент массива в байтах позволяет .itemsize:

In [61]:
arr.itemsize
# 1
nd_arr.itemsize
# 2

2

***

### Заполнение новых массивов

In [62]:
zeros_1d = np.zeros(5)
zeros_1d
# array([0., 0., 0., 0., 0.])

array([0., 0., 0., 0., 0.])

In [63]:
zeros_3d = np.zeros((5,4,3), dtype=np.float32)
print(zeros_3d.shape)
# (5, 4, 3)

(5, 4, 3)


Ещё одной удобной функцией для создания одномерных массивов является arange. Она аналогична встроенной функции range, но обладает рядом особенностей. Вот её сигнатура: arange([start,] stop, [step,], dtype=None).

Аргументы start (по умолчанию 0), step (по умолчанию 1) и dtype (определяется автоматически) являются необязательными:

start (входит в диапазон возвращаемых значений) задаёт начальное число;
stop (не входит в диапазон возвращаемых значений, как и при использовании range) задаёт правую границу диапазона;
step задаёт шаг, с которым в массив добавляются новые значения.
В отличие от range, в функции arange все перечисленные параметры могут иметь тип float.

In [64]:
np.arange(2.5, 5)
# array([2.5, 3.5, 4.5])

array([2.5, 3.5, 4.5])

In [65]:
np.arange(2.5, 5, 0.5)
# array([2.5, 3. , 3.5, 4. , 4.5])

array([2.5, 3. , 3.5, 4. , 4.5])

In [66]:
np.arange(2.5, 5, 0.5, dtype=np.float16)
# array([2.5, 3. , 3.5, 4. , 4.5], dtype=float16)

array([2.5, 3. , 3.5, 4. , 4.5], dtype=float16)

In [67]:
arr = np.linspace(1, 2, 10)
arr
# array([1.        , 1.11111111, 1.22222222, 1.33333333, 1.44444444,
#        1.55555556, 1.66666667, 1.77777778, 1.88888889, 2.        ])

array([1.        , 1.11111111, 1.22222222, 1.33333333, 1.44444444,
       1.55555556, 1.66666667, 1.77777778, 1.88888889, 2.        ])

In [68]:
arr = np.linspace(1, 2, 10, endpoint=False)
arr
# array([1. , 1.1, 1.2, 1.3, 1.4, 1.5, 1.6, 1.7, 1.8, 1.9])

array([1. , 1.1, 1.2, 1.3, 1.4, 1.5, 1.6, 1.7, 1.8, 1.9])

Узнаем, какой шаг был использован для создания массива из десяти чисел между 1 и 2, где 2 включалось и не включалось:

In [69]:
arr, step = np.linspace(1, 2, 10, endpoint=True, retstep=True)
print(step)
# 0.1111111111111111

arr, step = np.linspace(1, 2, 10, endpoint=False, retstep=True)
print(step)
# 0.1

0.1111111111111111
0.1


***

## Действия с массивами

In [70]:
import numpy as np
arr = np.arange(8)
arr
# array([0, 1, 2, 3, 4, 5, 6, 7])

array([0, 1, 2, 3, 4, 5, 6, 7])

Поменять форму массива arr можно с помощью присвоения атрибуту shape кортежа с желаемой формой:

In [71]:
arr.shape = (2, 4)
arr
# array([[0, 1, 2, 3],
#        [4, 5, 6, 7]])

array([[0, 1, 2, 3],
       [4, 5, 6, 7]])

***

Чтобы оставить исходный массив без изменений и дополнительно получить новый массив новой формы, нужно использовать функцию reshape. Она также принимает в качестве аргумента кортеж из чисел для формы, но возвращает новый массив, а не изменяет исходный:

In [72]:
arr = np.arange(8)
arr_new = arr.reshape((2, 4))
arr_new
# array([[0, 1, 2, 3],
#       [4, 5, 6, 7]])

array([[0, 1, 2, 3],
       [4, 5, 6, 7]])

У функции reshape есть дополнительный именованный аргумент order. Он задаёт принцип, по которому элементы заполняют массив новой формы. Если order='C' (по умолчанию), массив заполняется по строкам, как в примере выше. Если order='F', массив заполняется числами по столбцам:

In [73]:
arr = np.arange(8)
arr_new = arr.reshape((2, 4), order='F')
arr_new
# array([[0, 2, 4, 6],
#       [1, 3, 5, 7]])

array([[0, 2, 4, 6],
       [1, 3, 5, 7]])

***

Ещё одной часто используемой операцией с формой массива (особенно двумерного) является транспонирование. Эта операция меняет строки и столбцы массива местами. В NumPy эту операцию совершает функция transpose.

In [74]:
arr = np.arange(8)
arr.shape = (2, 4)
arr
# array([[0, 1, 2, 3],
#        [4, 5, 6, 7]])

array([[0, 1, 2, 3],
       [4, 5, 6, 7]])

In [75]:
arr_trans = arr.transpose()
arr_trans
# array([[0, 4],
#        [1, 5],
#        [2, 6],
#        [3, 7]])

array([[0, 4],
       [1, 5],
       [2, 6],
       [3, 7]])

In [76]:
arr = np.arange(3)
print(arr.shape)
# (3,)
arr_trans = arr.transpose()
print(arr_trans.shape)
# (3,)

(3,)
(3,)


***

### Индексы и срезы в массивах

In [77]:
arr = np.linspace(1, 2, 6)
arr
# array([1. , 1.2, 1.4, 1.6, 1.8, 2. ])

array([1. , 1.2, 1.4, 1.6, 1.8, 2. ])

In [78]:
print(arr[2])
# 1.4

1.4


In [79]:
print(arr[2:4])
# [1.4 1.6]

[1.4 1.6]


In [80]:
print(arr[::-1])
# [2.  1.8 1.6 1.4 1.2 1. ]

[2.  1.8 1.6 1.4 1.2 1. ]


***

С многомерными массивами работать немного интереснее. Создадим двумерный массив из одномерного:

In [81]:
nd_array =  np.linspace(0, 6, 12, endpoint=False).reshape(3,4)
nd_array
# array([[0. , 0.5, 1. , 1.5],
#        [2. , 2.5, 3. , 3.5],
#        [4. , 4.5, 5. , 5.5]])

array([[0. , 0.5, 1. , 1.5],
       [2. , 2.5, 3. , 3.5],
       [4. , 4.5, 5. , 5.5]])

Можно воспользоваться привычной записью нескольких индексов в нескольких квадратных скобках:

In [82]:
nd_array[1][2]
# 3.0

3.0

Как видите, получилось то же самое число. Также через запятую можно передавать срезы или даже их комбинации с индексами. Например, получим все элементы из колонки 3 для первых двух строк:

In [83]:
nd_array[:2, 2]
# array([1., 3.])

array([1., 3.])

Можно применять срезы сразу и к строкам, и к столбцам:

In [84]:
nd_array[1:, 2:4]
# array([[3. , 3.5],
#       [5. , 5.5]])

array([[3. , 3.5],
       [5. , 5.5]])

Чтобы получить все значения из какой-то оси, можно оставить на её месте двоеточие. Например, из всех строк получим срез с третьего по четвёртый столбцы:

In [85]:
nd_array[:, 2:4]
# array([[1. , 1.5],
#       [3. , 3.5],
#       [5. , 5.5]])

array([[1. , 1.5],
       [3. , 3.5],
       [5. , 5.5]])

Чтобы получить самую последнюю ось (в данном случае все столбцы), двоеточие писать необязательно. Строки будут получены целиком по умолчанию:

In [86]:
nd_array[:2]
# array([[0. , 0.5, 1. , 1.5],
#       [2. , 2.5, 3. , 3.5]])

array([[0. , 0.5, 1. , 1.5],
       [2. , 2.5, 3. , 3.5]])

***

### Задание

Вам дан массив mystery

Выполните все пукты задания по порядку.

Пожалуйста, не меняйте названия переменных, в которых должны появиться ответы.

В переменную elem_5_3 сохраните элемент из 5 строки и 3 столбца

В переменную last сохраните элемент из последней строки последнего столбца

В переменную line_4 сохраните строку 4

В переменную col_2 сохраните предпоследний столбец

Из строк 2-4 (включительно) получите столбцы 3-5 (включительно). Результат сохраните в переменную part

Сохраните в переменную rev последний столбец в обратном порядке

Сохраните в переменную trans транспонированный массив

In [88]:
import numpy as np

mystery = np.array([
        [-13586,  15203,  28445, -27117,  -1781, -17182, -18049],
       [ 25936, -30968,  -1297,  -4593,   6451,  15790,   7181],
       [ 13348,  28049,  28655,  -6012,  21762,  25397,   8225],
       [ 13240,   7994,  32592,  20149,  13754,  11795,   -564],
       [-21725,  -8681,  30305,  22260, -17918,  12578,  29943],
       [-16841, -25392, -17278,  11740,   5916,    -47, -32037]],
      dtype=np.int16)

elem_5_3=mystery[4, 2]
last=mystery[5, 6]
line_4= mystery[3]
col_2=mystery[::, 5]
part=mystery[1:4, 2:5]
rev=mystery[::-1, 6]
trans=mystery.transpose()

print(elem_5_3)
print(last)
print(line_4)
print(col_2)
print(part)
print(rev)
print(trans)

30305
-32037
[13240  7994 32592 20149 13754 11795  -564]
[-17182  15790  25397  11795  12578    -47]
[[-1297 -4593  6451]
 [28655 -6012 21762]
 [32592 20149 13754]]
[-32037  29943   -564   8225   7181 -18049]
[[-13586  25936  13348  13240 -21725 -16841]
 [ 15203 -30968  28049   7994  -8681 -25392]
 [ 28445  -1297  28655  32592  30305 -17278]
 [-27117  -4593  -6012  20149  22260  11740]
 [ -1781   6451  21762  13754 -17918   5916]
 [-17182  15790  25397  11795  12578    -47]
 [-18049   7181   8225   -564  29943 -32037]]


***

### Сортировка одномерных массивов

Способ 1. Функция np.sort(<массив>) возвращает новый отсортированный массив:

In [89]:
arr = np.array([23,12,45,12,23,4,15,3])
arr_new = np.sort(arr)
print(arr)
# [23 12 45 12 23  4 15  3]
print(arr_new)
# [ 3  4 12 12 15 23 23 45]

[23 12 45 12 23  4 15  3]
[ 3  4 12 12 15 23 23 45]


***

Способ 2. Функция <массив>.sort() сортирует исходный массив и возвращает None:

In [90]:
arr = np.array([23,12,45,12,23,4,15,3])
print(arr.sort())
# None
print(arr)
# [ 3  4 12 12 15 23 23 45]

None
[ 3  4 12 12 15 23 23 45]


***

### Работа с пропущенными данными

In [91]:
data = np.array([4, 9, -4, 3])

In [92]:
roots = np.sqrt(data)
roots
# RuntimeWarning: invalid value encountered in sqrt
# array([2.        , 3.        ,        nan, 1.73205081])

  roots = np.sqrt(data)


array([2.        , 3.        ,        nan, 1.73205081])

Можно заполнить пропущенные значения, например, нулями. Для этого с помощью функции np.isnan(<массив>) узнаем, на каких местах в массиве находятся «не числа»:

In [93]:
np.isnan(roots)
# array([False, False,  True, False])

array([False, False,  True, False])

Можно использовать полученный массив из True и False для извлечения элементов из массива roots, на месте которых в булевом массиве указано True. Таким способом можно узнать сами элементы, которые удовлетворяют условию np.isnan:

In [94]:
roots[np.isnan(roots)]
# array([nan])

array([nan])

Этим элементам можно присвоить новые значения, например 0:

In [95]:
roots[np.isnan(roots)] = 0
roots
# array([2.        , 3.        , 0.        , 1.73205081])

array([2.        , 3.        , 0.        , 1.73205081])

После этого, если пропущенных значений больше нет, можем подсчитать сумму элементов массива:

In [96]:
sum(roots)
# 6.732050807568877

6.732050807568877

***

### Задание

Вам дан массив mystery:

Получите булевый массив nans_index с информацией о np.nan в массиве mystery: True - значение пропущено, False - значение не пропущено

В переменную n_nan сохраните число пропущенных значений

Скопируйте массив mystery в массив mystery_new. Заполните пропущенные значения в массиве mystery_new нулями

Поменяйте тип данных в массиве mystery на int32 и сохраните в переменную mystery_int

Отсортируйте значения в массиве mystery по возрастанию и сохраните результат в переменную array

Сохраните в массив table двухмерный массив, полученный из массива array. В нём должно быть 5 строк и 3 столбца. Причём порядок заполнения должен быть по столбцам!

In [98]:
import numpy as np

mystery = np.array([ 12279., -26024.,  28745.,  np.nan,  31244.,  -2365.,  -6974.,
        -9212., np.nan, -17722.,  16132.,  25933.,  np.nan, -16431.,
        29810.], dtype=np.float32)

nans_index=np.isnan(mystery)
n_nan=nans_index.sum()
mystery_new=mystery.copy()
mystery_new[np.isnan(mystery_new)]=0
mystery_int=mystery.astype(np.int32)
array=np.sort(mystery)
table=array.reshape((5, 3), order='F')
col=table[::, 1]

print(nans_index)
print(n_nan)
print(mystery_new)
print(mystery_int)
print(array)
print(table)
print(col)


[False False False  True False False False False  True False False False
  True False False]
3
[ 12279. -26024.  28745.      0.  31244.  -2365.  -6974.  -9212.      0.
 -17722.  16132.  25933.      0. -16431.  29810.]
[      12279      -26024       28745 -2147483648       31244       -2365
       -6974       -9212 -2147483648      -17722       16132       25933
 -2147483648      -16431       29810]
[-26024. -17722. -16431.  -9212.  -6974.  -2365.  12279.  16132.  25933.
  28745.  29810.  31244.     nan     nan     nan]
[[-26024.  -2365.  29810.]
 [-17722.  12279.  31244.]
 [-16431.  16132.     nan]
 [ -9212.  25933.     nan]
 [ -6974.  28745.     nan]]
[-2365. 12279. 16132. 25933. 28745.]


  mystery_int=mystery.astype(np.int32)


***

## Векторы в NumPy и арифметика

Произведём сложение двух векторов:

In [99]:
import numpy as np
vec1 = np.array([2, 4, 7, 2.5])
vec2 = np.array([12, 6, 3.6, 13])
vec1 + vec2
# array([14. , 10. , 10.6, 15.5])

array([14. , 10. , 10.6, 15.5])

Что бы произошло при сложении двух списков? Их элементы просто объединились бы в один список:

In [100]:
list1 = [2, 4, 7, 2.5]
list2 = [12, 6, 3.6, 13]
list1 + list2
# [2, 4, 7, 2.5, 12, 6, 3.6, 13]

[2, 4, 7, 2.5, 12, 6, 3.6, 13]

Чтобы сложить два этих списка поэлементно, нам пришлось бы написать списочное сокращение с применением функции zip():

In [101]:
[x + y for x, y in zip(list1, list2)]
# [14, 10, 10.6, 15.5]

[14, 10, 10.6, 15.5]

***

Поэлементно умножим два вектора одинаковой длины:

In [102]:
vec1 = np.array([2, 4, 7, 2.5])
vec2 = np.array([12, 6, 3.6, 13])
vec1 * vec2
# array([24. , 24. , 25.2, 32.5])

array([24. , 24. , 25.2, 32.5])

А теперь создадим vec2, который будет на один элемент короче, чем vec1:

In [103]:
vec1 = np.array([2, 4, 7, 2.5])
vec2 = np.array([12, 6, 3.6])
 
vec1 * vec2
# ValueError: operands could not be broadcast together with shapes (4,) (3,)
# Ошибка значения: операнд не может быть распространён одновременно на структуры с формами (4,) и (3,).

ValueError: operands could not be broadcast together with shapes (4,) (3,) 

***

Также векторы можно сравнивать друг с другом поэлементно:

In [104]:
vec1 = np.array([2, 4, 7, 2.5])
vec2 = np.array([12, 6, 3.6, 13])
 
vec1 > vec2
# array([False, False,  True, False])

array([False, False,  True, False])

Аналогично можно сравнивать вектор с числом:

In [105]:
vec = np.array([14,15,9,26,53,5,89])
vec <= 26
# array([ True,  True,  True,  True, False,  True, False])

array([ True,  True,  True,  True, False,  True, False])

***

### Продвинутые операции с векторами

Посчитаем длину следующего вектора:

In [106]:
vec = np.array([3, 4])

Для начала воспользуемся формулой: возведём все элементы в квадрат, посчитаем их сумму, а затем найдём квадратный корень. Найдите все перечисленные операции в данном коде:

In [107]:
length = np.sqrt(np.sum(vec ** 2))
print(length)
# 5.0

5.0


Но можно было поступить проще. В NumPy есть специальный подмодуль linalg, который позволяет производить операции из линейной алгебры.

Для вычисления длины вектора нам потребуется функция norm:

In [108]:
length = np.linalg.norm(vec)
print(length)
# 5.0

5.0


In [109]:
vec1 = np.array([0, 3, 5])
vec2 = np.array([12, 4, 7])
distance = np.linalg.norm(vec1 - vec2)
distance

12.206555615733702

***

Реализуем это в коде (по-английски скалярное произведение называют dot — точечный — или scalar product, отсюда и такое название переменной):

In [110]:
vec1 = np.arange(1, 6)
vec2 = np.linspace(10, 20, 5)
scalar_product = np.sum(vec1 * vec2)
scalar_product
# 250.0

250.0

Для этого используют функцию np.dot(x, y):

In [111]:
scalar_product = np.dot(vec1, vec2)
scalar_product
# 250.0

250.0

перпендикулярность

In [112]:
x = np.array([25, 0])
y = np.array([0, 10])
np.dot(x, y)
# 0

0

***

### Базовые статистические функции для векторов

Функции np.min и np.max позволяют находить максимальное и минимальное значение в векторе. Их можно записывать как в виде np.min(<vector>), так и в виде <vector>.min():

In [113]:
vec = np.array([2,7,18,28,18,1,8,4])
vec.min()
# 1
np.max(vec)
# 28

28

***

Функция mean позволяет посчитать среднее значение. Больше не требуется реализовывать её «руками»!

In [114]:
vec.mean()
# 10.75

10.75

***

## Случайные числа в NumPy

Генерация float

In [115]:
import numpy as np
np.random.rand()
# 0.06600758835806675

0.5883356667822709

Чтобы получить случайное число в диапазоне, например, от 0 до 100, достаточно просто умножить генерируемое число на 100:

In [116]:
np.random.rand() * 100
# 69.76076924077643

97.79561929057355

***

На самом деле rand умеет генерировать не только отдельные числа — функция принимает в качестве аргументов через запятую целые числа, которые задают форму генерируемого массива. Например, получим массив из пяти случайных чисел:

In [117]:
np.random.rand(5)
# array([0.83745099, 0.58426808, 0.89206204, 0.41149807, 0.42445145])

array([0.58477453, 0.73221124, 0.10894126, 0.68781837, 0.50312289])

In [118]:
np.random.rand(2, 3)
# array([[0.94931212, 0.06680018, 0.26707599],
#      [0.67908873, 0.18001743, 0.97732239]])

array([[0.40120922, 0.85829736, 0.83587377],
       [0.79503062, 0.23134791, 0.19074728]])

In [121]:
np.random.rand(2, 3, 4, 2)

array([[[[0.52506785, 0.30746182],
         [0.45224126, 0.1808285 ],
         [0.16854064, 0.34602809],
         [0.08958807, 0.19221959]],

        [[0.66084885, 0.30973606],
         [0.62573029, 0.23551906],
         [0.60140575, 0.37940333],
         [0.30590511, 0.91126694]],

        [[0.50313877, 0.69257883],
         [0.9660889 , 0.47829592],
         [0.95715204, 0.5723503 ],
         [0.51838036, 0.36679081]]],


       [[[0.808134  , 0.60615564],
         [0.87618683, 0.93627792],
         [0.10891713, 0.38727425],
         [0.224674  , 0.66260469]],

        [[0.28306758, 0.78659846],
         [0.34435385, 0.65962215],
         [0.05625864, 0.93563707],
         [0.57186232, 0.6875658 ]],

        [[0.14643594, 0.25867831],
         [0.80081266, 0.84890086],
         [0.73476277, 0.40371047],
         [0.44314398, 0.49127745]]]])

***

Конечно, можно было бы распаковать кортеж, чтобы избавиться от ошибки:

In [122]:
shape = (3, 4)
np.random.rand(*shape)
# array([[0.66169176, 0.19455777, 0.06451088, 0.31919608],
#        [0.73536951, 0.67104408, 0.4762727 , 0.88153576],
#        [0.70672971, 0.96677145, 0.09273995, 0.86356465]])

array([[0.21429961, 0.86125999, 0.95640148, 0.6903848 ],
       [0.97856466, 0.6267873 , 0.06462081, 0.43350645],
       [0.71949615, 0.24870052, 0.59115332, 0.76857338]])

***

Но в NumPy есть и другая функция, генерирующая массивы случайных чисел от 0 до 1, которая принимает в качестве аргумента именно кортеж без распаковки. Она называется sample:

In [123]:
shape = (2, 3)
np.random.sample(shape)
# array([[0.39756103, 0.01995168, 0.2768951 ],
#       [0.82195372, 0.26435273, 0.00957881]])


array([[0.86374519, 0.30910136, 0.093395  ],
       [0.68149786, 0.65069542, 0.89942198]])

***

Не всегда требуются числа в диапазоне именно от 0 до 1. На самом деле с помощью специальных формул можно из диапазона от 0 до 1 получить любой другой желаемый диапазон, однако это не требуется делать самостоятельно — в NumPy доступна функция uniform:

Запуск без аргументов эквивалентен работе функций rand или sample:

In [125]:
np.random.uniform()
# 0.951557685543591

0.31247982722946355

Зададим границы диапазона от -30 до 50:

In [126]:
np.random.uniform(-30, 50)
# 38.47365525953661

-22.423035509926788

Получим пять чисел в интервале от 0.5 до 0.75:

In [127]:
np.random.uniform(0.5, 0.75, size=5)
# array([0.58078945, 0.58860342, 0.73790553, 0.63448265, 0.70920297])

array([0.63929979, 0.65808066, 0.53897617, 0.56979432, 0.55703986])

Получим массив из двух строк и трёх столбцов из чисел в интервале от -1000 до 500:

In [128]:
np.random.uniform(-1000, 500, size=(2, 3))
# array([[ 129.22164163,   77.69090611, -132.9656972 ],
#        [  18.65802226, -317.14793906,   85.3613547 ]])

array([[ 233.49158092, -265.71889803,   78.20302012],
       [ 129.83314544, -305.64781202,  174.57489941]])

***

### Генерация int

Сгенерируем таблицу 2x3 от 0 до 3 включительно:

In [129]:
np.random.randint(4, size=(2,3))
# array([[3, 0, 1],
#       [2, 1, 3]])

array([[3, 0, 0],
       [2, 0, 1]])

Чтобы задать и нижнюю, и верхнюю границы самостоятельно, передадим два числа, а затем форму:

In [130]:
np.random.randint(6, 12, size=(3,3))
# array([[ 9,  6, 10],
#        [10, 11, 10],
#        [ 7, 10, 11]])

array([[ 7, 11,  7],
       [10,  9,  7],
       [ 8, 11,  7]])

***

### Генерация выборок

Просто перемешать все числа в массиве позволяет функция random.shuffle.

In [131]:
arr = np.arange(6)
print(arr)
# [0 1 2 3 4 5]
print(np.random.shuffle(arr))
# None
arr
# array([0, 5, 1, 3, 2, 4])

[0 1 2 3 4 5]
None


array([3, 4, 5, 0, 1, 2])

Чтобы получить новый перемешанный массив, а исходный оставить без изменений, можно использовать функцию random.permutation. Она принимает на вход один аргумент — или массив целиком, или одно число:

In [132]:
playlist = ["The Beatles", "Pink Floyd", "ACDC", "Deep Purple"]
shuffled = np.random.permutation(playlist)
print(shuffled)
# ['The Beatles' 'Pink Floyd' 'Deep Purple' 'ACDC']
print(playlist)
# ['The Beatles', 'Pink Floyd', 'ACDC', 'Deep Purple']

['Deep Purple' 'Pink Floyd' 'The Beatles' 'ACDC']
['The Beatles', 'Pink Floyd', 'ACDC', 'Deep Purple']


In [133]:
np.random.permutation(10)
# array([7, 8, 2, 9, 4, 3, 1, 0, 5, 6])

array([0, 9, 1, 3, 2, 8, 6, 4, 5, 7])

***

Чтобы получить случайный набор объектов из массива, используется функция random.choice:

In [134]:
workers = ['Ivan', 'Nikita', 'Maria', 'John', 'Kate']
 
choice = np.random.choice(workers, size=2, replace=False)
print(choice)

['Ivan' 'John']


Например, получим случайную последовательность, которая образуется в результате десяти подбрасываний игральной кости:

In [135]:
choice = np.random.choice([1,2,3,4,5,6], size=10)
print(choice)
# [3 5 5 6 6 4 2 2 1 3]

[4 3 5 4 1 5 6 6 4 1]


***

### Seed генератора псевдослучайных чисел

In [136]:
np.random.seed(23)
np.random.randint(10, size=(3,4))
# array([[3, 6, 8, 9],
#        [6, 8, 7, 9],
#        [3, 6, 1, 2]])

array([[3, 6, 8, 9],
       [6, 8, 7, 9],
       [3, 6, 1, 2]])

In [137]:
np.random.seed(100)
print(np.random.randint(10, size=3))
# [8 8 3]
print(np.random.randint(10, size=3))
# [7 7 0]
print(np.random.randint(10, size=3))
# [4 2 5]

[8 8 3]
[7 7 0]
[4 2 5]


***

### Задание

Задайте seed = 2021.

Сохраните в переменные необходимые значения.

Примечание 1. Не меняйте названия переменных и последовательность генерации случайных чисел в задании.

Примечание 2. Не забудьте импортировать numpy и сразу задать seed = 2021

Примечание 3. Необходимый тип данных в подзаданиях — numpy.array.

В simple сохраните случайное число в диапазоне от 0 до 1

Сгенерируйте 120 чисел в диапазоне от -150 до 2021, сохраните их в переменную randoms

Получите массив из случайных целых чисел от 1 до 100 (включительно) из 3 строк и 2 столбцов. Сохраните результат в table

В переменную even сохраните четные числа от 2 до 16 (включительно)

Скопируйте even в переменную mix. Перемешайте числа в mix так, чтобы массив изменился

Получите из even 3 числа без повторений. Сохраните их в переменную select

Получите переменную triplet, которая должна содержать перемешанные значения из массива select (сам select измениться не должен)

In [141]:
import numpy as np
np.random.seed(2021)
# В simple сохраните случайное число в диапазоне от 0 до 1
simple = np.random.rand()

# Сгенерируйте 120 чисел в диапазоне от -150 до 2021, сохраните их
# в переменную randoms
randoms = np.random.uniform(-150, 2021, size=120)

# Получите массив из случайных целых чисел от 1 до 100 включительно
# из 3 строк и 2 столбцов. Сохраните результат в переменную table
table = np.random.randint(1, 101, size=(3,2))

# В переменную even сохраните чётные числа от 2 до 16 включительно
even = np.arange(2,17,2)

mix=even.copy()
np.random.shuffle(mix)

select=np.random.choice(even, 3, replace=False)
new=select.copy()
triplet=np.random.permutation(new)

#print(randoms)
print(table)
print(even)
print(mix)
print(triplet)


[[46 93]
 [35 41]
 [17 45]]
[ 2  4  6  8 10 12 14 16]
[ 6 10  2  8 14 16  4 12]
[ 2  4 14]


***

### Задание

Напишите функцию get_chess(a), которая принимает на вход длину стороны квадрата a и возвращает двумерный массив формы (a, a), заполненный 0 и 1 в шахматном порядке. В левом верхнем углу всегда должен быть ноль.

Примечание. воспользуйтесь функцией np.zeros, а затем с помощью срезов без циклов задайте необходимым элементам значение 1.

В Python для получения каждого второго элемента используется срез [::2]. Подумайте, как грамотно применить этот принцип к двумерному массиву.

In [142]:
import numpy as np

def get_chess(a):
    arr = np.zeros((a, a))
    arr[1::2, ::2] = 1
    arr[::2, 1::2] = 1
    return arr

get_chess(1)
# array([[0.]])

get_chess(4)
# array([[0., 1., 0., 1.],
#        [1., 0., 1., 0.],
#        [0., 1., 0., 1.],
#        [1., 0., 1., 0.]])


array([[0., 1., 0., 1.],
       [1., 0., 1., 0.],
       [0., 1., 0., 1.],
       [1., 0., 1., 0.]])

***

### Задание

Вы разрабатываете приложение для прослушивания музыки. Конечно же, там будет доступна функция перемешивания плейлиста. Пользователю может настолько понравиться перемешанная версия плейлиста, что он захочет сохранить его копию. Однако вы не хотите хранить в памяти новую версию плейлиста, а просто хотите сохранять тот seed, с которым он был сгенерирован.

Для этого напишите функцию shuffle_seed(array), которая принимает на вход массив из чисел, генерирует случайное число для seed в диапазоне от 0 до 2**32 - 1 (включительно) и возвращает кортеж: перемешанный с данным seed массив (исходный массив должен оставаться без изменений), а также seed, с которым этот массив был получен.

In [156]:
import numpy as np

def shuffle_seed(array):
    seed = np.random.randint(2 ** 31)
    np.random.seed(seed)
    result = np.random.permutation(array)
    return result, seed

array = [1, 2, 3, 4, 5]
shuffle_seed(array)
# (array([1, 3, 2, 4, 5]), 2332342819)
shuffle_seed(array)
# (array([4, 5, 2, 3, 1]), 4155165971)


(array([4, 5, 2, 3, 1]), 1119851560)

***

### Задание
Напишите функцию min_max_dist(*vectors), которая принимает на вход неограниченное число векторов через запятую. Гарантируется, что все векторы, которые передаются, одинаковой длины.

Функция возвращает минимальное и максимальное расстояние между векторами в виде кортежа.

In [157]:

import numpy as np

def min_max_dist(*vectors):
    dists = list()
    for i in range(len(vectors)):
        for j in range(i + 1, len(vectors)):
            dists.append(np.linalg.norm(vectors[i] - vectors[j]))
    return (min(dists), max(dists))

vec1 = np.array([1,2,3])
vec2 = np.array([4,5,6])
vec3 = np.array([7, 8, 9])

min_max_dist(vec1, vec2, vec3)
# (5.196152422706632, 10.392304845413264)



(5.196152422706632, 10.392304845413264)

***

### Задание

Напишите функцию any_normal, которая принимает на вход неограниченное число векторов через запятую. Гарантируется, что все векторы, которые передаются, одинаковой длины.

Функция возвращает True, если есть хотя бы одна пара перпендикулярных векторов. Иначе возвращает False.

In [158]:
import numpy as np

def any_normal(*vectors):
    for i in range(len(vectors)):
        for j in range(i + 1, len(vectors)):
            if np.dot(vectors[i], vectors[j]) == 0:
                return True
    return False

vec1 = np.array([2, 1])
vec2 = np.array([-1, 2])
vec3 = np.array([3,4])
print(any_normal(vec1, vec2, vec3))
# True

True


***

### Задание

Напишите функцию get_loto(num), генерирующую трёхмерный массив случайных целых чисел от 1 до 100 (включительно). Это поля для игры в лото.

Трёхмерный массив должен состоять из таблиц чисел формы 5х5, то есть итоговая форма — (num, 5, 5).

Функция возвращает полученный массив.

In [159]:
import numpy as np

def get_loto(num):
    loto = np.random.randint(1, 101, size=(num, 5, 5))
    return loto

get_loto(3)

array([[[ 82,  65,  85,  28,  49],
        [ 22,  79,  25,  89,  86],
        [ 86,  56,  99,  93,  46],
        [ 84,  57,  12,  40,  28],
        [ 43,  57,  52,  82,  20]],

       [[ 75,  16,  46,  14,  30],
        [ 55,  42,  71,  99,  81],
        [ 20,  38,  33,  91,  27],
        [ 57,  72,  65,  43,  46],
        [ 30,  87,  81,  59,  22]],

       [[ 67,  60,   1,  12,  44],
        [100,  20,  35,  62,  93],
        [ 31,   2,  41,   7,  34],
        [ 78,  96,  45,  99,  43],
        [ 57,  28,  97,   7,  87]]])

***

### Задание

Напишите функцию get_unique_loto(num). Она так же, как и функция в задании 49.9.10, генерирует num полей для игры в лото, однако теперь на каждом поле 5х5 числа не могут повторяться.

Функция также должна возвращать массив формы num x 5 x 5.

In [160]:


import numpy as np

def get_unique_loto(num):
    sample = np.arange(1, 101)
    res = list()
    for i in range(num):
        res.append(np.random.choice(sample, replace=False, size=(5, 5)))
    res = np.array(res)
    return res
get_unique_loto(3)

array([[[51, 90, 89, 82, 70],
        [85, 28, 52, 84, 88],
        [32, 46, 67, 18, 10],
        [56, 73, 62, 95, 75],
        [42, 34, 38, 58, 54]],

       [[17, 53,  3,  9, 36],
        [16, 12, 69, 76, 55],
        [63, 98, 88, 38,  6],
        [10, 47, 24, 79, 58],
        [ 5, 31,  8, 81, 93]],

       [[14, 49, 15, 68, 19],
        [52, 72, 94, 54, 56],
        [ 4, 38, 46, 82, 32],
        [65, 30, 37, 12, 62],
        [64, 97, 93, 69, 29]]])