## Работа с массивами данных. Библиотека NumPy

In [1]:
import numpy as np

## Инициализация массива, неявные преобразования типов данных

In [2]:
a1 = np.array([1,6.5,5,18,5]) #преобразование списка в массив numpy
a1

array([ 1. ,  6.5,  5. , 18. ,  5. ])

In [3]:
print(a1.shape) # размер массива (кортеж) 
print(a1.dtype) # тип подбирается так, чтобы его можно было "подогнать" под все значения
#если будет среди целых чисел хотя бы одно вещественное => общий тип данных будет float (все значения преобразуются в вещественные)
#если среди чисел будет хотя бы одна строка => все элементы преобразуются в строки, общий тип данных будет строковый


(5,)
float64


In [4]:
np.array([1, 2, -5, 'hello']) # все элементы стали строками

array(['1', '2', '-5', 'hello'], dtype='<U21')

In [5]:
a2 = np.array([1, -2.59, 3]) # преобразование массива из вещественного типа в целый беззнаковый
a2.astype(np.uint64)
#!!! если число было отрицательным, то оно заменится на максимальное целое - модуль исходного отрицательного числа

  a2.astype(np.uint64)


array([1, 0, 3], dtype=uint64)

In [6]:
2**64 - 2 # для uint64 максимальное число 2**64 => -2 = 2**64 - 2

18446744073709551614

## Случайное распределение, близкое к нормальному

In [7]:
a3 = np.random.randn(5) #нормальное распределение с матожиданием, близким к 0
a3

array([ 0.56453448, -0.39071604, -1.2251488 ,  0.40085724, -0.46688178])

In [8]:
np.mean(a3) # мат ожидание

-0.2234709780696884

In [9]:
np.var(a3) # отклонение

0.4202633026096086

## Матрицы

In [10]:
arr2d = np.array([[1,24,5], [0, -19, 5], [-1, 9, 0]]) # инициализация матрицы из двумерного списка
arr2d

array([[  1,  24,   5],
       [  0, -19,   5],
       [ -1,   9,   0]])

In [11]:
# разные способы обратиться к элементу по индексу
print(arr2d[0][1])
print(arr2d[0,1])

arr2d[1:, :2] = [[1, 5],[-10, -10]] # работают двумерные срезы
#!!! Важно! Срез из четырех элементов (2х2) можно заменить на: 
#один элемент (повторится 4 раза), список из двух элементов (повторится дважды) или другой список 2х2
arr2d

24
24


array([[  1,  24,   5],
       [  1,   5,   5],
       [-10, -10,   0]])

In [12]:
arr2d[1:, :2] = [1,9] # при попытке заменить на не "тиражируемое" под исходный размер среза возникнет ошибка
arr2d

array([[ 1, 24,  5],
       [ 1,  9,  5],
       [ 1,  9,  0]])

In [13]:
arr2d[1:, :2] = [1,9, 6, 7]

ValueError: could not broadcast input array from shape (4,) into shape (2,2)

# Случайные массивы

In [14]:
a4 = np.random.random(5)
a4

array([0.93313595, 0.22206799, 0.38811629, 0.52845587, 0.50708527])

In [15]:
a5 = np.empty(5) #заполняется "псевдо-случайно", берет то, что есть в памяти
#Плюсы: не тратится время на присваивание какому-то значению всех элементов (как в zeros, ones и т.п)
#Минусы: необходимость заполнять массив отдельно
a5

array([0.93313595, 0.22206799, 0.38811629, 0.52845587, 0.50708527])

In [16]:
a6 = a5.copy() # также, как и в list: простое присваивание копирует ссылку, а не значения
a6[0] = -400
a5

array([0.93313595, 0.22206799, 0.38811629, 0.52845587, 0.50708527])

In [17]:
a5[-1] = 200
a6

array([-4.00000000e+02,  2.22067988e-01,  3.88116289e-01,  5.28455870e-01,
        5.07085268e-01])

In [18]:
a5 = np.array([-2, 10, 15, 26, 49])
np.sin(a5) # математические функции из библитеки numpy могут быть применены целиком к массиву

array([-0.90929743, -0.54402111,  0.65028784,  0.76255845, -0.95375265])

## Выборка данных 

In [19]:
# можно задавать простую или составную маску, по которой отбираем элементы
# результат работы маски - массив, состоящий из True/False той же размерности что и массив a5
# and => &
# or  => |
#!!! Важно! Не забывать брать условия в скобки иначе в отдельных случаях & может быть распознано как побитовое &
(a5 >= 15) | (a5 < 0)

array([ True, False,  True,  True,  True])

In [20]:
a5[(a5 >= 15) | (a5 < 0)] # маску

array([-2, 15, 26, 49])

In [21]:
print(a3, a4, sep='\n')

[ 0.56453448 -0.39071604 -1.2251488   0.40085724 -0.46688178]
[0.93313595 0.22206799 0.38811629 0.52845587 0.50708527]


In [22]:
a3[a3 > a4 ] # в маске могут участвовать несколько массивов. тут поэлементное сравнение

array([], dtype=float64)

In [23]:
# where(condition[, x, y]): 
#Здесь: condition -- Условие отбора; x - массив, из которого берется значение, если условие True; y -- массив, из которого беретсы значение, если условие False
np.where(abs(a3) > abs(a4), a3, a4) # более сложные условия и выборки данных, используя функцию where


array([ 0.93313595, -0.39071604, -1.2251488 ,  0.52845587,  0.50708527])

In [24]:
np.maximum(abs(a3), abs(a4)) # поэлементное применение функции maximum

array([0.93313595, 0.39071604, 1.2251488 , 0.52845587, 0.50708527])

## Сортировка данных

In [25]:
a3.sort() # сортировка одномерного массива (как и в списках результат сортировки присваивается в a3
a3

array([-1.2251488 , -0.46688178, -0.39071604,  0.40085724,  0.56453448])

In [26]:
arr2d.sort() # сортировка двумерного массива (по умолчанию сортировка вдоль оси 1 (сортируются элементы каждой строки)
arr2d

array([[ 1,  5, 24],
       [ 1,  5,  9],
       [ 0,  1,  9]])

In [27]:
arr2d.sort(axis=0) # сортировка вдоль оси 0 (сортируются элементы каждого столбца)
arr2d

array([[ 0,  1,  9],
       [ 1,  5,  9],
       [ 1,  5, 24]])

In [28]:
np.sum(arr2d) # сумма всех элементов матрицы

55

In [29]:
np.sum(arr2d, axis=0) # суммирование вдоль 0 оси (сумма каждого столбца)

array([ 2, 11, 42])

In [30]:
arr2d

array([[ 0,  1,  9],
       [ 1,  5,  9],
       [ 1,  5, 24]])

## Некоторые функции библиотеки NumPy

In [31]:
np.unique(arr2d) # отбор уникальных значений из массива (аналога типа данных set(), но работает быстрее)

array([ 0,  1,  5,  9, 24])

In [32]:
r, d = np.modf(a3*10) # функция modf возвращет кортеж из двух массивов: массив дробных частей и массив целых частей
#!!! Важно! Для отрицательных чисел знак минуса будут иметь обе части: и дробная, и целая.
print(a3*10)

[-12.25148799  -4.66881776  -3.90716038   4.00857238   5.64534484]


In [33]:
print(r)
print(d)


[-0.25148799 -0.66881776 -0.90716038  0.00857238  0.64534484]
[-12.  -4.  -3.   4.   5.]


In [34]:
np.sign(a3*10) # функция получения знаков каждого из элементов массива

array([-1., -1., -1.,  1.,  1.])