Создание массива

Массив в Python задаётся с помощью функции array() модуля NumPy, которая трансформирует вложенные в неё последовательности в массив. Простой способ задать массив — перечислить его элементы внутри квадратных скобок [] через запятую:

In [5]:
import numpy as np
import pandas as pd


In [6]:
arr1 = np.array([1,2,3,4])

Функция array() преобразует вложенные элементы в массив. Важная особенность массивов NumPy — все хранящиеся в них данные должны относиться только к одному типу. Тип элементов массива соответствует типу элементов вложенной исходной последовательности, но в момент создания массива его можно изменить, задав параметр dtype требуемого типа. Для того, чтобы узнать тип данных элементов массива, используем метод dtype:

In [7]:
arr2 = np.array([5,6,7,8], dtype = float)
arr2.dtype

dtype('float64')

Для создания массивов большей размерности каждая строка должна быть помещаться в квадратные скобки, при этом строки разделяются запятой. Для двумерного массива (матрицы) можно использовать такой код:

Массив из Pandas

В процессе анализа данных возникают ситуации, когда требуется выполнить с данными, хранящимися в Pandas DataFrame, сложные математические операции. Мы можем преобразовать датафрейм или его часть, содержащую количественные показатели, в объект ndarray с помошью функции values библиотеки Pandas:

In [9]:
df = pd.DataFrame()
x = df.values
type(x)


numpy.ndarray

Используя функцию values, массив можно получить из Series:

In [10]:
import numpy as np
import pandas as pd
my_series = pd.Series([5, 6, 7, 8, 9, 10])
my_series.values

array([ 5,  6,  7,  8,  9, 10], dtype=int64)

Другие способы создания массива

Иногда при решении задач нужно создать массив заданной структуры до того, как становится известно о хранящихся в нём данных. В NumPy есть функции, которые позволяют задавать размерность массива, выделять память для его хранения и заполнять массив элементами (единицами, нулями).

Проверьте результат выполнения функций в Jupyter Notebook:

In [12]:
np.empty(5) # одномерный массив из пяти элементов, память для которого выделена, но не инициализирована

array([0.  , 0.25, 0.5 , 0.75, 1.  ])

In [13]:
np.zeros((10, 7)) # массив размером 10x7, заполненный нулями 

array([[0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0.]])

In [14]:
np.ones((3,3,3)) # массив размером 3х3х3, заполненный единицами 

array([[[1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.]],

       [[1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.]],

       [[1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.]]])

In [15]:
np.eye(3) # единичная матрица (элементы главной диагонали равны 1, остальные — 0) размера 3х3

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

In [16]:
np.full((3, 5), 3.14)  # массив 3x5 заполненный числом 3.14

array([[3.14, 3.14, 3.14, 3.14, 3.14],
       [3.14, 3.14, 3.14, 3.14, 3.14],
       [3.14, 3.14, 3.14, 3.14, 3.14]])

In [17]:
np.arange(0, 21, 7)  # одномерный массив, заполненный числами в диапазоне от 0 до 20 с шагом 7

array([ 0,  7, 14])

In [None]:
np.linspace(0, 1, 5)  # массив из пяти чисел, равномерно распределённых в интервале между 0 и 1 включительно

In [18]:
np.random.randint(0, 10, (3, 3))  # массив размера 3х3, заполненный случайными числами из диапазона от 0 до 9 (включительно)

array([[3, 8, 7],
       [8, 2, 7],
       [0, 8, 0]])

In [19]:
np.array([[8,13,18,4], [25,3,18,28], [14,15,18,24], [1,2,3,4]]) 

array([[ 8, 13, 18,  4],
       [25,  3, 18, 28],
       [14, 15, 18, 24],
       [ 1,  2,  3,  4]])

In [20]:
my_secret = [x for x in range(1, 301, 7) if x%10 == 7 or x%10 == 1]
np.array([my_secret, [x/2 for x in my_secret], [x-100 for x in my_secret]])

array([[  1. ,  57. ,  71. , 127. , 141. , 197. , 211. , 267. , 281. ],
       [  0.5,  28.5,  35.5,  63.5,  70.5,  98.5, 105.5, 133.5, 140.5],
       [-99. , -43. , -29. ,  27. ,  41. ,  97. , 111. , 167. , 181. ]])

In [21]:
np.ones(5) 


array([1., 1., 1., 1., 1.])

In [23]:
np.ones((5,5)) 

array([[1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.]])

In [24]:
np.eye(5) 

array([[1., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0.],
       [0., 0., 1., 0., 0.],
       [0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 1.]])

In [25]:
np.full((5,5), 1) 

array([[1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1]])

In [28]:
np.array([[1,2,3,4,5], [5,1,2,3,4], [4,5,1,2,3], [3,4,5,1,2], [2,3,4,5,1]])

array([[1, 2, 3, 4, 5],
       [5, 1, 2, 3, 4],
       [4, 5, 1, 2, 3],
       [3, 4, 5, 1, 2],
       [2, 3, 4, 5, 1]])

In [29]:
np.random.randint(0, 4, (3, 3)) 

array([[1, 1, 2],
       [0, 1, 1],
       [2, 0, 1]])

In [30]:
np.random.randint(0, 5, (3, 3)) 

array([[1, 0, 3],
       [3, 0, 0],
       [3, 2, 0]])

In [31]:
np.random.randint(0, 6, (3, 3)) 

array([[1, 5, 1],
       [0, 4, 4],
       [5, 3, 3]])

In [32]:
np.random.randint(0, 5, 3) 

array([0, 2, 2])

In [33]:
np.array([[1, 1, 1, 1], [1, 1, 1, 1], [1, 1, 1, 1], [1, 1, 1, 1]]) 

array([[1, 1, 1, 1],
       [1, 1, 1, 1],
       [1, 1, 1, 1],
       [1, 1, 1, 1]])

In [34]:
np.eye(4) 

array([[1., 0., 0., 0.],
       [0., 1., 0., 0.],
       [0., 0., 1., 0.],
       [0., 0., 0., 1.]])

In [35]:
np.array(range(9)) 

array([0, 1, 2, 3, 4, 5, 6, 7, 8])

In [36]:
np.ones((2,2,2)) 

array([[[1., 1.],
        [1., 1.]],

       [[1., 1.],
        [1., 1.]]])

In [37]:
np.array([i for i in range(11) if i%2]) 

array([1, 3, 5, 7, 9])

In [38]:
np.arange(1, 14, 2) 

array([ 1,  3,  5,  7,  9, 11, 13])

Индексирование массивов NumPy

Массивы, как и другие итерируемые объекты Python, позволяют обращаться к отдельным своим элементам с помощью индексов и срезов. В этом разделе мы рассмотрим некоторые особенности индексации массивов разной размерности. При работе с одномерными массивами все приёмы работы с индексами похожи на приёмы при работе со списками.

Основные правила:

    индекс первого элемента массива равен 0;
    для обращения к элементу массива по индексу необходимо указать имя переменной, в которой хранится массив, и индекс в квадратных скобках;
    допускается использование отрицательных индексов;
    для обращения к нескольким идущим подряд элементам массива создаётся срез, в котором указывается индекс первого элемента среза и индекс элемента, следующего за последним, разделённые двоеточием;
    при создании среза возможно задание шага, в этом случае в срез будут включены не все элементы, а только отстоящие друг от друга на величину шага.

Рассмотрим примеры использования индексов при работе с одномерным массивом. Попробуйте самостоятельно выполнить код:

In [40]:
my_array = np.array([x for x in range(10)])

In [41]:
my_array[5]

5

In [42]:
my_array[-1]

9

In [43]:
my_array[3:6]

array([3, 4, 5])

In [44]:
my_array[1:8:3]

array([1, 4, 7])

При работе с двумерными массивами для обращения к элементу мы указываем два индекса, соответствующие номеру строки и номеру столбца. Каждый индекс можно указывать в отдельных квадратных скобках или внутри одной пары скобок через запятую:

In [45]:
my_array = np.array([[1,2,3,4], [10,11,12,13], [45,46,47,48]])

In [46]:
my_array[1][2]


12

In [48]:
my_array[1,2]

12

Индексация двумерных массивов имеет следующие особенности:

    при указании только одного индекса из массива будет выделена вся строка, соответствующая указанному индексу;
    можно указывать несколько индексов или срезов для каждой из осей.

Поэкспериментируйте с индексацией двумерного массива, используя образец:

In [49]:
my_array[:,2]

array([ 3, 12, 47])

In [51]:
my_array[1:,1:3]

array([[11, 12],
       [46, 47]])

In [54]:
first_line = [x*y for x in range(2, 100, 6) for y in range (7, 1, -2)]
second_line = [x ** 0.5 for x in range(1000, 1101, 2)]
third_line = [x**2 for x in range(51)]

big_secret = np.array([first_line, second_line, third_line, second_line, first_line])

In [64]:
big_secret.shape

(5, 51)

Пока мы не научились применять функции NumPy к массивам и их фрагментам, используйте цикл с параметром для организации вычислений.

In [67]:
sum_col=0
for x in range(51):
    sum_col = sum_col+big_secret[:, -1]
sum_col

array([ 14994.        ,   1691.47864308, 127500.        ,   1691.47864308,
        14994.        ])

In [None]:
for i1 in range(0,big_secret.shape[0]):
    for i2 in range(0,big_secret.shape[1]):
        if (i1%2 == 0) and (i2%2 == 0):
            big_secret[i1,i2] = -1
        if (i1%2 == 1) and (i2%2 == 1):
            big_secret[i1,i2] = 1