# "Python Data Science Handbook" O'Reilly

[Библиотека NumPy](http://www.numpy.org/) (сокращение от Numerical Python — «числовой Python») обеспечивает эффективный интерфейс для хранения и работы с плотными буферами данных. Массивы библиотеки NumPy похожи на встроенный тип данных языка
Python list , но обеспечивают гораздо более эффективное хранение и операции с данными при росте размера массивов.

In [1]:
import numpy as np

In [2]:
np.array([1,2,2,3,3])

array([1, 2, 2, 3, 3])

В отличие от списков языка Python библиотека NumPy ограничивается массивами, содержащими элементы одного типа. Если типы элементов не совпадают, NumPy попытается выполнить повышающее приведение типов (в данном случае целочисленные значения приводятся к числам с плавающей точкой):

In [3]:
np.array([1.2,2,3,4])

array([1.2, 2. , 3. , 4. ])

Если же необходимо явным образом задать тип данных для итогового массива, можно воспользоваться ключевым словом dtype:

In [4]:
np.array([1, 2, 3], dtype='float32')

array([1., 2., 3.], dtype=float32)

в отличие от списков в языке Python массивы библиотеки NumPy могут явным образом описываться как многомерные.

In [5]:
np.array([range(i,i+5) for i in [1,6,11]])

array([[ 1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10],
       [11, 12, 13, 14, 15]])

Большие массивы эффективнее создавать с нуля с помощью имеющихся в пакете NumPy методов

In [6]:
np.zeros(10, dtype=int)

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0])

In [7]:
np.ones((5,3), dtype=float)

array([[1., 1., 1.],
       [1., 1., 1.],
       [1., 1., 1.],
       [1., 1., 1.],
       [1., 1., 1.]])

In [8]:
np.full((3,3), 159)

array([[159, 159, 159],
       [159, 159, 159],
       [159, 159, 159]])

In [9]:
np.arange(0,10,3)

array([0, 3, 6, 9])

In [10]:
np.linspace(1,5,20)

array([1.        , 1.21052632, 1.42105263, 1.63157895, 1.84210526,
       2.05263158, 2.26315789, 2.47368421, 2.68421053, 2.89473684,
       3.10526316, 3.31578947, 3.52631579, 3.73684211, 3.94736842,
       4.15789474, 4.36842105, 4.57894737, 4.78947368, 5.        ])

In [11]:
np.random.random((2,2))

array([[0.6918032 , 0.08255056],
       [0.5325996 , 0.54782542]])

In [12]:
np.random.normal(0,1,(3,3))

array([[ 1.19206792, -0.52505116,  0.48856155],
       [-0.80441008,  0.38593604, -0.61293718],
       [-0.51387575, -0.03588777, -0.2185402 ]])

In [13]:
np.random.randint(0,11,(3,4))

array([[ 4,  4, 10,  9],
       [ 6,  5,  4, 10],
       [ 5,  0,  8,  0]])

In [14]:
np.eye(3)

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

In [15]:
np.empty(3) #неинициализированный

array([1., 1., 1.])

# Атрибуты массивов библиотеки NumPy 

In [16]:
import numpy as np
np.random.seed(0)
x1 = np.random.randint(10, size=6)
x2 = np.random.randint(10, size=(3, 4))
x3 = np.random.randint(10, size=(3, 4, 5))

In [17]:
print("x3.ndim - размерность: ", x3.ndim)
print("x3.shape - размеры измерений:", x3.shape)
print("x3.size - общий размер = 3*4*5:", x3.size)
print("x3.dtype:", x3.dtype)
print("x3.itemsize:", x3.itemsize, "bytes")
print("x3.nbytes = size*itemsize:", x3.nbytes, "bytes")

x3.ndim - размерность:  3
x3.shape - размеры измерений: (3, 4, 5)
x3.size - общий размер = 3*4*5: 60
x3.dtype: int64
x3.itemsize: 8 bytes
x3.nbytes = size*itemsize: 480 bytes


# Индексация массива 

In [18]:
print("x1:", x1)
print("x1[0]:", x1[0])
print("x1[-1]:", x1[-1],"=","x1[5]:",x1[5])

x1: [5 0 3 3 7 9]
x1[0]: 5
x1[-1]: 9 = x1[5]: 9


## Срезы массивов 

In [19]:
#x[начало:конец:шаг]
x = np.arange(10)
print(x[:5])
print(x[5:])
print(x[0:6])
print(x[::4])
print(x[1::4])

[0 1 2 3 4]
[5 6 7 8 9]
[0 1 2 3 4 5]
[0 4 8]
[1 5 9]


In [20]:
print(x[::-1])
print(x[5:1:-1])

[9 8 7 6 5 4 3 2 1 0]
[5 4 3 2]


In [21]:
print(x2)

[[3 5 2 4]
 [7 6 8 8]
 [1 6 7 7]]


In [22]:
print(x2[::-1,::-1])

[[7 7 6 1]
 [8 8 6 7]
 [4 2 5 3]]


In [23]:
print(x2[0,:])
print(x2[0,::-1])

[3 5 2 4]
[4 2 5 3]


Срезы массивов возвращают представления (views), а не копии (copies) данных массива. Этим срезы массивов библиотеки NumPy отличаются от срезов списков языка Python (в списках срезы являются копиями).

In [24]:
print(x2)
x2_sub = x2[:2,:2]
print(x2_sub)

[[3 5 2 4]
 [7 6 8 8]
 [1 6 7 7]]
[[3 5]
 [7 6]]


In [25]:
x2_sub[0,0] = 123
print(x2) # тоже изменился
print(x2_sub)

[[123   5   2   4]
 [  7   6   8   8]
 [  1   6   7   7]]
[[123   5]
 [  7   6]]


In [26]:
print(x2)
x2_scopy = x2[:2,:2].copy()
print(x2_scopy)

[[123   5   2   4]
 [  7   6   8   8]
 [  1   6   7   7]]
[[123   5]
 [  7   6]]


In [27]:
x2_scopy[0,0] = 321
print(x2)
print(x2_scopy) # изменилась только копия

[[123   5   2   4]
 [  7   6   8   8]
 [  1   6   7   7]]
[[321   5]
 [  7   6]]


## Изменение формы массивов
Еще одна удобная операция — изменение формы массивов методом reshape()

In [28]:
gr = np.arange(0,9).reshape((3,3))
print(gr)

[[0 1 2]
 [3 4 5]
 [6 7 8]]


Другой часто используемый паттерн изменения формы — преобразование одномерного массива в двумерную матрицу-строку или матрицу-столбец.

In [29]:
x = np.array([1, 2, 3])
x.reshape((1, 3)) # Преобразование в вектор-строку с помощью reshape

array([[1, 2, 3]])

In [30]:
x[np.newaxis, :] # Преобразование в вектор-строку посредством newaxis

array([[1, 2, 3]])

In [31]:
x.reshape((3, 1)) # Преобразование в вектор-столбец с помощью reshape

array([[1],
       [2],
       [3]])

In [32]:
x[:, np.newaxis] # Преобразование в вектор-столбец посредством newaxis

array([[1],
       [2],
       [3]])

Слияние, или объединение, двух массивов в библиотеке NumPy выполняется в основном с помощью методов np.concatenate , np.vstack и np.hstack

In [33]:
x = np.array([1, 2, 3])
y = np.array([3, 2, 1])
print(np.concatenate([x, y]))
z = [99, 99, 99]
print(np.concatenate([x, y, z]))

[1 2 3 3 2 1]
[ 1  2  3  3  2  1 99 99 99]


In [34]:
grid = np.array([[1, 2, 3],
                 [4, 5, 6]])
print(np.concatenate([grid, grid]))
print(np.concatenate([grid, grid], axis=1)) # слияние по второй оси координат

[[1 2 3]
 [4 5 6]
 [1 2 3]
 [4 5 6]]
[[1 2 3 1 2 3]
 [4 5 6 4 5 6]]


In [35]:
x = np.array([1, 2, 3])
grid = np.array([[9, 8, 7],
                 [6, 5, 4]])
print(np.vstack([x, grid]))
y = np.array([[99],
              [99]])
print(np.hstack([grid, y]))

[[1 2 3]
 [9 8 7]
 [6 5 4]]
[[ 9  8  7 99]
 [ 6  5  4 99]]


Противоположностью слияния является разбиение, выполняемое с помощью функций np.split , np.hsplit и np.vsplit

In [36]:
x = [1, 2, 3, 99, 99, 3, 2, 1]
x1, x2, x3 = np.split(x, [3, 5])
print(x1, x2, x3)

[1 2 3] [99 99] [3 2 1]


In [37]:
grid = np.arange(16).reshape((4, 4))
print(grid)

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]]


In [38]:
print(np.vsplit(grid, [2]))

[array([[0, 1, 2, 3],
       [4, 5, 6, 7]]), array([[ 8,  9, 10, 11],
       [12, 13, 14, 15]])]


In [39]:
print(np.hsplit(grid, [2]))

[array([[ 0,  1],
       [ 4,  5],
       [ 8,  9],
       [12, 13]]), array([[ 2,  3],
       [ 6,  7],
       [10, 11],
       [14, 15]])]
