# N11 Массивы модуля NumPy

Автор: Шабанов Павел Александрович

Email: pa.shabanov@gmail.com

URL: [Заметки по программированию в науках о Земле](http://progeoru.blogspot.ru/)

Дата последнего обновления: 08.03.2017

### План

1. Модуль Numpy
    + обзор возможностей;
    + массива numpy.ndarrays;
    + изменения формы массива reshape;
    + функции numpy для создания массивов;
    
2. Операции с массивами
    + чтение данных из текстовых файлов;
    + запись данных массивов в текстовые файлы.
    
### Цель: 

+ изучить массивы - особые типы данных в python из модуля numpy.

## Модуль numpy

### Обзор возможностей

[NumPy](http://www.scipy.org/scipylib/download.html) — это расширение языка Python, добавляющее поддержку больших многомерных массивов и матриц, вместе с [большой библиотекой высокоуровневых математических функций](http://pythonworld.ru/numpy) для операций с этими массивами.

Краткий список возможностей numpy по категориям:

+ Array creation routines
+ Array manipulation routines
+ Discrete Fourier Transform
+ Indexing routines
+ Input and output
+ Linear algebra
+ Masked array operations
+ Mathematical functions
+ Polynomials
+ Random sampling (numpy.random)
+ Sorting, searching, and counting
+ Statistics

Стандартным способом импортирования модуля numpy является:

> **import numpy as np**

Здесь использован импорт с сокращением вместо полного имени модуля numpy до короткого np. После этого доступ к функциям осуществляется через аббревиатуру.

## Массивы типа numpy.ndarrays

Центральным объектом, вокруг которого строится большинство функций библиотеки - это массивы.

**Массивы - упорядоченные последовательности ОДНОТИПНЫХ данных.**

Массивы, помимо типа хранящихся в них данных, характеризиуются:

+ **формой (shape)**;

+ **числом измерения (axis or dimensions, ndim)**. 

**Форма** - это кортеж, состоящий из целых чисел, где каждое значение определяет число элементов по выбранной оси или измерению в массиве. Форму массива можно узнать через **метод shape** или через функцию **np.shape(arr)**. 

**Число измерений** - это число осей, ранг, размерность массива. Длина кортежа и число осей должны совпадать.

Форма может состоять из одного числа. Тогда число осей для такого массива будет равно единице. Такие массивы часто называются **одномерными массивами** или **векторами**.

В случае, когда число осей **ndim**(метод массива) равно двум, тогда он называется двумерным или матрицей (для чисел). В случае более высоких порядков (3 и более) говорят о многомерных массивах. Т.о. число осей определяет N-мерность массива.

![caption](files/pics/L10/anatomyarrayrus.png "Рисунок 1 Шпаргалка по массивам в numpy")

### Изменения формы массива. Reshape

Изменить форму массива позволяет метод массивов **reshape()** или функция reshape модуля **numpy(np.reshape())**. Правило именения формы: существующую ось можно разбить на несколько новых только нацело. То есть ось длиной 12 можно разбить на

1. (1,12) - тривиальное преобразование
2. (2,6)
3. (3,4)
4. (4,3)
5. (6,2)
6. (12,1) - аналогичное тривиальное преобразование

In [8]:
# Numpy

import random
import numpy as np

shape1 = 30
a = np.arange(shape1)   # аналог стандартному range
print 'A', type(a), np.shape(a),
print a

b = range(shape1)
random.shuffle(b)
print 'B', type(b)
arr = np.array(b)   # прямое преобразование типа к массиву
print 'Arr', type(arr), 'Shape', arr.shape, 'Ndim', arr.ndim

A <type 'numpy.ndarray'> (30L,) [ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
 25 26 27 28 29]
B <type 'list'>
Arr <type 'numpy.ndarray'> Shape (30L,) Ndim 1


In [9]:
# Изменение формы

shape1 = 30
a = np.arange(shape1)

shape2 = (3, 10)
b = a.reshape(shape2)   # reshape - метод массива 
print 'B', type(b), np.shape(b), b

c = np.reshape(a, shape2[::-1])   # reshape - функция модуля numpy
print 'C', type(c), np.shape(c), c
# Анализ формы - рассмотрим оси или измерения

# Одномерный массив или вектор A
for i, v in enumerate(a.shape):
    print 'Array A -> axis %d: %d' % (i, v)
    
# Двумерный массив или матрица B
for i, v in enumerate(b.shape):
    print 'Array B -> axis %d: %d' % (i, v)

B <type 'numpy.ndarray'> (3L, 10L) [[ 0  1  2  3  4  5  6  7  8  9]
 [10 11 12 13 14 15 16 17 18 19]
 [20 21 22 23 24 25 26 27 28 29]]
C <type 'numpy.ndarray'> (10L, 3L) [[ 0  1  2]
 [ 3  4  5]
 [ 6  7  8]
 [ 9 10 11]
 [12 13 14]
 [15 16 17]
 [18 19 20]
 [21 22 23]
 [24 25 26]
 [27 28 29]]
Array A -> axis 0: 30
Array B -> axis 0: 3
Array B -> axis 1: 10


Очевидно, что (2, 6) и (6, 2) - это разные формы. 

Т.о. каждую ось можно разбить на несколько других. При этом следует помнить, что преобразуя одномерный ряд в двумерный массив (или вектор в матрицу), указывайте число "столбцов" вторым элементом, а количество "строк" - первым.

Для "выпрямления" N-мерного массива в вектор есть метод **flatten()**.

In [10]:
# Более сложные примеры reshape

import numpy as np

N = 24
shape1 = (4, 3, 2)   # кортеж
a = np.arange(N).reshape(shape1)   # сразу меняем форму массиву длины N

print 'A', a.shape

for i in a:
    for j in i:
        print '%s - %s - %s' % (a.shape, i.shape, j.shape,)

print 'A', a
        
shape2 = (2, 12)
b = a.reshape(shape2)
print 'B', b

# "Выравнивание" N-мерного массива в одномерный
c = a.flatten()
print 'C', c

A (4L, 3L, 2L)
(4L, 3L, 2L) - (3L, 2L) - (2L,)
(4L, 3L, 2L) - (3L, 2L) - (2L,)
(4L, 3L, 2L) - (3L, 2L) - (2L,)
(4L, 3L, 2L) - (3L, 2L) - (2L,)
(4L, 3L, 2L) - (3L, 2L) - (2L,)
(4L, 3L, 2L) - (3L, 2L) - (2L,)
(4L, 3L, 2L) - (3L, 2L) - (2L,)
(4L, 3L, 2L) - (3L, 2L) - (2L,)
(4L, 3L, 2L) - (3L, 2L) - (2L,)
(4L, 3L, 2L) - (3L, 2L) - (2L,)
(4L, 3L, 2L) - (3L, 2L) - (2L,)
(4L, 3L, 2L) - (3L, 2L) - (2L,)
A [[[ 0  1]
  [ 2  3]
  [ 4  5]]

 [[ 6  7]
  [ 8  9]
  [10 11]]

 [[12 13]
  [14 15]
  [16 17]]

 [[18 19]
  [20 21]
  [22 23]]]
B [[ 0  1  2  3  4  5  6  7  8  9 10 11]
 [12 13 14 15 16 17 18 19 20 21 22 23]]
C [ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23]


## Функции numpy для создания массивов

В **numpy** есть функции, похожие на функции стандартной библиотеки, для создания массивов заданного наполнения и формы.

+ **numpy.linspace(start, stop, num=50, endpoint=True, retstep=False, dtype=None)** - позволяет получить массив, состоящий из равномерно распределённых в заданом интервале значений. Опционально верхняя граница интервала может быть исключена из рассмотрения (параметр endpoint=False);

+ **numpy.arange([start,] stop[, step,], dtype = None)** - функция, похожая на range(). Позволяет получать последовательность как целых, так и действительных чисел, используя конструктор "начальное значение, конечное значение, шаг" ;

+ **numpy.random.random(shape)** - возвращает массив заданной формы, состоящий из псевдослучайных чисел в интервале [0, 1) не включая единицу;

+ **numpy.zeros(shape)** - возвращает массив заданной формы, состоящий из нулей (0);

+ **numpy.ones(shape)** - возвращает массив заданной формы, состоящий из единиц (1).

In [11]:
# Некоторые функции numpy для создания массивов

import numpy as np

# linspace()
print 'linspace()'
x1 = np.linspace(0, 10, 50)
x2 = np.linspace(0, 10, 50, endpoint=False)

print 'X1: ', x1[0:5]
print 'X2: ', x2[5:15]

# arange()
print 'arange()'
x1 = np.arange(50, dtype='float')
x2 = np.arange(-10.5, 30.75, 2.7)

print 'X1: ', x1[0:5]
print 'X2: ', x2[5:15]

# random.random()
print 'random.random()'
x1 = np.random.random(50)
x2 = np.random.random((10, 24))  # можно сразу задать форму массива

print 'X1: ', x1[0:5]
print 'X2: ', x2[5:15, 5]

# zeros()
print 'zeros()'
x1 = np.zeros(50, dtype=int)
x2 = np.zeros((10, 24))   # можно сразу задать форму массива

print 'X1: ', x1[0:5]
print 'X2: ', x2[5:15, 5]

# ones()
print 'ones()'
x1 = np.ones(50)
x2 = np.ones((10, 24), dtype=int)

print 'X1: ', x1[0:5]
print 'X2: ', x2[5:15, 5]

linspace()
X1:  [ 0.          0.20408163  0.40816327  0.6122449   0.81632653]
X2:  [ 1.   1.2  1.4  1.6  1.8  2.   2.2  2.4  2.6  2.8]
arange()
X1:  [ 0.  1.  2.  3.  4.]
X2:  [  3.    5.7   8.4  11.1  13.8  16.5  19.2  21.9  24.6  27.3]
random.random()
X1:  [ 0.74562835  0.43104436  0.15795813  0.29372803  0.36142541]
X2:  [ 0.84017811  0.41170563  0.47829593  0.82228425  0.50665441]
zeros()
X1:  [0 0 0 0 0]
X2:  [ 0.  0.  0.  0.  0.]
ones()
X1:  [ 1.  1.  1.  1.  1.]
X2:  [1 1 1 1 1]


### Всопомогательные функции и методы для работы с массивами

В модуле numpy есть огромное количество функций, которые облегчают работу с массивами и элементами внутри них. Вот некоторые из них

+ **np.size(arr)** - число элементов в массиве;

+ **np.where(условие Y)** - возвращает кортеж индексов массива, для элементов которых удовлетворяется условие Y;

+ **np.max()/np.min()/np.mean()/np.std()/np.var()** - простые статистики;

+ **np.argmin()/np.argmax()** - возвращают индексы экстремумов массива;

+ **np.sort()** - сортируют массив;

+ **np.argsort()** - возвращает первоначальные индексы отсортированных элементов;

+ **np.gradient()** - возвращает массив градиента; 

+ **np.in1d(arr1, arr2)** - сравнивает два массива и возвращает логический массив размера arr1, где True, если есть совпадение, и False - если элементы отличаются.

И многие другие. Их очень много. Например, np.abs(). Более подробно о массивах из модуля numpy можно [узнать из документации](https://docs.scipy.org/doc/numpy/reference/arrays.ndarray.html)

**N.B.** Для составления логических цепочек в **np.where()** необходимо использовать символ **&** вместо **and** и символ **|** вместо **or**. Например, так:

> **(x > 10) & (x < 20)** вместо **(x > 10) and (x < 20)**

## Операции с массивами

В отличие от списков, массивы по-другому ведут себя даже в самых базовых операциях (сложение, умножение).

Так умножение массива на число приведёт к тому, что каждый элемент массива будет умножен на это число. При этом исходный массив не изменяется.

Также от массива можно брать не только **срезы**, но и **векторные срезы**, т.е. непоследовательные наборы индексов по соответствующим осям. Такие наборы должны быть оформлены как списки или кортежи.

In [12]:
# Операции и срезы в массивах

import numpy as np

n = 15
x = np.arange(n)

y = 4.5*x - 13.6   # тоже массив
z = range(n)   # список

print 'X:', x[0:5]
print 'Y:', y[0:5]

ii = range(0, 10, 2)
print 'ii:', ii
print 'Y[ii]', y[ii]

# ***** ЭТО обработчик исключений *****
try:
    print 'Z[ii]', z[ii]
except:
    print u'От списка Z[ii] вектор-индекс взять нельзя!'
finally:
    print 'O.K.'
# ***** КОНЕЦ обработчика исключений *****

# Срез и вектор-индекс от двумерного массива
shape = (5, 13)
xy = np.random.random(shape)
print xy[2:4, ii].ndim, xy[2:4, ii].shape
print 'XY', xy[2:4, ii]

X: [0 1 2 3 4]
Y: [-13.6  -9.1  -4.6  -0.1   4.4]
ii: [0, 2, 4, 6, 8]
Y[ii] [-13.6  -4.6   4.4  13.4  22.4]
Z[ii] От списка Z[ii] вектор-индекс взять нельзя!
O.K.
2 (2L, 5L)
XY [[ 0.56399992  0.17188439  0.98868401  0.84760799  0.08672245]
 [ 0.45640941  0.18429038  0.9232576   0.34424838  0.58967906]]


In [13]:
# Список и массив

N = 10
arr = np.zeros(N) - 2.5
lst = range(5, N+5)

plus = arr + lst
print type(plus), len(plus)

for i,j,k in zip(arr, lst, plus):
    print i,j,k

<type 'numpy.ndarray'> 10
-2.5 5 2.5
-2.5 6 3.5
-2.5 7 4.5
-2.5 8 5.5
-2.5 9 6.5
-2.5 10 7.5
-2.5 11 8.5
-2.5 12 9.5
-2.5 13 10.5
-2.5 14 11.5


### Чтение числовых данных с помощью Numpy

Для чтения данных текстовых файлов в модуле numpy есть функция **numpy.genfromtxt()**. Также есть похожая функция np.loadtxt().

In [14]:
# Способы работы с числовыми данными с помощью numpy.genfromtxt(),
# записанными в текстовые файлы

import numpy as np

dataPath = './dataset/nao'
fileName = 'nao.txt'
a = np.genfromtxt('{}/{}'.format(dataPath, fileName))
print "a type", type(a), a.shape, a.ndim
print a[:10,:]

a type <type 'numpy.ndarray'> (793L, 3L) 2
[[  1.95000000e+03   1.00000000e+00   9.20000000e-01]
 [  1.95000000e+03   2.00000000e+00   4.00000000e-01]
 [  1.95000000e+03   3.00000000e+00  -3.60000000e-01]
 [  1.95000000e+03   4.00000000e+00   7.30000000e-01]
 [  1.95000000e+03   5.00000000e+00  -5.90000000e-01]
 [  1.95000000e+03   6.00000000e+00  -6.00000000e-02]
 [  1.95000000e+03   7.00000000e+00  -1.26000000e+00]
 [  1.95000000e+03   8.00000000e+00  -5.00000000e-02]
 [  1.95000000e+03   9.00000000e+00   2.50000000e-01]
 [  1.95000000e+03   1.00000000e+01   8.50000000e-01]]


In [15]:
# Расширенные возможности чтения данных

dataPath = './dataset/nao'
fileName = 'nao.txt'
fullPath = '{}/{}'.format(dataPath, fileName)

year, mon, nao = np.genfromtxt(fullPath, usecols=[0, 1, 2], unpack=True)
print "NAO type:", type(nao), nao.shape
print 'Max: %.2f Min: %.2f' % (nao.max(), nao.min())
print 'Mean: %.3f Std: %.4f' % (nao.mean(), nao.std())

NAO type: <type 'numpy.ndarray'> (793L,)
Max: 3.04 Min: -3.18
Mean: -0.018 Std: 1.0114


### Запись числовых данных с помощью Numpy в текстовые формат

Для записи данных массива в текстовый файл есть функция **numpy.savetxt()**.

**N.B.** При записи числовых данных рекомендуется использовать разделитель. Например, точка с запятой (;). Разделитель задаётся по умолчанию пробелом в параметрах delimiter или sep (в разных функциях по-разному).  

In [16]:
# Запись 2D-массива (> 2D требуются другие способы)

import numpy as np

dataPath = './dataset/nao'
fileName3 = 'test_2D_array.txt'
fullPath = '{}/{}'.format(dataPath, fileName3)

arr = np.random.random((10,10))*10.

np.savetxt(fullPath, arr, fmt='%.2f', delimiter=';')

In [17]:
# Способ работы с числовыми данными: запись "ala" фортран

import numpy as np

dataPath = './dataset/nao'
fileName2 = 'fortran_style.txt'
fullPath = '{}/{}'.format(dataPath, fileName2)

x = np.random.random((12, 10, 7))

ss = []
for i in range(12):
    ss.append('%5d%5d\n' % (2015, i+1))

#print x

with file(fullPath, 'w') as outfile: 
    for i, data_slice in enumerate(x): 
        print data_slice.shape
        outfile.write(ss[i])
        np.savetxt(outfile, data_slice, fmt='%9.3f')

(10L, 7L)
(10L, 7L)
(10L, 7L)
(10L, 7L)
(10L, 7L)
(10L, 7L)
(10L, 7L)
(10L, 7L)
(10L, 7L)
(10L, 7L)
(10L, 7L)
(10L, 7L)
