# Модуль для работы с массивами `numpy`

In [1]:
import numpy as np

a = np.array([1, 10, 55.3, -1e23])
print(a)
print(2 * a)
print(a**2)
print(a.shape)
print(a.size)
assert np.prod(a.shape) == a.size
assert len(a.shape) == a.ndim
print(a.dtype)
print(type(a))

[ 1.00e+00  1.00e+01  5.53e+01 -1.00e+23]
[ 2.000e+00  2.000e+01  1.106e+02 -2.000e+23]
[1.00000e+00 1.00000e+02 3.05809e+03 1.00000e+46]
(4,)
4
float64
<class 'numpy.ndarray'>


In [2]:
b = np.array([[9, 8, 7],
              [6, 5, 4],
              [3, 2, 1]])
print(b)
print(2 * b)
print(b * [2, 3, 4])
print(b.shape)
print(b.size)
assert np.prod(a.shape) == a.size
assert len(b.shape) == b.ndim

[[9 8 7]
 [6 5 4]
 [3 2 1]]
[[18 16 14]
 [12 10  8]
 [ 6  4  2]]
[[18 24 28]
 [12 15 16]
 [ 6  6  4]]
(3, 3)
9


In [3]:
int_b = b.astype(int)
print(int_b.dtype)
print(int_b[0,0]**30, int(b[0,0])**30, 'Почему числа не равны?')

int64
-3535985420588157519 42391158275216203514294433201 Почему числа не равны?


## Создание массивов

In [4]:
a = np.arange(10)  # как range, но создает numpy.ndarray
print(a)
a = np.arange(10, -1, -1)
print(a)
# Если мы хотим создать сетку, то лучше не использовать эту функцию
# Смотрите сами, предположим нам нужны точки от 0 до 2 включительно c шагом 1/3:
a = np.arange(0, 2 + 1/3, 1/3)
print(a)
# Другое дело с np.linspace:
a = np.linspace(0, 2, 7)
print(a)

[0 1 2 3 4 5 6 7 8 9]
[10  9  8  7  6  5  4  3  2  1  0]
[0.         0.33333333 0.66666667 1.         1.33333333 1.66666667
 2.         2.33333333]
[0.         0.33333333 0.66666667 1.         1.33333333 1.66666667
 2.        ]


### Пустой массив
Если вам нужно лишь выделить память, а сам массив вы заполните потом:

In [5]:
a = np.empty(10, dtype=np.float)
print('Тут лажеит «мусор», но не случайный:\n', a)
a = np.empty((3, 4))  # Можно указывать любой shape
print('Тоже мусор, но разложенный по-другому:\n', a)

Тут лажеит «мусор», но не случайный:
 [0.0e+000 4.9e-324 9.9e-324 1.5e-323 2.0e-323 2.5e-323 3.0e-323 3.5e-323
 4.0e-323 4.4e-323]
Тоже мусор, но разложенный по-другому:
 [[2.31584178e+077 2.31584178e+077 2.96439388e-323 0.00000000e+000]
 [2.31584178e+077 1.61590357e+184 6.86889100e-091 3.73455097e-061]
 [3.61296025e+174 1.47862178e+185 3.99910963e+252 8.80225074e-309]]


### Заполненные массивы
В качестве первого аргумента всегда `shape` создаваемого массива или целое число, если массив одномерный
В современном `numpy` тип элементов (`dtype`) по-умолчанию — `float`

In [6]:
zeros_float = np.zeros(10)
print(zeros_float)
uint8 = np.zeros((3, 2), dtype=np.uint8)
uint8 -= 1
print(uint8)

[0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
[[255 255]
 [255 255]
 [255 255]]


In [7]:
ones_float = np.ones(11)
print(ones_float)
ones_str = np.ones((2, 2), dtype=str)
print(ones_str)

[1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1.]
[['1' '1']
 ['1' '1']]


In [8]:
twos = np.full((3, 4), 2, dtype=int)
print(twos)

[[2 2 2 2]
 [2 2 2 2]
 [2 2 2 2]]


Если вам нужно создать новый массив по форме и, быть может, по типу элементов похожий на старый, то используйте функции `np.*_like()`. Они работают точно как предыдущие функции, но в качестве первого элемента принимают не размер, а другой массив.

In [9]:
arange = np.arange(8, dtype=int)

zeros = np.zeros_like(arange)

pis = np.full_like(arange, np.pi)
print(pis)
assert pis.dtype is arange.dtype
pis = np.full_like(arange, np.pi, dtype=float)
print(pis)

b = np.empty_like(arange, dtype=complex)
print('«Пустой» b:\n', b)
n = arange.shape[0]
b[:n//2] = zeros[:n//2] + 1j * pis[:n//2]
b[n//2:] = pis[n//2:] + 1j * np.ones(n//2)
print('Заполненный b:\n', b)

[3 3 3 3 3 3 3 3]
[3.14159265 3.14159265 3.14159265 3.14159265 3.14159265 3.14159265
 3.14159265 3.14159265]
Пустой b:
 [2.31584178e+077+2.31584178e+077j 2.41907520e-312+2.14321575e-312j
 2.46151512e-312+2.31297541e-312j 2.35541533e-312+2.05833592e-312j
 2.22809558e-312+2.56761491e-312j 2.48273508e-312+2.05833592e-312j
 2.05833592e-312+2.29175545e-312j 2.07955588e-312+2.14321575e-312j]
Заполненный b:
 [0.        +3.14159265j 0.        +3.14159265j 0.        +3.14159265j
 0.        +3.14159265j 3.14159265+1.j         3.14159265+1.j
 3.14159265+1.j         3.14159265+1.j        ]


## Срезы
### Одномерье

In [10]:
a = np.arange(10)
print(a)
print('Первые 5 элементов:', a[:5])
print('Последние 3 элемента:', a[-3:])
print('Элементы между 2 и 8 не включительно с шагом 3:', a[2:8:3])
print('Задом наперёд:', a[::-1])

[0 1 2 3 4 5 6 7 8 9]
Первые 5 элементов: [0 1 2 3 4]
Последние 3 элемента: [7 8 9]
Элементы между 2 и 8 не включительно с шагом 3: [2 5]
Задом наперёд: [9 8 7 6 5 4 3 2 1 0]


Помните про объектную модель Питона: переменная — это ссылка на массив, а не сам массив

In [23]:
a = np.arange(5, dtype=np.float)
b = a
assert np.array_equal(a, b)
assert a is b
b[0] = -100
print(a, b)

c = np.empty_like(a)
print('Пустой массив:', c)
c[:] = a
c[0] = np.exp(1)
print('Старый массив и бывший пустым массивы:', a, c)

[-100.    1.    2.    3.    4.] [-100.    1.    2.    3.    4.]
Пустой массив: [100.   1.   2.   3.   4.]
Старый массив и бывший пустым массивы: [-100.    1.    2.    3.    4.] [2.71828183 1.         2.         3.         4.        ]


Более простой способ скопировать массив целиком — это метод `.copy()`

In [12]:
a = np.zeros(5)
b = a.copy()
assert np.array_equal(a, b)
assert b is not a
b[0] = -100
print(a, b)

[0. 0. 0. 0. 0.] [-100.    0.    0.    0.    0.]


### Многомерье

In [36]:
a = np.arange(15).reshape(3, 5)
print(a)
print(a.T)

[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]]
[[ 0  5 10]
 [ 1  6 11]
 [ 2  7 12]
 [ 3  8 13]
 [ 4  9 14]]


In [13]:
a = np.arange(15).reshape(3, 5)
print(a)
print('Последний элемент:', a[-1, -1])
print('Вторая (индекс 1) строка:', a[1])
print('Второй с конца столбец:', a[:, -2])
print('Чётные столбцы:\n', a[:, ::2])

[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]]
Последний элемент: 14
Вторая (индекс 1) строка: [5 6 7 8 9]
Второй с конца столбец: [ 3  8 13]
Чётные столбцы:
 [[ 0  2  4]
 [ 5  7  9]
 [10 12 14]]


In [26]:
a = np.arange(16)
print(a)

b1 = a.reshape(4, 4)
b2 = a.reshape(4, -1)
b3 = a.reshape(-1, 4)
assert b1.shape == b2.shape == b3.shape
assert np.array_equal(b1, b2)
assert np.array_equal(b1, b3)

a.resize(4, 4)
print(a.shape)
a.shape = 16
print(a.shape)

c = a.reshape(2, 1, 8)
print(c)

(4, 4)
(16,)
[[[ 0  1  2  3  4  5  6  7]]

 [[ 8  9 10 11 12 13 14 15]]]


In [28]:
a = np.arange(16).reshape(4, 4)
print(a)

b1 = a[:, np.newaxis, :]
b2 = a.reshape(4, 1, 4)
b3 = a.reshape(4, 1, -1)
assert b1.shape == b2.shape == b3.shape
assert np.array_equal(b1, b2)
assert np.array_equal(b1, b3)
print(b1.ndim, b1.shape)

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]]
3 (4, 1, 4)


Такие «дополнительные» измерения могуть быть полезны при операциях
с массивами разных размерностей

In [35]:
a = np.zeros((4, 4))
b = np.arange(4)
print('Сумма каждой строки a с b:\n', a + b)
print('Сумма каждого столбца a с b:\n', a + b[:, np.newaxis])

Сумма каждой строки a с b:
 [[0. 1. 2. 3.]
 [0. 1. 2. 3.]
 [0. 1. 2. 3.]
 [0. 1. 2. 3.]]
Сумма каждого столбца a с b:
 [[0. 0. 0. 0.]
 [1. 1. 1. 1.]
 [2. 2. 2. 2.]
 [3. 3. 3. 3.]]


## Математические операции над массивами

## Поиск по упорядеченному массиву

# Чтение табличных данных

## `open`

In [16]:
with open('file.dat') as f:
    pairs = [line.split() for line in f]

for x, y in pairs:
    print(x, y)

1 1.1
2 0.5
3.14 10
4 -0.7


In [17]:
a = [float(x) for x, _ in pairs]
b = [float(y) for _, y in pairs]
print(a, b)

[1.0, 2.0, 3.14, 4.0] [1.1, 0.5, 10.0, -0.7]


## `numpy.genfromtxt`

In [18]:
import numpy as np

data = np.genfromtxt('file.dat', names=('x', 'y'))
print(data, data.dtype)
print(data['x'], data['y'])

[(1.  ,  1.1) (2.  ,  0.5) (3.14, 10. ) (4.  , -0.7)] [('x', '<f8'), ('y', '<f8')]
[1.   2.   3.14 4.  ] [ 1.1  0.5 10.  -0.7]


## `pandas`

In [19]:
import pandas as pd

data = pd.read_csv('file.dat', sep=' ', names=('x', 'y'))
print(data)
print(data.x)
print(data.iloc[0])

      x     y
0  1.00   1.1
1  2.00   0.5
2  3.14  10.0
3  4.00  -0.7
0    1.00
1    2.00
2    3.14
3    4.00
Name: x, dtype: float64
x    1.0
y    1.1
Name: 0, dtype: float64


# Запись табличных данных

## open(filename, 'w')

## pandas

# Чтение и запись JSON

# Бинарные форматы

Общий подход: это [погуглить](http://googleitfor.me/?q=tiff+open+in+python) модуль Питона, который умеет делать то, что вам нужно. Попробуйте узнать как прочесть картинку формата TIFF в Питоне

## FITS
Будем использовать изображние галактики Сомбреро

In [20]:
from astropy.io import fits
from PIL import Image

with fits.open('sombrero.fits') as fits_file:
    hdu = fits_file[0]
    data = hdu.data
print(data)
image = Image.fromarray(data[::-1])
image.save('sombrero.png')

[[3 3 3 ... 0 0 0]
 [3 3 3 ... 0 0 0]
 [3 3 3 ... 1 1 1]
 ...
 [5 5 5 ... 4 5 5]
 [5 5 5 ... 1 3 2]
 [5 5 5 ... 3 5 2]]


`sombrero.png`
![sombrero image](sombrero.png)

## HDF

## Чтение NetCDF

Возьмём файл с температурой поверхности океана с [сайта UCAR](https://www.unidata.ucar.edu/software/netcdf/examples/files.html): <https://www.unidata.ucar.edu/software/netcdf/examples/tos_O1_2001-2002.nc>

In [21]:
from scipy.io import netcdf

with netcdf.netcdf_file('tos_O1_2001-2002.nc', mmap=False) as netcdf_file:
    variables = netcdf_file.variables
time_index = 6
lat_index = 155
lon_index = 37
variables['tos'][time_index, lat_index, lon_index]

273.07037

# Построение графиков с `matplotlib`
## Простой пример

In [22]:
# Если хотим только сохранять картинки, не хотим выводить в окошко
import matplotlib; matplotlib.use('Agg')
import matplotlib.pyplot as plt
import numpy as np

x = np.linspace(0, np.pi, 100)
u = np.sin(x)
v = np.cos(x)
plt.figure()  # новый график
plt.plot(x, u, label='sinus')
plt.plot(x, v, label='cosinus')
plt.legend()
plt.grid()
plt.savefig('matplotlib.png')

`matplotlib.png`
![matplotlib image](matplotlib.png)
## Контурные карты