# Модуль для работы с массивами `numpy`

In [1]:
import numpy as np

a = np.array([1, 10, 55.3, -1e23])
print(a)
print(2 * a)
print(a**2)
print(a.shape)
print(a.size)
assert np.prod(a.shape) == a.size
assert len(a.shape) == a.ndim
print(a.dtype)
print(type(a))

[ 1.00e+00  1.00e+01  5.53e+01 -1.00e+23]
[ 2.000e+00  2.000e+01  1.106e+02 -2.000e+23]
[1.00000e+00 1.00000e+02 3.05809e+03 1.00000e+46]
(4,)
4
float64
<class 'numpy.ndarray'>


In [2]:
b = np.array([[9, 8, 7],
              [6, 5, 4],
              [3, 2, 1]])
print(b)
print(2 * b)
print(b * [2, 3, 4])
print(b.shape)
print(b.size)
assert np.prod(a.shape) == a.size
assert len(b.shape) == b.ndim
print(b.dtype)
print(type(b))

[[9 8 7]
 [6 5 4]
 [3 2 1]]
[[18 16 14]
 [12 10  8]
 [ 6  4  2]]
[[18 24 28]
 [12 15 16]
 [ 6  6  4]]
(3, 3)
9
int64
<class 'numpy.ndarray'>


In [3]:
int_b = b.astype(int)
print(int_b.dtype)
print(int_b[0,0]**30, int(b[0,0])**30, 'Почему числа не равны?')

int64
-3535985420588157519 42391158275216203514294433201 Почему числа не равны?


## Создание массивов

In [4]:
a = np.arange(10)  # как range, но создает numpy.ndarray
print(a)
a = np.arange(10, -1, -1)
print(a)
# Если мы хотим создать сетку, то лучше не использовать эту функцию
# Смотрите сами, предположим нам нужны точки от 0 до 2 включительно c шагом 1/3:
a = np.arange(0, 2 + 1/3, 1/3)
print(a)
# Другое дело с np.linspace:
a = np.linspace(0, 2, 7)
print(a)

[0 1 2 3 4 5 6 7 8 9]
[10  9  8  7  6  5  4  3  2  1  0]
[0.         0.33333333 0.66666667 1.         1.33333333 1.66666667
 2.         2.33333333]
[0.         0.33333333 0.66666667 1.         1.33333333 1.66666667
 2.        ]


### Пустой массив
Если вам нужно лишь выделить память, а сам массив вы заполните потом:

In [5]:
a = np.empty(10, dtype=np.float)
print('Тут лажеит «мусор», но не случайный:\n', a)
a = np.empty((3, 4))  # Можно указывать любой shape
print('Тоже мусор, но разложенный по-другому:\n', a)

Тут лажеит «мусор», но не случайный:
 [0.0e+000 4.9e-324 9.9e-324 1.5e-323 2.0e-323 2.5e-323 3.0e-323 3.5e-323
 4.0e-323 4.4e-323]
Тоже мусор, но разложенный по-другому:
 [[4.67443412e-310 0.00000000e+000 0.00000000e+000 0.00000000e+000]
 [0.00000000e+000 0.00000000e+000 0.00000000e+000 0.00000000e+000]
 [0.00000000e+000 0.00000000e+000 0.00000000e+000 0.00000000e+000]]


### Заполненные массивы
В качестве первого аргумента всегда `shape` создаваемого массива или целое число, если массив одномерный
В современном `numpy` тип элементов (`dtype`) по-умолчанию — `float`

In [6]:
zeros_float = np.zeros(10)
print(zeros_float)
uint8 = np.zeros((3, 2), dtype=np.uint8)
uint8 -= 1
print(uint8)

[0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
[[255 255]
 [255 255]
 [255 255]]


In [7]:
ones_float = np.ones(11)
print(ones_float)
ones_str = np.ones((2, 2), dtype=str)
print(ones_str)

[1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1.]
[['1' '1']
 ['1' '1']]


In [8]:
twos = np.full((3, 4), 2, dtype=int)
print(twos)

[[2 2 2 2]
 [2 2 2 2]
 [2 2 2 2]]


Если вам нужно создать новый массив по форме и, быть может, по типу элементов похожий на старый, то используйте функции `np.*_like()`. Они работают точно как предыдущие функции, но в качестве первого элемента принимают не размер, а другой массив.

In [9]:
arange = np.arange(8, dtype=int)

zeros = np.zeros_like(arange)

pis = np.full_like(arange, np.pi)
print(pis)
assert pis.dtype is arange.dtype
pis = np.full_like(arange, np.pi, dtype=float)
print(pis)

b = np.empty_like(arange, dtype=complex)
print('«Пустой» b:\n', b)
n = arange.shape[0]
b[:n//2] = zeros[:n//2] + 1j * pis[:n//2]
b[n//2:] = pis[n//2:] + 1j * np.ones(n//2)
print('Заполненный b:\n', b)

[3 3 3 3 3 3 3 3]
[3.14159265 3.14159265 3.14159265 3.14159265 3.14159265 3.14159265
 3.14159265 3.14159265]
«Пустой» b:
 [ 6.92141936e-310+4.67443369e-310j  4.67443367e-310+9.57502152e-251j
  6.92141430e-310+6.92141428e-310j -1.30342565e-207+6.92141436e-310j
  4.67443366e-310-9.95359165e+102j  6.92141436e-310+6.92141435e-310j
  1.41176394e-084+6.92141813e-310j  4.67443368e-310+5.53274223e-186j]
Заполненный b:
 [0.        +3.14159265j 0.        +3.14159265j 0.        +3.14159265j
 0.        +3.14159265j 3.14159265+1.j         3.14159265+1.j
 3.14159265+1.j         3.14159265+1.j        ]


## Срезы
### Одномерье

In [10]:
a = np.arange(10)
print(a)
print('Первые 5 элементов:', a[:5])
print('Последние 3 элемента:', a[-3:])
print('Элементы между 2 и 8 не включительно с шагом 3:', a[2:8:3])
print('Задом наперёд:', a[::-1])

[0 1 2 3 4 5 6 7 8 9]
Первые 5 элементов: [0 1 2 3 4]
Последние 3 элемента: [7 8 9]
Элементы между 2 и 8 не включительно с шагом 3: [2 5]
Задом наперёд: [9 8 7 6 5 4 3 2 1 0]


Помните про объектную модель Питона: переменная — это ссылка на массив, а не сам массив

In [11]:
a = np.arange(5, dtype=np.float)
b = a
assert np.array_equal(a, b)
assert a is b
b[0] = -100
print(a, b)

c = np.empty_like(a)
print('Пустой массив:', c)
c[:] = a
c[0] = np.exp(1)
print('Старый массив и бывший пустым массивы:', a, c)

[-100.    1.    2.    3.    4.] [-100.    1.    2.    3.    4.]
Пустой массив: [100.   1.   2.   3.   4.]
Старый массив и бывший пустым массивы: [-100.    1.    2.    3.    4.] [2.71828183 1.         2.         3.         4.        ]


Более простой способ скопировать массив целиком — это метод `.copy()`

In [12]:
a = np.zeros(5)
b = a.copy()
assert np.array_equal(a, b)
assert b is not a
b[0] = -100
print(a, b)

[0. 0. 0. 0. 0.] [-100.    0.    0.    0.    0.]


### Многомерье

In [13]:
a = np.arange(15).reshape(3, 5)
print(a)
print(a.T)

[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]]
[[ 0  5 10]
 [ 1  6 11]
 [ 2  7 12]
 [ 3  8 13]
 [ 4  9 14]]


In [14]:
a = np.arange(15).reshape(3, 5)
print(a)
print('Последний элемент:', a[-1, -1])
print('Вторая (индекс 1) строка:', a[1])
print('Второй с конца столбец:', a[:, -2])
print('Чётные столбцы:\n', a[:, ::2])

[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]]
Последний элемент: 14
Вторая (индекс 1) строка: [5 6 7 8 9]
Второй с конца столбец: [ 3  8 13]
Чётные столбцы:
 [[ 0  2  4]
 [ 5  7  9]
 [10 12 14]]


In [15]:
a = np.arange(16)
print(a)

b1 = a.reshape(4, 4)
b2 = a.reshape(4, -1)
b3 = a.reshape(-1, 4)
assert b1.shape == b2.shape == b3.shape
assert np.array_equal(b1, b2)
assert np.array_equal(b1, b3)

a.resize(4, 4)
print(a.shape)
a.shape = 16
print(a.shape)

c = a.reshape(2, 1, 8)
print(c)

[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15]
(4, 4)
(16,)
[[[ 0  1  2  3  4  5  6  7]]

 [[ 8  9 10 11 12 13 14 15]]]


In [16]:
a = np.arange(16).reshape(4, 4)
print(a)

b1 = a[:, np.newaxis, :]
b2 = a.reshape(4, 1, 4)
b3 = a.reshape(4, 1, -1)
assert b1.shape == b2.shape == b3.shape
assert np.array_equal(b1, b2)
assert np.array_equal(b1, b3)
print(b1.ndim, b1.shape)

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]]
3 (4, 1, 4)


Такие «дополнительные» измерения могуть быть полезны при операциях
с массивами разных размерностей

In [17]:
a = np.zeros((4, 4))
b = np.arange(4)
print('Сумма каждой строки a с b:\n', a + b)
print('Сумма каждого столбца a с b:\n', a + b[:, np.newaxis])

Сумма каждой строки a с b:
 [[0. 1. 2. 3.]
 [0. 1. 2. 3.]
 [0. 1. 2. 3.]
 [0. 1. 2. 3.]]
Сумма каждого столбца a с b:
 [[0. 0. 0. 0.]
 [1. 1. 1. 1.]
 [2. 2. 2. 2.]
 [3. 3. 3. 3.]]


## Математические операции над массивами
### Некоторые операции над каждым элементом

In [18]:
x = np.linspace(0, np.pi, 4)
print('x =', x)
print('sin(x) =', np.sin(x))
print('exp(x) =', np.exp(x))
print('cbrt(x) =', np.cbrt(x))
print('x^pi =', x**np.pi)

x = [0.         1.04719755 2.0943951  3.14159265]
sin(x) = [0.00000000e+00 8.66025404e-01 8.66025404e-01 1.22464680e-16]
exp(x) = [ 1.          2.84965391  8.1205274  23.14069263]
cbrt(x) = [0.         1.0154913  1.27943886 1.46459189]
x^pi = [ 0.          1.15590398 10.20082699 36.46215961]


Математические функции, определенные в `np.`, при работе с некомплексными числами не возвращают комплексных чисел, а возвращают `np.nan`. Используйте `np.emath` или явно указывайте, что входное число комплексное

In [19]:
print(np.sqrt(-1))
print('sqrt(-x) =', np.emath.sqrt(-x), '=', np.sqrt(-x + 0j))

nan
sqrt(-x) = [0.+0.j         0.+1.02332671j 0.+1.44720251j 0.+1.77245385j] = [0.+0.j         0.+1.02332671j 0.+1.44720251j 0.+1.77245385j]


  """Entry point for launching an IPython kernel.


### Некоторые операции над всеми элементами

In [20]:
a = np.arange(3, 18, 3)
print('a =', a)
print('sum(a) =', np.sum(a))
print('min(a) =', np.min(a), 'max(a) =', np.max(a))
print('std(a) =', np.std(a))
print('mean(a) =', np.mean(a))
print('median(a) =', np.median(a))

a = [ 3  6  9 12 15]
sum(a) = 45
min(a) = 3 max(a) = 15
std(a) = 4.242640687119285
mean(a) = 9.0
median(a) = 9.0


Для этих операций можно выбрать ось, вдоль которой они будут выполнены

In [21]:
a = np.arange(16).reshape(4, 4)
print(a)
print(np.sum(a, axis=0))
print(np.sum(a, axis=1))

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]]
[24 28 32 36]
[ 6 22 38 54]


### Некоторые векторные операции

In [22]:
x = np.array([[0,-1],[1,0]], dtype=np.float32)
z = np.array([1.0,0], dtype=np.float32)
print(x @ z)
print(x.dot(z))

[0. 1.]
[0. 1.]


In [23]:
z = np.array([1.0,1.0], dtype=np.float32)
x = np.array([0.0,1.0], dtype=np.float32)
print(np.inner(z, x))
print(np.inner(z, z))

1.0
2.0


In [24]:
e = np.array([[0,1],[0,0]], dtype=np.float32)
print(e)
print(e.dot(e))

[[0. 1.]
 [0. 0.]]
[[0. 0.]
 [0. 0.]]


In [25]:
x = np.ones((100, 100), dtype=np.float32)
z = np.eye(100) * 2
print(np.trace(x))
# Сначала вычисляем матрицу произведения, затем её след
print(np.trace(x.dot(z)))
# Вычисляем след сразу, не вычисляя недиагональные элементы произведения двух матриц
print(np.einsum('ij,ji', x, z))

100.0
200.0
200.0


## Поиск по упорядеченному массиву

In [26]:
a = np.array([1, 5, 3, 0, 7], dtype=np.float)
a.sort()
print(a)
x = np.pi
i = np.searchsorted(a, x)
print(a[:i], x, a[i:])

[0. 1. 3. 5. 7.]
[0. 1. 3.] 3.141592653589793 [5. 7.]


# Чтение табличных данных

## `open`

In [27]:
with open('file.dat', encoding='utf8') as f:
    pairs = [line.split() for line in f]

for x, y in pairs:
    print(x, y)

1 1.1
2 0.5
3.14 10
4 -0.7


In [28]:
a = [float(x) for x, _ in pairs]
b = [float(y) for _, y in pairs]
print(a, b)

[1.0, 2.0, 3.14, 4.0] [1.1, 0.5, 10.0, -0.7]


## `numpy.genfromtxt`

In [29]:
import numpy as np

names = ("id", "n", "Na", "Mg", "Al", "Si", "K", "Ca", "Ba", "Fe", "Type")
data = np.genfromtxt('glass.csv', delimiter=',', names=names)
print(data[0:5], data.dtype)
print(data['n'][0:5], data['Na'][0:5])

[(1., 1.52101, 13.64, 4.49, 1.1 , 71.78, 0.06, 8.75, 0., 0., 1.)
 (2., 1.51761, 13.89, 3.6 , 1.36, 72.73, 0.48, 7.83, 0., 0., 1.)
 (3., 1.51618, 13.53, 3.55, 1.54, 72.99, 0.39, 7.78, 0., 0., 1.)
 (4., 1.51766, 13.21, 3.69, 1.29, 72.61, 0.57, 8.22, 0., 0., 1.)
 (5., 1.51742, 13.27, 3.62, 1.24, 73.08, 0.55, 8.07, 0., 0., 1.)] [('id', '<f8'), ('n', '<f8'), ('Na', '<f8'), ('Mg', '<f8'), ('Al', '<f8'), ('Si', '<f8'), ('K', '<f8'), ('Ca', '<f8'), ('Ba', '<f8'), ('Fe', '<f8'), ('Type', '<f8')]
[1.52101 1.51761 1.51618 1.51766 1.51742] [13.64 13.89 13.53 13.21 13.27]


## `pandas`

In [30]:
import pandas as pd

names = ("id", "n", "Na", "Mg", "Al", "Si", "K", "Ca", "Ba", "Fe", "Type")
data = pd.read_csv('glass.csv', header=None, names=names, index_col=0)
print(data.head())
print(data.n.head())
print(data.iloc[0])

          n     Na    Mg    Al     Si     K    Ca   Ba   Fe  Type
id                                                               
1   1.52101  13.64  4.49  1.10  71.78  0.06  8.75  0.0  0.0     1
2   1.51761  13.89  3.60  1.36  72.73  0.48  7.83  0.0  0.0     1
3   1.51618  13.53  3.55  1.54  72.99  0.39  7.78  0.0  0.0     1
4   1.51766  13.21  3.69  1.29  72.61  0.57  8.22  0.0  0.0     1
5   1.51742  13.27  3.62  1.24  73.08  0.55  8.07  0.0  0.0     1
id
1    1.52101
2    1.51761
3    1.51618
4    1.51766
5    1.51742
Name: n, dtype: float64
n        1.52101
Na      13.64000
Mg       4.49000
Al       1.10000
Si      71.78000
K        0.06000
Ca       8.75000
Ba       0.00000
Fe       0.00000
Type     1.00000
Name: 1, dtype: float64


# Запись табличных данных

## open(filename, 'w')

In [31]:
import os

n = np.arange(-10, 11)
square = n**2
cube = n**3
with open('d1.csv', 'w', encoding='utf8') as f:
    f.write('number,square,cube' + os.linesep)
    for x1, x2, x3 in zip(n, square, cube):
        f.write('{},{},{}{}'.format(x1, x2, x3, os.linesep))
        
with open('d1.csv', encoding='utf8') as f:
    print(f.read())

number,square,cube
-10,100,-1000
-9,81,-729
-8,64,-512
-7,49,-343
-6,36,-216
-5,25,-125
-4,16,-64
-3,9,-27
-2,4,-8
-1,1,-1
0,0,0
1,1,1
2,4,8
3,9,27
4,16,64
5,25,125
6,36,216
7,49,343
8,64,512
9,81,729
10,100,1000



## pandas

In [32]:
import pandas as pd

df = pd.DataFrame({'number': n, 'square': square, 'cube': cube})
print(df)
df.to_csv('d2.csv', index=False)  # index=False — не выводить номер строки

with open('d2.csv') as f:
    print(f.read())

    number  square  cube
0      -10     100 -1000
1       -9      81  -729
2       -8      64  -512
3       -7      49  -343
4       -6      36  -216
5       -5      25  -125
6       -4      16   -64
7       -3       9   -27
8       -2       4    -8
9       -1       1    -1
10       0       0     0
11       1       1     1
12       2       4     8
13       3       9    27
14       4      16    64
15       5      25   125
16       6      36   216
17       7      49   343
18       8      64   512
19       9      81   729
20      10     100  1000
number,square,cube
-10,100,-1000
-9,81,-729
-8,64,-512
-7,49,-343
-6,36,-216
-5,25,-125
-4,16,-64
-3,9,-27
-2,4,-8
-1,1,-1
0,0,0
1,1,1
2,4,8
3,9,27
4,16,64
5,25,125
6,36,216
7,49,343
8,64,512
9,81,729
10,100,1000



# Чтение и запись [JSON](https://ru.wikipedia.org/wiki/JSON)

In [33]:
import json

d = {
    'electron':{
        'mass':1,
        'charge':1,
    },
    'photon':{
    },
    'positron':{
        'mass':1,
        'charge':-1,
    },
}

with open('particles.json', 'w') as f:
    json.dump(d, f)


In [34]:
with open('particles.json', 'r') as f:
    print(f.read())
    f.seek(0)
    p = json.load(f)
    print(p['electron'])

{"electron": {"mass": 1, "charge": 1}, "photon": {}, "positron": {"mass": 1, "charge": -1}}
{'mass': 1, 'charge': 1}


In [35]:
with open('simple.json', 'w') as f:
    f.write("""
        {
            "key": 1,
            "key2": 2
        }
    """)

with open('simple.json', 'r') as f:
    d = json.load(f)
print(d['key2'])

2


# Бинарные форматы

Общий подход: это [погуглить](http://googleitfor.me/?q=tiff+open+in+python) модуль Питона, который умеет делать то, что вам нужно. Попробуйте узнать как прочесть картинку формата TIFF в Питоне

## FITS
Будем использовать изображние галактики Сомбреро

In [36]:
from astropy.io import fits
from PIL import Image

with fits.open('sombrero.fits') as fits_file:
    hdu = fits_file[0]
    data = hdu.data
print(data)
image = Image.fromarray(data[::-1])
image.save('sombrero.png')

[[3 3 3 ... 0 0 0]
 [3 3 3 ... 0 0 0]
 [3 3 3 ... 1 1 1]
 ...
 [5 5 5 ... 4 5 5]
 [5 5 5 ... 1 3 2]
 [5 5 5 ... 3 5 2]]


`sombrero.png`
![sombrero image](sombrero.png)

## Чтение NetCDF

Возьмём файл с температурой поверхности океана с [сайта UCAR](https://www.unidata.ucar.edu/software/netcdf/examples/files.html): <https://www.unidata.ucar.edu/software/netcdf/examples/tos_O1_2001-2002.nc>

In [37]:
from scipy.io import netcdf

with netcdf.netcdf_file('tos_O1_2001-2002.nc', mmap=False) as netcdf_file:
    variables = netcdf_file.variables
time_index = 6
lat_index = 155
lon_index = 37
variables['tos'][time_index, lat_index, lon_index]

273.07037

# Построение графиков с `matplotlib`
## Простой пример

In [38]:
# Если хотим только сохранять картинки, не хотим выводить в окошко
import matplotlib; matplotlib.use('Agg')
import matplotlib.pyplot as plt
import numpy as np

x = np.linspace(0, np.pi, 100)
u = np.sin(x)
v = np.cos(x)
plt.figure()  # новый график
plt.plot(x, u, label='sine')
plt.plot(x, v, label='cosine')
plt.legend()
plt.grid()
plt.savefig('matplotlib.png')

`matplotlib.png`
![matplotlib image](matplotlib.png)
## Контурные карты

In [39]:
grid = np.linspace(-1, 1, 10)
x, y = np.meshgrid(grid, grid)
z = np.random.rand(*x.shape)
plt.figure(figsize=(5, 5))
plt.contourf(x, y, z)
plt.grid()
plt.savefig('matplotlib_contour.png')

`matplotlib_contour.png`
![matplotlib contour](matplotlib_contour.png)