# Jupyter notebook

Это Jupyter notebook. Он позволяет интерактивно исполнять python код. Jupyter notebook состоит из ячеек, в которых может быть написан код или обычной текст с возможностями форматирования (заголовок, курсив, цвет, url и т.п.).

In [None]:
# это ячейка кода

А это ячейка ``markdown``.

Ячейки можно запускать по одной, нажимая `Ctrl + Enter`, либо `Shift + Enter`, чтобы сразу перейти к следующей ячейке.

In [None]:
a = 1

In [None]:
b = 3

In [None]:
c = a + b * 2
print(c)

Состояние интерпретатора python, все переменные, классы и функции сохраняют своё состояние между запусками ячеек. Запускать ячейки можно в любом порядке, про желании можно вернуться к предыдущим и запустить их ещё раз. В случае, если вы хотите сбросить состояние и очистить все переменные (например, чтобы проверить, правильно ли работает ваш код, когда ячейки выполняются в прямом порядке), перейдите в `Ядро` -> `Перезапустить ядро...`

Создать новую ячейку под текущей можно, нажав `B`. Новая ячейка над текущей - `A`. Удалить ячейку - `D, D`. Перед этим нужно выйти из режима редактирования ячейки, нажав `Esc` или просто щёлкнув курсором вбок.

# Зачем всё это

В процессе моделирования в Geant4 может генерироваться большой объём данных. Эти данные необходимо визуализировать и, как правило, провести некоторую их обработку. Всё это можно делать любым инструментом, которым вы владеете (Excel, Origin, Matlab, gnuplot, ROOT и т.д.). Разница только в доступных готовых библиотеках, удобстве, иногда в стоимости. В этом ноутбуке вкратце будет показано, как работать с данными, считывать данные из файла и создавать различную графику.

# NumPy и векторные вычисления

Python изначально не рассчитан на использование для обработки данных. Из-за сложной работы с памятью компьютера "под капотом" вычисления требуют в десятки раз больше времени, чем в C++ или Fortran. По этой причине в середине 2000-х была создана библиотека `numpy`. Пакет вобрал в себя множество полезных функций, впоследствии став стандартным инструментом для анализа данных.

In [None]:
import numpy as np # аналог #include в C++

Базовый элемент в `numpy` - это массив:

In [None]:
a = np.array([1, 2, 3, 4, 5])
b = np.array([5, 4, 3, 2, 1])
print('a =', a)
print('b =', b)

Математика:

In [None]:
print(a + 1)
print(a * 2)
print(a == 2)
print(a + b)
print(a * b)

Функции:

In [None]:
def my_function(x, y):
    return x * y / 2

In [None]:
c = my_function(a, b)
c

Существует ряд функций для создания массивов нулей, единиц, чисел по возрастанию / убыванию и т.д.:

In [None]:
np.zeros(shape=(3, 4))

In [None]:
np.ones(shape=(2, 5))

In [None]:
np.arange(3, 15, 2.5) # start, stop, step

In [None]:
np.arange(11) # по умолчанию start=0, step=1

In [None]:
np.linspace(4, 14, 6) # 6 значений равномерно в интервале от 4 до 14

Вы можете легко изменять форму массивов, делая их многомерными:

In [None]:
m = np.arange(24).reshape(4, 6)
m

In [None]:
print('Размерность:', m.ndim)
print('Форма:', m.shape)

In [None]:
m.T # транспонирование

In [None]:
print('Форма:', m.T.shape)

Линейная алгебра.

Имейте ввиду, что в `numpy` есть разница между массивом и матрицей с 1 строкой.

In [None]:
array = np.arange(4)
print(array)
print(array.ndim)
print(array.shape)

In [None]:
row = np.arange(4).reshape(1, 4)
print(row)
print(row.ndim)
print(row.shape)

In [None]:
column = np.arange(6).reshape(6, 1)
print(column)
print(column.ndim)
print(column.shape)

In [None]:
matrix = np.arange(24).reshape(4, 6)
print(matrix)

In [None]:
# матричное умножение

print('Строка на матрицу:')
print(row @ matrix) # или: np.matmul(row, matrix)

print('Можно и с массивом (результат другой):')
print(array @ matrix) # или: np.matmul(array, matrix)

print('Матрица на столбец:')
print(matrix @ column) # или: np.matmul(matrix, column)

print('Здесь с массивом уже нельзя:')
try:
    print(matrix @ array)
except:
    print('Ай!')

In [None]:
print('Матрица на матрицу:')
print(matrix @ matrix.T) # или: np.matmul(matrix, matrix.T)

print('И в другом порядке:')
print(matrix.T @ matrix) # или: np.matmul(matrix.T, matrix)

In [None]:
print('Скалярное произведение:', array @ array) # или: np.dot(array, array)
print('Строка на столбец:', row @ row.T) # или: np.dot(row, row.T)

В библиотеке реализованы базовые функции по типу логарифмов, тригонометрических функций и т.д.

In [None]:
a = np.array([1, 2, 3, 4, 5])
b = np.array([5, 4, 3, 2, 1])
print('np.sum(a) =', np.sum(a))
print('np.mean(a) =', np.mean(a))
print('np.min(a) =',  np.min(a))
print('np.argmin(b) =', np.argmin(b))
print('np.dot(a, b) =', np.dot(a, b))
print(np.unique(['male','male','female','female','male']))

Чтение данных из текстового файла:

In [None]:
data = np.loadtxt('data.txt')

In [None]:
data.shape

In [None]:
print(data[:50])

Если в файле есть комментарии, или нужно скипнуть несколько строк сверху или какие-то столбы, всё это можно настроить.

In [None]:
data = np.loadtxt('data.txt', comments='#', delimiter=' ', skiprows=0)

Документацию по всем функциям `numpy`, в которой описаны все возможные входные и выходные параметры, можно и нужно найти на странице https://numpy.org/doc/stable/reference/index.html.

Хотя зачастую удобнее просто гуглить: https://www.google.com/search?q=numpy+loadtxt.

# Matplotlib и графика

Визуализация данных в python может быть выполнена с помощью библиотеки `matplotlib`.

Как и сам python, `matplotlib` упрощает элементарные вещи, в то же время позволяя создавать сверхсложные графики или пользовательские анимации.

In [None]:
import matplotlib.pyplot as plt

x = np.array([0, 1, 2, 3,  4,  5])
y = np.array([0, 1, 4, 9, 16, 25])
plt.plot(x, y)

А теперь с подписями и настройками осей:

In [None]:
fig = plt.figure(figsize=(8, 4)) # по умолчанию размеры в дюймах, т.е. 8 x 4 дюйма
plt.plot(x, y, label='parabola', color='r', marker='.', markersize=10)
plt.plot(x, np.sqrt(y), label='line', linestyle='--', linewidth=5)
plt.xlim(0, 5)
plt.ylim(-1, 30)
plt.xlabel('x')
plt.ylabel('y')
plt.title('Informative title')
plt.legend(loc='upper left')
plt.grid()
plt.show()

Теперь гистограммы:

In [None]:
e = np.random.normal(5, 1, 1000)

plt.hist(e);

In [None]:
def gaussian(x, mu, sig):
    return 1 / np.sqrt(2 * np.pi * sig**2) * np.exp(-(x - mu)**2 / (sig**2 * 2))

In [None]:
t = np.linspace(1, 9, 100)

plt.hist(e, bins=50, range=[2.5, 7.5], density=True, histtype='step', color='r')
plt.plot(t, gaussian(t, 4, 1), color='k')
plt.xlim(0.5, 9.5)
plt.show()

Несколько графиков. Для каждого графика - свои оси, которые настраиваются отдельно.

In [None]:
fig = plt.figure(figsize=(10, 7), layout='constrained')
ax = fig.subplots(nrows=2, ncols=2) # это массив формы (2, 2)

ax[0, 0].plot(t, gaussian(t, 5, 1), marker='.')
ax[0, 0].set_xlabel('x1')
ax[0, 0].set_ylabel('lin scale')
ax[0, 0].set_title('gauss')

ax[0, 1].plot(t, gaussian(t, 5, 1), marker='.')
ax[0, 1].set_xlabel('x2')
ax[0, 1].set_ylabel('log scale')
ax[0, 1].set_title('log gauss')
ax[0, 1].set_yscale('log')

ax[1, 0].hist(e, bins=20)
ax[1, 0].plot(t, t**2, linewidth=4)
ax[1, 0].set_xlabel('x3, keV')
ax[1, 0].set_ylabel('y3, cm')

ax[1, 1].plot(t, np.sin(2 * t))
ax[1, 1].set_ylim(-2, 2)
ax[1, 1].set_xlabel('x4, MeV')
ax[1, 1].grid()

plt.show()
fig.savefig('figure.png') # сохранение в файл

Аналогично ссылка на официальную документацию `matplotlib`: https://matplotlib.org/stable/api/index.html.

Также имеет смысл искать что-то конкретное в гугле: https://www.google.com/search?q=matplotlib+hist.

# SciPy и фитирование

Одна из задач, возникающих при обработке результатов моделирование, - определение параметров получившегося распределения. В `numpy` реализована функция `numpy.polyfit`, позволяющая проводить полиномиальный фит.

Ниже показан пример с полиномом x<sup>4</sup> - 5x<sup>3</sup> - 4x<sup>2</sup> + 20x + 20.

In [None]:
x = np.linspace(0, 5, 40)
y = x**4 - 5 * x**3 - 4 * x**2 + 20 * x + 20

plt.plot(x, y, marker='.')
plt.show()

In [None]:
# альтернативный и более компактный способ задать полином
p = [1, -5, -4, 20, 20]
y = np.polyval(p, x)

plt.plot(x, y, marker='.')
plt.show()

In [None]:
y_noise = y + np.random.normal(0, 3, size=y.size)

plt.plot(x, y_noise, linestyle='', marker='.')
plt.plot(x, y)
plt.show()

In [None]:
p_fit = np.polyfit(x, y_noise, 4)
print(p_fit)
print(p)

In [None]:
y_fit = np.polyval(p_fit, x)

plt.plot(x, y_noise, label='data', linestyle='', marker='.')
plt.plot(x, y, label='true function', linestyle=':')
plt.plot(x, np.polyval(p_fit, x), label='fit')
plt.legend()
plt.show()

Однако этим возможности `numpy` исчерпываются.

Библиотека `scipy` содержит множество продвинутых инструментов фитирования, позволяющих задать произвольную функцию, учесть погрешность точек, оценить погрешность получаемых из фита параметров, выбрать алгоритм минимизации и многое другое. Функции `scipy.optimize.curve_fit` достаточно для этих целей.

In [None]:
import scipy as sp

Вернёмся к данным из файла `data.txt`.

In [None]:
plt.hist(data, bins=50)
plt.show()

Распределение данные представляет собой экспоненциальную подложку и гауссовый пик в районе x = 5.

In [None]:
y_data, bin_edges = np.histogram(data, bins=50)
x_data = (bin_edges[:-1] + bin_edges[1:]) / 2
y_data_err = np.sqrt(y_data)

plt.errorbar(x_data, y_data, y_data_err, linestyle='')
plt.show()

In [None]:
def exponent_gauss(x, a, b, N, mu, sigma):
    return a * np.exp(-x / b) + N * np.exp(-(x - mu)**2 / sigma**2)

popt, pcov = sp.optimize.curve_fit(exponent_gauss, x_data, y_data, p0=[1000, 1, 1000, 5, 1], sigma=y_data_err, absolute_sigma=True)
perr = np.sqrt(np.diag(pcov))

print(' a = {:4.0f},  b = {:.2f},  N = {:3.0f},  mu = {:.2f},  sigma = {:5.2f}'.format(*popt))
print('Δa = {:4.0f}, Δb = {:.2f}, ΔN = {:3.0f}, Δmu = {:.2f}, Δsigma = {:5.2f}'.format(*perr))

In [None]:
plt.errorbar(x_data, y_data, y_data_err, linestyle='')
plt.plot(x_data, exponent_gauss(x_data, *popt), label='fit')
plt.legend()
plt.show()

Ссылка на документацию `scipy`: https://docs.scipy.org/doc/scipy/reference/index.html.

Пример поиска описания функции `curve_fit`: https://www.google.com/search?q=scipy+curve+fit.

# Другие библиотеки

Кроме `NumPy`, `Matplotlib` и `SciPy` существует множество других полезных для научной работы библиотек. Вот некоторые:
- [astropy](https://docs.astropy.org/en/stable/index.html) - научный анализ в области астрономии и астрофизики.
- [iminuit](https://scikit-hep.org/iminuit/index.html) - python интерфейс для библиотеки Minuit2, предназначенной для фитирования. Разработан и поддерживается в CERN.
- [scikit-learn](https://scikit-learn.org/stable/) - машинное обучение.
- [PyTorch](https://pytorch.org/docs/stable/index.html) - тензорные вычисления, глубокие нейронные сети.
- [seaborn](https://seaborn.pydata.org/) - визуализация научных данных.
- [Plotly](https://plotly.com/python/) - визуализация и графика.