Agenda:
1. Основы numpy + задания
2. Основы работы с графиками в matplotlib, seaborn, plotly + задания
3. Использование numpy в решении задач линейной алгебры + задания
4. Использование numpy в решении задач по статистике и теории вероятности + задания
5. Использование numpy в обработке изображений
6. Небольшое дэмо nupmy в работе с цифровым сигналом и бонусное задание

In [None]:
import numpy as np
import matplotlib.pyplot as plt
import matplotlib.gridspec as gridspec

import plotly.graph_objects as go
import plotly.express as px

%matplotlib inline

import seaborn as sns

import pandas as pd

from scipy.signal import convolve2d

from PIL import Image
from IPython.display import Image as IPImage
from IPython.display import Audio as IPAudio

## Основы numpy

### Какие пакеты содержит numpy

1. **`numpy.core`**:
    - Ядро NumPy, содержит основные функции и классы для работы с многомерными массивами, включая сам объект массива `ndarray`.
2. **`numpy.lib`**:
    - Библиотека полезных инструментов и функций, включая функции для индексирования, математических операций, форматирования и многое другое.
3. **`numpy.fft`**:
    - Подпакет для выполнения быстрого преобразования Фурье.
4. **`numpy.linalg`**:
    - Подпакет для поддержки линейной алгебры, включая решение систем линейных уравнений, нахождение собственных значений и векторов, вычисление разложений матриц и другие подобные операции.
5. **`numpy.random`**:
    - Подпакет для генерации случайных чисел и выполнения операций с вероятностными распределениями.
6. **`numpy.ma`**:
    - Подпакет для работы с маскированными массивами, позволяющий обрабатывать данные с отсутствующими или невалидными значениями.
7. **`numpy.matlib`**:
    - Подпакет, предоставляющий функции для создания и работы с матрицами.
8. **`numpy.polynomial`**:
    - Подпакет для работы с полиномами, включая их создание, манипуляции, вычисление корней и другие операции.
9. **`numpy.testing`**:
    - Инструменты для тестирования кода, использующего NumPy, обеспечивающие поддержку утверждений и сравнений массивов.
10. **`numpy.f2py`**:
    - Модуль, позволяющий интегрировать Fortran код с Python, используя NumPy для организации данных.

### ndarray


ndarray - специальный класс библиотеки numpy хранящий значения однородного типа.

структура ndarray состоит из четырех полей:

Data pointer: Указатель на первый байт в массиве, хранящем данные в памяти.

Shape: tuple который хранит размер ndarray во всех его измерениях. Например, для 2D массива с 5 строками и 3 колонками `(5, 3)`.

Dtype: Тип данных хранящихся в пямяти ndarray. Все элементы строго однотипные.

Strides: tuple который описывает на сколько байтов нужно сместиться, чтобы получить элемент из следующего измерения. Например, если у нас 2D массив и dtype=int64 (8B для каждого значения) и shape=(3, 4), то может быть следующего вида (зависит от того как организована память в рантайме) strides=(32, 8) что значит что чтобы перейти к следующей 0й оси, нам нужно сметиться на 4*8=32 байта, а чтобы перейти к следующей 1й оси, нам нужно сместиться на 8 байт.

Сам объект под капотом выглядит следующим образом
```
+--------+--------+--------+--------+
|  Data  | Dtype  | Shape  | Strides|
+--------+--------+--------+--------+
     |
     v
+--------+--------+--------+--------+--------+--------+...
| byte 0 | byte 1 | byte 2 | byte 3 | byte 4 | byte 5 |...
+--------+--------+--------+--------+--------+--------+...
```

ndarray всегда хранит элементы в непрерывном блоке памяти, что дает большие преимущества при оптимизации работы с однотипными данными.

In [None]:
l1 = [1, 2, 3]
x = np.array(l1, dtype=np.int16)
x

Основные типы: https://numpy.org/devdocs/user/basics.types.html

NumPy dtype параметр позволят определить тип данных хранящихся в ndarray.

Integer:
    int8, int16, int32, int64: Signed integer types that can represent negative numbers.
    uint8, uint16, uint32, uint64: Unsigned (non-negative) integer types.

Floating-Point:
    float16, float32, float64: Floating point types that can represent real numbers.

Complex Number:
    complex64, complex128: Types that can represent complex numbers.

Boolean:
    bool: Type that can represent True and False.

String:
    string_: Type that can represent string data.

Object:
    object: Type that can represent Python objects.

Datetime:
    datetime64: Type that can represent date and time.

Timedelta:
    timedelta64: Type that can represent a duration.

Стоит помнить что выбранный тип данных влияет на то сколько он будет занимать место в памяти

### Основные параметры ndarray

In [None]:
x2 = np.array(
    [[[1, 2], [4, 3], [7, 4]], [[2, 5], [9, 8], [7, 5]], [[1, 5], [3, 6], [0, 2]], [[9, 7], [6, 8], [9, 8]]],
    np.int16)

print('ndarray:\n', x2)
print('-' * 10)
print('number of dimensions:', x2.ndim)
print('shape:', x2.shape)
print('dtype:', x2.dtype)
print('size:', x2.size)
print('number of bytes:', x2.nbytes)
print('strides:', x2.strides)

In [None]:
IPImage(url='./mtrx.png', width=500)

## Slicing

In [None]:
x2[0], x2[1], x2[0][1]

### Генерация числовых последовательностей

Математическая функция как отображение — это правило, которое каждому элементу одного множества (называемого областью определения функции) ставит в соответствие ровно один элемент другого множества (называемого областью значений функции). 

### Определение
Пусть есть два множества $ X $ и $ Y $. Функция $ f $ из множества $ X $ в множество $ Y $ — это правило, которое каждому элементу $ x $ из множества $ X $ ставит в соответствие уникальный элемент $ y $ из множества $ Y $. Это отображение записывается как:

$$
\[ f: X \rightarrow Y \]
$$

где $ X $ — область определения функции, $ Y $ — область значений функции, а элемент $ y $, соответствующий элементу $ x $, обозначается как $ f(x) $.

In [None]:
print(np.arange(0, 100, 2))

In [None]:
print(np.linspace(10, 200))

In [None]:
print(np.logspace(1, 10, num=10, base=2))

Функция geomspace предназначена для создания массивов с числами, распределёнными по геометрической прогрессии. Это особенно полезно в ситуациях, когда нужно равномерно охватить большой диапазон значений, что недостижимо при использовании обычного линейного распределения, доступного через функцию linspace.

In [None]:
print(np.geomspace(1, 1000, num=4))

Функция meshgrid используется для создания прямоугольной сетки координат из двух одномерных массивов, представляющих значения по осям X и Y.

In [None]:
x = np.linspace(1, 10, 10)
y = np.linspace(1, 10, 10)

xv, yv = np.meshgrid(x, y)
print('xv:\n', xv)
print('yv:\n', yv)

### Universal functions (ufuncs)

Universal functions (ufuncs) - функции которые применяются поэлементно к numpy массивам. Универсальными называются потому что применимы к массиву любой размерности. Ufuncs под капотом реализованы на чистом С, поэтому намного производительнее аналогичных нативных питоновских.

In [None]:
x = np.linspace(1, 10, 10)
x + 1

In [None]:
x = np.linspace(1, 10, 10)
x % 5

In [None]:
a = np.array([1, 2, 3])
b = np.array([4, 5, 6])

print('Addition:', np.add(a, b), a + b)
print('Multiplication:', np.multiply(a, b), a * b)
print('Exponentiation:', np.power(a, b), a ** b)

In [None]:
x = np.array([0, np.pi / 2, np.pi])
print('x:', x)
print('sin(x):', np.sin(x))
print('cos(x):', np.cos(x))
print('tan(x):', np.tan(x))

In [None]:
a = np.array([1, 2, 3, 4, 5])
print('Mean:', np.mean(a))
print('Standard deviation:', np.std(a))
print('Variance:', np.var(a))

### Broadcasting

[подробнее](https://numpy.org/doc/stable/user/basics.broadcasting.html)

Broadcasting это набор правил который применяется для операций с массивами разной размерности.

Первое, что происходит во время выполнения операций с разными массивами, их размерности сравниваются поэлементно с права на лево. Если размерности несравнимы (сравнимы - равны, либо одна из них равна 1), то применение операции не возможно.

Например, (256, 256, 3) и (3) -> операция возможна, (256, 256, 3) и (100, 3) -> `ValueError: operands could not be broadcast together`

Далее, для тех рамерностей которые меньше (то есть равны 1 или отсутствуют) произойдет броадкастинг.

In [None]:
IPImage(url='https://numpy.org/doc/stable/_images/broadcasting_2.png')

In [None]:
IPImage(url='https://numpy.org/doc/stable/_images/broadcasting_4.png')

In [None]:
# Rule 1 example
a = np.ones((3, 4))  # 2D array
b = np.arange(4)  # 1D array
print('a:\n', a)
print('b:\n', b)

print('a + b:\n', a + b)

print('-' * 10)

a = np.arange(3)
b = np.arange(3).reshape(-1, 1)

print('a:\n', a)
print('b:\n', b)

a = np.ones((3, 3))
b = np.ones((2))

print('a:\n', a)
print('b:\n', b)

print('-' * 10)

try:
    print(a + b)
except ValueError as e:
    print(e)

### Задание

Сформировать два ndarray $X$ и $Y = f(X)$
1. $X$ - множество размерностью 100 значений от 1 до 10, $f$: $x^{2}$
2. $X$ - можнество от $0$ до $4\pi$, $f$: $ctg(x)^{2}$

## Работа с матрицами

### Специальные функции для генерации матриц определенного вида

Нулевая матрица
$$
O
$$

In [None]:
print(np.zeros((3, 3), np.uint8))

Единичная матрица (Идентификационная матрица) размерности 5
$$
I_5
$$

In [None]:
print(np.identity(5, dtype=np.uint8))

Матрица единиц
$$
J_3
$$

In [None]:
print(np.ones((3, 3)))

Матрица произвольных значений

In [None]:
print(np.full((3, 3), fill_value=3))

In [None]:
print(np.ones((3, 3)) * 3)

In [None]:
print(np.eye(5, 4, k=-1, dtype=np.uint8))

### Reshaping

In [None]:
# Create a 1D array with 9 elements
a = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9])
print(f'Original Array:\n{a}')

# Reshape the 1D array to a 3x3 2D array
b = a.reshape((3, 3))
print(f'Reshaped Array:\n{b}')

In [None]:
# Create a 1D array with 8 elements
a = np.array([1, 2, 3, 4, 5, 6, 7, 8])
print(f'Original Array:\n{a}')

# Reshape the 1D array to a 2D array with 4 rows (and infer the number of columns)
print(f'Reshaped Array:\n{a.reshape((4, -1))}')
print(f'Reshaped Array:\n{a.reshape((2, -1))}')

### Получение верхней и нижней треугольных матриц

$$
   \[
   \begin{bmatrix}
   a & b & c \\
   0 & d & e \\
   0 & 0 & f \\
   \end{bmatrix}
   \]
   
   \[
   \begin{bmatrix}
   a & 0 & 0 \\
   b & c & 0 \\
   d & e & f \\
   \end{bmatrix}
   \]
$$

In [None]:
x = np.full((5, 5), fill_value=5)
lower = np.tril(x, k=-1)
upper = np.triu(x, k=0)
print('lower:\n', lower)
print('upper:\n', upper)

### Конкатенация и разбиение матриц

$$
     \[
     A = \begin{bmatrix} a_{11} & a_{12} \\ a_{21} & a_{22} \end{bmatrix}, \quad B = \begin{bmatrix} b_{11} \\ b_{21} \end{bmatrix}
     \]   
$$
$$
     \[
     [A | B] = \begin{bmatrix} a_{11} & a_{12} & b_{11} \\ a_{21} & a_{22} & b_{21} \end{bmatrix}
     \]
$$

$$
     \[
     A = \begin{bmatrix} a_{11} & a_{12} \end{bmatrix}, \quad C = \begin{bmatrix} c_{11} & c_{12} \end{bmatrix}
     \]   
$$
$$
     \[
     \begin{bmatrix} A \\ C \end{bmatrix} = \begin{bmatrix} a_{11} & a_{12} \\ c_{11} & c_{12} \end{bmatrix}
     \]
$$

$$
     \[
     A = \begin{bmatrix} a_{11} & a_{12} \\ a_{21} & a_{22} \\ a_{31} & a_{32} \end{bmatrix}
     \]
$$
$$
     \[
     A_1 = \begin{bmatrix} a_{11} & a_{12} \end{bmatrix}, \quad A_2 = \begin{bmatrix} a_{21} & a_{22} \\ a_{31} & a_{32} \end{bmatrix}
     \]

$$

In [None]:
C = np.ones((2, 1)) * 3
print('A:\n', A)
print('B:\n', B)
print('C:\n', C)

In [None]:
A = np.ones((2, 2))
B = np.ones((2, 1)) * 2

AB = np.hstack([A, B])

A = np.ones((1, 2))
C = np.ones((1, 2)) * 3
AC = np.vstack([A, C])

print('AB:\n', AB)
print('AC:\n', AC)

In [None]:
A = np.arange(1, 7).reshape((3, 2))
A1, A2 = A[:1, :], A[1:, :]
print('A:\n', A)
print('A1:\n', A1)
print('A2:\n', A2)

## Отображение графиков

### Matplotlib

In [None]:
plt.style.available

In [None]:
with plt.style.context('ggplot'):
    x = np.arange(7)

    plt.figure(figsize=(15, 10))

    plt.plot(x, -x ** 2)
    plt.plot(x, -x ** 3)
    plt.plot(x, -2 * x)
    plt.plot(x, -2 ** x)

    plt.show()

In [None]:
with plt.style.context('ggplot'):
    x = np.arange(5)
    y = x

    plt.figure(figsize=(15, 10))

    plt.plot(x, y + 0.4, 'g')
    plt.plot(x, y + 0.2, 'y')
    plt.plot(x, y, 'r')
    plt.plot(x, y - 0.2, 'c')
    plt.plot(x, y - 0.4, 'k')
    plt.plot(x, y - 0.6, 'm')
    plt.plot(x, y - 0.8, 'w')
    plt.plot(x, y - 1, 'b')

    plt.show()

In [None]:
with plt.style.context('ggplot'):
    x = np.arange(5)
    y = x

    plt.figure(figsize=(15, 10))

    plt.plot(x, y, '.')
    plt.plot(x, y + 0.5, ',')
    plt.plot(x, y + 1, 'o')
    plt.plot(x, y + 2, '<')
    plt.plot(x, y + 3, '>')
    plt.plot(x, y + 4, 'v')
    plt.plot(x, y + 5, '^')
    plt.plot(x, y + 6, '1')
    plt.plot(x, y + 7, '2')
    plt.plot(x, y + 8, '3')
    plt.plot(x, y + 9, '4')
    plt.plot(x, y + 10, 's')
    plt.plot(x, y + 11, 'p')
    plt.plot(x, y + 12, '*')
    plt.plot(x, y + 13, 'h')
    plt.plot(x, y + 14, 'H')
    plt.plot(x, y + 15, '+')
    plt.plot(x, y + 16, 'D')
    plt.plot(x, y + 17, 'd')
    plt.plot(x, y + 18, '|')
    plt.plot(x, y + 19, '_')

    plt.show()

In [None]:
with plt.style.context('ggplot'):
    x = np.arange(5)
    y = x

    plt.figure(figsize=(15, 10))

    plt.plot(x, y, color='g', linestyle='--', linewidth=1.5,
             marker='^', markerfacecolor='b', markeredgecolor='k',
             markeredgewidth=1.5, markersize=5)
    plt.grid(True)
    plt.show()

In [None]:
with plt.style.context('ggplot'):
    x = np.arange(5)
    y = x

    fig, ax = plt.subplots(figsize=(15, 10))

    ax.plot(x, -x ** 2, label='-x**2')
    ax.plot(x, -x ** 3, label='-x**3')
    ax.plot(x, -2 * x, label='-2*x')
    ax.plot(x, -2 ** x, label='-2**x')

    ax.set_xlabel('x = np.arange(3)')
    ax.set_ylabel('y = f(x)')
    ax.set_title('Simple Plot Demo')

    ax.legend()

    ax.grid(True)

    ax.text(0.25, -5, 'Simple Plot Demo')

    plt.show()

In [None]:
with plt.style.context('ggplot'):
    x = np.arange(1, 10, 0.1)

    fig, ax = plt.subplots(figsize=(15, 10))

    ax.plot(x, np.sin(x))
    ax.plot(x, np.sin(x) + 1)
    ax.plot(x, np.sin(x + 1))

    ax.grid(True)

    plt.show()

#### Отображение нескольких графиков вместе

In [None]:
with plt.style.context('ggplot'):
    fig = plt.figure(constrained_layout=True, figsize=(15, 10))
    specs = gridspec.GridSpec(ncols=2, nrows=2, figure=fig)

    ax1 = fig.add_subplot(specs[0, 0])
    ax2 = fig.add_subplot(specs[0, 1])
    ax3 = fig.add_subplot(specs[1, 0])
    ax4 = fig.add_subplot(specs[1, 1])

    plt.show()

In [None]:
with plt.style.context('ggplot'):
    fig = plt.figure(constrained_layout=True, figsize=(15, 10))
    gs = fig.add_gridspec(3, 3)
    ax1 = fig.add_subplot(gs[0, :])
    ax1.set_title('gs[0, :]')
    ax2 = fig.add_subplot(gs[1, :])
    ax2.set_title('gs[1, :]')
    ax3 = fig.add_subplot(gs[2, :])
    ax3.set_title('gs[2, :]')
    plt.show()


In [None]:
with plt.style.context('ggplot'):
    fig = plt.figure(constrained_layout=True, figsize=(15, 10))
    gs = fig.add_gridspec(3, 3)
    ax1 = fig.add_subplot(gs[:, 0])
    ax1.set_title('gs[:, 0]')
    ax2 = fig.add_subplot(gs[:, 1])
    ax2.set_title('gs[:, 1]')
    ax3 = fig.add_subplot(gs[:, 2])
    ax3.set_title('gs[:, 2]')
    plt.show()

### Seaborn

[подробнее](https://seaborn.pydata.org/)

Почему Seaborn?

* Более высокоуровневый чем matplotlib (проще использовать)
* Поддержка pandas dataframe
* Улучшенные статистические графики

In [None]:
with plt.style.context('ggplot'):
    x = np.linspace(0, 4 * np.pi, 1000)

    plt.figure(figsize=(15, 10))
    sns.lineplot(x=x, y=np.sin(x))

    plt.show()

In [None]:
# Here is an example DataFrame
data = {
    'State': ['California', 'California', 'California', 'Texas', 'Texas', 'Texas', 'New York', 'New York', 'New York'],
    'Year': [2000, 2001, 2002, 2000, 2001, 2002, 2000, 2001, 2002],
    'Value': np.random.randint(low=0, high=10, size=9)
}

df = pd.DataFrame(data)

# Pivot the DataFrame to create a matrix
pivot_df = df.pivot('State', 'Year', 'Value')

plt.figure(figsize=(15, 10))
# Create the heatmap
sns.heatmap(pivot_df)

### Задание

[https://en.wikipedia.org/wiki/Amdahl%27s_law](https://en.wikipedia.org/wiki/Amdahl%27s_law)

1. Построить на группе графиков 2x2 функции `sin`, `cos`, `tg`, `ctg`, используя только `np.sin`
2. Построить на одном плоте несколько графиков закона амдаля для разных p

In [None]:
with plt.style.context('ggplot'):
    fig = plt.figure(constrained_layout=True, figsize=(15, 10))
    specs = gridspec.GridSpec(ncols=2, nrows=2, figure=fig)

    ax1 = fig.add_subplot(specs[0, 0])
    ax2 = fig.add_subplot(specs[0, 1])
    ax3 = fig.add_subplot(specs[1, 0])
    ax4 = fig.add_subplot(specs[1, 1])

    x = np.linspace(-2 * np.pi, 2 * np.pi, 1000)
    ax1.plot(x, np.sin(x))
    ax2.plot(x, np.cos(x))
    ax3.plot(x, np.tan(x))
    ax4.plot(x, 1 / np.tan(x))

    plt.show()

### Plotly

[https://plotly.com/python/](https://plotly.com/python/)

#### 3D поверхности

In [None]:
# https://en.wikipedia.org/wiki/Gaussian_function
# Define the gaussian function
def gaussian_2d(x, y, mux, muy, sigmax, sigmay):
    return np.exp(-((x - mux) ** 2 / (2 * sigmax ** 2) + (y - muy) ** 2 / (2 * sigmay ** 2)))


# Parameters of the gaussian
mux, muy = 0.0, 0.0  # means
sigmax, sigmay = 1.0, 1.0  # standard deviations

# Create grid and compute gaussian values
x = np.linspace(-3, 3, 100)
y = np.linspace(-3, 3, 100)
X, Y = np.meshgrid(x, y)
Z = gaussian_2d(X, Y, mux, muy, sigmax, sigmay)

# Create a 3D plot using plotly
fig = go.Figure(data=go.Surface(z=Z, x=X, y=Y, colorscale='Viridis'))
fig.update_layout(scene=dict(
    xaxis_title='X AXIS',
    yaxis_title='Y AXIS',
    zaxis_title='Z AXIS'))
fig.show()

# Визуализация данных

#### Данные по акциям

[https://www.kaggle.com/datasets/brtnsmth/intraday-market-data?select=TOS+Kaggle+data+example.csv](https://www.kaggle.com/datasets/brtnsmth/intraday-market-data?select=TOS+Kaggle+data+example.csv)

In [None]:
intraday_df = pd.read_csv('intraday.csv')
intraday_df[['TimeStamp', 'AAPL']]

In [None]:
# Convert the index to datetime
intraday_df.index = pd.to_datetime(intraday_df['TimeStamp'])
intraday_trading_hours_df = intraday_df.between_time('9:30', '16:30')

# Extract the hour from the datetime index
intraday_trading_hours_df['Hour'] = intraday_trading_hours_df.index.hour

# Create a box plot
fig = px.box(intraday_trading_hours_df, x='Hour', y='AAPL', title='Intraday Stock Prices')

# Show the plot
fig.show()

In [None]:
# Create a histogram for single trading hour
hour_9_trading = intraday_trading_hours_df[intraday_trading_hours_df.Hour == 9]
fig = go.Figure(data=[go.Histogram(x=hour_9_trading['AAPL'], nbinsx=200)])

# Show the plot
fig.show()

In [None]:
# DataFrame with State and a value
df = pd.DataFrame({
    'State': ['CA', 'TX', 'NY', 'FL', 'IL'],
    'Value': [10, 5, 15, 7, 3]
})

# Create a Choropleth map
fig = px.choropleth(df,
                    locations='State',
                    locationmode='USA-states',
                    color='Value',
                    scope='usa',
                    title='Heatmap of Value by State',
                    color_continuous_scale='Reds')

fig.show()

## Линейная алгебра


### Click bait

In [None]:
IPImage(url='click_bait.jpg', width=400)

In [None]:
# Coefficients matrix 'A'
A = np.array([[3, 0, 0],
              [1, 2, 0],
              [0, 1, 2]])

# Constants matrix 'b'
b = np.array([30, 20, 9])

# Solve the system of equations
x = np.linalg.solve(A, b)

print(x, '->', x[1] + x[2] * x[0])


Решение через обратную матрицу
$$
\mathbf{A}\mathbf{x}=b \iff \mathbf{x}=\mathbf{A}^{-1}b
$$

In [None]:
A_inv = np.linalg.inv(A)

x = A_inv @ b

print(x)

### Задание

Дано матричное уравнение
$$
\mathbf{A} = \begin{bmatrix}3 \\ 2 \\ -1\end{bmatrix} \\
\mathbf{B} = \begin{bmatrix}2 \\ -2 \\ 0.5\end{bmatrix} \\
\mathbf{C} = \begin{bmatrix}-1 \\ 4 \\ -1\end{bmatrix} \\
\mathbf{D} = \begin{bmatrix}1 \\ -2 \\ 0\end{bmatrix}
$$

$$
\mathbf{A}x + \mathbf{B}y + \mathbf{C}z = \mathbf{D}
$$

Сформировать матрицы A, B, C, D
Решить через втроенную функцию `np.linalg.solve` и через обратную матрицу

## Стастика и теория вероятностей

пакет numpy.random используется для генерации случайных последовательностей с разнообразными статистическими распределениями

### Комбинаторика

Перестановка без повторений (Permutations)

In [None]:
seq = np.array([1, 2, 3, 4, 5])

permuted_seq = np.random.permutation(seq)

print('Permuted:', permuted_seq)

Перестановка с повторениями (Permutations of Multisets)

In [None]:
permuted_seq = np.random.choice(seq, size=len(seq), replace=True)

print('Permuted:', permuted_seq)

Сочетание (Combinations)

In [None]:
comb_2_of_5 = np.random.choice(seq, size=2, replace=False)

print('Combination 2 of 5:', comb_2_of_5)

Сочетания с повторениями (Combinations with Repetition)

In [None]:
comb_4_of_5 = np.random.choice(seq, size=4, replace=True)

print('Combination w/r 4 of 5:', comb_4_of_5)

Решим простую задачку:
Дана стандартная колода карт, необходимо определить какова вероятность того что выпадет пара с одинаковым достоинством

Теоретическая вероятность:

$$ 3/51 = 1/17 = 0.0588 $$

In [None]:
# Define a deck of cards: 4 cards of each rank
deck = np.repeat(np.arange(1, 14), 4)

print(deck)

In [None]:
# Run simulation for a large number of trials
num_trials = 10000

experiments = np.zeros(num_trials, dtype=np.bool_)

for i in range(num_trials):
    # Draw two cards
    card1, card2 = np.random.choice(deck, size=2)

    # Check if the two cards form a pair
    experiments[i] = card1 == card2

num_pairs = np.sum(experiments)

# Estimate the probability
estimated_prob = num_pairs / num_trials

print(f'Empirical probability: {estimated_prob}')

### Статистические распределения

In [None]:
# Set a seed for reproducibility
np.random.seed(0)

# Generate a normal distribution and a uniform distribution
size = 10000
normal_dist = np.random.normal(loc=0, scale=1, size=size)
uniform_dist = np.random.uniform(low=0, high=1, size=size)
exp_dist = np.random.exponential(scale=1, size=size)
log_dist = np.random.lognormal(mean=1, sigma=0.5, size=size)
pareto_dist = np.random.pareto(a=3.0,
                               size=size) * 2

# Calculate statistics
distributions = [normal_dist, uniform_dist, log_dist, pareto_dist]
titles = ['Normal Distribution', 'Uniform Distribution', 'Lognorm distribution',
          'Pareto distribution']
statistics = ['Mean', 'Median']

with plt.style.context('ggplot'):
    fig = plt.figure(constrained_layout=True, figsize=(20, 10))
    specs = gridspec.GridSpec(ncols=2, nrows=2, figure=fig)

    subplots = [
        fig.add_subplot(specs[0, 0]),
        fig.add_subplot(specs[0, 1]),
        fig.add_subplot(specs[1, 0]),
        fig.add_subplot(specs[1, 1]),
    ]

    for dist, title, idx in zip(distributions, titles, range(len(distributions))):
        ax = subplots[idx]
        mean = np.mean(dist)
        median = np.median(dist)

        # Create histogram
        # https://seaborn.pydata.org/generated/seaborn.histplot.html
        sns.histplot(dist, kde=False, stat='density', bins=200, color='blue', ax=ax)

        # Add vertical lines for mean, median and mode
        ax.axvline(mean, color='red', linestyle='dashed', linewidth=1)
        ax.axvline(median, color='blue', linestyle='dashed', linewidth=1)

        # Add legend
        ax.legend({'Mean': mean, 'Median': median})

        # Add title and show plot
        ax.set_title(title)

plt.show()


`random.choice` по умолчанию использует `uniform`

### Парето 80/20

[Pareto distribution](https://en.wikipedia.org/wiki/Pareto_distribution)

In [None]:
# Set a seed for reproducibility
np.random.seed(10)

# Set a seed for reproducibility
size = 1000
bins = 100
alpha = 1.16

pareto_dist = np.random.pareto(a=alpha, size=size)

percentile_80 = np.percentile(pareto_dist, 80)

with plt.style.context('ggplot'):
    fig, ax1 = plt.subplots(figsize=(10, 6))
    sns.histplot(pareto_dist, kde=False, stat='density', bins=bins, ax=ax1)

    # create the second set of axes
    ax2 = ax1.twinx()

    plt.axvline(percentile_80, color='red', linestyle='dashed', linewidth=1)

    # plot the cumulative sum on the second set of axes
    # https://seaborn.pydata.org/generated/seaborn.histplot.html
    sns.histplot(pareto_dist, cumulative=True, stat='density', color='darkred', element='poly', fill=False, bins=100,
                 ax=ax2)

    plt.show()

richest_20 = pareto_dist[pareto_dist >= percentile_80]
others = pareto_dist[pareto_dist < percentile_80]

full_sum = np.sum(pareto_dist)

print('Richest 20%:', np.sum(richest_20) / full_sum)
print('Other 80%:', np.sum(others) / full_sum)

[Climate Change: Earth Surface Temperature Data](https://www.kaggle.com/datasets/berkeleyearth/climate-change-earth-surface-temperature-data?resource=download)

Построить гистограмму изменения среднемесячной температуры в июне в Москве с 1990 по 2020

In [None]:
global_land_temperatures_by_city = pd.read_csv('GlobalLandTemperaturesByCity.csv')

global_land_temperatures_by_city.dt = pd.to_datetime(global_land_temperatures_by_city.dt)
global_land_temperatures_by_city['year'] = global_land_temperatures_by_city.dt.dt.year
global_land_temperatures_by_city['month'] = global_land_temperatures_by_city.dt.dt.month

In [None]:
global_land_temperatures_by_city.year.describe

In [None]:
may_temps = global_land_temperatures_by_city[
    (global_land_temperatures_by_city.City == 'Moscow')
    &
    (global_land_temperatures_by_city.year.between(1990, 2013))
    &
    (global_land_temperatures_by_city.month == 6)
    ]
mean_may_temps = may_temps.groupby(may_temps.year).max()
mean_may_temps

In [None]:
with plt.style.context('ggplot'):
    fig, ax1 = plt.subplots(figsize=(15, 6))

    sns.barplot(x=mean_may_temps.index, y=mean_may_temps.AverageTemperature)

## Обработка изображений

In [None]:
with plt.style.context('grayscale'):
    image = plt.imread('lenna.jpg')

    # Create a new figure
    fig, ax = plt.subplots()

    # Display the image
    ax.imshow(image)

    # Set the major ticks at the corners of your pixels
    ax.set_xticks(np.arange(0, image.shape[1], 100), minor=False)
    ax.set_yticks(np.arange(0, image.shape[0], 100), minor=False)

    # Want a more natural, table-like display
    ax.xaxis.tick_top()

    # Rotate the x labels
    plt.xticks(rotation=90)

    # Add grid
    ax.grid(which='major', color='w', linestyle='-', linewidth=0.5)

    plt.show()

### Применение сверточного ядра

In [None]:
def apply_kernel(img, kernel):
    # Get the dimensions of the image and the kernel
    iH, iW = img.shape
    kH, kW = kernel.shape

    # Prepare the output array
    output = np.zeros_like(img)

    # Pad the borders of the input image
    pad = (kW - 1) // 2
    image_padded = np.pad(img, pad)

    # Perform the convolution operation
    for y in range(iH):
        for x in range(iW):
            output[y, x] = (kernel * image_padded[y: y + kH, x: x + kW]).sum()

    return output


In [None]:
IPImage(url='https://upload.wikimedia.org/wikipedia/commons/1/19/2D_Convolution_Animation.gif')

In [None]:
sigma = 10
size = 11
kernel = np.zeros((size, size), dtype=float)
sum_val = 0

for x in range(size):
    for y in range(size):
        ex = -((x - 1) ** 2 + (y - 1) ** 2) / (2 * sigma ** 2)
        kernel[x, y] = (1 / (2 * np.pi * sigma ** 2)) * np.exp(ex)
        sum_val += kernel[x, y]

# Нормализация ядра
kernel /= sum_val

print(kernel)

In [None]:
image = Image.open('lenna.jpg').convert('L')  # Convert image to grayscale
src_image = np.array(image)
image = src_image

applying_kernel = np.array([
    [1 / 16, 1 / 8, 1 / 16],
    [1 / 8, 1 / 4, 1 / 8],
    [1 / 16, 1 / 8, 1 / 16]
])

image = apply_kernel(image, applying_kernel)

with plt.style.context('ggplot'):
    # Display the images
    plt.figure(figsize=(20, 10))
    plt.subplot(1, 2, 1)
    plt.title('Original')
    plt.imshow(src_image, cmap='gray')

    plt.subplot(1, 2, 2)
    plt.title('Result')
    plt.imshow(image, cmap='gray')

    plt.show()

In [None]:
result = convolve2d(image, applying_kernel)
result = np.clip(result, 0, 255)  # Ensure all pixel intensities are within the range [0, 255]

# Convert the result to an image
result_image = Image.fromarray(result.astype('uint8'))

with plt.style.context('ggplot'):
    # Display the images
    plt.figure(figsize=(20, 10))
    plt.subplot(1, 2, 1)
    plt.title('Original')
    plt.imshow(image, cmap='gray')

    plt.subplot(1, 2, 2)
    plt.title('Result')
    plt.imshow(result_image, cmap='gray')

    plt.show()

### Визуализация сверточного ядра

In [None]:
# Create a meshgrid for plotting
X, Y = np.meshgrid(range(applying_kernel.shape[1]), range(applying_kernel.shape[0]))

# Create the 3D surface plot
fig = go.Figure(data=[go.Surface(z=applying_kernel, x=X, y=Y)])

# Set the layout properties
fig.update_layout(
    title='3D Kernel Visualization',
    autosize=False,
    width=500,
    height=500,
    margin=dict(l=65, r=50, b=65, t=90)
)

# Show the plot
fig.show()

### Задание

Применить любое другое сверточное ядро
[https://en.wikipedia.org/wiki/Kernel_(image_processing)](https://en.wikipedia.org/wiki/Kernel_(image_processing))

## Работа с цифровым сигналом

### Подавление шума с помощью преобразования фурье

In [None]:
# Create an array of x values from 0 to 2*pi (one complete wave)
x = np.linspace(0, 2 * np.pi, 1000)

# Create a sin wave
y = np.sin(x)

noise = np.random.normal(0, 0.1, y.shape)

# Add the noise to the sine wave
y_noise = y + noise

# Plot the original sine wave and the noisy one
with plt.style.context('seaborn'):
    plt.figure(figsize=(10, 6))
    plt.plot(x, y_noise, label='With noise')
    plt.legend()
    plt.show()

In [None]:
# Compute FFT
fft_vals = np.fft.fft(y_noise)

# Frequencies associated with FFT values
fft_freq = np.fft.fftfreq(len(y_noise), x[1] - x[0])

# Plot the absolute value of the FFT
with plt.style.context('seaborn'):
    plt.figure(figsize=(10, 6))
    plt.plot(fft_freq, np.abs(fft_vals))
    plt.title('Frequency domain of the signal')
    plt.xlabel('Frequency')
    plt.ylabel('Magnitude')
    plt.show()

In [None]:
# Define a threshold to keep only the larger frequency components
threshold = np.abs(fft_vals).max() / 10

# Create a filtered version of the FFT values where the smaller components are set to 0
fft_vals_filtered = np.where(np.abs(fft_vals) > threshold, fft_vals, 0)

# Apply the inverse FFT
y_filtered = np.fft.ifft(fft_vals_filtered)

# Plot the absolute value of the FFT
with plt.style.context('seaborn'):
    plt.figure(figsize=(10, 6))
    plt.plot(fft_freq, np.abs(fft_vals_filtered))
    plt.title('Frequency domain of the signal')
    plt.xlabel('Frequency')
    plt.ylabel('Magnitude')
    plt.show()

In [None]:
# Plot the filtered signal
with plt.style.context('seaborn'):
    plt.figure(figsize=(10, 6))
    plt.plot(x, y_noise, color='red', label='With noise')
    plt.plot(x, np.real(y_filtered), label='Filtered')
    plt.legend()
    plt.show()

### Синтез цифрового сигнала

#### Генерация пилообразной волны

In [None]:
duration = 2.0  # duration of the sound in seconds
amplitude = 0.5  # amplitude of the sound
frequency = 440.0  # frequency of the sound in Hz (A4 note)
sampling_rate = 44100  # number of samples per second (standard for audio)

In [None]:
t = np.linspace(0, duration, int(sampling_rate * duration))

# Generate a triangle wave
# https://en.wikipedia.org/wiki/Triangle_wave
sound = amplitude * 2 * np.abs(t * frequency - np.floor(t * frequency + 0.5))
# sound = amplitude * 2 * (t * frequency - np.floor(0.5 + t * frequency))

# Normalize to 16-bit range and convert to int16
sound = np.int16(sound / np.max(np.abs(sound)) * 32767)

with plt.style.context('ggplot'):
    plt.plot(t[:1000], sound[:1000])
    plt.show()

In [None]:
# https://ru.wikipedia.org/wiki/ADSR-%D0%BE%D0%B3%D0%B8%D0%B1%D0%B0%D1%8E%D1%89%D0%B0%D1%8F
# ADSR parameters
attack_time = 0.1  # attack time in seconds
decay_time = 0.1  # decay time in seconds
sustain_level = 0.5  # sustain level (relative to amplitude)
release_time = 1  # release time in seconds

# Generate the ADSR envelope
total_samples = len(sound)
attack_samples = int(attack_time * sampling_rate)
decay_samples = int(decay_time * sampling_rate)
release_samples = int(release_time * sampling_rate)
sustain_samples = total_samples - (attack_samples + decay_samples + release_samples)

adsr_envelope = np.concatenate([
    np.linspace(0, 1, attack_samples, False),  # attack
    np.linspace(1, sustain_level, decay_samples, False),  # decay
    sustain_level * np.ones(sustain_samples),  # sustain
    np.linspace(sustain_level, 0, release_samples, False)  # release
])

with plt.style.context('ggplot'):
    plt.plot(t, adsr_envelope)
    plt.show()

In [None]:
# Apply the ADSR envelope to the sound
sound = sound * adsr_envelope

# Normalize to 16-bit range and convert to int16
sound = np.int16(sound / np.max(np.abs(sound)) * 32767)

with plt.style.context('ggplot'):
    plt.plot(t, sound)
    plt.show()

In [None]:
IPAudio(sound, rate=sampling_rate)

### Задание со звездочкой

* Сгенерировать sin waveform https://en.wikipedia.org/wiki/Sine_wave
* Сгенерировать sawtooth waveform https://en.wikipedia.org/wiki/Sawtooth_wave
* Сгенерировать square waveform https://en.wikipedia.org/wiki/Square_wave
* Сгенерировать мелодию по данным нотам

In [None]:
tempo = 200  # beats per second
sampling_rate = 88200

notes_frequencies = {
    'C0': 16.35, 'C#0': 17.32, 'D0': 18.35, 'D#0': 19.45, 'E0': 20.60, 'F0': 21.83, 'F#0': 23.12,
    'G0': 24.50, 'G#0': 25.96, 'A0': 27.50, 'A#0': 29.14, 'B0': 30.87,
    'C1': 32.70, 'C#1': 34.65, 'D1': 36.71, 'D#1': 38.89, 'E1': 41.20, 'F1': 43.65, 'F#1': 46.25,
    'G1': 49.00, 'G#1': 51.91, 'A1': 55.00, 'A#1': 58.27, 'B1': 61.74,
    'C2': 65.41, 'C#2': 69.30, 'D2': 73.42, 'D#2': 77.78, 'E2': 82.41, 'F2': 87.31, 'F#2': 92.50,
    'G2': 98.00, 'G#2': 103.83, 'A2': 110.00, 'A#2': 116.54, 'B2': 123.47,
    'C3': 130.81, 'C#3': 138.59, 'D3': 146.83, 'D#3': 155.56, 'E3': 164.81, 'F3': 174.61, 'F#3': 185.00,
    'G3': 196.00, 'G#3': 207.65, 'A3': 220.00, 'A#3': 233.08, 'B3': 246.94,
    'C4': 261.63, 'C#4': 277.18, 'D4': 293.66, 'D#4': 311.13, 'E4': 329.63, 'F4': 349.23, 'F#4': 369.99,
    'G4': 392.00, 'G#4': 415.30, 'A4': 440.00, 'A#4': 466.16, 'B4': 493.88,
    'C5': 523.25, 'C#5': 554.37, 'D5': 587.33, 'D#5': 622.25, 'E5': 659.26, 'F5': 698.46, 'F#5': 739.99,
    'G5': 783.99, 'G#5': 830.61, 'A5': 880.00, 'A#5': 932.33, 'B5': 987.77,
    'C6': 1046.50, 'C#6': 1108.73, 'D6': 1174.66, 'D#6': 1244.51, 'E6': 1318.51, 'F6': 1396.91,
    'F#6': 1479.98, 'G6': 1567.98, 'G#6': 1661.22, 'A6': 1760.00, 'A#6': 1864.66, 'B6': 1975.53,
    'C7': 2093.00, 'C#7': 2217.46, 'D7': 2349.32, 'D#7': 2489.02, 'E7': 2637.02, 'F7': 2793.83,
    'F#7': 2959.96, 'G7': 3135.96, 'G#7': 3322.44, 'A7': 3520.00, 'A#7': 3729.31, 'B7': 3951.07,
    'C8': 4186.01
}

fur_elise = (
    'E5 D#5 E5 D#5 E5 B4 D5 C5 A4 '
    'C4 E4 A4 B4 '
    'E4 G#4 B4 C5 '
    'E4 E5 D#5 E5 D#5 E5 B4 D5 C5 A4 '
    'C4 E4 A4 B4 '
    'E4 C5 B4 A4'
)
fur_elise_melody = [el.strip() for el in fur_elise.split(' ')]

Для тех кто заинтересовался отличный туториал по теории электронной музыки [https://learningsynths.ableton.com/en/get-started](https://learningsynths.ableton.com/en/get-started)
