# Основы Numpy и Scipy

In [1]:
import numpy as np

Наши задачи на этом уроке:

- работа с многомерными массивами;
- основы аугментации данных;
- выполнение сложных математических операций с помощью стандартных функций.

## Многомерные массивы

### Создание

In [2]:
a = np.array([1, 2, 3, 4])

In [3]:
print(a)

[1 2 3 4]


In [4]:
a.shape

(4,)

In [5]:
a = np.array([[1, 2, 3], [4, 5, 6]])

In [6]:
print(a)

[[1 2 3]
 [4 5 6]]


In [7]:
a.shape

(2, 3)

In [8]:
np.zeros((3, 3))

array([[0., 0., 0.],
       [0., 0., 0.],
       [0., 0., 0.]])

In [9]:
np.ones((3, 3))

array([[1., 1., 1.],
       [1., 1., 1.],
       [1., 1., 1.]])

In [10]:
np.empty((2, 2))

array([[4.9e-324, 9.9e-324],
       [1.5e-323, 2.0e-323]])

In [11]:
np.eye(3)

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

In [12]:
np.diag((1, 2, 3, 4))

array([[1, 0, 0, 0],
       [0, 2, 0, 0],
       [0, 0, 3, 0],
       [0, 0, 0, 4]])

In [13]:
np.arange(5)

array([0, 1, 2, 3, 4])

In [14]:
np.arange(1, 10, 2)

array([1, 3, 5, 7, 9])

In [15]:
np.linspace(0, 100, num=11)

array([  0.,  10.,  20.,  30.,  40.,  50.,  60.,  70.,  80.,  90., 100.])

In [16]:
np.linspace(0, 100, num=11, dtype='int')

array([  0,  10,  20,  30,  40,  50,  60,  70,  80,  90, 100])

In [17]:
def init_func(x, y):
    return x * 10 + y

In [18]:
np.fromfunction(init_func, (3, 4))

array([[ 0.,  1.,  2.,  3.],
       [10., 11., 12., 13.],
       [20., 21., 22., 23.]])

### Изменение размера

In [19]:
a = np.array([[1, 2, 3], [4, 5, 6]])

In [20]:
# Без копирования
a.ravel()

array([1, 2, 3, 4, 5, 6])

In [21]:
# С копированием
a.flatten()

array([1, 2, 3, 4, 5, 6])

In [22]:
# Через итератор:
for i in a.flat:
    print(i)

1
2
3
4
5
6


In [23]:
print(a)

[[1 2 3]
 [4 5 6]]


In [24]:
a.reshape(3, 2)

array([[1, 2],
       [3, 4],
       [5, 6]])

In [25]:
# In-place:
a.resize(3, 2)

In [26]:
print(a)

[[1 2]
 [3 4]
 [5 6]]


In [27]:
a = [[1, 2, 3], [4, 5, 6]]
b = [[5, 6, 7], [8, 9, 0]]

In [28]:
c = np.hstack((a, b))

In [29]:
print(c)

[[1 2 3 5 6 7]
 [4 5 6 8 9 0]]


In [30]:
np.hsplit(c, 2)

[array([[1, 2, 3],
        [4, 5, 6]]),
 array([[5, 6, 7],
        [8, 9, 0]])]

In [31]:
np.vstack((a, b))

array([[1, 2, 3],
       [4, 5, 6],
       [5, 6, 7],
       [8, 9, 0]])

### Арифметика

In [32]:
a = np.array([1, 2, 3, 4])
b = np.array([5, 6, 7, 8])

In [33]:
a + 1

array([2, 3, 4, 5])

In [34]:
a + b

array([ 6,  8, 10, 12])

In [35]:
a * b

array([ 5, 12, 21, 32])

In [36]:
a @ b

70

### Индексация

In [37]:
a = np.array([[1, 2, 3], [4, 5, 6], [0, 0, 2]])

In [38]:
print(a)

[[1 2 3]
 [4 5 6]
 [0 0 2]]


In [39]:
first_row = a[0]

In [40]:
print(first_row)

[1 2 3]


In [41]:
first_column = a[:,0]

In [42]:
print(first_column)

[1 4 0]


In [43]:
print(a[:, 1:])

[[2 3]
 [5 6]
 [0 2]]


In [44]:
a < 5

array([[ True,  True,  True],
       [ True, False, False],
       [ True,  True,  True]])

In [45]:
print(a[a<5])

[1 2 3 4 0 0 2]


In [46]:
a[:, 1] < 5

array([ True, False,  True])

In [47]:
a[a[:, 1] < 5]

array([[1, 2, 3],
       [0, 0, 2]])

### Транспонирование

In [48]:
print(a.T)

[[1 4 0]
 [2 5 0]
 [3 6 2]]


### Сортировка

In [49]:
np.sort(a.T)

array([[0, 1, 4],
       [0, 2, 5],
       [2, 3, 6]])

### Аугментация

In [50]:
np.flip(a, axis=1)

array([[3, 2, 1],
       [6, 5, 4],
       [2, 0, 0]])

In [51]:
np.roll(a, 1, axis=1)

array([[3, 1, 2],
       [6, 4, 5],
       [2, 0, 0]])

In [52]:
np.save('my_file', a)

In [53]:
b = np.load('my_file.npy')

In [54]:
print(b)

[[1 2 3]
 [4 5 6]
 [0 0 2]]


In [55]:
np.savetxt('b.csv', b, header='first, second, third', delimiter=',')

### Импорт в Pandas

In [56]:
import pandas as pd

In [57]:
df = pd.DataFrame(a, columns=['first', 'second', 'third'])

In [58]:
df

Unnamed: 0,first,second,third
0,1,2,3
1,4,5,6
2,0,0,2


In [59]:
df = pd.read_csv('b.csv')

In [60]:
df

Unnamed: 0,# first,second,third
0,1.0,2.0,3.0
1,4.0,5.0,6.0
2,0.0,0.0,2.0


In [61]:
df.describe()

Unnamed: 0,# first,second,third
count,3.0,3.0,3.0
mean,1.666667,2.333333,3.666667
std,2.081666,2.516611,2.081666
min,0.0,0.0,2.0
25%,0.5,1.0,2.5
50%,1.0,2.0,3.0
75%,2.5,3.5,4.5
max,4.0,5.0,6.0


In [62]:
df.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
# first,3.0,1.666667,2.081666,0.0,0.5,1.0,2.5,4.0
second,3.0,2.333333,2.516611,0.0,1.0,2.0,3.5,5.0
third,3.0,3.666667,2.081666,2.0,2.5,3.0,4.5,6.0


### Статистика

In [63]:
values, counts = np.unique(a, return_counts=True)

In [64]:
print(values)
print(counts)

[0 1 2 3 4 5 6]
[2 1 2 1 1 1 1]


In [65]:
a.mean()

2.5555555555555554

In [66]:
np.mean(a, axis=0)

array([1.66666667, 2.33333333, 3.66666667])

In [67]:
np.median(a, axis=0)

array([1., 2., 3.])

In [68]:
a.mean(axis=1)

array([2.        , 5.        , 0.66666667])

In [69]:
np.max(a, axis=0)

array([4, 5, 6])

In [70]:
a = np.array([0.01, 0.02, 0.1, 0.87, 0.0])

In [71]:
np.argmax(a)

3

## SciPy

### Задача на площадь под кривой

#### Решение через определенный интеграл

In [72]:
from scipy.integrate import quad

In [73]:
def f(x):
    return -x**2 + 3 * x + 5

In [74]:
sq, err = quad(f, 1, 4)

In [75]:
print(f'{sq} ± {err:.15f}')

16.5 ± 0.000000000000183


#### Приближенное решение

In [76]:
from scipy.integrate import trapezoid

In [77]:
x = np.linspace(0, 10, 200)

In [78]:
y = np.array([f(x) for x in x])

In [79]:
trapezoid(y[(x >=1) & (x < 4)], x[(x >=1) & (x < 4)])

16.43114945957788

#### Восстановление кривой по точкам

In [80]:
from scipy.optimize import curve_fit

In [81]:
def func(x, a, b, c):
    return a * x ** 2 + b * x + c

In [82]:
# noise = 0.1 * np.random.uniform(size=x.size)

In [83]:
coefs, _ = curve_fit(func, x[(x >=1) & (x < 4)], (y)[(x >=1) & (x < 4)])

In [84]:
coefs

array([-1.,  3.,  5.])

#### Нахождение экстремума

In [85]:
from scipy.optimize import minimize

In [86]:
minimize(lambda x: -f(x), 0)

  message: Optimization terminated successfully.
  success: True
   status: 0
      fun: -7.25
        x: [ 1.500e+00]
      nit: 2
      jac: [ 5.960e-08]
 hess_inv: [[ 5.000e-01]]
     nfev: 6
     njev: 3

In [87]:
result = minimize(lambda x: -f(x), 0)

In [88]:
print(f'Max y = {-result["fun"]} at x = {result["x"]}')

Max y = 7.25 at x = [1.50000001]


### Линейная алгебра

In [89]:
a = np.array([[1, 2],
             [3, 4]])
b = np.array([[2, 2],
              [0, 0]])

In [90]:
a * b

array([[2, 4],
       [0, 0]])

In [91]:
a @ b

array([[2, 2],
       [6, 6]])

In [92]:
m = [[a[i] @ b.T[j] for j in range(b.T.shape[0])] for i in range(a.shape[0])]

In [93]:
print(m)

[[2, 2], [6, 6]]


In [94]:
m == a @ b

array([[ True,  True],
       [ True,  True]])

In [95]:
np.array_equal(m, a @ b)

True

In [97]:
np.eye(2)

array([[1., 0.],
       [0., 1.]])

In [98]:
a @ np.eye(2)

array([[1., 2.],
       [3., 4.]])

In [99]:
np.array_equal(a, a @ np.eye(a.shape[0]))

True

$$kX = y$$

3x + 2y = 2

x - y = 4

5y + z = -1

In [100]:
from scipy.linalg import inv, solve

In [101]:
k = np.array([
              [3, 2,  0],
              [1, -1, 0],
              [0, 5,  1]
            ])

In [102]:
y = np.array([2, 4, -1])

In [103]:
inv(k) @ y

array([ 2., -2.,  9.])

In [104]:
solve(k, y)

array([ 2., -2.,  9.])

In [105]:
k @ np.array([ 2., -2.,  9.])

array([ 2.,  4., -1.])

# Домашнее задание

## Easy

Решите систему линейных уравнений:
3x - 2y = -6
5x + y = 3

In [None]:
# Ваш код ниже:


## Normal / Hard

В репозитории лежит файл `00000e74ad.npy`. Он описывает процесс слияния двух черных дыр, зафиксированный с помощью лазерных интерферометров. Загрузите его в массив numpy. У вас должен получиться массив 3 * 4096 (три разных устройства делали запись одного события 2048 раз в секунду в течение 2 секунд).

Отмасштабируйте сигнал (поделите все значения на максимальное по массиву).

In [55]:
# Ваш код ниже:


## Только Hard

Самостоятельно ознакомьтесь с методами обработки сигнала в `scipy.signal`. Попробуйте отфильтровать сигнал в диапазоне 30-400 Гц.

In [35]:
from scipy import signal

<details>
<summary>Подсказка (нажмите, чтобы посмотреть):</summary>
Один из способов (используется фильтр Баттерворта, пропущенные аргументы заполняйте исходя из условия задачи):<br/>
    <code>sos = signal.butter(__, [__, ___], btype="________", output="sos", fs=____)
data_filt = signal.sosfilt(sos, ваш_массив, axis=1)</code>
</details>

In [52]:
# Ваш код ниже


Сделайте три аугментированные версии отфильтрованного сигнала:
- поменяйте первую и вторую строки местами;
- переверните все строки задом наперед;
- сдвиньте сигнал с помощью `roll` на 5 мс вперед или назад.

Сохраните результаты в отдельные npy-файлы.