In [3]:
import numpy as np

- Матрицы - форма хранения чисел в математике.
- Матрицы с 1 строкой или 1 столбцом называют векторами
- Матрица с `n` строками и `m` колонками это матрица размером `n*m`

In [4]:
A = np.array([1, 2, 3], dtype=complex)
A

array([1.+0.j, 2.+0.j, 3.+0.j])

### Сложение/вычитание
Складывать и вычитать можно матрица только одного размера. Операция происходит поэлементно

In [5]:
# вектора
A = np.array([1, 2, 3], dtype=np.int16)
B = np.array([1, 2, 3], dtype=np.int16)
# выведет новый массив
A - B

array([0, 0, 0], dtype=int16)

In [6]:
A = np.array([[1], [2], [3]])
B = np.array([[1], [2], [3]])
# выведет новый массив
A + B

array([[2],
       [4],
       [6]])

In [7]:
# матрицы 2 * 3
C = np.array([[1, 2, 3],
             [4, 5, 6]])
D = np.array([[1, 2, 3], 
             [4, 5, 6]])
# выведет новый массив
C + D

array([[ 2,  4,  6],
       [ 8, 10, 12]])

### Умножение
умножение матриц будет производиться при условии:
- кол-во столбцов в левой матрице == кол-во строк в правой матрице
- в результате  произвденеия матриц размером `n*k` и `k*m` получается матрица размером `n*m`

In [7]:
A = np.array([1, 2, 3])
B = np.array([[1], [2], [3]])
# А матрица 1*3, В матрица 3*1
np.dot(A, B)

array([14])

### Транспонирование
Повернуть матрицу на бок: столбцы будут строками, строки - столбцами

In [11]:
A = np.array([[1], 
              [2], 
              [3]])
A.T

array([[1, 2, 3]])

### Единичная матрица 
Единичная матрица Е - это квадратная (n*n) матрица, где диагональ матрицы состоит из 1, а остальные элементы 0

In [12]:
np.eye(4)

array([[1., 0., 0., 0.],
       [0., 1., 0., 0.],
       [0., 0., 1., 0.],
       [0., 0., 0., 1.]])

### Обратные матрицы
Если умножить матрицу на матрицу, обратную ей, то получаем единичную матрицу. При этом не у всех матриц есть обратная матрица (как и у 0 нет обратного числа). Чтобы получить обратную матрицу

In [13]:
A = np.array([[5, 5, 5], [3, 2, 10], [4, 4, 12]])
np.linalg.inv(A)

array([[ 0.4  ,  1.   , -1.   ],
       [-0.1  , -1.   ,  0.875],
       [-0.1  ,  0.   ,  0.125]])

In [14]:
np.dot(A, np.linalg.inv(A))

array([[ 1.00000000e+00,  4.44089210e-16, -4.44089210e-16],
       [-1.66533454e-16,  1.00000000e+00,  0.00000000e+00],
       [-1.11022302e-16,  4.44089210e-16,  1.00000000e+00]])

Рассмотрим теперь на примере лин. регрессии использование numpy. Формула для нахождении коэффициентов бета в случае, если в качестве функционала качества указана MSE
## $\beta^* = (X^T \cdot X)^{-1}\cdot X^T \cdot Y$

In [8]:
X = np.array([[23, 0.5, 1],
              [35, 1, 1],
              [18, 0, 1]])

Y = np.array([55, 100, 45])

In [10]:
# найдем первое произведение
x_t_x = np.dot(X.T, X)

# найдем произведение в скобках
x_t_x_inv = np.linalg.inv(x_t_x)

# домножим на X трансп
x_t_x_inv_x_t = np.dot(x_t_x_inv, X.T)

# домножим на Y
np.dot(x_t_x_inv_x_t, Y)

array([  5., -30., -45.])

Теперь рассмотрим реальный датафрейм

In [1]:
import pandas as pd
pd.set_option('display.max_columns', None)

In [2]:
X = pd.read_csv('5 x.csv')
Y = pd.read_csv('5 y.csv')

In [3]:
from sklearn.linear_model import LinearRegression

In [None]:
model.predict()

In [4]:
model = LinearRegression()
model.fit(X, Y) # обучение модели, оно же нахождение оптимальных значений beta

# значение коэффициентов для каждого признака
for column, beta in zip(X.columns, model.coef_[0]):
    print(f'{column}: {beta}')

print(f'b0 = {model.intercept_}')

Категория: 0.05945428299863225
Цель в долларах: -9.83429425846713e-05
Срок: -24.597061348529245
Год публикации: 1221.0995817633564
Close_brent: -66.02604546209356
CAD: 3381.4807718927655
CHF: -1422.0385044052744
DKK: -1613.8189651556413
EUR: 1645.538598958308
GBP: 2689.3504971362813
HKD: -3.3107065308161556
JPY: 4458.769514067821
MXN: 4751.963472475479
NOK: -3444.9760549177286
NZD: 171.42700409235334
SEK: 4294.981819089444
SGD: -1202.3987696218262
USD: 2261.7015300485127
Art: -538.5493093282292
Comics: 1991.1932202870867
Crafts: -374.05066917509805
Dance: -1645.0038732321489
Design: -49.01100009545121
Fashion: -335.52475504077825
Film & Video: -163.5537125352722
Food: 353.4324627606835
Journalism: -688.4274074262464
Music: 862.5544476758503
Photography: 54.98245390740902
Publishing: 218.0089077578588
Technology: -183.69451901253058
Theater: 1302.8696135019884
b0 = [-2449444.93973283]


**Проведем такой трюк через numpy:**

In [20]:
# добавим константу для b0
X['constant'] = 1

In [21]:
xxt = np.dot(X.T, X)
xxt_inv = np.linalg.inv(xxt)
xxt_inv_xxt = np.dot(xxt_inv, X.T)
final_betas = np.dot(xxt_inv_xxt, Y)

final_betas

array([[ 5.94542827e-02],
       [-9.83429426e-05],
       [-2.45970613e+01],
       [ 1.22109958e+03],
       [-6.60223988e+01],
       [ 3.38148077e+03],
       [-1.42203850e+03],
       [-1.61381897e+03],
       [ 1.64553860e+03],
       [ 2.68935050e+03],
       [-3.31070617e+00],
       [ 4.45876952e+03],
       [ 4.75196347e+03],
       [-3.44497605e+03],
       [ 1.71427004e+02],
       [ 4.29498182e+03],
       [-1.20239877e+03],
       [ 2.26170153e+03],
       [-5.38549310e+02],
       [ 1.99119322e+03],
       [-3.74050669e+02],
       [-1.64500387e+03],
       [-4.90110001e+01],
       [-3.35524758e+02],
       [-1.63553713e+02],
       [ 3.53432463e+02],
       [-6.88427408e+02],
       [ 8.62554447e+02],
       [ 5.49824536e+01],
       [ 2.18008906e+02],
       [-1.83694519e+02],
       [ 1.30286961e+03],
       [-2.44944506e+06]])

Получилось все то же самое. Однако такая формула не самая оптимальная, так как перемножение матриц тяжелая операция.