In [1]:
import warnings

warnings.filterwarnings('ignore')

## Numpy

Numpy - библиотека python, позволяющая делать сложные вычисления и операции с массивами.

Главный объект Numpy - это однородный многомерный массив. 

Массив - упорядоченный набор однородных данных, доступных по индексу. Чаще всего это одномерная последовательность или двумерная таблица, заполненные элементами одного типа.

[Подробнее](https://pyprog.pro/introduction.html) о массивах

In [2]:
import numpy as np

In [3]:
a = np.array([1, 3, 2])

a

array([1, 3, 2])

In [4]:
a = np.array([[1.5, 2, 3], [4, 5, 6]],
             dtype=np.complex128)  #В отличие от списков, в массиве все элементы обязательно принадлежат одному типу

a

array([[1.5+0.j, 2. +0.j, 3. +0.j],
       [4. +0.j, 5. +0.j, 6. +0.j]])

In [5]:
a = np.array([[1.5, 2, 3], [4, 5, 600000]],
             dtype=np.int16)  #создаст одномерную матрицу размером 2 х 3 c типом данных int16 

a

#Массив будет преобразован в соответствии с данным типом и на выходе полчим следующее:
#Дробные числа переведены в целочисленный формат в соответствии с типом
#Число 600000 не умещается в тип int16, происходит "переполнение типа"


array([[    1,     2,     3],
       [    4,     5, 10176]], dtype=int16)

## Сложение / Вычитание матриц

In [6]:
### Матрица A размера 2x3
A = np.array([[3, 4, 5],
              [1, 1, 1]])

### Матрица B размера 2x3
B = np.array([[5, 5, 1],
              [3, 1, 1]])

### Так как размеры совпадают, можно вычитать и складывать!

In [7]:
A - B

array([[-2, -1,  4],
       [-2,  0,  0]])

## Умножение матриц

In [8]:
### Матрица A размера 2x3
A = np.array([[3, 4, 5],
              [1, 1, 1]])

### Матрица B размера 3x3
B = np.array([[5, 5, 5],
              [3, 1, 10],
              [4, 4, 12]])

C = np.array([[5, 5, 5],
              [3, 1, 10],
              [4, 4, 12]])

### Так как кол-во строк матрицы A совпадает с кол-вом строк матрицы B,
### Можем умножить A * B

In [9]:
A @ B

array([[ 47,  39, 115],
       [ 12,  10,  27]])

In [10]:
np.dot(A, B)

array([[ 47,  39, 115],
       [ 12,  10,  27]])

In [11]:
B * C  #Поэлементное умножение

array([[ 25,  25,  25],
       [  9,   1, 100],
       [ 16,  16, 144]])

## Транспонирование матриц

In [12]:
A = np.array([[3, 4, 5],
              [1, 1, 1]])

In [13]:
A.T

array([[3, 1],
       [4, 1],
       [5, 1]])

## Единичная матрица

In [14]:
np.eye(4)

array([[1., 0., 0., 0.],
       [0., 1., 0., 0.],
       [0., 0., 1., 0.],
       [0., 0., 0., 1.]])

## Обращение матриц

In [15]:
### Матрица A размера 3x3 => Ее можно обращать
A = np.array([[5, 5, 5],
              [3, 2, 10],
              [4, 4, 12]])

In [16]:
np.linalg.inv(A)

array([[ 0.4  ,  1.   , -1.   ],
       [-0.1  , -1.   ,  0.875],
       [-0.1  ,  0.   ,  0.125]])

## $\beta^* = (X^T \cdot X)^{-1}\cdot X^T \cdot Y$

In [17]:
X = np.array([[23, 0.5, 1],
              [35, 1, 1],
              [18, 0, 1]])

Y = np.array([55, 100, 45])


In [18]:
xxt = np.dot(X.T, X)
xxt_inv = np.linalg.inv(xxt)
xxt_inv_xxt = np.dot(xxt_inv, X.T)
final_betas = np.dot(xxt_inv_xxt, Y)

final_betas

array([  5., -30., -45.])

## Пример с первого практического занятия

In [19]:
import pandas as pd

X = pd.read_csv('X.csv').drop('Предсказание', axis=1)
Y = pd.read_csv('Y.csv')

FileNotFoundError: [Errno 2] No such file or directory: 'X.csv'

In [None]:
X.head()

In [None]:
Y.head()

In [None]:
from sklearn.linear_model import LinearRegression

model = LinearRegression()
model.fit(X, Y)

for column, coef in zip(X.columns, model.coef_):
    print(column, coef)

print(model.intercept_)

In [None]:
X['constant'] = 1

In [None]:
xxt = np.dot(X.T, X)
xxt_inv = np.linalg.inv(xxt)
xxt_inv_xxt = np.dot(xxt_inv, X.T)
final_betas = np.dot(xxt_inv_xxt, Y)

final_betas

In [None]:
for column, coef in zip(X.columns, final_betas):
    print(column, coef)

## А что, если данных, в т.ч. признаков, очень много?

In [None]:
matrix = np.random.rand(50000, 50000)

In [None]:
# Зависнет, тк нужно 50_000^3 операций для каждого действия
matrixdot = np.dot(matrix.T, matrix) 
matrix_inv = np.linalg.inv(matrixdot)