# Прогнозирование

In [None]:
import numpy as np
import re

In [None]:
date_string = '''totwrk                       -0.169***         
                              (0.018)          
                                               
age                           2.689*           
                              (1.469)          
                                               
south                        101.568**         
                             (41.837)          
                                               
male                         87.669**          
                             (35.104)          
                                               
smsa                         -54.748*          
                             (33.123)          
                                               
yngkid                        -13.962          
                             (50.341)          
                                               
marr                          31.211           
                             (42.233)          
                                               
Constant                    3450.913***        
                             (80.726)'''

In [None]:
# Выделим числа из строки с помощью регулярных выражений
#(необходимо выделить подстроку, удовлетворяющая определенному шаблону символов)
digital_date = re.findall(r'([-+]?\d+.\d+)',date_string)
digital_date

In [None]:
# Из одномерного списка сделаем двумерный список типа размерности (8,2)
# 8 --- количество коэффицентов, включая константу
# 2 --- потому что строка содержит оценку коэффицента и его ошибку
# так как исходны список содержит оценки коэффицентов и их ошибки
beta = np.reshape(digital_date,(8,2))
beta

In [None]:
# ppl_string --- переменная, которая содержит изначальную строку данных
ppl_string = '''totwrk age south male smsa yngkid marr
1  2150  37.1    0    1    1     0     1  
2  1950  28.1    1    1    0     1     0  
3  2240  26.1    0    0    1     0     0 '''

In [None]:
# Создадим список из чисел, содержащихся в строке. 
# ppl_list -- список, который будет состоять из подстрок, каждая из которых удовлетворяет определенному шаблону символов
ppl_lst = re.findall(r'([-+]?\d+.\d+|[-+]?\d+)',ppl_string)

In [None]:
X = np.reshape(ppl_lst,(3,8))
X

In [None]:
# Преобразуем список в двумерный массив: 3 строки, 8 столбцов.
# 3 -- количество измерений, для которых нам необходим найти предсказанное значение
# 8 столбцов в исходной таблице, включая столбец с нумерацией строк


In [None]:
# Необходимо удалить первый столбец, так как это нумерация строк
X = np.delete(X,0,1)
X

In [None]:
# Теперь необходимо добавить столбец из единиц для того,
#  чтобы совпадало количество столбцов в матрице с количестом элементов 
X = np.c_[X,np.ones(3)]
X

In [None]:
X.shape

In [None]:
beta.shape

In [None]:
#Неообходимо преобразование типов данных
beta = beta.astype(float)
X = X.astype(float).round(3)
X

## Предсказанные значение (fitted) вычисляюся с помощью формулы
# $$\hat{y} = \textbf{X}\beta_{OLS}$$

$$
\begin{equation*}
\hat{y} = \left(
\begin{array}{c}
y_1 \\
y_2\\
y_3
\end{array}
\right), \;\;\;\;\;
\textbf{X}\ = \left(
\begin{array}{cccccccc}
totwrk_1 & age_1 & south_1 & male_1 & smsa_1 & yndkid_1 & marr_1 & 1\\
totwrk_2 & age_2 & south_2 & male_2 & smsa_2 & yndkid_2 & marr_2 & 1\\
totwrk_3 & age_3 & south_3 & male_3 & smsa_3 & yndkid_3 & marr_3 & 1\\
\end{array}
\right),  \;\;\;\;\;
\beta_{OLS}=\left(
\begin{array}{c}
\beta_{totwrk} \\
\beta_{age} \\
\beta_{south} \\
\beta_{male} \\
\beta_{smsa} \\
\beta_{ynkid} \\
\beta_{marr} \\
Constant
\end{array}
\right)
\end{equation*}
$$

In [None]:
# результатом произведения двух матриц будут два столбца
# 1й равен произведению значений измерений и коэффициентов
# 2й равен произведению значений измерений и ошибок коэффициентов
print(np.matmul(X,beta))