In [38]:
# import pandas as pd
import numpy as np
# import io
# import statsmodels.formula.api as smf
# import scipy.stats as stats
import re

In [39]:
data_str = '''totwrk                       -0.169***         
                              (0.018)          
                                               
age                           2.689*           
                              (1.469)          
                                               
south                        101.568**         
                             (41.837)          
                                               
male                         87.669**          
                             (35.104)          
                                               
smsa                         -54.748*          
                             (33.123)          
                                               
yngkid                        -13.962          
                             (50.341)          
                                               
marr                          31.211           
                             (42.233)          
                                               
Constant                    3450.913***        
                             (80.726)'''

In [40]:
# Выделим числа из строки с помощью регулярных выражений
#(необходимо выделить подстроку, удовлетворяющая определенному шаблону символов)
digital_data = re.findall(r'([-+]?\d+.\d+)',data_str)
digital_data

['-0.169',
 '0.018',
 '2.689',
 '1.469',
 '101.568',
 '41.837',
 '87.669',
 '35.104',
 '-54.748',
 '33.123',
 '-13.962',
 '50.341',
 '31.211',
 '42.233',
 '3450.913',
 '80.726']

In [41]:
# Из одномерного списка сделаем двумерный список типа размерности (8,2)
# 8 --- количество коэффицентов, включая константу
# 2 --- потому что строка содержит оценку коэффицента и его ошибку
# так как исходны список содержит оценки коэффицентов и их ошибки
beta = np.reshape(digital_data,(8,2))
beta

array([['-0.169', '0.018'],
       ['2.689', '1.469'],
       ['101.568', '41.837'],
       ['87.669', '35.104'],
       ['-54.748', '33.123'],
       ['-13.962', '50.341'],
       ['31.211', '42.233'],
       ['3450.913', '80.726']], dtype='<U8')

In [42]:
# ppl_string --- переменная, которая содержит изначальную строку данных
ppl_string = '''========================================
  totwrk age south male smsa yngkid marr
----------------------------------------
1  2150  37    0    1    1     0     1  
2  1950  28    1    1    0     1     0  
3  2240  26    0    0    1     0     0  
----------------------------------------'''

In [43]:
# Создадим список из чисел, содержащихся в строке. 
# ppl_list -- список, который будет состоять из подстрок, каждая из которых удовлетворяет определенному шаблону символов
ppl_lst = re.findall(r'([-+]?\d+.\d+|[-+]?\d+)',ppl_string)

In [44]:
X = np.reshape(ppl_lst,(3,8))
X

array([['1', '2150', '37', '0', '1', '1', '0', '1'],
       ['2', '1950', '28', '1', '1', '0', '1', '0'],
       ['3', '2240', '26', '0', '0', '1', '0', '0']], dtype='<U4')

In [45]:
# Теперь необходимо добавить столбец из единиц для того,
#  чтобы совпадало количество столбцов в матрице с количестом элементов 
X = np.c_[X,np.ones(3)]
X

array([['1', '2150', '37', '0', '1', '1', '0', '1', '1.0'],
       ['2', '1950', '28', '1', '1', '0', '1', '0', '1.0'],
       ['3', '2240', '26', '0', '0', '1', '0', '0', '1.0']], dtype='<U32')

In [46]:
# Необходимо удалить первый столбец, так как это нумерация строк
X = np.delete(X,0,1)
X

array([['2150', '37', '0', '1', '1', '0', '1', '1.0'],
       ['1950', '28', '1', '1', '0', '1', '0', '1.0'],
       ['2240', '26', '0', '0', '1', '0', '0', '1.0']], dtype='<U32')

In [47]:
X.shape

(3, 8)

In [48]:
beta.shape

(8, 2)

In [49]:
#Неообходимо преобразование типов данных
beta = beta.astype(float)
X = X.astype(float).round(2)
X

array([[2.15e+03, 3.70e+01, 0.00e+00, 1.00e+00, 1.00e+00, 0.00e+00,
        1.00e+00, 1.00e+00],
       [1.95e+03, 2.80e+01, 1.00e+00, 1.00e+00, 0.00e+00, 1.00e+00,
        0.00e+00, 1.00e+00],
       [2.24e+03, 2.60e+01, 0.00e+00, 0.00e+00, 1.00e+00, 0.00e+00,
        0.00e+00, 1.00e+00]])

In [50]:
# результатом произведения двух матриц будут два столбца
# 1й равен произведению значений измерений и коэффициентов
# 2й равен произведению значений измерений и ошибок коэффициентов
print(np.matmul(X,beta)[:, 0].round(2))
# a = np.matmul(X,arr)
# print(a[:, 0])

[3251.19 3371.93 3087.52]
