In [1]:
import numpy as np
import re

In [2]:
data_string = '''totwrk                       -0.169***         
                              (0.018)          
                                               
age                           2.689*           
                              (1.469)          
                                               
south                        101.568**         
                             (41.837)          
                                               
male                         87.669**          
                             (35.104)          
                                               
smsa                         -54.748*          
                             (33.123)          
                                               
yngkid                        -13.962          
                             (50.341)          
                                               
marr                          31.211           
                             (42.233)          
                                               
Constant                    3450.913***        
                             (80.726)'''
data_string

'totwrk                       -0.169***         \n                              (0.018)          \n                                               \nage                           2.689*           \n                              (1.469)          \n                                               \nsouth                        101.568**         \n                             (41.837)          \n                                               \nmale                         87.669**          \n                             (35.104)          \n                                               \nsmsa                         -54.748*          \n                             (33.123)          \n                                               \nyngkid                        -13.962          \n                             (50.341)          \n                                               \nmarr                          31.211           \n                             (42.233)          \n                   

In [3]:
# Выделим числа из строки с помощью регулярных выражений
#(необходимо выделить подстроку, удовлетворяющая определенному шаблону символов)
digital_date = re.findall(r'([-+]?\d+.\d+)',data_string)
digital_date

['-0.169',
 '0.018',
 '2.689',
 '1.469',
 '101.568',
 '41.837',
 '87.669',
 '35.104',
 '-54.748',
 '33.123',
 '-13.962',
 '50.341',
 '31.211',
 '42.233',
 '3450.913',
 '80.726']

In [4]:
# Из одномерного списка сделаем двумерный список типа размерности (8,2)
# 8 --- количество коэффицентов, включая константу
# 2 --- потому что строка содержит оценку коэффицента и его ошибку
# так как исходны список содержит оценки коэффицентов и их ошибки
beta = np.reshape(digital_date,(8,2))
beta

array([['-0.169', '0.018'],
       ['2.689', '1.469'],
       ['101.568', '41.837'],
       ['87.669', '35.104'],
       ['-54.748', '33.123'],
       ['-13.962', '50.341'],
       ['31.211', '42.233'],
       ['3450.913', '80.726']], dtype='<U8')

In [5]:
beta[:,0]

array(['-0.169', '2.689', '101.568', '87.669', '-54.748', '-13.962',
       '31.211', '3450.913'], dtype='<U8')

In [6]:
# ppl_string --- переменная, которая содержит изначальную строку данных
ppl_string = '''totwrk age south male smsa yngkid marr
1  2150  37.1    0    1    1     0     1  
2  1950  28.1    1    1    0     1     0  
3  2240  26.1    0    0    1     0     0 '''

In [7]:
# Создадим список из чисел, содержащихся в строке. 
# ppl_list -- список, который будет состоять из подстрок, каждая из которых удовлетворяет определенному шаблону символов
ppl_lst = re.findall(r'([-+]?\d+.\d+|[-+]?\d+)',ppl_string)

In [8]:
ppl_numb = np.reshape(ppl_lst,(3,8))
ppl_numb

array([['1', '2150', '37.1', '0', '1', '1', '0', '1'],
       ['2', '1950', '28.1', '1', '1', '0', '1', '0'],
       ['3', '2240', '26.1', '0', '0', '1', '0', '0']], dtype='<U4')

In [9]:
# Преобразуем список в двумерный массив: 3 строки, 8 столбцов.
# 3 -- количество измерений, для которых нам необходим найти предсказанное значение
# 8 столбцов в исходной таблице, включая столбец с нумерацией строк

In [11]:
# Необходимо удалить первый столбец, так как это нумерация строк
ppl_numb = np.delete(ppl_numb,0,1)
ppl_numb

array([['2150', '37.1', '0', '1', '1', '0', '1'],
       ['1950', '28.1', '1', '1', '0', '1', '0'],
       ['2240', '26.1', '0', '0', '1', '0', '0']], dtype='<U4')

In [13]:
# Теперь необходимо добавить столбец из единиц для того,
#  чтобы совпадало количество столбцов в матрице с количестом элементов 
ppl_numb = np.c_[ppl_numb,np.ones(3)]
ppl_numb

array([['2150', '37.1', '0', '1', '1', '0', '1', '1.0'],
       ['1950', '28.1', '1', '1', '0', '1', '0', '1.0'],
       ['2240', '26.1', '0', '0', '1', '0', '0', '1.0']], dtype='<U32')

In [14]:
beta = beta.astype(float)
ppl_numb = ppl_numb.astype(float)

In [15]:
beta

array([[-1.690000e-01,  1.800000e-02],
       [ 2.689000e+00,  1.469000e+00],
       [ 1.015680e+02,  4.183700e+01],
       [ 8.766900e+01,  3.510400e+01],
       [-5.474800e+01,  3.312300e+01],
       [-1.396200e+01,  5.034100e+01],
       [ 3.121100e+01,  4.223300e+01],
       [ 3.450913e+03,  8.072600e+01]])

In [16]:
ppl_numb

array([[2.15e+03, 3.71e+01, 0.00e+00, 1.00e+00, 1.00e+00, 0.00e+00,
        1.00e+00, 1.00e+00],
       [1.95e+03, 2.81e+01, 1.00e+00, 1.00e+00, 0.00e+00, 1.00e+00,
        0.00e+00, 1.00e+00],
       [2.24e+03, 2.61e+01, 0.00e+00, 0.00e+00, 1.00e+00, 0.00e+00,
        0.00e+00, 1.00e+00]])

In [18]:
# результатом произведения двух матриц будут два столбца
# 1й равен произведению значений измерений и коэффициентов
# 2й равен произведению значений измерений и ошибок коэффициентов
print(np.matmul(ppl_numb,beta))

[[3251.4569  284.3859]
 [3372.1989  284.3869]
 [3087.7879  192.5099]]


In [19]:
ppl_numb@beta[:,0]


array([3251.4569, 3372.1989, 3087.7879])

In [20]:
beta[:,1]

array([1.8000e-02, 1.4690e+00, 4.1837e+01, 3.5104e+01, 3.3123e+01,
       5.0341e+01, 4.2233e+01, 8.0726e+01])