In [1]:
import numpy as np
import re

In [2]:
data_string = '''totwrk                       -0.167***         
                              (0.018)          
                                               
age                           -6.255           
                             (11.191)          
                                               
I(age2)                        0.109           
                              (0.134)          
                                               
south                       114.547***         
                             (40.637)          
                                               
male                         90.457***         
                             (34.257)          
                                               
Constant                    3613.995***        
                             (218.433)'''
data_string

'totwrk                       -0.167***         \n                              (0.018)          \n                                               \nage                           -6.255           \n                             (11.191)          \n                                               \nI(age2)                        0.109           \n                              (0.134)          \n                                               \nsouth                       114.547***         \n                             (40.637)          \n                                               \nmale                         90.457***         \n                             (34.257)          \n                                               \nConstant                    3613.995***        \n                             (218.433)'

In [3]:
# Выделим числа из строки с помощью регулярных выражений
#(необходимо выделить подстроку, удовлетворяющая определенному шаблону символов)
digital_date = re.findall(r'([-+]?\d+.\d+)',data_string)
digital_date

['-0.167',
 '0.018',
 '-6.255',
 '11.191',
 '0.109',
 '0.134',
 '114.547',
 '40.637',
 '90.457',
 '34.257',
 '3613.995',
 '218.433']

In [4]:
# Из одномерного списка сделаем двумерный список типа размерности (8,2)
# 8 --- количество коэффицентов, включая константу
# 2 --- потому что строка содержит оценку коэффицента и его ошибку
# так как исходны список содержит оценки коэффицентов и их ошибки
beta = np.reshape(digital_date,(6,2))
beta

array([['-0.167', '0.018'],
       ['-6.255', '11.191'],
       ['0.109', '0.134'],
       ['114.547', '40.637'],
       ['90.457', '34.257'],
       ['3613.995', '218.433']], dtype='<U8')

In [5]:
beta[:,0]

array(['-0.167', '-6.255', '0.109', '114.547', '90.457', '3613.995'],
      dtype='<U8')

In [6]:
# ppl_string --- переменная, которая содержит изначальную строку данных
ppl_string = '''totwrk age south male
1  2160  32    1    0  
2  1720  24    0    1  
3  2390  44    0    1 '''

In [7]:
# Создадим список из чисел, содержащихся в строке. 
# ppl_list -- список, который будет состоять из подстрок, каждая из которых удовлетворяет определенному шаблону символов
ppl_lst = re.findall(r'([-+]?\d+.\d+|[-+]?\d+)',ppl_string)

In [8]:
ppl_numb = np.reshape(ppl_lst,(3,5))
ppl_numb

array([['1', '2160', '32', '1', '0'],
       ['2', '1720', '24', '0', '1'],
       ['3', '2390', '44', '0', '1']], dtype='<U4')

In [9]:
# Преобразуем список в двумерный массив: 3 строки, 8 столбцов.
# 3 -- количество измерений, для которых нам необходим найти предсказанное значение
# 6 столбцов в исходной таблице, включая столбец с нумерацией строк

In [10]:
# Необходимо удалить первый столбец, так как это нумерация строк
ppl_numb = np.delete(ppl_numb,0,1)
ppl_numb

array([['2160', '32', '1', '0'],
       ['1720', '24', '0', '1'],
       ['2390', '44', '0', '1']], dtype='<U4')

In [11]:
# Теперь необходимо добавить столбец из единиц для того,
#  чтобы совпадало количество столбцов в матрице с количестом элементов 
ppl_numb = np.c_[ppl_numb,np.ones(3)]
ppl_numb

array([['2160', '32', '1', '0', '1.0'],
       ['1720', '24', '0', '1', '1.0'],
       ['2390', '44', '0', '1', '1.0']], dtype='<U32')

In [12]:
# Теперь необходимо добавить столбец из единиц для того,
#  чтобы совпадало количество столбцов в матрице с количестом элементов 
ppl_numb = np.c_[ppl_numb,np.ones(3)]
ppl_numb

array([['2160', '32', '1', '0', '1.0', '1.0'],
       ['1720', '24', '0', '1', '1.0', '1.0'],
       ['2390', '44', '0', '1', '1.0', '1.0']], dtype='<U32')

In [13]:
beta = beta.astype(float)
ppl_numb = ppl_numb.astype(float)

In [14]:
beta

array([[-1.670000e-01,  1.800000e-02],
       [-6.255000e+00,  1.119100e+01],
       [ 1.090000e-01,  1.340000e-01],
       [ 1.145470e+02,  4.063700e+01],
       [ 9.045700e+01,  3.425700e+01],
       [ 3.613995e+03,  2.184330e+02]])

In [15]:
ppl_numb

array([[2.16e+03, 3.20e+01, 1.00e+00, 0.00e+00, 1.00e+00, 1.00e+00],
       [1.72e+03, 2.40e+01, 0.00e+00, 1.00e+00, 1.00e+00, 1.00e+00],
       [2.39e+03, 4.40e+01, 0.00e+00, 1.00e+00, 1.00e+00, 1.00e+00]])

In [16]:
ppl_numb@beta[:,0]

array([3143.681, 3381.639, 3144.649])