In [6]:
import pandas as pd
import numpy as np

### Задание:
    Восстановить коэффициенты a, b, c функции f(x), зная ее значения точек на некотором наборе
    
    ф-ция: (a*sinx + b*lnx)^2 + cx^2
    
### Решение:
    Раскроем скобки, в итоге получим:
    
    f(x) = a^2 * (sinx)^2 + 2ab * (sinx * lnx) + b^2 * lnx + c * x^2
    
    В итоге можно рассматривать это как задачу регрессии с признаками ф-ций от х, стоящих при коэффициентах. Подобрав соответствующие коэффициенты, потом можем найти a, b, c из простой системы уравнений.
    
### Еще один вариант решения:
    Вручную минимизировать MSE при помощи градиентного спуска для параметров a, b, c. При этом возникают проблемы медленной сходимости вследствии больших значений ф-ций -> больших шагов -> маленкий learning rate (~1e-5)

In [5]:
data = pd.read_csv('data.csv', names=['x', 'f'])
print(data.shape)
data.head()

(1000, 2)


Unnamed: 0,x,f
0,9.481538,394.853787
1,6.878546,238.295702
2,9.436524,393.053669
3,3.572694,55.666155
4,1.079596,13.537515


### Формируем задачу линейной регрессии

In [51]:
train = pd.DataFrame({'1': np.sin(data.x) ** 2, '2': np.sin(data.x) * np.log(data.x),
                      '3': np.log(data.x) ** 2, '4': data.x ** 2})
test = pd.DataFrame({'label': data.f})
print(train.shape)
train.head()

(1000, 4)


Unnamed: 0,1,2,3,4
0,0.003218,-0.127604,5.05956,89.89956
1,0.314505,1.081466,3.718755,47.314402
2,0.000138,-0.026365,5.038174,89.047994
3,0.174616,-0.532084,1.621343,12.764139
4,0.777513,0.067532,0.005866,1.165527


### Обучаем линейную регрессию

In [52]:
from sklearn.linear_model import LinearRegression

from sklearn.metrics import mean_absolute_error

In [53]:
lr = LinearRegression(fit_intercept=True)
lr.fit(train, test)

LinearRegression(copy_X=True, fit_intercept=True, n_jobs=None, normalize=False)

In [54]:
y_pred = lr.predict(train)
mean_absolute_error(test, y_pred)

0.018025349984077274

In [55]:
coefs = np.squeeze(lr.coef_)
coefs

array([ 9.87046009, 17.07978656,  7.38985564,  3.99995786])

In [56]:
a, b, c = np.sqrt(coefs[0]), np.sqrt(coefs[2]),  coefs[3]

In [60]:
print([a, b, c])

[3.141728838215596, 2.718428892528896, 3.9999578643356006]
