拟合公式 $$ 2.5382 \cos (x_3)+x_0^2 -0.5 $$

In [3]:
import numpy as np

X = 2 * np.random.randn(100, 5) # randn函数返回一个或一组样本，具有标准正态分布
y = 2.5382 * np.cos(X[:, 3]) + X[:, 0] ** 2 - 0.5

利用pysr进行模型训练

In [4]:
from pysr import PySRRegressor

model = PySRRegressor(
    maxsize=20,
    niterations=40,  # < Increase me for better results
    binary_operators=["+", "*"],
    unary_operators=[
        "cos",
        "exp",
        "sin",
        "inv(x) = 1/x",
        # ^ Custom operator (julia syntax)
    ],
    extra_sympy_mappings={"inv": lambda x: 1 / x},
    # ^ Define operator for SymPy as well
    elementwise_loss="loss(prediction, target) = (prediction - target)^2",
    # ^ Custom loss function (julia syntax)
)

Detected IPython. Loading juliacall extension. See https://juliapy.github.io/PythonCall.jl/stable/compat/#IPython


这段代码是使用 PySR（Python Symbolic Regression）库创建一个符号回归模型的示例。符号回归是一种机器学习技术，旨在发现数据中的数学表达式或公式，它通常用于科学发现、工程优化等领域。PySR 是基于 Julia 编写的高效符号回归引擎 `SymbolicRegression.jl` 的 Python 接口。

让我们逐行解析这段代码：

```python
from pysr import PySRRegressor
```
这行代码导入了 PySR 库中的 `PySRRegressor` 类，这是用来进行符号回归的核心类。

```python
model = PySRRegressor(
    maxsize=20,
    niterations=40,  # < Increase me for better results
    binary_operators=["+", "*"],
    unary_operators=[
        "cos",
        "exp",
        "sin",
        "inv(x) = 1/x",  # ^ Custom operator (julia syntax)
    ],
    extra_sympy_mappings={"inv": lambda x: 1 / x},
    # ^ Define operator for SymPy as well
    elementwise_loss="loss(prediction, target) = (prediction - target)^2",
    # ^ Custom loss function (julia syntax)
)
```

- `maxsize=20`: 设置生成的表达式的最大大小（复杂度）。这里的大小指的是表达式树中的节点数量。
  
- `niterations=40`: 指定迭代次数。更多的迭代可能会导致更精确的结果，因为算法有更多的时间去探索可能的表达式空间。

- `binary_operators=["+", "*"]`: 定义可以使用的二元操作符。在这个例子中，只允许加法和乘法。

- `unary_operators=[...]`: 列出可以使用的一元操作符。这里包括了标准的数学函数如余弦 (`cos`)、指数 (`exp`) 和正弦 (`sin`) 函数，以及自定义的倒数运算符 `inv(x) = 1/x`，该运算符使用的是Julia语法。

- `extra_sympy_mappings={"inv": lambda x: 1 / x}`: 为自定义运算符提供一个映射到 Python 的 `SymPy` 库的方式，以便可以在 Python 中正确地解释和处理这些运算符。在这里，`inv` 运算符被映射到一个简单的匿名函数，该函数计算输入的倒数。

- `elementwise_loss="loss(prediction, target) = (prediction - target)^2"`: 定义了一个元素级别的损失函数，它衡量预测值与目标值之间的差异。这个例子中使用的是均方误差（MSE），也是用Julia语法编写的。

总的来说，这段代码创建了一个配置好的 `PySRRegressor` 实例，准备用给定的参数来拟合数据，并尝试找到最佳的数学表达式以描述输入数据和输出数据之间的关系。你可以通过调用 `model.fit(X, y)` 来训练这个模型，其中 `X` 是特征矩阵，`y` 是目标向量。

In [5]:
model.fit(X, y)



Compiling Julia backend...


[ Info: Started!


In [7]:
print(model)

PySRRegressor.equations_ = [
	   pick      score                                           equation  \
	0         0.000000                                     exp(1.5678316)   
	1         2.805606                                            x0 * x0   
	2         0.006312                            -0.18381631 + (x0 * x0)   
	3         0.908738                                cos(x3) + (x0 * x0)   
	4         0.746025                   (x0 * x0) + (cos(x3) * 2.392678)   
	5         0.037629             (x0 * x0) + (sin(cos(x3)) * 2.6985104)   
	6  >>>>  26.811930            (x0 * x0) + ((cos(x3) * 2.5382) + -0.5)   
	7         0.028370  ((x0 * x0) + ((-0.040418338 + cos(x3)) * 1.873...   
	
	           loss  complexity  
	0  4.451334e+01           2  
	1  2.691725e+00           3  
	2  2.657958e+00           5  
	3  1.071243e+00           6  
	4  2.409346e-01           8  
	5  2.320370e-01           9  
	6  5.263612e-13          10  
	7  4.315570e-13          17  
]


This arrow in the `pick` column indicates which equation is currently selected by your `model_selection` strategy for prediction. (You may change `model_selection` after `.fit(X, y)` as well.)

In [9]:
# 多种格式可切换
model.equations_

Unnamed: 0,complexity,loss,score,equation,sympy_format,lambda_format,torch_format
0,2,44.51334,0.0,exp(1.5678316),exp(1.5678316),PySRFunction(X=>exp(1.5678316)),_SingleSymPyModule(expression=exp(1.5678316))
1,3,2.691725,2.805606,x0 * x0,x0*x0,PySRFunction(X=>x0*x0),_SingleSymPyModule(expression=x0*x0)
2,5,2.657958,0.006312,-0.18381631 + (x0 * x0),x0*x0 - 0.18381631,PySRFunction(X=>x0*x0 - 0.18381631),_SingleSymPyModule(expression=x0*x0 - 0.18381631)
3,6,1.071243,0.908738,cos(x3) + (x0 * x0),x0*x0 + cos(x3),PySRFunction(X=>x0*x0 + cos(x3)),_SingleSymPyModule(expression=x0*x0 + cos(x3))
4,8,0.2409346,0.746025,(x0 * x0) + (cos(x3) * 2.392678),x0*x0 + cos(x3)*2.392678,PySRFunction(X=>x0*x0 + cos(x3)*2.392678),_SingleSymPyModule(expression=x0*x0 + cos(x3)*...
5,9,0.232037,0.037629,(x0 * x0) + (sin(cos(x3)) * 2.6985104),x0*x0 + sin(cos(x3))*2.6985104,PySRFunction(X=>x0*x0 + sin(cos(x3))*2.6985104),_SingleSymPyModule(expression=x0*x0 + sin(cos(...
6,10,5.263612e-13,26.81193,(x0 * x0) + ((cos(x3) * 2.5382) + -0.5),x0*x0 + cos(x3)*2.5382 - 0.5,PySRFunction(X=>x0*x0 + cos(x3)*2.5382 - 0.5),_SingleSymPyModule(expression=x0*x0 + cos(x3)*...
7,17,4.31557e-13,0.02837,((x0 * x0) + ((-0.040418338 + cos(x3)) * 1.873...,x0*x0 + (cos(x3) - 0.6385346)*0.6644364 + (cos...,PySRFunction(X=>x0*x0 + (cos(x3) - 0.6385346)*...,_SingleSymPyModule(expression=x0*x0 + (cos(x3)...


In [10]:
model.pytorch()

_SingleSymPyModule(expression=x0*x0 + cos(x3)*2.5382 - 0.5)