In [6]:
from gplearn.genetic import SymbolicTransformer
from sklearn.utils import check_random_state
from sklearn.datasets import load_diabetes
import numpy as np

In [7]:
rng = check_random_state(0)
diabetes = load_diabetes()
perm = rng.permutation(diabetes.target.size)
diabetes.data = diabetes.data[perm]
diabetes.target = diabetes.target[perm]

In [8]:
from sklearn.linear_model import Ridge
est = Ridge()
est.fit(diabetes.data[:300, :], diabetes.target[:300])
print(est.score(diabetes.data[300:, :], diabetes.target[300:]))

0.4340571824299352


In [9]:
function_set = ['add', 'sub', 'mul', 'div', 'sqrt', 'log',
                'abs', 'neg', 'inv', 'max', 'min']
gp = SymbolicTransformer(generations=20, population_size=2000,
                         hall_of_fame=100, n_components=10,
                         function_set=function_set,
                         parsimony_coefficient=0.0005,
                         max_samples=0.9, verbose=1,
                         random_state=0)
gp.fit(diabetes.data[:300, :], diabetes.target[:300])

gp_features = gp.transform(diabetes.data)
new_diabetes = np.hstack((diabetes.data, gp_features))

est = Ridge()
est.fit(new_diabetes[:300, :], diabetes.target[:300])
print(est.score(new_diabetes[300:, :], diabetes.target[300:]))

    |   Population Average    |             Best Individual              |
---- ------------------------- ------------------------------------------ ----------
 Gen   Length          Fitness   Length          Fitness      OOB Fitness  Time Left
   0    11.37         0.126617        5         0.612825         0.680003     43.31s
   1     6.63         0.344374        3         0.659085         0.451792     42.26s
   2     5.36          0.47373        3         0.669018         0.321485     36.88s
   3     4.74         0.587613        3         0.673353         0.312487     31.65s
   4     4.39         0.597168       13         0.675281         0.494818     21.07s
   5     4.31         0.611994       15         0.686134         0.148192     16.06s
   6     4.89         0.611891        9         0.685649         0.199004     14.99s
   7     6.49         0.617031        9         0.688308         0.287285     14.58s
   8     9.19         0.628526       17         0.720605         0.263613  

In [10]:
#cómo el método del transformador simbólico ayuda a mejorar el rendimiento de la regresión
"""
Este enfoque innovador permite descubrir relaciones complejas y no lineales dentro de los datos que los modelos de regresión tradicionales podrían pasar por alto. 
Al transformar y combinar características de diversas maneras matemáticas, actúa como una herramienta poderosa para la ingeniería de características, revelando elementos más predictivos.
Lo que es particularmente impactante es su flexibilidad de modelo; no nos confina a estructuras de modelos predefinidas, permitiendo una adaptación más natural a los patrones subyacentes de los datos.
Además, su capacidad para filtrar ruido y prevenir el sobreajuste contribuye a modelos robustos y generalizables. 
Las expresiones simbólicas resultantes proporcionan no solo poder predictivo, sino también interpretabilidad, ofreciendo valiosos conocimientos sobre el comportamiento de los datos.
En mis estudios y experimentos, emplear el método del transformador simbólico ha llevado consistentemente a modelos de regresión más precisos, confiables y comprensibles, demostrando su inmenso potencial en el campo del aprendizaje automático y el análisis de datos.
"""