# Punto 4: 
Estudie en https://gplearn.readthedocs.io/en/stable/intro.html#classification, la librería
gplearn de Python; y utilícela para solucionar el ejercicio anterior u otro problema que le
interese.
Para el problema de descubrimiento de relaciones matemáticas, la librería "gplearn" puede ser utilizada para encontrar fórmulas y expresiones simbólicas que describan las interacciones entre las variables en un conjunto de datos.

A continuación, te mostraré un ejemplo básico de cómo utilizar "gplearn" para descubrir una relación matemática desconocida en un conjunto de datos. Supongamos que tenemos un conjunto de datos con dos variables independientes X1 y X2 y una variable dependiente y, y queremos encontrar una función simbólica que relacione X1 y X2 con y.

In [1]:
from gplearn.genetic import SymbolicRegressor
import numpy as np

In [2]:
# Generar datos de ejemplo
X1 = np.linspace(-1, 1, 100)
X2 = np.linspace(0, 2, 100)
y = 3*X1**2 + np.sin(X2) + np.random.normal(0, 0.1, X1.shape)

# Concatenar variables independientes en una matriz
X = np.column_stack((X1, X2))

# Definir y ajustar el modelo
model = SymbolicRegressor(population_size=500, generations=10, verbose=1)
model.fit(X, y)

# Imprimir la mejor expresión encontrada
print(model._program)

    |   Population Average    |             Best Individual              |
---- ------------------------- ------------------------------------------ ----------
 Gen   Length          Fitness   Length          Fitness      OOB Fitness  Time Left
   0    40.23          5413.75       15         0.464955              N/A      3.78s
   1    13.58          2.36544       23         0.448288              N/A      2.20s
   2    10.85          1.56885       23         0.296361              N/A      1.65s
   3    11.35          1.29339       19         0.216768              N/A      1.62s
   4    16.25          1.34095       23         0.127732              N/A      1.17s
   5    21.17          1.14296       23         0.127732              N/A      0.96s
   6    25.66         0.968843       23         0.127732              N/A      0.71s
   7    24.33         0.962243       23         0.127732              N/A      0.48s
   8    25.20          1.02332       25         0.113365              N/A  

Un análisis más detallado de lo que hace el programa utilizando la librería "gplearn" para el descubrimiento de relaciones matemáticas:

1. Importación de bibliotecas:
   - `SymbolicRegressor` de `gplearn.genetic`: Importamos la clase `SymbolicRegressor` de la librería "gplearn". Esta clase se utiliza para definir y ajustar modelos de regresión simbólica mediante algoritmos genéticos.

2. Generación de datos de ejemplo:
   - `X1`, `X2`: Creamos dos variables independientes `X1` y `X2` generando arreglos de valores a través de `np.linspace`. Estos arreglos definen un rango de valores sobre los cuales se estudiará la relación matemática.
   - `y`: Generamos la variable dependiente `y` utilizando una combinación de `X1` y `X2` junto con un término de ruido agregado utilizando `np.random.normal`. Aquí, estamos utilizando una fórmula hipotética `3*X1**2 + np.sin(X2)` para generar `y`.

3. Concatenación de variables independientes:
   - `X`: Concatenamos las variables independientes `X1` y `X2` en una matriz `X` utilizando `np.column_stack`. Esta matriz se utilizará como entrada para el modelo `SymbolicRegressor`.

4. Definición y ajuste del modelo:
   - `model`: Creamos una instancia de `SymbolicRegressor` con los parámetros especificados, como `population_size` (tamaño de la población) y `generations` (número de generaciones).
   - `model.fit(X, y)`: Ajustamos el modelo a los datos de entrada `X` y `y`. Durante este proceso, el algoritmo genético de "gplearn" buscará la mejor expresión simbólica que relacione `X` con `y`.

5. Obtención de la mejor expresión encontrada:
   - `model._program`: Accedemos al atributo `_program` del modelo, que contiene la mejor expresión simbólica encontrada durante el ajuste del modelo.
   - `print(model._program)`: Imprimimos la mejor expresión simbólica encontrada en la consola.

En resumen, el programa utiliza la librería "gplearn" para ajustar un modelo de regresión simbólica a un conjunto de datos de ejemplo. A través de un proceso de algoritmo genético, busca la mejor expresión simbólica que relacione las variables independientes (`X1` y `X2`) con la variable dependiente (`y`). La mejor expresión encontrada se imprime en la consola.

En este ejemplo, generamos datos de ejemplo con dos variables independientes X1 y X2 y una variable dependiente y. Luego, concatenamos las variables independientes en una matriz X. Definimos y ajustamos el modelo SymbolicRegressor de "gplearn" a los datos utilizando el método fit. Finalmente, imprimimos la mejor expresión encontrada en model._program.

Recuerda que este es solo un ejemplo básico y puedes personalizar los parámetros del modelo y el conjunto de datos según tus necesidades. Además, ten en cuenta que el éxito del descubrimiento de relaciones matemáticas dependerá de la calidad y representatividad de los datos proporcionados.