## Vamos a hacer un pequeño tutorial sobre como usar AIDE

Vamos a ver una forma muy fácil y visual de como usar AIDE con los LLM de OpenAI, para ello necesitamos tener crédito en nuestra cartera de la API de OpenAI --> <a href="https://platform.openai.com/settings/organization/billing/overview">Para ver como meter saldo visitar esta página</a>

In [7]:
# IMPORTS 
from openai import OpenAI
import aide

Todas las librerías que uso en este fichero las podemos encontrar en el fichero <b>aideml-requirements.txt</b>

Hacemos uso del import de OpenAI para poder ver la cantidad de modelos a los que podemos acceder

In [8]:
lista_modelos = OpenAI().models.list().dict() # Con esto sacamos la lista de modelos y la convertimos en un diccionario

In [9]:
for modelo in lista_modelos["data"]:
    print(modelo["id"])

dall-e-3
gpt-4-1106-preview
whisper-1
gpt-4o-2024-05-13
babbage-002
dall-e-2
gpt-3.5-turbo-16k
tts-1-hd-1106
tts-1-hd
gpt-3.5-turbo-instruct-0914
gpt-3.5-turbo-instruct
text-embedding-3-small
gpt-4-turbo-2024-04-09
tts-1
gpt-4-turbo
text-embedding-3-large
gpt-3.5-turbo-1106
gpt-4-0125-preview
gpt-3.5-turbo-0125
gpt-3.5-turbo
gpt-3.5-turbo-0301
gpt-4-turbo-preview
tts-1-1106
gpt-3.5-turbo-16k-0613
gpt-3.5-turbo-0613
gpt-4
text-embedding-ada-002
gpt-4-1106-vision-preview
davinci-002
gpt-4-0613
gpt-4-vision-preview
gpt-4o


Esta es la salida que deberías obtener al tener un mínimo de saldo en la cuenta, hay que pensar que cada modelo tiene su propio precio por token y que podemos consultar en la propia página de la <a href="https://openai.com/api/pricing/">API de OpenAI</a>. Hay que tener en cuenta que los precios de entrada y salida son para cada millos de tokens procesados.

Una vez elegido el modelo que queremos usar tenemos dos opciones de seleccionarlo,
- (1) Cambiarlo por consola con el comando: <b>agent.code.model="modelo-a-usar"</b>

- (2) Cambiarlo en el fichero <b>config.yaml</b> de la extensión aide.

Yo uso siempre la segunda forma, para ello nos dirijimos a la carpeta de nuetro entorno virtual --> navegamos hasta la carpeta <b>lib</b> --> seleccionamos la versión, en mi caso la <b>3.10.0</b> --> buscamos la carpeta <b>aide</b> --> dentro de la carpeta <b>utils</b> encontraremos el fichero <b>config.yaml</b>.

En este fichero lo único que tenemos que cambiar son los dos parámetros llamados "model" tanto en la generación como en la validación, por defecto están asignados en "gpt-4-turbo" que es un buen modelo que no consume tanto crédito como "gpt-4o" o "gpt-4".

Ahora vamos a seleccionar algún problema medianamente complejo de Kaggle y pasárselo al AIDE.

Como primer dataset voy a usar un csv con muestras de agua para ver si consigue hacer un clasificador de estas sobre su potabilidad

In [10]:
# Definimos las variables que vamos a utilizar
data_dir = "./Data/"
goal = """
The dataset contains informatino about various factors affecting water quality. It includes measurements of pH, hardness, solids ...

Make an analysis of the dataset and a classifier not using a RandomForest
"""
eval="Use RMSLE, f1-score and accuracy"

Con estas declaraciones podemos ya probar el AIDE, para declaralo simplemente llamamos al constructor y le pasamos los 3 parámetros que acabamos de definir.

El tercer parámetro <b>goal</b> es opcional pero siempre está bien poner como queremos que el modelo actue.

In [11]:
exp = aide.Experiment(
    data_dir=data_dir,
    goal=goal,
    eval=eval
)

Una vez creada la instancia solo tenemos que hacerla correr, hay que tener en cuenta que el número de pasos que pongamos incrementará las iteraciones que el modelo intenta mejorar su solución propuesta y por tanto aumentará la cuota de la consulta.*

In [12]:
best_solution = exp.run(steps=10)

  layout = (layout - layout.min(axis=0)) / (layout.max(axis=0) - layout.min(axis=0))


Una vez ejecutado vamos a sacar por pantalla cuál es la mejor <b>matrix validation</b> que nos indica cuan buena es la solución propuesta así como el código generado --> este se guarda en un fichero dentro del directorio por si no queremos mostrar por pantalla el código.

Además del código, AIDE genera un documento .html con un árbol para que podamos ver como ha desarrollado la o las soluciones propuestas así como por que ha elegido esa (interpretable)

In [13]:
print(f"La mejor solución tiene una validación de --> {best_solution.valid_metric}")
print(f"El código de la mejor propuesta es: \n {best_solution.code}")

La mejor solución tiene una validación de --> 0.32162281958137
El código de la mejor propuesta es: 
 import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.impute import SimpleImputer
from sklearn.svm import SVC
from sklearn.metrics import mean_squared_log_error, f1_score, accuracy_score

# Load the data
data = pd.read_csv("./input/water_potability.csv")

# Impute missing values
imputer = SimpleImputer(strategy="median")
data_imputed = imputer.fit_transform(data)
data = pd.DataFrame(data_imputed, columns=data.columns)

# Feature and target separation
X = data.drop("Potability", axis=1)
y = data["Potability"]

# Split the data into training and validation sets
X_train, X_val, y_train, y_val = train_test_split(X, y, test_size=0.2, random_state=42)

# Scale the features
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_val_scaled = scaler.transform(X_val)

# Initiali

#### Esta ejecución ha costado <label style="color:red">$0.46</label>

### Ejecución del código proporcionado 

In [14]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.impute import SimpleImputer
from sklearn.svm import SVC
from sklearn.metrics import mean_squared_log_error, f1_score, accuracy_score

# Load the data
data = pd.read_csv("./Data/water_potability.csv")

# Impute missing values
imputer = SimpleImputer(strategy="median")
data_imputed = imputer.fit_transform(data)
data = pd.DataFrame(data_imputed, columns=data.columns)

# Feature and target separation
X = data.drop("Potability", axis=1)
y = data["Potability"]

# Split the data into training and validation sets
X_train, X_val, y_train, y_val = train_test_split(X, y, test_size=0.2, random_state=42)

# Scale the features
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_val_scaled = scaler.transform(X_val)

# Initialize and train the SVM model
svm_model = SVC(probability=True)
svm_model.fit(X_train_scaled, y_train)

# Predict on the validation set
y_pred = svm_model.predict(X_val_scaled)
y_pred_proba = svm_model.predict_proba(X_val_scaled)[:, 1]

# Calculate RMSLE, f1-score, and accuracy
rmsle = np.sqrt(mean_squared_log_error(y_val, y_pred_proba))
f1 = f1_score(y_val, y_pred)
accuracy = accuracy_score(y_val, y_pred)

# Print the evaluation metrics
print(f"RMSLE: {rmsle}")
print(f"F1-Score: {f1}")
print(f"Accuracy: {accuracy}")


RMSLE: 0.32163927312616114
F1-Score: 0.43454038997214484
Accuracy: 0.6905487804878049


Para este dataset no ha resultado muy bueno, vamos a probar con otros datasets, como por ejemplo el del titanic

In [16]:
# Vamos a crear las variables que vamos a utilizar para el aide:
data_dir = "./Data-Titanic"
goal = "You have to predict if a passenger survived the sinking of the Titanic or not. For each in the test set, you must predict a 0 or 1 value for the variable. In Data folder you have the train and test data and an example of how the submission.csv file should be, store it inside ./Data/ as submission.csv. Train.csv contains the details of a subset of the passengers on board and importantly, sill reveal whether thry survived or not. The Test.csv does not disclose the ground truth for each passenger."
eval = "The metric to use ir the percentatge of passengers you correctly predict. This is known asa accuracy"

In [17]:
exp = aide.Experiment(
    data_dir=data_dir,
    goal=goal,
    eval=eval
)

In [18]:
best_solution = exp.run(steps=10)

Plan + code extraction failed, retrying...


  layout = (layout - layout.min(axis=0)) / (layout.max(axis=0) - layout.min(axis=0))


Plan + code extraction failed, retrying...


In [19]:
print(f"La mejor solución tiene una validación de --> {best_solution.valid_metric}")

La mejor solución tiene una validación de --> 0.8379888268156425


In [20]:
print(f"El código de la mejor propuesta es: \n {best_solution.code}")

El código de la mejor propuesta es: 
 import pandas as pd
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import OneHotEncoder
from sklearn.impute import SimpleImputer
from sklearn.pipeline import Pipeline
from sklearn.compose import ColumnTransformer
from sklearn.metrics import accuracy_score

# Load data
train_data = pd.read_csv("./input/train.csv")
test_data = pd.read_csv("./input/test.csv")

# Preprocessing
features = ["Pclass", "Sex", "Age", "SibSp", "Parch", "Fare", "Embarked"]
X = train_data[features]
y = train_data["Survived"]
X_test = test_data[features]

# Preprocessing for numerical data
numerical_transformer = SimpleImputer(strategy="median")

# Preprocessing for categorical data
categorical_transformer = Pipeline(
    steps=[
        ("imputer", SimpleImputer(strategy="most_frequent")),
        ("onehot", OneHotEncoder(handle_unknown="ignore")),
    ]
)

# Bundle preprocessing for numerical

#### Esta ejecución ha costado <label style="color:red">$0.63</label>

###  Vamos a probar la solución

In [22]:
import pandas as pd
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import OneHotEncoder
from sklearn.impute import SimpleImputer
from sklearn.pipeline import Pipeline
from sklearn.compose import ColumnTransformer
from sklearn.metrics import accuracy_score

# Load data
train_data = pd.read_csv("./Data-Titanic/train.csv")
test_data = pd.read_csv("./Data-Titanic/test.csv")

# Preprocessing
features = ["Pclass", "Sex", "Age", "SibSp", "Parch", "Fare", "Embarked"]
X = train_data[features]
y = train_data["Survived"]
X_test = test_data[features]

# Preprocessing for numerical data
numerical_transformer = SimpleImputer(strategy="median")

# Preprocessing for categorical data
categorical_transformer = Pipeline(
    steps=[
        ("imputer", SimpleImputer(strategy="most_frequent")),
        ("onehot", OneHotEncoder(handle_unknown="ignore")),
    ]
)

# Bundle preprocessing for numerical and categorical data
preprocessor = ColumnTransformer(
    transformers=[
        ("num", numerical_transformer, ["Age", "Fare"]),
        (
            "cat",
            categorical_transformer,
            ["Pclass", "Sex", "SibSp", "Parch", "Embarked"],
        ),
    ]
)

# Define the model
model = RandomForestClassifier(n_estimators=100, random_state=0)

# Create and evaluate the pipeline
pipeline = Pipeline(steps=[("preprocessor", preprocessor), ("model", model)])

# Split data into train and validation subsets
X_train, X_valid, y_train, y_valid = train_test_split(
    X, y, train_size=0.8, test_size=0.2, random_state=0
)

# Preprocessing of training data, fit model
pipeline.fit(X_train, y_train)

# Preprocessing of validation data, get predictions
preds = pipeline.predict(X_valid)

# Evaluate the model
score = accuracy_score(y_valid, preds)
print("Validation accuracy:", score)

# Preprocessing of test data, fit model
preds_test = pipeline.predict(X_test)

# Save test predictions to file
output = pd.DataFrame({"PassengerId": test_data.PassengerId, "Survived": preds_test})
output.to_csv("./Data-Titanic/submission.csv", index=False)


Validation accuracy: 0.8379888268156425


Como podemos ver, en este algoritmo se ha portado mejor produciendo una predicción correcta de > 83% 

AIDE es una herramienta muy potente para lo fácil y poco que cuesta trabajar con ella. Supongo que para proyectos de mayor envergaadura será más costoso pero aún así para tener una 'baseline' o una base desde donde partir a trabajar es una herramiento muy poderosa.