# A/B Testing para Evaluar Estrategias de Prompting (OpenAI)

Este cuaderno es una versi√≥n del experimento original (con Gemini) adaptada para usar la API de OpenAI. Est√° dise√±ado para ejecutarse tanto en local (usando un archivo `.env`) como en Google Colab (usando `userdata.get` para obtener secrets).

## 1) Configuraci√≥n de entorno (Local / Colab)

El cuaderno detecta autom√°ticamente si se est√° ejecutando en Colab y carga la clave de la forma apropiada. Si trabajas localmente, aseg√∫rate de tener un archivo `.env` con `OPENAI_API_KEY`.

Nota: ya tienes una `.env` en este directorio, as√≠ que no deber√≠as necesitar cambios adicionales para ejecuci√≥n local.

In [None]:
import os
import sys
import pandas as pd
from dotenv import load_dotenv

# Intentar detectar Colab
IN_COLAB = False
try:
    import google.colab
    from google.colab import userdata
    IN_COLAB = True
except Exception:
    IN_COLAB = False

# Cargar .env si existe (√∫til en local)
load_dotenv()

OPENAI_API_KEY = None
if IN_COLAB:
    # En Colab el usuario puede guardar secretos y recuperarlos con userdata.get
    try:
        OPENAI_API_KEY = userdata.get('OPENAI_API_KEY')
    except Exception:
        OPENAI_API_KEY = os.getenv('OPENAI_API_KEY')
else:
    OPENAI_API_KEY = os.getenv('OPENAI_API_KEY')

if not OPENAI_API_KEY:
    raise ValueError('OPENAI_API_KEY no encontrada. Coloca tu clave en .env o en Colab secrets con la key OPENAI_API_KEY')

print(f"‚úÖ OPENAI key cargada. Entorno: {'Colab' if IN_COLAB else 'Local'}")

## 2) Inicializar cliente de OpenAI

Usamos la librer√≠a oficial `openai` (cliente moderno `OpenAI`). Si no la tienes instalada, instala con `pip install openai python-dotenv ipywidgets`.

In [None]:
from openai import OpenAI

# Inicializar cliente pasando la api_key directamente para evitar dependencias del entorno
client = OpenAI(api_key=OPENAI_API_KEY)

print('‚úÖ Cliente OpenAI inicializado')

## 3) Prompts: Variante A (Zero-shot) y Variante B (Few-shot)

In [None]:
prompt_A = """Descripci√≥n de la pr√°ctica: Optimizaci√≥n del uso del agua en cultivos de secano mediante t√©cnicas de conservaci√≥n de humedad.

Palabras clave: conservaci√≥n agua, secano, humedad suelo, optimizaci√≥n.

Temas relacionados:"""

prompt_B = """Descripci√≥n de la pr√°ctica: Implementaci√≥n de rotaci√≥n de cultivos para mejorar la salud del suelo y reducir plagas.

Palabras clave: rotaci√≥n cultivos, salud suelo, manejo plagas, sostenibilidad.

Temas relacionados: Agroecolog√≠a, Manejo Integrado de Plagas, Fertilizaci√≥n Natural, Diversificaci√≥n Agr√≠cola.


Descripci√≥n de la pr√°ctica: Uso de drones para monitoreo de cultivos y detecci√≥n temprana de enfermedades.

Palabras clave: drones agricultura, monitoreo cultivos, detecci√≥n enfermedades, agricultura precisi√≥n.

Temas relacionados: Teledetecci√≥n Agr√≠cola, Agricultura Inteligente, Sensores Remotos, An√°lisis de Im√°genes A√©reas.


Descripci√≥n de la pr√°ctica: Optimizaci√≥n del uso del agua en cultivos de secano mediante t√©cnicas de conservaci√≥n de humedad.

Palabras clave: conservaci√≥n agua, secano, humedad suelo, optimizaci√≥n.

Temas relacionados:"""

print('üìù Prompt A (Zero-shot) - Pr√°cticas Agroindustria:')
print('-' * 50)
print(prompt_A)
print('\nüìù Prompt B (Few-shot) - Pr√°cticas Agroindustria:')
print('-' * 50)
print(prompt_B)

## 4) Funci√≥n get_response adaptada a OpenAI

La funci√≥n usa el endpoint de chat completions y retorna el texto generado.

In [None]:
def get_response(
    prompt, model="gpt-4o-mini", temperature=0.7, max_tokens=256
):
    """
    Genera una respuesta usando OpenAI Chat Completions.
    Retorna el texto del assistant.
    """
    try:
        # client.chat.completions.create retorna un objeto con choices
        response = client.chat.completions.create(
            model=model,
            messages=[{"role": "user", "content": prompt}],
            temperature=temperature,
            max_tokens=max_tokens,
        )
        # Acceder al contenido de la primera choice correctamente
        content = response.choices[0].message.content
        return content
    except Exception as e:
        # Manejo b√°sico de errores
        print("Error al generar respuesta:", e)
        return None

## 5) Ejecutar experimento: Generar respuestas para cada variante

In [None]:
test_prompts = [prompt_A, prompt_B]
responses = []
num_tests = 5
model_to_use = (
    "gpt-4o-mini"  # Cambia por gpt-4o o gpt-4o-mini seg√∫n disponibilidad y coste
)  # Cambia por gpt-4o o gpt-4o-mini seg√∫n disponibilidad y coste

print('üöÄ Iniciando experimento A/B Testing con OpenAI...')
for idx, prompt in enumerate(test_prompts):
    var_name = chr(ord('A') + idx)
    print(f'üìä Generando respuestas para Variante {var_name}...')
    for i in range(num_tests):
        resp_text = get_response(prompt, model=model_to_use)
        data = {
            'variante': var_name,
            'prompt': prompt,
            'respuesta': resp_text
        }
        responses.append(data)
        print(f'  ‚úì Respuesta {i+1}/{num_tests} generada')
    print()
df = pd.DataFrame(responses)
df.to_csv('respuestas_openai.csv', index=False)

print('üìÑ Resumen del experimento:')
print(f'Total de respuestas generadas: {len(df)}')
print(df.head())

## 6) Interfaz de evaluaci√≥n humana (widgets)

La interfaz es equivalente a la del cuaderno original. En Colab ipywidgets puede requerir instalaci√≥n/soporte adicional; en Jupyter Notebook / JupyterLab funciona de forma nativa si tienes `ipywidgets`.

In [None]:
import ipywidgets as widgets
from IPython.display import display

# Cargar el CSV guardado (por si reiniciaste el kernel)
df = pd.read_csv('respuestas_openai.csv')
df = df.sample(frac=1).reset_index(drop=True)  # mezclar para evaluaci√≥n ciega
df['feedback'] = pd.Series(dtype='float')
response_index = 0

def update_response():
    global response_index
    new_response = df.iloc[response_index]['respuesta']
    if pd.notna(new_response):
        response.value = "<p>" + str(new_response) + "</p>"
    else:
        response.value = "<p>Sin respuesta</p>"
    count_label.value = f"Respuesta: {response_index + 1}/{len(df)}"

def on_button_clicked(b):
    global response_index
    user_feedback = 1 if b.description == '\U0001F44D' else 0
    df.at[response_index, 'feedback'] = user_feedback
    response_index += 1
    if response_index < len(df):
        update_response()
    else:
        df.to_csv('resultados_openai.csv', index=False)
        print('\n‚úÖ Prueba A/B completada. Resultados guardados en resultados_openai.csv')
        summary_df = df.groupby('variante').agg(cantidad=('feedback', 'count'), puntuacion=('feedback', 'mean')).reset_index()
        print(summary_df)

response = widgets.HTML()
count_label = widgets.Label()
update_response()
thumbs_up_button = widgets.Button(description='\U0001F44D')
thumbs_up_button.on_click(on_button_clicked)
thumbs_down_button = widgets.Button(description='\U0001F44E')
thumbs_down_button.on_click(on_button_clicked)
button_box = widgets.HBox([thumbs_down_button, thumbs_up_button])
print('üëá Eval√∫a cada respuesta usando los botones:')
display(response, button_box, count_label)

## 7) Conclusiones y pr√≥ximos pasos

- Incrementar el n√∫mero de iteraciones para mayor poder estad√≠stico
- Probar diferentes modelos (`gpt-3.5-turbo`, `gpt-4`, `gpt-4o`) para comparar coste/beneficio
- Guardar metadatos (temperatura, modelo) junto a cada respuesta para an√°lisis posterior
- Probar la ejecuci√≥n en Colab y en local para validar la carga de secrets