In [55]:
from sklearn.datasets import fetch_20newsgroups
import pandas as pd
import openai

# Selección de sólo 2 de las 20 categorías disponibles
categories = ['rec.sport.baseball', 'rec.sport.hockey']
sports_dataset = fetch_20newsgroups(subset='train', shuffle=True, random_state=42, categories=categories)

## Exploración de los datos

In [56]:
# sin .split('.')[-1] > 'rec.sport.baseball'
sports_dataset.target_names[sports_dataset['target'][0]].split('.')[-1]

'baseball'

In [57]:
print(sports_dataset['data'][0])

From: dougb@comm.mot.com (Doug Bank)
Subject: Re: Info needed for Cleveland tickets
Reply-To: dougb@ecs.comm.mot.com
Organization: Motorola Land Mobile Products Sector
Distribution: usa
Nntp-Posting-Host: 145.1.146.35
Lines: 17

In article <1993Apr1.234031.4950@leland.Stanford.EDU>, bohnert@leland.Stanford.EDU (matthew bohnert) writes:

|> I'm going to be in Cleveland Thursday, April 15 to Sunday, April 18.
|> Does anybody know if the Tribe will be in town on those dates, and
|> if so, who're they playing and if tickets are available?

The tribe will be in town from April 16 to the 19th.
There are ALWAYS tickets available! (Though they are playing Toronto,
and many Toronto fans make the trip to Cleveland as it is easier to
get tickets in Cleveland than in Toronto.  Either way, I seriously
doubt they will sell out until the end of the season.)

-- 
Doug Bank                       Private Systems Division
dougb@ecs.comm.mot.com          Motorola Communications Sector
dougb@nwu.edu       

In [58]:
# Se numera el total de muestras y la cantidad de muestras por categoría
len_all, len_baseball, len_hockey = len(sports_dataset.data), len([e for e in sports_dataset.target if e == 0]), len([e for e in sports_dataset.target if e == 1])
print(f"Total examples: {len_all}, Baseball examples: {len_baseball}, Hockey examples: {len_hockey}")

Total examples: 1197, Baseball examples: 597, Hockey examples: 600


In [59]:
# lista con la categoría asociada a cada dato
# .split('.')[-1]: convierte >>> 'rec.sport.baseball' >>> 'baseball'
# sports_dataset.target_names >>> ['rec.sport.baseball', 'rec.sport.hockey']
# sports_dataset.target >>> array([0, 1, 0, ..., 0, 0, 1], dtype=int64)
category = [sports_dataset.target_names[target].split('.')[-1] for target in sports_dataset.target]

# .s.strip()  >>> extrae los espacios en blanco al principio y al final de cada texto
s = sports_dataset.data
prompt = [s.strip() for s in sports_dataset.data]

# Crear un DataFrame con los datos y sus categorías
df = pd.DataFrame({'prompt': prompt, 'completion': category})

# Mostrar el DataFrame
df.head()

Unnamed: 0,prompt,completion
0,From: dougb@comm.mot.com (Doug Bank)\nSubject:...,baseball
1,From: gld@cunixb.cc.columbia.edu (Gary L Dare)...,hockey
2,From: rudy@netcom.com (Rudy Wade)\nSubject: Re...,baseball
3,From: monack@helium.gas.uug.arizona.edu (david...,hockey
4,Subject: Let it be Known\nFrom: <ISSBTL@BYUVM....,baseball


In [60]:
df.shape

(1197, 2)

In [61]:
import random
df = df.sample(n=20, random_state=42)

In [62]:
# Código de openai (mismo resultado que el código anterior)
#labels = [sports_dataset.target_names[x].split('.')[-1] for x in sports_dataset['target']]
#texts = [text.strip() for text in sports_dataset['data']]
#df = pd.DataFrame(zip(texts, labels), columns = ['prompt','completion']) #[:300]
#df.head()

In [63]:
# usando dataset df se crea fichero de formato JSON que se guarda en disco duro
# "sport2.jsonl" >>> nombre del fichro
# orient='records' >>>  especifica que cada registro en el DataFrame se convertirá en un objeto JSON.
# lines=True >>> especifica que cada objeto JSON se escribirá en una línea separada en el archivo de salida. 
# Si no se especifica, el archivo de salida tendrá todo el contenido en una sola línea.
df.to_json("sport2.jsonl", orient='records', lines=True)

In [64]:
import json

# Abrir el archivo en modo lectura
with open('sport2.jsonl', 'r') as f:
    # Cargar cada línea del archivo en una lista de diccionarios
    data = [json.loads(line) for line in f]

# Imprimir la lista de diccionarios
print(data)

[{'prompt': 'From: dtate+@pitt.edu (David M. Tate)\nSubject: Re: Braves Pitching UpdateDIR\nOrganization: Department of Industrial Engineering\nLines: 54\n\nsbp002@acad.drake.edu said:\n\n>> In article 2482@adobe.com, snichols@adobe.com (Sherri Nichols) writes:\n>>>Every single piece of evidence we can find points to Major League Baseball\n>>>being 50% offense, 50% defense.  A run scored is just as important as a run\n>>>prevented.  \n\n>Of course a run scored is just as important as a run prevented.\n>Just as a penny saved is a penny earned.  Enough with the cliches.\n\nIt\'s not a cliche, and (unlike your comments below) it\'s not a tautology.\nIt needn\'t have been true.  If every pitcher in baseball were essentially\nthe same in quality (i.e. if the variance of pitching ability were much\nsmaller than the variance of batting ability), then scoring runs would be\nmuch more important than preventing them, simply because the *ability* to\nactively prevent runs would be much weaker.\n\




## Herramienta de preparación de datos

Antes de lanzar la herramienta, se debe actualizar la biblioteca openai para asegurarnos de que estamos utilizando la última herramienta de preparación de datos. 

In [65]:
!pip install --upgrade openai




[notice] A new release of pip is available: 23.0 -> 23.0.1
[notice] To update, run: python.exe -m pip install --upgrade pip





- Ahora usamos una herramienta de preparación de datos que sugerirá algunas mejoras en nuestro conjunto de datos (sport2.jsonl) antes de ajustarlo finamente.  Además, especificamos -q, para aceptar automáticamente todas las sugerencias.
- La herramienta sugiere al finalizar algunas mejoras al conjunto de datos y divide el conjunto de datos en conjuntos de entrenamiento y validación.
- Es necesario un sufijo entre una entrada y una finalización para indicarle al modelo que se ha detenido el texto de entrada y que ahora necesita predecir la clase. 
- Dado que usamos el mismo separador en cada ejemplo, el modelo puede aprender que debe predecir béisbol o hockey después del separador. 
- Un prefijo de espacio en las finalizaciones es útil, ya que la mayoría de los tokens de palabras se tokenizan con un prefijo de espacio. 
- La herramienta también reconoció que esta es probablemente una tarea de clasificación, por lo que sugirió dividir el conjunto de datos en conjuntos de entrenamiento y validación. 
- Esto nos permitirá medir fácilmente el rendimiento esperado en nuevos datos.

In [66]:
!openai tools fine_tunes.prepare_data -f sport2.jsonl -q

Analyzing...

- Your file contains 20 prompt-completion pairs. In general, we recommend having at least a few hundred examples. We've found that performance tends to linearly increase for every doubling of the number of examples
- Based on your data it seems like you're trying to fine-tune a model for classification
- For classification, we recommend you try one of the faster and cheaper models, such as `ada`
- For classification, you can estimate the expected model performance by keeping a held out dataset, which is not used for training
- Your data does not contain a common separator at the end of your prompts. Having a separator string appended to the end of the prompt makes it clearer to the fine-tuned model where the completion should begin. See https://beta.openai.com/docs/guides/fine-tuning/preparing-your-dataset for more detail and examples. If you intend to do open-ended generation, then you should leave the prompts empty
- The completion should start with a whitespace charact

In [67]:
with open('sport2_prepared_valid.jsonl', 'r') as archivo:
    for linea in archivo:
        # Analizar la línea como un objeto JSON
        objeto = json.loads(linea)
        # Hacer algo con el objeto
        print(objeto)

{'prompt': 'From: ragraca@vela.acs.oakland.edu (Randy A. Graca)\nSubject: Re: Wings will win\nOrganization: Oakland University, Rochester, Michigan, U.S.A.\nLines: 47\nNNTP-Posting-Host: vela.acs.oakland.edu\n\ngballent@hudson.UVic.CA (Greg  Ballentine) writes:\n\n>All of this is fine.  I never said that Murray was a bad GM.  I merely said\n>that he isn\'t the best GM in hockey- or even a contender for that honor.\n>If Murray is as great as you claim- the Wings would have won the Stanley Cup\n>by now- probably more than once.  If he was as great a GM as you claim\n\nI think you missed one of my points there.  It takes *more* than a great\nGM to win a stanley cup, even once.  Some of the guys on the list you\ngave earlier never won one.  I agree that you and I could probably argue\nback and forth for days to no avail about who is the best GM in hockey-\nthat is a matter of opinion, and who is to say my opinion is any better \nthan yours or yours than mine?  But the point of my *original

## Fine-tuning

- La herramienta sugiere un comando para entrenar el modelo utilizando el conjunto de datos y una configuración específica.
- Además, la herramienta recomienda agregar dos opciones adicionales para calcular las métricas de clasificación y establecer la clase positiva para la tarea de clasificación.
- La opción --compute_classification_metrics se utiliza para calcular las métricas de evaluación de clasificación, como precisión, recuperación y F1-score, 
- mientras que --classification_positive_class "baseball" se utiliza para establecer la clase positiva en "béisbol" para la tarea de clasificación. 
- Luego, el texto menciona que el comando sugerido se puede copiar directamente desde la herramienta de línea de comandos.
- El texto explica que se ha agregado la opción -m ada al comando para seleccionar el modelo de lenguaje "ada", que es más rápido y económico en comparación con otros modelos más lentos y costosos, pero que aún puede proporcionar un buen rendimiento en tareas de clasificación.

In [68]:
#from getpass import getpass

# Solicitar la contraseña al usuario
#openai.api_key = getpass("Introduzca la contraseña: ")

In [69]:
#from getpass import getpass
import os
#os.environ["OPENAI_API_KEY"] = getpass("Introduzca la contraseña: ")
os.environ["OPENAI_API_KEY"] = "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"

In [70]:
#import os
#!openai --api-key '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' api fine_tunes.create -t "sport2_prepared_train.jsonl" -v "sport2_prepared_valid.jsonl" --compute_classification_metrics --classification_positive_class " baseball" -m ada

In [71]:
!openai api fine_tunes.create -t "sport2_prepared_train.jsonl" -v "sport2_prepared_valid.jsonl" --compute_classification_metrics --classification_positive_class " baseball" -m ada

^C
