# GRUPO ALPACA
### Alicia Jiajun Lorenzo Lourido
### Mariel Irazema Chávez Rodríguez
### Abraham Trashorras Rivas

En este proyecto hemos explorado el uso de LLMs (Large Language Models) para la clasificación de textos. En concreto, usamos Llama 2, un proyecto de Meta con colaboración de Microsoft, disponible en modelos de 7, 13 y 70 mil millones de parámetros.

Este modelo se ha hecho una alternativa a GPT de OpenAI muy popular en los usuarios, debido a que tras la filtración de los pesos de su predecesor Llama 1 en el foro 4chan una semana después de su lanzamiento, Meta decidió publicar como código abierto el proyecto lo cual provocó una gran involucración de la comunidad en el proyecto.

Una de las modificaciones que ha realizado la comunidad y que usaremos extensivamente en este proyecto es la "decapación" o reducción de capas de los modelos sacrificando calidad de respuesta por peso y velocidad de ejecución. Esto sumado con la posibilidad de cargar parte del trabajo de cálculo del LLM en la GPU nos ha permitido ejecutar los modelos en nuestros equipos, lo que nos permite ser independientes de escrutinio de los servicios en la nube y proporcionar seguridad a los datos con los que trabajamos.

Estos modelos modificados fueron descargados de la plataforma Hugging Face del siguiente usuario: https://huggingface.co/TheBloke

Una de las mayores limitaciones que encontramos con las LLMs es el límite de tokens que el modelo acepta de entrada. En el caso de Llama 2 el límite es de 4096 tokens, que para el idioma Inglés se aproximan a 0.7 palabras por token. Esto nos ha forzado a preprocesar los datos de distintas formas para poder maximizar el límite de tokens con la información más relevante de los textos originales.

## PREPROCESADO

En la primera iteracción de esta sumerización, extraemos los siguientes datos:
1. Se extrae el título y el texto de cada página web usando Beautiful Soup.
2. En la misma función se realiza la sumarización utilizando Sumy y se genera un resumen de cada pagina con una longitud de 20 oraciones.
3. Por último se procesan todas las páginas web y se genera un archivo JSON que contiene por cada pagina web el título, el resumen y el ground_truth.

In [None]:
# Ruta de la carpeta que contiene los archivos originales
folder_path = "C:/Users/usuario/Downloads/dataset_splitted/splits/train/department"


# Ruta de la carpeta de salida para los archivos JSON
output_folder = "C:/Users/usuario/Downloads/dataset_splitted/splits/train_json/department_json"  

os.makedirs(output_folder, exist_ok=True)

#Función definida para extraer el título y el resumen de la pagina.
def extract_title_and_summary(file_path):
    with open(file_path, 'r', encoding='latin-1') as file:
        text = file.read()

    # Se analiza el contenido HTML usando BeautifulSoup.
    soup = BeautifulSoup(text, 'html.parser')

    # Se extrae el título de la página 
    title = soup.title.string if soup.title else "Sin título"

    # Se extrae el texto del cuerpo de la página
    page_text = ' '.join(soup.stripped_strings)

    # Se hace la sumarización utilizando sumy
    parser = PlaintextParser.from_string(page_text, Tokenizer("english"))
    summarizer = LexRankSummarizer()
    summary = summarizer(parser.document, sentences_count=20)  # Se puede ajustar la cantidad de oraciones en el resumen.

    summary_text = ' '.join([str(sentence) for sentence in summary])

    return {"Título": title, "Cuerpo": summary_text, "ground_truth": "department"}

# Se procesan todos los archivos de la carpeta 
for filename in os.listdir(folder_path):
    file_path = os.path.join(folder_path, filename)
    if os.path.isfile(file_path):  
        formatted_data = extract_title_and_summary(file_path)
        print("Procesado:", filename)
        print("Título:", formatted_data["Título"])
        print("Resumen:", formatted_data["Cuerpo"])
        print("Ground Truth:", formatted_data["ground_truth"])

        # Se guardan los datos en un archivo JSON 
        output_json_file = os.path.join(output_folder, os.path.splitext(filename)[0] + ".json")
        with open(output_json_file, 'w', encoding='utf-8') as json_file:
            json.dump(formatted_data, json_file, ensure_ascii=False, indent=4)


Procesado: abyxuyde
Título: Colgate University Department of Computer Science
Resumen: Date: Tuesday, 26-Nov-96 ? GMT Server: NCSA/1.3 MIME-version: 1.0 Content-type: text/html Last-modified: Wednesday, 07-Aug-96 ? GMT Content-length: 3922 Colgate University Department of Computer Science A BOUT THE D EPARTMENT Welcome to the Computer Science Department The Computer Science Program Courses Offered By The Department Information for Computer Science Lab Courses Faculty Pages Student Pages Alumni Pages http://cs.colgate.edu/ Revised: April 11, 1996. Questions to: knolan@cs.colgate.edu
Ground Truth: department
Procesado: afflum
Título: Clark University Department of Mathematics and Computer Science
Resumen: Date: Tue, 26 Nov 1996 23:05:52 GMT Server: NCSA/1.5.1 Last-modified: Tue, 15 Oct 1996 12:53:29 GMT Content-type: text/html Content-length: 2220 Clark University Department of Mathematics and Computer Science This is , the home page of the Mathematics and Computer Science department at 

Después de numerosas iteraciones y pruebas, hemos alcanzado la versión Después de numerosas iteraciones y pruebas, hemos alcanzado la versión empleamos un formato JSON para añadir secciones etiquetadas. Esto permite distintos enfoques en el tratamiento del texto y facilita la carga de secciones específicas según el tipo de 'prompt' requerido.

In [None]:
# Ruta de la carpeta que contiene los archivos origen
folder_path = "../data/splits/train/"  

# Lista creada para almacenar el texto del cuerpo de todas las páginas
all_page_texts = []

# Function defined to extract the title and summary from the page.
def extract_title_and_summary(file_path,dirs, limit_link=3,sentences_count=1,long_text=1024):
    with open(file_path, 'r', encoding='latin-1') as file:
        text = file.read()

    # Analyze the HTML content using BeautifulSoup.
    soup = BeautifulSoup(text, 'html.parser')

    # Extract the page title
    title = soup.title.string if soup.title else "No title"

    links = []
    for a in soup.find_all('a'):
        if 'href' in a.attrs:
            if len(links) < limit_link:
                links.append(a['href'])
            else:
                break

    # Extract the text from the page's body
    page_text = ' '.join(soup.stripped_strings)

    # Perform summarization using sumy
    parser = PlaintextParser.from_string(page_text, Tokenizer("english"))
    summarizer = LexRankSummarizer()
    summary = summarizer(parser.document, sentences_count=sentences_count)  # You can adjust the number of sentences in the summary.
    summary_text = ' '.join([str(sentence) for sentence in summary])

    return {"Title": title, "Body": summary_text, "link": links ,"ground_truth": dirs,"1024_text":text[:long_text]}

# Process all files in the folder
for dirs in os.listdir(folder_path):
    for filename in tqdm.tqdm(os.listdir(os.path.join(folder_path, dirs)), desc="Extrayendo datos"):
        file_path = os.path.join(folder_path, dirs, filename)
        #print(file_path)
        if os.path.isfile(file_path):
            formatted_data = extract_title_and_summary(file_path,dirs)
            # Save the data to a JSON file
            output_folder_dir=os.path.join(output_folder,dirs)
            os.makedirs(output_folder_dir, exist_ok=True)
            output_json_file = os.path.join(output_folder_dir, os.path.splitext(filename)[0] + ".json")
            with open(output_json_file, 'w', encoding='utf-8') as json_file:
                json.dump(formatted_data, json_file, ensure_ascii=False, indent=4)

Extrayendo datos:   1%|▏                        | 1/109 [00:00<00:03, 32.27it/s]


{'Title': 'Jason Collins', 'Body': "Date: Mon, 25 Nov 1996 23:24:12 GMT Server: NCSA/1.5.1 Last-modified: Wed, 30 Oct 1996 17:45:00 GMT Content-type: text/html Content-length: 2607 Jason Collins La Page de Jason Collins I'm currently working as a Research Associate at the University of Saskatchewan Department of Computer Science .", 'link': ['http://www.usask.ca', 'http://www.cs.usask.ca', 'http://www.cs.usask.ca/projects/aries/'], 'ground_truth': 'staff', '1024_text': 'Date: Mon, 25 Nov 1996 23:24:12 GMT\nServer: NCSA/1.5.1\nLast-modified: Wed, 30 Oct 1996 17:45:00 GMT\nContent-type: text/html\nContent-length: 2607\n\n<!DOCTYPE HTML SYSTEM "html.dtd">\n<HTML><HEAD>\n<TITLE>Jason Collins</TITLE></HEAD>\n<BODY\n      BACKGROUND="paper1.jpg"\n      TEXT="#000000"\n      LINK="#333399"\n      ALINK="#FFFFFF"\n      VLINK="#603333">\n<CENTER>\n<!WA0><IMG width=27 height=43 SRC="http://www.cs.usask.ca/homepages/staff/jac140/krk-a2.gif">\n<!WA1><IMG width=25 height=44 SRC="http://www.cs.usas

Extrayendo datos:   0%|                                 | 0/403 [00:00<?, ?it/s]
Extrayendo datos:   0%|                                | 0/3011 [00:00<?, ?it/s]
Extrayendo datos:   0%|                                 | 0/899 [00:00<?, ?it/s]
Extrayendo datos:   0%|                                 | 0/145 [00:00<?, ?it/s]
Extrayendo datos:   0%|                                | 0/1312 [00:00<?, ?it/s]
Extrayendo datos:   0%|                                 | 0/744 [00:00<?, ?it/s]


A mayores, también extraímos las palabras mas relevantes de cada documento y las añadimos al prompt del modelo, lo cual mejoró un 5% las salidas.

In [None]:

# Esta seccion es la que se encarga de tratar los archivos para extraer las keywords
import json
import os

def get_file(path_file):  
  with open(path_file) as f:
      data = json.load(f)
      
  dict_text={key: data[key] for key in data.keys() if key in {'title','summary','links'} }
  try:
    dict_text['keyword']=data['keyword_frequency_kebert']
  except:
    print(data.keys())
  return dict_text,data['ground_truth']

def get_class(train_path):
  #print(train_path)
  if os.path.exists(train_path) and os.path.isdir(train_path):
    carpetas = [nombre for nombre in os.listdir(train_path) if os.path.isdir(os.path.join(train_path, nombre))]
    return carpetas
  else:
    print("El directorio especificado no existe o no es un directorio válido.")

def get_archives(train_path):
  if os.path.exists(train_path) and os.path.isdir(train_path):
    carpetas = [os.path.join(train_path,nombre) for nombre in os.listdir(train_path) if os.path.isfile(os.path.join(train_path, nombre))]
    return carpetas
  else:
    print("El directorio especificado no existe o no es un directorio válido.")

def get_all_files(path_data,max_cont=-1):
    classes=get_class(path_data)
    archiver_per_clases={}
    prompt_per_clases={}
    cantidad_archivos={}
    promt_all_reson=[]
    archiver_all_reson=[]
    if len(classes)>0:
      for class_name in classes:
        archiver_per_clases[class_name]=get_archives(os.path.join(path_data,class_name))[0:max_cont]
        prompt_per_clases[class_name]=[get_file(archive) for archive in  archiver_per_clases[class_name]]
        promt_all_reson.extend(prompt_per_clases[class_name])
        archiver_all_reson.extend(archiver_per_clases[class_name])
        cantidad_archivos[class_name]=len(archiver_per_clases[class_name])
    else:
       archiver_per_clases['test']=get_archives(os.path.join(path_data,class_name))
       prompt_per_clases['test']=[get_file(archive) for archive  in  archiver_per_clases['test']]

    # Clave especial para ir de último
    clave_especial = 'other'
    # Ordenar el diccionario por el valor, manteniendo 'other' al final si existe
    ordenado = sorted(cantidad_archivos.items(), key=lambda item: (item[0] == clave_especial, -item[1]))

    ordenado =[i[0] for i in ordenado]
    return archiver_per_clases,prompt_per_clases,promt_all_reson,archiver_all_reson,ordenado

def tranform_text(text):
  return ' '.join([str(text[key]) for key in text.keys() if not key in {'links','keyword'}])

def get_most_representative_text(promt,num_topics=3,num_words=5):
    # Tus textos
    textos =promt
    
    # Preprocesamiento
    stop = set(stopwords.words('english'))  # Ajusta el idioma de acuerdo a tus textos
    exclude = set(string.punctuation)
    lemma = WordNetLemmatizer()
    
    def limpiar_documento(doc):
        stop_free = " ".join([i for i in doc.lower().split() if i not in stop])
        punc_free = ''.join(ch for ch in stop_free if ch not in exclude)
        normalizado = " ".join(lemma.lemmatize(word) for word in punc_free.split())
        return normalizado
    
    doc_limpio = [limpiar_documento(doc).split() for doc in textos]
    
    # Crear diccionario y matriz de términos del documento
    diccionario = corpora.Dictionary(doc_limpio)
    doc_term_matrix = [diccionario.doc2bow(doc) for doc in doc_limpio]
    
    # Crear el modelo LDA
    ldamodel = gensim.models.ldamodel.LdaModel(doc_term_matrix, num_topics=3, id2word = diccionario, passes=50)
    
    # Mostrar los tópicos
    print(ldamodel.print_topics(num_topics=num_topics, num_words=num_words))
    
    # Identificar el texto que mejor representa el tópico más común
    topicos = ldamodel.get_document_topics(doc_term_matrix)
    topicos_principales = [max(tp, key=lambda item: item[1])[0] for tp in topicos]
    
    # Encontrar el texto más representativo para el tópico más común
    topico_mas_comun = max(set(topicos_principales), key = topicos_principales.count)
    #textos_representativos = [texto for texto, topico in textos_topicos if topico == topico_mas_comun]
        
    umbral_relevancia = 0.5  # Solo considerar textos donde el tópico común represente al menos el 50% 
    
    # Crear tuplas con el índice, el texto, el tópico principal y la proporción del tópico principal
    textos_topicos_indices = [(indice, texto, topico, prop) for indice, (texto, tp) in enumerate(zip(textos, topicos)) for topico, prop in [max(tp, key=lambda item: item[1])]]
    
    # Ahora el desempaquetado debería funcionar correctamente
    textos_representativos_indices = [(indice,texto,prop) for indice, texto, topico, prop in textos_topicos_indices if topico == topico_mas_comun and prop >= umbral_relevancia]
    
    return sorted(textos_representativos_indices, key=lambda item: item[2], reverse=True)

También creamos un ranking de los archivos supuestamente mas representativos con el tamaño total del archivo, para buscar aquellos que puedan ser útiles como "muestras" para el prompt y ya que este solo admite 4060 token hay que selecionar la combinatoria de los ejemplo que permita realizar la clasificación. En este caso se puede jugar con la cantidad de palabras y las veces que se repite por lo que puede variar bastante, en este ejemplo se selecionaron 10 palabras con 20 repeticiones por la cantidad de textos y la extensión.

In [None]:
for key in promt_train.keys():
    promt=[tranform_text(i[0]) for i in promt_train[key]]
    student_text=get_most_representative_text(promt,10,20)
    for i in range(0,8):
        print(train[key][student_text[i][0]],' ind: ',student_text[i][0],
              ' val: ',student_text[i][2], ' tamno: ',len(str(promt_train[key][student_text[i][0]])))

[(0, '0.007*"page" + 0.007*"science" + 0.006*"network" + 0.006*"database" + 0.006*"computer" + 0.005*"1996" + 0.005*"system" + 0.005*"gmt" + 0.005*"home" + 0.005*"project" + 0.004*"university" + 0.004*"nov" + 0.004*"c" + 0.004*"site" + 0.004*"paradise" + 0.004*"use" + 0.004*"server" + 0.003*"distributed" + 0.003*"im" + 0.003*"program"'), (1, '0.023*"page" + 0.022*"gmt" + 0.020*"home" + 0.018*"computer" + 0.017*"1996" + 0.016*"science" + 0.012*"research" + 0.012*"server" + 0.011*"texthtml" + 0.011*"date" + 0.011*"contenttype" + 0.011*"university" + 0.011*"lastmodified" + 0.010*"department" + 0.010*"contentlength" + 0.009*"nov" + 0.007*"tue" + 0.007*"system" + 0.005*"26" + 0.004*"web"'), (2, '0.019*"gmt" + 0.015*"1996" + 0.012*"server" + 0.010*"nov" + 0.010*"university" + 0.010*"texthtml" + 0.010*"contenttype" + 0.010*"date" + 0.009*"tue" + 0.009*"page" + 0.009*"contentlength" + 0.009*"lastmodified" + 0.009*"department" + 0.008*"home" + 0.008*"science" + 0.008*"computer" + 0.007*"26" + 0

Por último, extraemos de los resúmenes de los textos las palabras más relevantes según KeyBERT.

In [None]:
#Se usa keybert para obtener las palabras clave de todos los textos.
modelo = KeyBERT()
palabras_clave = modelo.extract_keywords(all_page_summary, stop_words='english')

#Ver las palabras clave encntradas
for keyword in palabras_clave:
    print(keyword)
    
todas_palabras_clave = [clave for lista_p_claves in palabras_clave for clave in lista_p_claves]

## PROMPTS
El principal foco de nuestro estudio se ha centrado en como los distintos inputs o prompts al modelo modifican la calidad de sus respuestas. Hemos probado un total de 5 prompts los cuales veremos a continuación.

#### Estructura base
Todos los prompts que realizamos tienen la misma base, donde le indicamos al LLM las clases con las que trabaja, que solo debe respondernos con una de las dichas clases, el texto a clasificar y el inicio de su output.

In [None]:
f"Classify the text in this class : [{class_name}]. Reply with only one of these words: [{class_name}]. \n\
  Text: '{text}' \n\
  Classification: "

#### PROMPT 1
En este primer prompt introducimos datos de entrenamiento extraídos y seleccionados previamente según su relevancia. Tambien excluímos la clase "other" para que el modelo no la sobreasigne, asumiendo su error a cambio de intentar mejorar los resultados para las otras clases.

In [None]:
def creating_promt(class_name,text_traindata,text_classification):
  class_name=(', ').join(class_name)
  text_traindata = ('\n\n').join([f" Text:'{text}' \n Classification: {label}" for text,label in text_traindata if label!='other'])

  return f" Classify the text in this class : {class_name}. Reply with only one word:  {class_name}. \n\
  Examples: \n\
  {text_traindata} \n\n\
  Text: '{text_classification}' \n\
  Classification: "

#### PROMPT 2
El prompt 2 utiliza la estructura base y confía en la capacidad del modelo para clasificar.

In [None]:
def creating_promt_2(class_name,text):
  class_name=(', ').join(class_name)
  return f"Classify the text in this class : [{class_name}]. Reply with only one of these words: [{class_name}]. \n\
  Text: '{text}' \n\
  Classification: "

#### PROMPT 3 y 4
En estos prompts 3 y 4 utilizamos tanto las palabras clave como los textos relevantes para proporcionar la máxima información al modelo. La diferencia es que en el prompt 4 excluímos la clase "other" con el mismo criterio que en el Prompt 1.

In [None]:
def creating_promt_3(class_name,text_traindata,text_classification,keywords):
  class_name=(', ').join(class_name)
  text_traindata = ('\n\n').join([f" Text:'{text}' \n Classification: {label}" for text,label in text_traindata])
  palabras_clave = ('\n').join([f"{label} keywords are {keys} " for label,keys in keywords])
  return f" Classify the text in this class : {class_name}.\n\
  Reply with only one word:  {class_name}. \n\
  {palabras_clave} \n\n \
  Examples: \n\
  {text_traindata} \n\n\
  Text: '{text_classification}' \n\
  Classification: "

def creating_promt_4(class_name,text_traindata,text_classification,keywords):
  class_name=(', ').join(class_name)
  text_traindata = ('\n\n').join([f" Text:'{text}' \n Classification: {label}" for text,label in text_traindata if label!='other'])
  palabras_clave = ('\n').join([f"{label} keywords are {keys} " for label,keys in keywords])
  return f" Classify the text in this class : {class_name}.\n\
  Reply with only one word:  {class_name}. \n\
  {palabras_clave} \n\n \
  Examples: \n\
  {text_traindata} \n\n\
  Text: '{text_classification}' \n\
  Classification: "

#### PROMPT 5
Este prompt expande el Prompt 4, en vez de incluir un resumen del texto incluímos las palabras más relevantes de este, extraídas en el preprocesado con KeyBERT.

In [None]:
def tranform_text(text):
  return ' '.join([str(text[key]) for key in text.keys()])

def creating_promt_5(class_name,text_traindata,text_classification,keywords):
  class_name=(', ').join(class_name)
  text_traindata = ('\n\n').join([f" Text:'{tranform_text(text)}' \n class: {label}" for text,label in text_traindata if label!='other'])
  palabras_clave = ('\n').join([f"{label} keywords are {keys} " for label,keys in keywords])
  return f" Classify  text into one of 7 class : {class_name}.\n\
  Reply with only one word:  {class_name}. \n\
  {palabras_clave} \n\n \
  Examples: \n\
  {text_traindata} \n\n\
  Text: '{tranform_text(text_classification)}' \n\
  class: "

#### RAG
Investigamos la posibilidad de utilizar un RAG para aumentar el contexto que se le exponía al modelo, pero los resultados aunque mejoraban un poco se comprobó que debido a las limitaciones de computación y del modelo llevaba más inconvenientes, por lo que la investigación se continuó sin este. 

In [None]:
# RAG CALLING
index_name = 'llama-2-rag'
index = pinecone.Index(index_name)

embed_model_id = 'sentence-transformers/all-MiniLM-L6-v2'
device = f'cuda:{cuda.current_device()}' if cuda.is_available() else 'cpu'

embed_model = HuggingFaceEmbeddings(
    model_name=embed_model_id,
    model_kwargs={'device': device},
    encode_kwargs={'device': device, 'batch_size': 16}
)


text_field = 'text'  # field in metadata that contains text content

vectorstore = Pinecone(
    index, embed_model.embed_query, text_field
)

vectorstore.similarity_search(
    query,  # the search query
    k=5  # returns top 3 most relevant chunks of text
)

rag_pipeline = RetrievalQA.from_chain_type(
    llm=llm, chain_type='stuff',
    retriever=vectorstore.as_retriever()
)

### Gernerar el RAG

In [1]:
import json
import csv
import os

In [7]:

def get_file_2(path_file):  
  #print(path_file)
  with open(path_file) as f:
      data = json.load(f)
  #print(data.keys())
  return {key: data[key] for key in data.keys() if key != 'ground_truth' },data['ground_truth']

def get_class(train_path):
  print(train_path)
  if os.path.exists(train_path) and os.path.isdir(train_path):
    carpetas = [nombre for nombre in os.listdir(train_path) if os.path.isdir(os.path.join(train_path, nombre))]
    return carpetas
  else:
    print("El directorio especificado no existe o no es un directorio válido.")

def get_archives(train_path):
  if os.path.exists(train_path) and os.path.isdir(train_path):
    carpetas = [os.path.join(train_path,nombre) for nombre in os.listdir(train_path) if os.path.isfile(os.path.join(train_path, nombre))]
    return carpetas
  else:
    print("El directorio especificado no existe o no es un directorio válido.")

def get_all_files(path_data,max_cont=-1):
    #'./data/splits/train_json'
    classes=get_class(path_data)
    archiver_per_clases={}
    prompt_per_clases={}
    promt_all_reson=[]
    archiver_all_reson=[]
    if len(classes)>0:
      for class_name in classes:
        #print(get_archives(os.path.join(path_data,i)))
        archiver_per_clases[class_name]=get_archives(os.path.join(path_data,class_name))[0:max_cont]
        prompt_per_clases[class_name]=[get_file_2(archive) for archive in  archiver_per_clases[class_name]]
        promt_all_reson.extend(prompt_per_clases[class_name])
        archiver_all_reson.extend(archiver_per_clases[class_name])

        #print(len(archiver_per_clases[class_name]),promt_all_reson)
    else:
       archiver_per_clases['test']=get_archives(os.path.join(path_data,class_name))
       prompt_per_clases['test']=[get_file_2(archive) for archive  in  archiver_per_clases['test']]

    return archiver_per_clases,prompt_per_clases,promt_all_reson,archiver_all_reson

def creating_RAG_csv(text_traindata, csv_filename):
    # y el texto contiene el título, el enlace y el cuerpo separados de alguna manera definida

    with open(csv_filename, mode='w', newline='', encoding='utf-8') as file:
        writer = csv.writer(file)
        # Escribimos la cabecera del CSV
        writer.writerow(['title', 'body','links','label'])

        for text, label in text_traindata:
            #print(text)
            # Aqui necesitas extraer el titulo, el enlace y el cuerpo del texto
            # Esta es una forma genérica y puede que necesites ajustarla a tu estructura especifica
            title,body, link = text.values() # Esta función debe ser definida por ti

            # Escribimos la fila al CSV
            writer.writerow([title, body,link,label])

rag_data_csv='rag_data.csv'
train,promt_train,b,d=get_all_files('../data/splits/train_new_short',-1)
RAG=creating_RAG_csv(b,rag_data_csv)

../data/splits/train_new_short


visualizamos los datos

In [8]:
import pandas as pd
data=pd.read_csv(rag_data_csv)
display(data)

Unnamed: 0,title,body,links,label
0,Werner Vogels,If we want to take our distributed systems to ...,"['mailto:vogels@cs.cornell.edu', 'http://www.c...",staff
1,Jason Collins,"Date: Tue, 26 Nov 1996 19:24:33 GMT Server: NC...","['http://www.usask.ca', 'http://www.cs.usask.c...",staff
2,"\nJussi Karlgren, NYU\n",Background and Reseach Goals I received my B A...,"['http://www.sics.se/', 'http://www.sunet.se:8...",staff
3,Ashutosh Dutta's Home Page,"Date: Tue, 26 Nov 1996 20:25:51 GMT Server: Ap...",['http://www.cs.columbia.edu/cgi-bin/finger?du...,staff
4,Document moved,WWW Alert: Redirection response from server i...,['http://www.tc.cornell.edu/~bruce/'],staff
...,...,...,...,...
6611,A348 - Top page,Topics to be covered include: web server admin...,['http://www.cs.indiana.edu/l/www/home-page.ht...,course
6612,CS 404 Syllabus - Fall '94,"If you find it necessary to be absent, be sure...","['http://www.cs.byu.edu/byu.html', 'http://www...",course
6613,Computer Science 635 Home Page,"Date: Tuesday, 26-Nov-96 19:07:35 GMT Server: ...",['http://www.dcs.uky.edu/~seales/cs635/fall96/...,course
6614,CS 515,CS 515 is the practicum for those students who...,['http://simon.cs.cornell.edu/Info/Courses/Spr...,course


generamos un rag para los datos en la nube

In [10]:
from torch import cuda
from langchain.embeddings.huggingface import HuggingFaceEmbeddings
import os
import pinecone
import time
# modelo de selecion de datos del rag
embed_model_id = 'sentence-transformers/all-MiniLM-L6-v2'

device = f'cuda:{cuda.current_device()}' if cuda.is_available() else 'cpu'

embed_model = HuggingFaceEmbeddings(
    model_name=embed_model_id,
    model_kwargs={'device': device},
    encode_kwargs={'device': device, 'batch_size': 32}
)

# get API key from app.pinecone.io and environment from console
PINECONE_API_KEY=''#'bc795b6a-d0aa-4877-bdc6-414135eb4bef'
PINECONE_ENV='gcp-starter'
pinecone.init(
    api_key=os.environ.get('PINECONE_API_KEY') or PINECONE_API_KEY,
    environment=os.environ.get('PINECONE_ENVIRONMENT') or PINECONE_ENV
)


docs = [
    "this is one document",
    "and another document"
]

embeddings = embed_model.embed_documents(docs)

print(f"We have {len(embeddings)} doc embeddings, each with "
      f"a dimensionality of {len(embeddings[0])}.")


  from tqdm.autonotebook import tqdm


We have 2 doc embeddings, each with a dimensionality of 384.


**NOTA: SE DEJA ADJUNTADO EN rag_data.ipynb COMO SERÍA EL PROCESO DE LA GENERACIÓN YA QUE ACTUALMENTE NO SE SE CONSERVA LA CUENTA QUE CONTEINE EL RAG Y DA PROBLEMAS CON LA CONEXIÓN**

In [15]:
index_name = 'llama-2-rag'
#index_name = 'llama-2-rag-2'
if index_name not in pinecone.list_indexes():
    pinecone.create_index(
        index_name,
        dimension=len(embeddings[0]),
        metric='cosine'
    )
    # wait for index to finish initialization
    while not pinecone.describe_index(index_name).status['ready']:
        time.sleep(1)
else:
    pinecone.delete_index(index_name)
    pinecone.create_index(
        index_name,
        dimension=len(embeddings[0]),
        metric='cosine'
    )
    # wait for index to finish initialization
    while not pinecone.describe_index(index_name).status['ready']:
        time.sleep(1)
index = pinecone.Index(index_name)
index.describe_index_stats()
pinecone.list_indexes()

TypeError: expected string or bytes-like object, got 'NoneType'

In [None]:
import sys
batch_size = 16

for i in range(0, len(data), batch_size):
    i_end = min(len(data), i+batch_size)
    batch = data.iloc[i:i_end]
    ids = ids = [str(index) for index in range(i,i_end)]
    #texts = [x['body'] for i, x in batch.iterrows()]
    #'{'Title': 'CSc425/525 Home Page', 'Body': , 'link': ['http://www.cs.arizona.edu/classes/cs452', 'http://www.cs.arizona.edu/people/llp', 'mailto:llp@cs']}' 
    texts = [f"Text: Title:{x['title']} Body: {x['body']} link: {x['links']}  Classification: {x['label']}" for i, x in batch.iterrows()]
    embeds = embed_model.embed_documents(texts)
    # get metadata to store in Pinecone
    metadata = [
    {   'text': f"Text: Title:{x['title']} Body: {x['body']} link: {x['links']}  Classification: {x['label']}",
        'body': '' if pd.isna(x['body']) else x['body'],
        'links': '' if pd.isna(x['links']) else x['links'],
        'title': '' if pd.isna(x['title']) else x['title'],
        'label': '' if pd.isna(x['label']) else x['label']
        } for i, x in batch.iterrows()
    ]
    
    try:
        index.upsert(vectors=zip(ids, embeds, metadata))
    except:
        # add to Pinecone
        sice=sys.getsizeof(zip(ids, embeds, metadata))
        sice2=sys.getsizeof(embeds)
        print(sice,sice2)
        print(zip(ids, embeds, metadata))

## MODELOS de Llama 2
El otro foco del estudio ha sido ver como cada uno de los modelos disponibles de LLama 2 reaccionan con los prompts para producir resultados con mayor o menor calidad.

Para cargar el modelo 7b, basta con un código muy basico del paquete de Llama:

In [None]:
llm = Llama(model_path=model_path, n_ctx=4096)

Para el modelo de 13b con aceleración por GPU, necesitamos especificar los siguientes parámetros:

In [None]:
llm_gpu = Llama(model_path=model_path, 
            n_gpu_layers=40, n_threads=6, n_ctx=3584, n_batch=521, verbose=True)

Y por último para el modelo de 70b necesitamos indicar un parámetro a mayores:

In [None]:
llm_gpu_70B = Llama(model_path=model_path, n_gqa=8, 
            n_gpu_layers=20, n_threads=8, n_ctx=3584, n_batch=521, verbose=True)

## EJECUCIÓN
Incluímos los scripts que usamos para trabajar con LLama 2, los cuales incluyen los imports y todo el codigo consolidado para trabajar con los modelos. Lo único que haría falta sería crear la estructura de carpetas y cambiar sus enlaces en dichos scripts. Aquí podemos ver un ejemplo para la ejecución del modelo 7b y el prompt 2, donde la ejecución se asegura de relanzar el test para el documento actual si una salida válida no ha sido generada:

In [None]:
import logging
from llama_cpp import Llama
import json
from tqdm import tqdm
import os
import json
from datetime import datetime

def guardar_en_json(nombre_archivo, datos):
    cabecera = ['Titulo', 'Resultado', 'Intentos']

    for dato in datos:
        datos = dict(zip(cabecera, dato))

    with open(nombre_archivo, 'a', encoding='utf-8') as archivo_json:
        archivo_json.write(json.dumps(datos) + ",\n")

def get_file(path_file):  
  with open(path_file, 'r', encoding='utf-8') as f:
      data = json.load(f)
  return [f"{key} : {data[key]}" for key in data.keys() if key != 'ground_truth' ],data['ground_truth']
  
def get_class(train_path):
  print(train_path)
  if os.path.exists(train_path) and os.path.isdir(train_path):
    carpetas = [nombre for nombre in os.listdir(train_path) if os.path.isdir(os.path.join(train_path, nombre))]
    return carpetas
  else:
    print("El directorio especificado no existe o no es un directorio válido.")

def get_archives(train_path):
  if os.path.exists(train_path) and os.path.isdir(train_path):
    carpetas = [os.path.join(train_path,nombre) for nombre in os.listdir(train_path) if os.path.isfile(os.path.join(train_path, nombre))]
    return carpetas
  else:
    print("El directorio especificado no existe o no es un directorio válido.")

def creating_promt_2(class_name,text):
  class_name=(', ').join(class_name)
  return f"Classify the text in this class : [{class_name}]. Reply with only one of these words: [{class_name}]. \n\
  Text: '{text}' \n\
  Classification: "

def get_all_files(path_data,max_cont=-1):
    classes=get_class(path_data)
    archiver_per_clases={}
    prompt_per_clases={}
    promt_all_reson=[]
    archiver_all_reson=[]
    if len(classes)>0:
      for class_name in classes:
        archiver_per_clases[class_name]=get_archives(os.path.join(path_data,class_name))[0:max_cont]
        prompt_per_clases[class_name]=[get_file(archive) for archive in  archiver_per_clases[class_name]]
        promt_all_reson.extend(prompt_per_clases[class_name])
        archiver_all_reson.extend(archiver_per_clases[class_name])
    else:
       archiver_per_clases['test']=get_archives(os.path.join(path_data,class_name))
       prompt_per_clases['test']=[get_file(archive) for archive  in  archiver_per_clases['test']]

    return archiver_per_clases,prompt_per_clases,promt_all_reson,archiver_all_reson

 
def promting(llm,prompt,logging):
    # Genera la respuesta
    output = llm(prompt)
    return output['choices'][0]['text']


# Inicializa Llama y guarda la información del modelo en el registro
model_path = "./llama_models/llama-2-7b.Q4_K_M.gguf"


llm = Llama(model_path=model_path, n_ctx=4096)


class_name=get_class('./data/splits/train')

train,promt_train,b,d=get_all_files('./data/splits/train_new',1)
test,promt_test,a,c=get_all_files('./data/splits/test_new',-1)

prompts=[(name,creating_promt_2(class_name,text_class[0] )) for name,text_class in zip(c,a)]

datos_a_guardar = []


fecha_actual = datetime.now()
sufijo_fecha = fecha_actual.strftime("%Y-%m-%d_%H-%M-%S")
nombre_archivo_con_fecha = f"resultados_{sufijo_fecha}.json"

palabras_clave = ['course', 'department', 'faculty', 'other', 'project', 'staff', 'student']

for prompt in tqdm(prompts, desc="promting"):
    name, prompt_text = prompt
    resultado_valido = False
    result = None
    intentos = 0  # Inicializar contador de intentos
    
    while not resultado_valido:
        intentos += 1  # Incrementar el contador de intentos
        # Ejecutar la función de prompting
        result = promting(llm, prompt_text, logging)
        
        # Verificar si alguna palabra clave está en el resultado
        if any(palabra in result for palabra in palabras_clave):
            # Escoger la primera palabra clave encontrada
            result = next((palabra for palabra in palabras_clave if palabra in result), result)
            resultado_valido = True
    
    # Una vez obtenido un resultado válido, guardarlo
    datos_a_guardar.append((name, result, intentos))
    guardar_en_json(nombre_archivo_con_fecha, datos_a_guardar)

## RESULTADOS
Ahora podemos abordar el resultado de las distintas combinaciones estudiadas entre prompt y modelo.

#### ALPACA_PROMPT3_70B - 0,20
Este ha sido nuestro peor resultado, y en general el modelo de 70b pese a ser el más grande no nos ha proporcionado buenos resultados.

#### ALPACA_VARIANTE_1 (Modelo 7b, Prompt 1) - 0,21
El modelo 7b también generaba valores pésimos y necesitaba varias iteraciones por documento para generar una respuesta válida.

#### ALPACA_PROMPT2_70B - 0,27
Con un prompt más simple el modelo 70b generó mejores resultados, pero aún así no muy altos.

#### ALPACA_VARIANTE_4 (Modelo 13b, Prompt 2) - 0,41
El modelo 13 aún sin más explicación en el prompt produjo un 41% de aciertos

#### ALPACA_VARIANTE_2 y _3 (Modelo 13b, Prompt 1, sin y con aceleracion de GPU) - 0,45
Probamos a generar dos resultados con el mismo modelo y prompt para ver si esto influenciaba el resultado, pero las pruebas demonstraron lo contrario.

#### ALPACA_PROMPT2_RAG1 (Modelo 13, prompt 1) - 0,47
El uso de RAG mejoró el resultado del modelo 13b ligeramente, pero no funcionaba bien con otros prompts y consumía muchos tokens

#### ALPACA_PROMPT3_13B - 0,48
Este ha sido nuestro mejor resultado medido con Llama 2, proporcionando en el prompt tanto ejemplos como palabras clave para cada clase

## Finetuning
Otra de las ramas que intentamos explorar con Llama 2 era el Finetuning a cargo de Abraham, pero encontró imposible su realización debido al coste computacional y a las discrepancias entre las fuentes online. Para comprobar la capacidad de esta técnica, optamos por llevar a cabo un Finetuning de pago con GPT3.5 mediante la web de OpenAI.

A los textos les hicimos la misma sumarización con la que trabajamos en Llama 2, los formateamos en jsonl y realizamos el entrenamiento con un total de 2.432.394 tokens por el precio de $19.46 y un tiempo de 2 horas. Aqui podemos ver el código usado para conectarse a su API y realizar la clasificación de los documentos de test por un coste de 1983 peticiones y 438,421 tokens a $1.46:

In [None]:
import os
import openai
import json

def generate_chatdata_jsonl(directory_path):
    data = []
    classes = os.listdir(directory_path)
    for class_folder in classes:
        class_path = os.path.join(directory_path, class_folder)
        if os.path.isdir(class_path):
            for file_name in os.listdir(class_path):
                file_path = os.path.join(class_path, file_name)
                if os.path.isfile(file_path) and file_name.endswith('.json'):
                    with open(file_path, 'r', encoding='utf-8') as f:
                        file_data = json.load(f)
                        title_str = str(file_data['Title']) if file_data['Title'] is not None else ''
                        body_str = str(file_data['Body']) if file_data['Body'] is not None else ''
                        link_str = ' '.join(file_data['link']) if isinstance(file_data['link'], list) else str(file_data['link'])

                        content_str = title_str + " " + body_str + " " + link_str
                        messages = []
                        messages.append({"role": "system", "content": f"Chat is a classificator system that classifies documents in one of {len(classes)} classes: {classes}"})
                        messages.append({"role": "user", "content": content_str})
                        messages.append({"role": "assistant", "content": class_folder})
                        data.append({"messages": messages})
    with open(os.path.join(directory_path, 'TESTdata.jsonl'), 'w', encoding='utf-8') as f:
        for item in data:
            f.write(json.dumps(item) + '\n')

generate_chatdata_jsonl("./data/splits/train_new/")
generate_chatdata_jsonl("./data/splits/test_new/")

def guardar_en_json(nombre_archivo, datos):
    cabecera = ['Titulo', 'Resultado', 'Intentos']

    for dato in datos:
        datos = dict(zip(cabecera, dato))

    with open(nombre_archivo, 'a', encoding='utf-8') as archivo_json:
        archivo_json.write(json.dumps(datos) + ",\n")

datos_a_guardar = []
palabras_clave = ['course', 'department', 'faculty', 'other', 'project', 'staff', 'student']

def clasificar_documentos(directorio, api_key):
    # Establecer la clave API para OpenAI
    openai.api_key = api_key

    # Recorrer todos los archivos en el directorio
    for archivo in os.listdir(directorio):
        ruta_archivo = os.path.join(directorio, archivo)
        
        # Asegúrate de que es un archivo y no un directorio
        if os.path.isfile(ruta_archivo):
            # Leer el contenido del archivo
            with open(ruta_archivo, 'r', encoding='utf-8') as file:
                contenido = file.read()

            resultado_valido = False
            result = None
            intentos = 0  # Inicializar contador de intentos
            
            while not resultado_valido:
                intentos += 1  # Incrementar el contador de intentos
                
                # Llamar al modelo de OpenAI para la clasificación
                respuesta = openai.ChatCompletion.create(
                    model="ft:gpt-3.5-turbo-1106:personal::8JF9QqM1",
                    messages=[
                        {"role": "system", "content": "Chat is a classificator system that classifies documents in one of 7 classes: ['course', 'department', 'faculty', 'other', 'project', 'staff', 'student']:"},
                        {"role": "user", "content": contenido}
                    ],
                    max_tokens=50      # Ajusta el número de tokens según sea necesario
                )
                
                # Verificar si alguna palabra clave está en el resultado
                if any(palabra in respuesta.choices[0].message['content'] for palabra in palabras_clave):
                    # Escoger la primera palabra clave encontrada
                    result = next((palabra for palabra in palabras_clave if palabra in respuesta.choices[0].message['content']),respuesta.choices[0].message['content'])
                    resultado_valido = True

            # Procesar y mostrar la respuesta
            print(f"Clasificación para {archivo}: {result}. Intentos: {intentos}")
            datos_a_guardar.append((ruta_archivo, result, intentos))
            guardar_en_json("resultados_chatgpt.json", datos_a_guardar)

# Usar la función
directorio = './data/splits/test_new/test/'
api_key = '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'
clasificar_documentos(directorio, api_key)

Clasificación para aaclkul.json: other. Intentos: 1
Clasificación para aagelci.json: other. Intentos: 1
Clasificación para aangjmn.json: other. Intentos: 1
Clasificación para aawnpc.json: other. Intentos: 1
Clasificación para abdjgiz.json: student. Intentos: 1
Clasificación para abeith.json: other. Intentos: 1
Clasificación para acbplmv.json: other. Intentos: 1
Clasificación para aceolgzx.json: other. Intentos: 1
Clasificación para aeohgccl.json: student. Intentos: 1
Clasificación para afdtazl.json: student. Intentos: 1
Clasificación para ahomx.json: faculty. Intentos: 1
Clasificación para aigkvvw.json: student. Intentos: 1
Clasificación para aiiuj.json: course. Intentos: 1
Clasificación para aimch.json: student. Intentos: 1
Clasificación para aiqltd.json: faculty. Intentos: 1
Clasificación para aishkqu.json: other. Intentos: 1
Clasificación para aixqtudn.json: other. Intentos: 1
Clasificación para aizdnscx.json: other. Intentos: 1
Clasificación para ajgfhfc.json: other. Intentos: 1
Cl

GPT dió un resultado ALPACA_VARIANTE_CHATGPT - 0,82, muy alto en comparación a los obtenidos en Llama 2. Probablemente hubiesemos conseguido valores muy altos con los modelos de LLama de haber conseguido realizar el Finetuning de los mismos.

## COSTES TEMPORALES
Aún con los modelos "decapados" y con la aceleración por GPU, la ejecución de estos LLMs es costosa computacional y temporalmente.

El modelo 7b costaba unas 6 horas de ejecución sin aceleración GPU y 40 minutos con dicha aceleración.

El modelo 13b costaba 10 horas sin aceleración y 1 hora y media con aceleración.

El modelo 70b costaba 20 horas sin aceleración y 3 horas y media con aceleración.

## DOCUMENTOS INCLUÍDOS



En la carpeta Splits incluímos los datos originales y transformados con los que trabajamos en este proyecto, en la carpeta Scripts incluímos los documentos python con los que llevamos a cabo del proyecto y en la carpeta Resultados incluímos los csv de los resultados obtenidos.

En Scripts, el documento Prompts_1_2_3.py incluye el código necesario para la ejecución de los mismos en cualquiera de los 3 modelos