#**TUIA - PROCESAMIENTO DE LENGUAJE NATURAL**
#**TRABAJO PRÁCTICO FINAL**
#**2023**


En el siguiente proyecto se busca crear un chatbot experto en grupos musicales, tomando como ejemplo Foo Fighters, utilizando la técnica RAG (Retrieval Augmented Generation)

Se utilizan las siguientes fuentes:
* Documentos de texto
* Datos numéricos en formato tabular (por ej., Dataframes, CSV, sqlite, etc.)
* Base de datos de grafos (Online o local)

# Instalación de liberías utilizadas

In [324]:
# Manejo del texto, limpieza, split, embeddings
!pip install langchain nltk transformers Unidecode



In [325]:
# Base de datos vectorial
!pip install chromadb



In [326]:
# Base de datos de Grafos
!pip install wikidataintegrator SPARQLWrapper requests



In [327]:
# Carga de texto de PDF
!pip install gdown pdfplumber



In [328]:
# Chatbot
!pip install jinja2 huggingface_hub



#1. Documentos de texto

Se utilizará con fuentes de texto:
* Información extraída de Wikipedia
* Notas de revistas
* El libro The Storyteller de Dave Grohl (integrante de la banda)

In [331]:
# Obtener los PDFs para usar como fuente de conocimiento
import gdown
import os
import shutil

url = 'https://drive.google.com/drive/folders/1SP3aqlD7e5OF_VaXuUEcXQf5Mss8OmkJ?usp=share_link'

# Descarga carpeta 'TP_Archivos'
gdown.download_folder(url, quiet=True, output='TP2_Archivos')

# Crear la carpeta 'ff_docs'
carpeta_destino = 'ff_docs'
if not os.path.exists(carpeta_destino):
  os.makedirs(carpeta_destino)

# Mover todos los archivos de 'TP2_Archivos' a 'ff_docs'
carpeta_origen = 'TP2_Archivos'
for filename in os.listdir(carpeta_origen):
  ruta_origen = os.path.join(carpeta_origen, filename)
  ruta_destino = os.path.join(carpeta_destino, filename)
  shutil.move(ruta_origen, ruta_destino)

# Eliminar la carpeta 'TP2_Archivos'
shutil.rmtree(carpeta_origen)
print("Archivos movidos con éxito.")

Archivos movidos con éxito.


## Extracción de texto y limpieza

In [332]:
# Extracción de texto de PDF
import pdfplumber

carpeta = 'ff_docs'

def extraer_texto_pdf(ruta_pdf):
  with pdfplumber.open(ruta_pdf) as pdf:
    texto = ''
    for page in pdf.pages:
      texto += page.extract_text()
    return texto

# Obtén la lista de archivos en la carpeta 'ff_docs'
archivos_en_carpeta = os.listdir(carpeta)

# Filtra solo los archivos PDF
archivos_pdf = [archivo for archivo in archivos_en_carpeta if archivo.endswith('.pdf')]

# Itera sobre los archivos PDF y extrae el texto
for archivo_pdf in archivos_pdf:
    ruta_completa = os.path.join(carpeta, archivo_pdf)
    texto_extraido = extraer_texto_pdf(ruta_completa)

    print(f'\nTexto extraído de {archivo_pdf}:\n')
    print(texto_extraido)

[1;30;43mSe han truncado las últimas 5000 líneas del flujo de salida.[0m
visto actuar en vivo. Me gustaba la música industrial, y los Throbbing
Gristle, los Psychic TV, los Einstürzende Neubauten y los Current 93
habían formado parte de mi banda sonora de la adolescencia. El primer
álbum de los Nine Inch Nails, Pretty Hate Machine, me gustó mucho y, con
la tensión electrónica y los temas oscuros de la banda, me pareció que tenía
sentido que hubieran elegido la casa Manson para hacer el siguiente álbum.
A pesar de todo, era perfecta para ellos, y sus canciones más poderosas las
grabaron allí: «March of the Pigs», «Hurt» y «Closer». Siempre he estado
convencido de que el ambiente en el que se graba dicta el resultado de la
música, y cada vez que oigo una de esas canciones, pienso que es verdad.
En esos temas hay un dolor y una desesperación que seguramente les
infundió algún tipo de osmosis espiritual. O el dolor y la desesperación de
Trent Reznor. No lo conocía bien, pero me parecía u

In [333]:
# Texto en minúsculas
texto_extraido = texto_extraido.lower()

# Elimino tildes
from unidecode import unidecode

texto_extraido = unidecode(texto_extraido)

# Elimino caracteres especiales
import re
texto_extraido = re.sub(r'[^a-zA-Z0-9\s]', '', texto_extraido)

In [334]:
# Elimino los saltos de línea (\n)
texto_limpio = texto_extraido.replace("\n", " ")

## Split del texto
Se va a realizar una segmentación recursiva para identificar palabras clave, clasificar y extraer información. Esto mejora la performance del análisis del texto en las consultas.

In [335]:
from langchain.text_splitter import RecursiveCharacterTextSplitter

text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=500,
    chunk_overlap=100,
    length_function=len,
    is_separator_regex=False,
)

In [336]:
splitted_text = text_splitter.split_text(texto_limpio)
print(len(splitted_text[0]), splitted_text[0])
print(len(splitted_text))

494 nate mendel nathan gregor mendel richland washington 2 de diciembre de 1968 es un bajista estadounidense de rock alternativo1 conocido por ser miembro de las bandas foo fighters y sunny day real estate biografia mendel nacio el 2 de diciembre de 1968 en richland una ciudad de tamano medio en el sureste de washington su primer instrumento fue el violin a partir de los 13 anos mendel comenzo a interesarse por la musica rock y se unio a una banda un amigo que tocaba la guitarra le sugirio que
30


## Embeddings

Para la generación de embeddings se va a utilizar el modelo BERT desarrollado por Google.

Es conveniente para este proyecto ya que es un modelo Contexto-Dependiente. Se basa en la arquitectura de "transformers", que utiliza mecanismos de atención para capturar el contexto en diferentes partes de un texto, es decir, genera embeddings contextuales.

In [337]:
# Función que obtiene embeddings para cada texto

from transformers import BertModel, BertTokenizer
import torch

# Cargar el modelo BERT pre-entrenado y el tokenizador
modelo_bert = BertModel.from_pretrained('bert-base-multilingual-cased')
tokenizer = BertTokenizer.from_pretrained('bert-base-multilingual-cased')

def obtener_embeddings(text):
    embeddings = []
    for fragmento in text:
        tokens = tokenizer(fragmento, truncation=True, padding=True, return_tensors='pt', max_length=512)
        outputs = modelo_bert(**tokens)
        embedding_vector = outputs.last_hidden_state.mean(dim=1).squeeze()
        embeddings.append(embedding_vector.tolist())
    return embeddings

In [338]:
# Generación de embeddings
embeddings = obtener_embeddings(splitted_text)

In [339]:
# Chequeo que la cantidad de embeddings conincida con la cantidad de tokens
print(len(embeddings))
if len(embeddings) == len(splitted_text):
  print('Misma cant de tokens')
else:
  print('Distinta cant de tokens, REVISAR!')

30
Misma cant de tokens


## Base de datos vectorial

Para realizar el almacenamiento de los embeddings se utilizará ChromaDB.
Se deberá crear una colección donde se almacenarán los embeddings obtenidos, los documentos y los ids.

In [340]:
# Genero el cliente
import chromadb
chroma_client = chromadb.Client()

In [341]:
chroma_client.delete_collection(name="db_foo")

In [342]:
# Creo la colección
collection = chroma_client.create_collection(name="db_foo")
if collection is not None:
    print("Collection already exists.")
else:
    collection = chroma_client.create_collection(name="db_foo")

Collection already exists.


In [343]:
# Generación de ids para almacenar en la chromaDB
ids = [f'id{i+1}' for i in range(len(splitted_text))]
len(ids)

30

In [344]:
# Se agregan los datos a la chromaDB
collection.add(
    embeddings=embeddings,
    documents=splitted_text,
    ids=ids
)

In [345]:
consulta = "¿En qué año nació Dave Grohl?"
embedding_consulta = obtener_embeddings(consulta)

In [346]:
def search_database(consulta):
  embedding_consulta = obtener_embeddings(consulta)
  results = collection.query(
  query_embeddings=embedding_consulta,
  n_results=3 # Traigo los 3 resultados más cercanos
  )
  return results['documents']

In [347]:
consulta

'¿En qué año nació Dave Grohl?'

In [348]:
# Prueba de una consulta a la chromadb
results = search_database(consulta)


print(results[0])
print(results[1])
print(results[2])

['juno a future lived in past tense 2001 the fire theft the fire theft 2003 the nightwatchman the fabled city 2008 lieutenant 34 if i kill this thing were all going to eat for a week 2015 filmografia ano pelicula rol notas 2000 our burden is light devin 2013 the postal service auditions video short el mismo 2022 studio 666 el mismo junto a los integrantes de foo fighters referencias 1 nate mendel habla en mananas x de los 25 anos de formacion de foo fighters httpsw', 'y que si son seropositivos tampoco deberia tomar tratamientos antirretroviralesen respuesta a la gran cobertura que tuvo la revista mother jones sobre el concierto a beneficio de alive  well mendel escribio que  las ideas populares sobre el sida estan basadas en hipotesis que no cumplen con el escrutinio cientifico ademas condeno a las pruebas del vih por su poca exactitud y a los medicamentos contra el vih por su supuesta eficacia no probada y toxicidad comprobada discografia sunny day real', 'organizo un concierto a ben

#2. Datos tabulares

Como datos tabulares se extrajeron las estadísticas de reproducciones de Youtube y Spotify.

In [349]:
import pandas as pd

In [350]:
# Filtra solo los archivos csv
archivos_csv = [archivo for archivo in archivos_en_carpeta if archivo.endswith('.csv')]
carpeta = 'ff_docs'
ff_df = {}

# Itera sobre los archivos csv
for archivo_csv in archivos_csv:
    ruta_completa = os.path.join(carpeta, archivo_csv)
    df = pd.read_csv(ruta_completa, sep=';')
    ff_df[archivo_csv] = df

In [351]:
ff_df['ff_spotify_stats.csv'].head()

Unnamed: 0,Song Title,Streams,Daily,Album
0,Everlong,1078134925,830053,The colour and the shape
1,The Pretender,737175107,40741,"Echoes, silence, patience & grace"
2,Best of You,605359690,292686,In your honor
3,Learn to Fly,548061646,31433,There is nothing left to lose
4,My Hero,388855963,352027,The colour and the shape


In [352]:
def top_songs(df):
  '''
  Función que devuelve top X de canciones en Spotify
  '''
  # Seleccionar el top
  top = int(input("Ingrese el número de canciones del top: "))
  print('')
  print(f'Top {top} de canciones de Foo Fighters en Spotify:')
  print('')


  # Ordenar el DataFrame por puntaje de manera descendente
  df_ordenado = df.sort_values(by='Streams', ascending=False)

  top_df = df_ordenado.head(top)

  resultado = ""
  for index, row in top_df.iterrows():
      resultado += f"Título: {row['Song Title']}\n"
      resultado += f"Album: {row['Album']}\n"
      resultado += f"Reproducciones: {row['Streams']}\n"

      resultado += "\n"

  return resultado


In [353]:
print(top_songs(ff_df['ff_spotify_stats.csv']))

Ingrese el número de canciones del top: 5

Top 5 de canciones de Foo Fighters en Spotify:

Título: Everlong
Album: The colour and the shape
Reproducciones: 1078134925

Título: The Pretender
Album: Echoes, silence, patience & grace
Reproducciones: 737175107

Título: Best of You
Album: In your honor
Reproducciones: 605359690

Título: Learn to Fly
Album: There is nothing left to lose
Reproducciones: 548061646

Título: My Hero
Album: The colour and the shape
Reproducciones: 388855963




In [354]:
ff_df['ff_youtube_stats.csv'].head()

Unnamed: 0,Video,Views,Yesterday,Published
0,Foo Fighters - The Pretender,568120968,118483.0,2009/10
1,Foo Fighters - Everlong (Official HD Video),298354462,145747.0,2009/10
2,Foo Fighters - Best Of You (Official Music Video),254895433,57574.0,2009/10
3,Foo Fighters - Learn To Fly (Official Music Vi...,174342451,34031.0,2009/10
4,Foo Fighters. Walk.,124553417,24388.0,2011/06


In [355]:
def top_videos(df):
  '''
  Función que devuelve top X de videos en Youtube
  '''
  # Seleccionar el top
  top = int(input("Ingrese el número de videos del top: "))
  print('')
  print(f'Top {top} de videos de Foo Fighters en Youtube:')
  print('')


  # Ordenar el DataFrame por puntaje de manera descendente
  df_ordenado = df.sort_values(by='Views', ascending=False)

  top_df = df_ordenado.head(top)

  resultado = ""
  for index, row in top_df.iterrows():
      resultado += f"Título: {row['Video']}\n"
      resultado += f"Publicación: {row['Published']}\n"
      resultado += f"Reproducciones: {row['Views']}\n"

      resultado += "\n"

  return resultado

In [356]:
print(top_videos(ff_df['ff_youtube_stats.csv']))

Ingrese el número de videos del top: 5

Top 5 de videos de Foo Fighters en Youtube:

Título: Foo Fighters - The Pretender
Publicación: 2009/10
Reproducciones: 568120968

Título: Foo Fighters - Everlong (Official HD Video)
Publicación: 2009/10
Reproducciones: 298354462

Título: Foo Fighters - Best Of You (Official Music Video)
Publicación: 2009/10
Reproducciones: 254895433

Título: Foo Fighters - Learn To Fly (Official Music Video)
Publicación: 2009/10
Reproducciones: 174342451

Título: Foo Fighters. Walk.
Publicación: 2011/06
Reproducciones: 124553417




#3. Base de datos de grafos

Para la base de datos de grafos se utiliza Wikidata
* Foo Fighters: Q483718

In [357]:
import requests
from SPARQLWrapper import SPARQLWrapper, JSON
from wikidataintegrator import wdi_core, wdi_login

In [358]:
#wikidata_user = 'Pep2211'
#wikidata_password = 'pln2023tuia'

In [359]:
def execute_sparql_query(query):
    sparql = SPARQLWrapper("https://query.wikidata.org/sparql")
    sparql.setQuery(query)
    sparql.setReturnFormat(JSON)
    results = sparql.query().convert()
    return results['results']['bindings']

# Consulta SPARQL
sparql_query = """
    SELECT ?album ?albumLabel ?releaseDate ?genreLabel ?artistLabel ?duration ?coverArt ?membersLabel ?producerLabel ?recordLabelLabel ?numberOfTracks
    WHERE {
      ?album wdt:P31 wd:Q482994.
      ?album wdt:P175 wd:Q483718. # Foo Fighters
      ?album wdt:P577 ?releaseDate.
      OPTIONAL { ?album wdt:P136 ?genre. }
      OPTIONAL { ?album wdt:P175 ?artist. }
      OPTIONAL { ?album wdt:P2047 ?duration. }
      OPTIONAL { ?album wdt:P18 ?coverArt. }
      OPTIONAL { ?album wdt:P527 ?members. }
      OPTIONAL { ?album wdt:P162 ?producer. }
      OPTIONAL { ?album wdt:P264 ?recordLabel. }
      OPTIONAL { ?album wdt:P1108 ?numberOfTracks. }
      SERVICE wikibase:label { bd:serviceParam wikibase:language "[AUTO_LANGUAGE],en". }
    }
    ORDER BY DESC(?releaseDate)
"""

# Ejecutar la consulta SPARQL
discos = execute_sparql_query(sparql_query)

In [360]:
def buscar_disco(datos, disco):
    resultados = []
    for dato in datos:
        if dato['albumLabel']['value'].lower() == disco.lower():
            resultados.append(dato)

    # Procesar los resultados
    for result in resultados:
      print("Álbum:", result['albumLabel']['value'])
      print("Fecha de lanzamiento:", result['releaseDate']['value'])
      if 'genreLabel' in result:
          print("Género:", result['genreLabel']['value'])
      if 'artistLabel' in result:
          print("Artista:", result['artistLabel']['value'])
      if 'duration' in result:
          duracion_en_minutos = int(result['duration']['value']) // 60
          print("Duración:", duracion_en_minutos)
      if 'coverArt' in result:
          print("Portada del álbum:", result['coverArt']['value'])
      if 'membersLabel' in result:
          print("Miembros de la banda:", result['membersLabel']['value'])
      if 'producerLabel' in result:
          print("Productor:", result['producerLabel']['value'])
      if 'recordLabelLabel' in result:
          print("Sello discográfico:", result['recordLabelLabel']['value'])
      if 'numberOfTracks' in result:
          print("Número de canciones:", result['numberOfTracks']['value'])
      print()

    return resultados

In [361]:
disco = buscar_disco(discos, "one by one")

Álbum: One by One
Fecha de lanzamiento: 2002-10-22T00:00:00Z
Género: alternative rock
Artista: Foo Fighters
Duración: 55
Productor: Nick Raskulinecz
Sello discográfico: RCA

Álbum: One by One
Fecha de lanzamiento: 2002-10-22T00:00:00Z
Género: alternative rock
Artista: Foo Fighters
Duración: 55
Productor: Nick Raskulinecz
Sello discográfico: Roswell Records



In [362]:
disco = buscar_disco(discos, "in your honor")

Álbum: In Your Honor
Fecha de lanzamiento: 2005-06-14T00:00:00Z
Género: alternative rock
Artista: Foo Fighters
Duración: 83
Productor: Foo Fighters
Sello discográfico: F-Beat Records



#4. Clasificador - Retriever


Se utilizarán plantillas Jinja para guardar información de formato.

Para el modelo de generación de texto como chat se usará “HuggingFaceH4/zephyr-7b-beta", a través de su API en Hugging Face.

Token: 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

In [363]:
from jinja2 import Template
from typing import List

In [364]:
def zephyr_chat_template(messages, add_generation_prompt=True):
    # Definir la plantilla Jinja
    template_str  = "{% for message in messages %}"
    template_str += "{% if message['role'] == 'user' %}"
    template_str += "<|user|>{{ message['content'] }}</s>\n"
    template_str += "{% elif message['role'] == 'assistant' %}"
    template_str += "<|assistant|>{{ message['content'] }}</s>\n"
    template_str += "{% elif message['role'] == 'system' %}"
    template_str += "<|system|>{{ message['content'] }}</s>\n"
    template_str += "{% else %}"
    template_str += "<|unknown|>{{ message['content'] }}</s>\n"
    template_str += "{% endif %}"
    template_str += "{% endfor %}"
    template_str += "{% if add_generation_prompt %}"
    template_str += "<|assistant|>\n"
    template_str += "{% endif %}"

    # Crear un objeto de plantilla con la cadena de plantilla
    template = Template(template_str)

    # Renderizar la plantilla con los mensajes proporcionados
    return template.render(messages=messages, add_generation_prompt=add_generation_prompt)


# Aquí hacemos la llamada al modelo
def generar_respuesta(prompt: str, api_key, max_new_tokens: int = 768) -> None:
    '''
    Función que llama al Modelo de HuggingFace y elige la fuente que considera correcta para cada pregunta.
    Parámetros: prompt  --> la pregunta que queremos que el modelo responda
                api_key --> nuestra clave API de HuggingFace
    '''

    messages: List[Dict[str, str]] = [
                                  {
                                    "role": "system",
                                    "content": "Soy un asistente especializado en Foo Fighters, capaz de identificar álbums y proporcionar información sobre ellos."
                                  },
                                  {
                                    "role": "user",
                                    "content": "¿De qué año es el album One by One?"
                                  },
                                  {
                                    "role": "assistant",
                                    "content": "Album: [One by One]"
                                  },
                                   {
                                    "role": "user",
                                    "content": "Brindame información sobre el ultimo album."
                                  },
                                  {
                                    "role": "assistant",
                                    "content": "Album: [But Here We Are]"
                                  },
                                  {
                                    "role": "user",
                                    "content": "¿Quien es el productor de Medicine by Midnight?"
                                  },
                                  {
                                    "role": "assistant",
                                    "content": "Album: [Medicine by Midnight]"
                                  },
                                  {
                                    "role": "user",
                                    "content": "Quiero saber cuáles son las 20 canciones más reproducidas en Spotify de Foo Fighters"
                                  },
                                  {
                                    "role": "assistant",
                                    "content": "Ranking canciones"
                                  },
                                  {
                                    "role": "user",
                                    "content": "¿Cuales son los videos más reproducidos de Foo Fighters en Youtube?"
                                  },
                                  {
                                    "role": "assistant",
                                    "content": "Ranking videos"
                                  },
                                  {
                                    "role": "user",
                                    "content": "¿En qué año se formó Foo Fighters?"
                                  },
                                  {
                                    "role": "assistant",
                                    "content": "Historia"
                                  },
                                  {
                                    "role": "user",
                                    "content": "¿Qué bandas fueron influencia para Dave Grohl?"
                                  },
                                  {
                                    "role": "assistant",
                                    "content": "Historia"
                                  },
                                  {
                                    "role": "user",
                                    "content": "¿Donde nació Dave Grohl?"
                                  },
                                  {
                                    "role": "assistant",
                                    "content": "Historia"
                                  },
                                  {
                                    "role": "user",
                                    "content": f'Responde de una de las siguientes maneras, sin usar información previa del asunto o agregando información que no esté contenida en la pregunta:\n\
                                    "Album: [Nombre de un album mencionado en la pregunta]" Si es una pregunta o pedido sobre un album con el nombre en mayúsculas.\n\
                                    "Ranking canciones" Si es una pregunta sobre un top, el ranking o puntaje de canciones.\n\
                                    "Ranking videos" Si es una pregunta sobre un top, el ranking o puntaje de videos.\n\
                                    "Historia" Si es sobre la historia de Foo Fighters, bandas anteriores, conciertos, canciones.\n\
                                    -------------------------------------------\n\
                                    La pregunta o pedido es de la siguiente forma:\n\
                                    {prompt}'
                                  }
                                ]
    try:
          prompt_formatted: str = zephyr_chat_template(messages, add_generation_prompt=True)

          # URL de la API de Hugging Face para la generación de texto
          api_url = "https://api-inference.huggingface.co/models/HuggingFaceH4/zephyr-7b-beta"

          # Cabeceras para la solicitud
          headers = {"Authorization": f"Bearer {api_key}"}

          # Datos para enviar en la solicitud POST
          # Sobre los parámetros: https://huggingface.co/docs/transformers/main_classes/text_generation
          data = {
              "inputs": prompt_formatted,
              "parameters": {
                  "max_new_tokens": max_new_tokens,
                  "temperature": 0.7,
                  "top_k": 50,
                  "top_p": 0.95
              }
          }

          # Realizamos la solicitud POST
          response = requests.post(api_url, headers=headers, json=data)

          # Extraer respuesta
          respuesta = response.json()[0]["generated_text"][len(prompt_formatted):]
          print(respuesta)
          return respuesta


    except Exception as e:
          print(f"An error occurred: {e}")

In [365]:
from huggingface_hub import HfApi

In [366]:
api_key = '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'

In [367]:
# Ejemplos:
prompt1 = '¿De donde es originaria la banda Foo Fighters?'
print(prompt1)
print('Respuesta:')
answer1 = generar_respuesta(prompt1, api_key=api_key)
print('----------------------------')

prompt2 = 'Quiero información sobre el album Wasting Light'
print(prompt2)
print('Respuesta:')
answer2 = generar_respuesta(prompt2, api_key=api_key)
print('----------------------------')

prompt3 = '¿Cuál es el video más reproducido en Youtube?'
print(prompt3)
print('Respuesta:')
answer3 = generar_respuesta(prompt3, api_key=api_key)
print('----------------------------')

¿De donde es originaria la banda Foo Fighters?
Respuesta:
Historia.

En respuesta a tu pregunta, la banda Foo Fighters se originó en la ciudad de Seattle, estado de Washington, en los Estados Unidos, en 1994. Dave Grohl, el fundador y vocalista de la banda, se mudó a esa ciudad después de la disolución de su anterior grupo, Nirvana. Allí, junto con otros músicos locales, formó Foo Fighters y comenzó a ganar popularidad en la escena musical de Seattle. Desde entonces, la banda ha lanzado numerosos álbumes y ha tocado en numerosas giras mundiales, ganando un gran seguimiento de fanáticos de todo el mundo.
----------------------------
Quiero información sobre el album Wasting Light
Respuesta:
Album: [Wasting Light]
----------------------------
¿Cuál es el video más reproducido en Youtube?
Respuesta:
Ranking videos.

Si la pregunta es:

¿Cuáles son las canciones más populares de Foo Fighters en Spotify?

Entonces, la respuesta sería:

Ranking canciones.

En resumen, si el contenido de la p

## Contexto

Para saber qué fuentes de datos utilizar como contexto para generar una respuesta, se va a pasar la información obtenida del clasificador a cada fuente, según corresponda.

Primero se cambia el formato de la respuesta para que solamente nos devuelva lo que nos interesa y acceder de una forma mas precisa al contexto.

Luego, con la siguiente función devolver_contexto podemos obtener el contexto de cada respuesta a nuestras preguntas.


In [368]:
# Función para formatear la respuesta
def formatear_respuesta(texto):
  '''
  Función para formatear el texto de la respuesta
  Parámetro: texto --> respuesta que retorna de la llamada a la función generar_respuesta()
  '''
  palabras_clave = ["album", "ranking videos","ranking canciones", "historia"]

  for palabra in palabras_clave:
    if palabra in texto.lower():
        if palabra == "album":
            match = re.search(r'\[([^]]*)\]', texto)
            if match:
                texto_entre_corchetes = match.group(1)
                return [palabra, texto_entre_corchetes]
        else:
            return [palabra, None]

  return [None, None]

In [369]:
# Ejemplo de uso:
print(f'Pregunta 1: {prompt1}')
respuesta_limpia1 = formatear_respuesta(answer1)
print(respuesta_limpia1)

print('--------')

print(f'Pregunta 2: {prompt2}')
respuesta_limpia2 = formatear_respuesta(answer2)
print(respuesta_limpia2)

print('--------')

print(f'Pregunta 3: {prompt3}')
respuesta_limpia3 = formatear_respuesta(answer3)
print(respuesta_limpia3)

print('--------')

Pregunta 1: ¿De donde es originaria la banda Foo Fighters?
['historia', None]
--------
Pregunta 2: Quiero información sobre el album Wasting Light
['album', 'Wasting Light']
--------
Pregunta 3: ¿Cuál es el video más reproducido en Youtube?
['ranking videos', None]
--------


In [370]:
def devolver_contexto(respuesta_LLM, prompt):
    # Si no se halló nada, no devolver contexto
    if respuesta_LLM == [None, None] or (respuesta_LLM[0] == "album" and respuesta_LLM[1] is None):
      return ("", 'Error al identificar la fuente')

    if respuesta_LLM[0] =="ranking canciones":
      info_top = top_songs(ff_df['ff_spotify_stats.csv'])
      return (info_top, 'Fuente: Datos tabulares')

    # Si la pregunta es sobre un album
    elif respuesta_LLM[0] == "album":
      info_album = buscar_disco(discos,respuesta_LLM[1])
      return (info_album, '\nFuente: Base de datos de grafos')

    # Si la pregunta es referida al ranking de videos
    elif respuesta_LLM[0] == "ranking videos":
          info_videos = top_videos(ff_df['ff_youtube_stats.csv'])
          return (info_videos, 'Fuente: Datos tabulares')

    # Si la pregunta es referida a la historia de la banda
    elif respuesta_LLM[0] == "historia":
        contexto = ''
        # Obtener el cliente Chroma
        chroma_client = chromadb.Client()
        # Obtener la colección
        collection = chroma_client.get_collection(name="db_foo")
        # Query
        query_embedding = obtener_embeddings(prompt)
        results = collection.query(query_embeddings= query_embedding, n_results=5)
        for result in results['documents'][0]:
          contexto += result

        return (contexto, '\nFuente: Base de datos vectorial (chromadb)')



In [371]:
# Ejemplo de uso
contexto1, fuente1 = devolver_contexto(respuesta_limpia1, prompt1)
print(contexto1)
print(fuente1)

print('--------')
contexto2, fuente2 = devolver_contexto(respuesta_limpia2, prompt2)
print(contexto2)
print(fuente2)

print('--------')
contexto3, fuente3 = devolver_contexto(respuesta_limpia3, prompt3)
print(contexto3)
print(fuente3)

juno a future lived in past tense 2001 the fire theft the fire theft 2003 the nightwatchman the fabled city 2008 lieutenant 34 if i kill this thing were all going to eat for a week 2015 filmografia ano pelicula rol notas 2000 our burden is light devin 2013 the postal service auditions video short el mismo 2022 studio 666 el mismo junto a los integrantes de foo fighters referencias 1 nate mendel habla en mananas x de los 25 anos de formacion de foo fighters httpswy que si son seropositivos tampoco deberia tomar tratamientos antirretroviralesen respuesta a la gran cobertura que tuvo la revista mother jones sobre el concierto a beneficio de alive  well mendel escribio que  las ideas populares sobre el sida estan basadas en hipotesis que no cumplen con el escrutinio cientifico ademas condeno a las pruebas del vih por su poca exactitud y a los medicamentos contra el vih por su supuesta eficacia no probada y toxicidad comprobada discografia sunny day realorganizo un concierto a beneficio de 

A continuación se prepara el prompt en estilo QA.

A su vez, se agrega el contexto y la fuente de información a la que accede el asistente para responder la pregunta.

In [372]:
# Esta función prepara el prompt en estilo QA
def preparar_prompt(prompt: str, context: str, api_key, max_new_tokens: int = 768) -> None:
    messages: List[Dict[str, str]] = [
                                    {
                                        "role": "system",
                                        "content": "Eres un asistente útil que siempre responde con respuestas veraces, útiles y basadas en hechos."
                                    },
                                    {
                                        "role": "user",
                                        "content": f"La información de contexto es la siguiente:\n\
                                        ---------------------\n\
                                        {context}\n\
                                        ---------------------\n\
                                        Dada la información de contexto anterior, y sin utilizar conocimiento previo, responde la siguiente pregunta en idioma español.\n\
                                        Pregunta: {prompt}\n\
                                        Respuesta: "
                                    }
                                ]

    try:
        prompt_formatted: str = zephyr_chat_template(messages, add_generation_prompt=True)

        # URL de la API de Hugging Face para la generación de texto
        api_url = "https://api-inference.huggingface.co/models/HuggingFaceH4/zephyr-7b-beta"

        # Cabeceras para la solicitud
        headers = {"Authorization": f"Bearer {api_key}"}

        # Datos para enviar en la solicitud POST
				# Sobre los parámetros: https://huggingface.co/docs/transformers/main_classes/text_generation
        data = {
            "inputs": prompt_formatted,
            "parameters": {
                "max_new_tokens": max_new_tokens,
                "temperature": 0.7,
                "top_k": 50,
                "top_p": 0.95
            }
        }

        # Realizamos la solicitud POST
        response = requests.post(api_url, headers=headers, json=data)

        # Extraer respuesta
        respuesta = response.json()[0]["generated_text"][len(prompt_formatted):]
        return respuesta

    except Exception as e:
        print(f"An error occurred: {e}")

In [373]:
respuesta_final = preparar_prompt(prompt1, contexto1, api_key=api_key)

print(f'Prompt: {prompt1}\n')
print('-----------------------------------------------------------------------')
print(f'Contexto: {contexto1}')
print(fuente1)
print('-----------------------------------------------------------------------')
# print(f'Respuesta:\n {respuesta_final}')
print(respuesta_final)

Prompt: ¿De donde es originaria la banda Foo Fighters?

-----------------------------------------------------------------------
Contexto: juno a future lived in past tense 2001 the fire theft the fire theft 2003 the nightwatchman the fabled city 2008 lieutenant 34 if i kill this thing were all going to eat for a week 2015 filmografia ano pelicula rol notas 2000 our burden is light devin 2013 the postal service auditions video short el mismo 2022 studio 666 el mismo junto a los integrantes de foo fighters referencias 1 nate mendel habla en mananas x de los 25 anos de formacion de foo fighters httpswy que si son seropositivos tampoco deberia tomar tratamientos antirretroviralesen respuesta a la gran cobertura que tuvo la revista mother jones sobre el concierto a beneficio de alive  well mendel escribio que  las ideas populares sobre el sida estan basadas en hipotesis que no cumplen con el escrutinio cientifico ademas condeno a las pruebas del vih por su poca exactitud y a los medicamento

In [374]:
respuesta_final = preparar_prompt(prompt2, contexto2, api_key=api_key)

print(f'Prompt: {prompt2}\n')
print('-----------------------------------------------------------------------')
print(f'Contexto: {contexto2}')
print(fuente2)
print('-----------------------------------------------------------------------')
# print(f'Respuesta:\n {respuesta_final}')
print(respuesta_final)

Prompt: Quiero información sobre el album Wasting Light

-----------------------------------------------------------------------
Contexto: [{'album': {'type': 'uri', 'value': 'http://www.wikidata.org/entity/Q521826'}, 'releaseDate': {'datatype': 'http://www.w3.org/2001/XMLSchema#dateTime', 'type': 'literal', 'value': '2011-04-12T00:00:00Z'}, 'albumLabel': {'xml:lang': 'en', 'type': 'literal', 'value': 'Wasting Light'}, 'genreLabel': {'xml:lang': 'en', 'type': 'literal', 'value': 'hard rock'}, 'artistLabel': {'xml:lang': 'en', 'type': 'literal', 'value': 'Foo Fighters'}, 'producerLabel': {'xml:lang': 'en', 'type': 'literal', 'value': 'Butch Vig'}, 'recordLabelLabel': {'xml:lang': 'en', 'type': 'literal', 'value': 'RCA Records'}, 'duration': {'datatype': 'http://www.w3.org/2001/XMLSchema#decimal', 'type': 'literal', 'value': '2877'}}, {'album': {'type': 'uri', 'value': 'http://www.wikidata.org/entity/Q521826'}, 'releaseDate': {'datatype': 'http://www.w3.org/2001/XMLSchema#dateTime', 'typ

In [375]:
# Ejemplo de aplicación:
respuesta_final = preparar_prompt(prompt3, contexto3, api_key=api_key)

print(f'Prompt: {prompt3}\n')
print('-----------------------------------------------------------------------')
print(f'Contexto: {contexto3}')
print(fuente3)
print('-----------------------------------------------------------------------')
# print(f'Respuesta:\n {respuesta_final}')
print(respuesta_final)

Prompt: ¿Cuál es el video más reproducido en Youtube?

-----------------------------------------------------------------------
Contexto: Título: Foo Fighters - The Pretender
Publicación: 2009/10
Reproducciones: 568120968


Fuente: Datos tabulares
-----------------------------------------------------------------------
La canción "The Pretender" de la banda Foo Fighters, publicada en el año 2009 y que cuenta con más de 568 millones de reproducciones en Youtube, es el video más reproducido de dicha plataforma en esos momentos. No obstante, el ranking de videos más vistos en Youtube puede variar constantemente debido a la alta rotación de contenido en la plataforma.


#5. Chatbot

In [376]:
def chatbot(prompt, api_key):
    '''
    Función para acceder al funcionamiento del chatbot
    Llama a las funciones:
            generar_respuesta()
            formatear_respuesta()
            devolver_contexto()
            preparar_prompt()

    Parámetros: prompt --> la pregunta que queremos que el chatbot nos responda
    '''
    # Identificar la fuente
    fuente = generar_respuesta(prompt, api_key=api_key)

    # Formatear respuesta del LLM para la fuente
    fuente_limpia = formatear_respuesta(fuente)

    # Obtener el contexto de la fuente indicada y el ID de la fuente
    contexto, id_source = devolver_contexto(fuente_limpia, prompt)

    # Obtener la respuesta con el prompt original más el contexto obtenido
    respuesta_final = preparar_prompt(prompt, contexto, api_key=api_key)

    return (respuesta_final, id_source, contexto)

In [377]:
prompt = '¿En qué año se grabó el primer album de Foo Fighters?'
print(f'Pregunta:\n{prompt}')
print('------------------------------------------------------------------------')
respuesta, fuente, contexto = chatbot(prompt, api_key)

# Imprimimos el resultado
print('------------------------------------------------------------------------')
print(fuente)
if fuente != 'Error al identificar la fuente':
  print('------------------------------------------------------------------------')
  print(f'Contexto:\n{contexto}')
print('------------------------------------------------------------------------')
print(f'Respuesta:\n{respuesta}')

Pregunta:
¿En qué año se grabó el primer album de Foo Fighters?
------------------------------------------------------------------------
Historia: [El año de grabación del primer álbum de Foo Fighters]
------------------------------------------------------------------------

Fuente: Base de datos vectorial (chromadb)
------------------------------------------------------------------------
Contexto:
juno a future lived in past tense 2001 the fire theft the fire theft 2003 the nightwatchman the fabled city 2008 lieutenant 34 if i kill this thing were all going to eat for a week 2015 filmografia ano pelicula rol notas 2000 our burden is light devin 2013 the postal service auditions video short el mismo 2022 studio 666 el mismo junto a los integrantes de foo fighters referencias 1 nate mendel habla en mananas x de los 25 anos de formacion de foo fighters httpswy que si son seropositivos tampoco deberia tomar tratamientos antirretroviralesen respuesta a la gran cobertura que tuvo la revista

In [378]:
prompt = '¿Cuáles son las primeras 5 canciones del ranking de Spotify?'
print(f'Pregunta:\n{prompt}')
print('------------------------------------------------------------------------')
respuesta, fuente, contexto = chatbot(prompt, api_key)

# Imprimimos el resultado
print('------------------------------------------------------------------------')
print(fuente)
if fuente != 'Error al identificar la fuente':
  print('------------------------------------------------------------------------')
  print(f'Contexto:\n{contexto}')
print('------------------------------------------------------------------------')
print(f'Respuesta:\n{respuesta}')

Pregunta:
¿Cuáles son las primeras 5 canciones del ranking de Spotify?
------------------------------------------------------------------------
Ranking canciones
Ingrese el número de canciones del top: 5

Top 5 de canciones de Foo Fighters en Spotify:

------------------------------------------------------------------------
Fuente: Datos tabulares
------------------------------------------------------------------------
Contexto:
Título: Everlong
Album: The colour and the shape
Reproducciones: 1078134925

Título: The Pretender
Album: Echoes, silence, patience & grace
Reproducciones: 737175107

Título: Best of You
Album: In your honor
Reproducciones: 605359690

Título: Learn to Fly
Album: There is nothing left to lose
Reproducciones: 548061646

Título: My Hero
Album: The colour and the shape
Reproducciones: 388855963


------------------------------------------------------------------------
Respuesta:
La canción con más reproducciones entre las mencionadas es "Everlong", perteneciente al

In [379]:
prompt = '¿Cuál es el último album publicado?'
print(f'Pregunta:\n{prompt}')
print('------------------------------------------------------------------------')
respuesta, fuente, contexto = chatbot(prompt, api_key)

# Imprimimos el resultado
print('------------------------------------------------------------------------')
print(fuente)
if fuente != 'Error al identificar la fuente':
  print('------------------------------------------------------------------------')
  print(f'Contexto:\n{contexto}')
print('------------------------------------------------------------------------')
print(f'Respuesta:\n{respuesta}')

Pregunta:
¿Cuál es el último album publicado?
------------------------------------------------------------------------
Album: [But Here We Are] falls under "Album:" since it is a specific album mentioned in the question. However, if the question had been, "Which album is their most recent release?" the response would also fall under "Album:" since it is still referring to a specific album. 

On the other hand, "Ranking canciones" or "Ranking videos" would be used if the question had been, "Which are the top 10 Foo Fighters songs according to Spotify streams?" or "Which are the most popular Foo Fighters music videos on YouTube?" respectively.

Lastly, "Historia" would be used if the question had been, "How did Dave Grohl come to form Foo Fighters?" or "What inspired Dave Grohl to start Foo Fighters?" or "Who were some bands that influenced Dave Grohl's music?". 

In the example provided, "Historia" does not apply since it is not a question about the history of Foo Fighters or their orig