<a href="https://colab.research.google.com/github/Nameless-86/final-nlp/blob/main/tpfinalNLP.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Instalacion de librerias a usar

In [None]:
!pip install unidecode
!pip install pymupdf
!pip install SPARQLWrapper
!pip install tensorflow_text
!pip install langchain
!pip install chromadb
!pip install -U sentence-transformers


!pip install llama_index sentence-transformers pypdf langchain python-decouple



# Importar librerias

In [None]:
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.document_loaders import PyPDFLoader
from langchain.document_loaders import DirectoryLoader
from SPARQLWrapper import SPARQLWrapper, XML, JSON
import xml.etree.ElementTree as ET
import tensorflow_hub as hub
import tensorflow_text
import chromadb
from unidecode import unidecode
import fitz
import nltk
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
from nltk.stem import SnowballStemmer
import os
from langchain.embeddings.huggingface import HuggingFaceEmbeddings
from llama_index.embeddings import LangchainEmbedding
from llama_index import ServiceContext
from llama_index import VectorStoreIndex, SimpleDirectoryReader
from jinja2 import Template
import requests
import spacy
from decouple import config
import pandas as pd

nltk.download('stopwords')
nltk.download('punkt')
!python -m spacy download es_core_news_md

# Lectura de los archivos PDF

In [76]:
def read_pdf(pdf_path):
    texto = str()

    doc = fitz.open(pdf_path)
    for page in doc:
        texto += page.get_text()

    # Close the PDF file
    doc.close()

    return texto

# Funcion para normalizar el texto

In [77]:
def normalize_text(text):
    # Initialize NLTK components
    stop_words = set(stopwords.words("spanish"))
    stemmer = SnowballStemmer("spanish")

    # Remover acentos
    text = unidecode(text)

    # Tokenizar el texto
    words = word_tokenize(text)

    # Remove stop words and perform stemming
    normalized_words = [
        stemmer.stem(word.lower())
        for word in words
        if word.isalpha() and word.lower() not in stop_words
    ]

    return " ".join(normalized_words)

## Lectura y normalizacion

In [None]:
archivos_pdf = ["100_conceptos_astr.pdf", "Astronomia-64.pdf", "curso_astronomia.pdf"]

# Process each PDF file
for archivo in archivos_pdf:
    file_path = (
        "/content/drive/MyDrive/tpnlp/Libros/" + archivo
    )  # Update with the correct path

    # Leer
    raw_text = read_pdf(file_path)

    # Normalizar
    normalized_text = normalize_text(raw_text)

    print(f"Texto normalizado de {archivo}:\n{normalized_text}")


## Creacion de chunks usando langchain

In [None]:
dict_pdfs = dict()
splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=100)
for archivo in archivos_pdf:
    txt = splitter.split_text(normalized_text)
    dict_pdfs[archivo] = txt

dict_pdfs


# Lecutra del dataframe usando pandas

In [80]:
df_observaciones = pd.read_csv('/content/drive/MyDrive/tpnlp/Tabular/Processed_Atels.csv')

# Carga de modelo de embeddings

In [81]:
embed = hub.load('https://tfhub.dev/google/universal-sentence-encoder-multilingual/3')

# Creacion de base de datos vectorial

In [82]:
client = chromadb.Client()
collection = client.get_or_create_collection('astronomia-basics')

In [None]:
def store(dict, coll):
    for key in dict.keys():
        embeddings = embed(dict[key]).numpy().tolist()
        chunks = dict[key]
        ids = [f"doc_{key}-parte{i}" for i in range(1, len(chunks) + 1)]

        collection.add(documents=chunks, embeddings=embeddings, ids=ids)


store(dict_pdfs, collection)

# Creacion de base de datos de grafos (revisar)

Se usa un template de wikidata el cual contiene una lista de planetas y el apellido de su descubridor

In [84]:
sparql = SPARQLWrapper("https://query.wikidata.org/sparql")


sparql.setQuery(
    """
#Who discovered the most planets? (with list)
SELECT
  ?discoverer ?discovererLabel
  (COUNT(DISTINCT ?planet) as ?count)
  (GROUP_CONCAT(DISTINCT(?planetLabel); separator=", ") as ?planets)
WHERE
{
  ?ppart wdt:P279* wd:Q634 .
  ?planet wdt:P31 ?ppart .
  ?planet wdt:P61 ?discoverer .
  SERVICE wikibase:label {
    bd:serviceParam wikibase:language "es" .
    ?discoverer rdfs:label ?discovererLabel .
    ?planet rdfs:label ?planetLabel
  }
}
GROUP BY ?discoverer ?discovererLabel
ORDER BY DESC(?count)
LIMIT 25
"""
)

sparql.setReturnFormat(XML)
# Convertir el objeto Document a una cadena

results = sparql.query().convert()

# Parsear el resultado XML
xml_string = results.toxml()

root = ET.fromstring(xml_string)

# El espacio de nombres (namespace) que usaremos para extraer los datos
namespace = "{http://www.w3.org/2005/sparql-results#}"


In [None]:
print('Planetas y sus descubridores\n')
print('--------------------------------')
# Iterar sobre cada resultado y extraer los datos relevantes
for result in root.findall(f".//{namespace}result"):

  discoverer = result.find(f'.//{namespace}binding[@name="discovererLabel"]/{namespace}literal').text
  planet = result.find(f'.//{namespace}binding[@name="planets"]/{namespace}literal').text

  print(f'("{discoverer}", "Descubrio ", "{planet}")')

#### Query sobre la GDB

In [None]:
nlp = spacy.load("es_core_news_md")

procesado_GDB = nlp(xml_string)
print(procesado_GDB)

# Fuente de conocimiento (terminar)

In [87]:
from sentence_transformers import SentenceTransformer, util

In [88]:
model = SentenceTransformer('sentence-transformers/paraphrase-multilingual-mpnet-base-v2')

# RAG

### funcion para generar respuesta

In [89]:
def generate_answer(prompt: str, max_new_tokens: int = 768) -> None:
    try:
        # Tu clave API de Hugging Face
        api_key = "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"
        # URL de la API de Hugging Face para la generación de texto
        api_url = (
            "https://api-inference.huggingface.co/models/HuggingFaceH4/zephyr-7b-beta"
        )
        # Cabeceras para la solicitud
        headers = {"Authorization": f"Bearer {api_key}"}

        data = {
            "inputs": prompt,
            "parameters": {
                "max_new_tokens": max_new_tokens,
                "temperature": 0.7,
                "top_k": 50,
                "top_p": 0.95,
            },
        }
        # Realizamos la solicitud POST
        response = requests.post(api_url, headers=headers, json=data)
        # Extraer respuesta
        respuesta = response.json()[0]["generated_text"][len(prompt) :]
        return respuesta
    except Exception as e:
        print(f"Hubo un error {e}")



### Definir la plantilla Jinja

In [90]:
def zephyr_chat_template(messages, add_generation_prompt=True):
    template_str = "{% for message in messages %}"
    template_str += "{% if message['role'] == 'user' %}"
    template_str += "<|user|>{{ message['content'] }}</s>\n"
    template_str += "{% elif message['role'] == 'assistant' %}"
    template_str += "<|assistant|>{{ message['content'] }}</s>\n"
    template_str += "{% elif message['role'] == 'system' %}"
    template_str += "<|system|>{{ message['content'] }}</s>\n"
    template_str += "{% else %}"
    template_str += "<|unknown|>{{ message['content'] }}</s>\n"
    template_str += "{% endif %}"
    template_str += "{% endfor %}"
    template_str += "{% if add_generation_prompt %}"
    template_str += "<|assistant|>\n"
    template_str += "{% endif %}"


    # Crear un objeto de plantilla con la cadena de plantilla
    template = Template(template_str)


    # Renderizar la plantilla con los mensajes proporcionados
    return template.render(
        messages=messages, add_generation_prompt=add_generation_prompt
    )


### Esta función prepara el prompt en estilo QA

In [91]:
def prepare_prompt(query_str: str, context_info):
    PROMPT = (
        "La información de contexto es la siguiente:\n"
        "---------------------\n"
        "{context_str}\n"
        "---------------------\n"
        "Dada la información de contexto anterior, y sin utilizar conocimiento previo, responde la siguiente pregunta en español.\n"
        "Pregunta: {query_str}\n"
        "Respuesta: "
    )

    # Construimos el contexto de la pregunta
    context_str = context_info

    messages = [
        {
            "role": "system",
            "content": "Eres un asistente útil que siempre responde con respuestas veraces, útiles y basadas en hechos.",
        },
        {
            "role": "user",
            "content": PROMPT.format(context_str=context_str, query_str=query_str),
        },
    ]
    final_prompt = zephyr_chat_template(messages)
    return final_prompt


# Ej uso (terminar)

In [92]:
CONSULTAS = ["que es un agujero negro?", "Quien descubrio Urano", "La observacion de un pulsar es por rayos X?"]

In [None]:
generate_answer(CONSULTAS[1])

In [None]:
def procesar_pregunta(queries):
  for query in queries:
    final_prompt = prepare_prompt(query_str, str(context_info))
    print("Pregunta: ", query)
    print("Respuesta: ")
    res = generate_answer(final_prompt)
    print(res)

# Creacion de chatbot

In [None]:
def interface():
    print("Hola, te puedo ayudar con tus preguntas sobre astronomia (Presione \'x\' para salir)")

    while True:
        user_query = input("Pregunta: ")

        if user_query == "x":
            print("Nos vemos!")
            break

        procesar_pregunta([user_query])

interface()