In [None]:
import chromadb
import requests
import json
from chromadb.api.types import EmbeddingFunction

# Crear la función de embeddings usando Ollama
class OllamaEmbeddingFunction(EmbeddingFunction):
    def __call__(self, input):
        embeddings = []
        for text in input:
            response = requests.post(
                "http://localhost:11434/api/embeddings",  # Endpoint correcto para embeddings
                json={"model": "nomic-embed-text", "prompt": text}  # Enviar un solo texto a la vez
            )
            response_json = response.json()
            
            if "embedding" in response_json:
                embeddings.append(response_json["embedding"])  # Guardar el embedding
            else:
                raise ValueError(f"Error en la respuesta de Ollama: {response_json}")
        
        return embeddings  # Retorna una lista de embeddings

# Instanciar la función de embeddings con Ollama
embedding_function = OllamaEmbeddingFunction()


In [None]:
# Crear conexión con ChromaDB
chroma_client = chromadb.PersistentClient(path="./chroma_db")

# Crear la colección con Ollama como generador de embeddings
collection = chroma_client.get_or_create_collection(
    name="markdown_collection",
    embedding_function=embedding_function  # Pasamos la función de embeddings personalizada
)


In [None]:
import re

def load_markdown_file(file_path):
    with open(file_path, "r", encoding="utf-8") as f:
        return f.read()

def chunk_text(text, chunk_size=300):
    sentences = re.split(r'\n\n+', text)  # Separar por párrafos (mejor para Markdown)
    chunks = []
    current_chunk = []
    current_length = 0

    for sentence in sentences:
        current_length += len(sentence)
        current_chunk.append(sentence)

        if current_length >= chunk_size:
            chunks.append(" ".join(current_chunk))
            current_chunk = []
            current_length = 0

    if current_chunk:
        chunks.append(" ".join(current_chunk))

    return chunks


In [None]:
# Leer el archivo Markdown
file_path = "/Users/jiabowang/Desktop/dgsi/DGSI/reto2/pagina.md"
text = load_markdown_file(file_path)

# Dividir el texto en chunks
chunks = chunk_text(text, chunk_size=300)

# Insertar los chunks en ChromaDB
collection.upsert(
    documents=chunks,
    ids=[f"chunk_{i}" for i in range(len(chunks))]
)

print(f"Se han insertado {len(chunks)} chunks en ChromaDB.")



In [None]:
import openai

result = ' '.join(chunks) 
preguntas = input("Itroduce tus preguntas")
prompt = f"""Eres un asistente experto en responder preguntas basándote en información fragmentada en múltiples chunks almacenados en ChromaDB. 
A continuación, te proporcionaré un fragmento de información que necesitas aprender para usar en el futuro para responder preguntas relacionadas. 
El fragmento de información es el siguiente:
{chunks}
Por favor, recuerda este fragmento de información y utilízalo cuando te realicen preguntas sobre este contenido.

Para cada pregunta, sigue estos pasos:
Recuperación: Busca en ChromaDB los chunks más relevantes relacionados con la consulta.
Síntesis: Analiza la información recuperada y combínala en una respuesta coherente y clara.
Explicación: Si la información provista es incompleta o ambigua, indícalo y sugiere posibles interpretaciones o fuentes adicionales.
Formato: Responde en un estilo natural y conciso, asegurando que la información fluya de manera lógica.

Ejemplo de respuesta:
Pregunta: "¿Cuál es la capital de Francia?"
Chunks recuperados: ["París es la ciudad más poblada de Francia y su centro político.", "Francia tiene su capital en París desde hace siglos."]
Respuesta generada: "La capital de Francia es París, que también es su ciudad más poblada y centro político."

Si no encuentras información relevante en los chunks almacenados, responde con:
"No encontré información suficiente en la base de datos para responder con certeza. ¿Quieres que intente reformular la búsqueda o consulte otra fuente?"
Mi pregunta es: {pregunta}"""

def interactuar_open_ai(prompt):
    openai.api_key = "api-key"
    response = openai.chat.completions.create(
        model="gpt-3.5-turbo",
        messages = [
            {
                "role": "user",
                "content": prompt
            }
        ],
        n=1,
        stop=None,
        temperature=0.3,
    )

    # Extract the simplified text from the API response
    simplified_text = response.choices[0].message.content
    return simplified_text

interactuar_open_ai(prompt)
