In [1]:
# !pip install chromadb
# !pip install langchain huggingface-hub torch  # para embeddings si usas HuggingFace
# !pip install -U langchain-community
# !pip install spacy
# !python -m spacy download es_core_news_sm
# !pip install sentence_transformers
# !pip install numpy
# !pip install  sklearn
# !pip install -U spacy sentence-transformers scikit-learn umap-learn matplotlib

In [2]:
with open('DB/1', 'r') as file:
    data1 = file.read()


In [3]:
import textwrap
import re
import numpy as np
from sentence_transformers import SentenceTransformer
from sklearn.metrics.pairwise import cosine_similarity
import chromadb
from chromadb.utils import embedding_functions
embedding_func = embedding_functions.SentenceTransformerEmbeddingFunction(
    model_name="hiiamsid/sentence_similarity_spanish_es"  # Modelo en español
)
import spacy

chroma_client = chromadb.Client()
# Configurar cliente Chroma (persistente en disco)
if "doc" in [col.name for col in chroma_client.list_collections()]:
        chroma_client.delete_collection("doc")
collection = chroma_client.create_collection(
    name="doc",
)

def chunk_text(text, strategy='fixed', size=100):
  def hierarchical_chunk_and_store(doc_id="doc1", section_size=5):
    if "hierarchical" in [col.name for col in chroma_client.list_collections()]:
        chroma_client.delete_collection("hierarchical")
    collection = chroma_client.create_collection(
        name="hierarchical",
    )
    nlp = spacy.load("es_core_news_sm")
    doc = nlp(text)
    sentences = [sent.text.strip() for sent in doc.sents if sent.text.strip()]

    chunks = []
    ids = []
    metadatas = []
    parent_ids = []

    # Agrupar oraciones en secciones (padres)
    for i in range(0, len(sentences), section_size):
        parent_chunk = " ".join(sentences[i:i+section_size])
        parent_id = f"{doc_id}_parent_{i//section_size}"
        parent_ids.append(parent_id)

        # Guardar el chunk padre (opcional, útil para reconstrucción)
        collection.add(
            documents=[parent_chunk],
            metadatas=[{"doc_id": doc_id, "chunk_text": parent_chunk, "is_parent": True}],
            ids=[parent_id]
        )

        # Guardar hijos con referencia al padre
        for j, sent in enumerate(sentences[i:i+section_size]):
            chunk_id = f"{doc_id}_chunk_{i+j}"
            chunks.append(sent)
            ids.append(chunk_id)
            metadatas.append({"doc_id": doc_id, "chunk_text": sent, "parent_id": parent_id, "is_parent": False})

    # Guardar hijos
    collection.add(
        documents=chunks,
        metadatas=metadatas,
        ids=ids
    )
    return ids, parent_ids

  def paragraph(text, doc_id="doc1"):
    if "paragraph" in [col.name for col in chroma_client.list_collections()]:
        chroma_client.delete_collection("paragraph")
    collection = chroma_client.create_collection(name="paragraph")

    paragraphs = [p.strip() for p in text.split('\n\n') if p.strip()]

    # Aquí guardamos directamente los textos (strings)
    chunks = paragraphs
    ids = [f"{doc_id}_chunk{i}" for i in range(len(chunks))]
    metadatas = [{"doc_id": doc_id, "chunk_text": chunk} for chunk in chunks]

    collection.add(
        documents=chunks,
        metadatas=metadatas,
        ids=ids
    )
    return chunks


  def semantic_chunking(doc_id="doc1", group_size=2, percentile_threshold=90, model_name='all-MiniLM-L6-v2'):
      """
      sentences: List of sentences (strings)
      group_size: Number of sentences per group for distance calculation
      percentile_threshold: Percentile above which breakpoints are selected
      model_name: SentenceTransformer model name
      Returns: List of chunked texts
      """

      if "semantic" in [col.name for col in chroma_client.list_collections()]:
          chroma_client.delete_collection("semantic")
      collection = chroma_client.create_collection(
          name="semantic",
      )
      nlp = spacy.load("es_core_news_sm")
      sentences = [sent.text.strip() for sent in nlp(text).sents if sent.text.strip()]
      # Step 1: Compute sentence embeddings
      model = SentenceTransformer(model_name)
      embeddings = model.encode(sentences, convert_to_numpy=True)

      # Step 2: Form groups and compute average embeddings per group
      groups = [
          embeddings[i:i+group_size]
          for i in range(0, len(sentences), group_size)
      ]
      group_embeddings = [np.mean(g, axis=0) for g in groups]

      # Step 3: Compute semantic distances between consecutive groups
      from sklearn.metrics.pairwise import cosine_distances
      distances = [
          cosine_distances([group_embeddings[i]], [group_embeddings[i+1]])[0][0]
          for i in range(len(group_embeddings)-1)
      ]

      # Step 4: Identify breakpoints using percentile threshold
      threshold = np.percentile(distances, percentile_threshold)
      breakpoints = [
          i for i, d in enumerate(distances) if d >= threshold
      ]

      # Step 5: Split the sentences at breakpoints
      chunk_indices = [0]
      for bp in breakpoints:
          # Each breakpoint is at the end of a group
          chunk_indices.append((bp+1)*group_size)
      chunk_indices.append(len(sentences))

      # Step 6: Form the chunks
      chunks = [
          ' '.join(sentences[chunk_indices[i]:chunk_indices[i+1]])
          for i in range(len(chunk_indices)-1)
          if chunk_indices[i] < chunk_indices[i+1]
      ]
      ids = [f"{doc_id}_chunk{i}" for i in range(len(chunks))]
      metadatas = [{"doc_id": doc_id, "chunk_text": chunk} for chunk in chunks]

      collection.add(
          documents=chunks,
          metadatas=metadatas,
          ids=ids
      )
      return chunks

  # Estrategia 2: Basado en oraciones
  def sentence_chunk(text, size):
      nlp = spacy.load("es_core_news_sm")
      doc = nlp(text)
      return [sent.text for sent in doc.sents]

  def sentence_chunk_and_store(text, doc_id="doc1"):
    if "sentence" in [col.name for col in chroma_client.list_collections()]:
        chroma_client.delete_collection("sentence")
    collection = chroma_client.create_collection(
        name="sentence",
    )
    nlp = spacy.load("es_core_news_sm")
    doc = nlp(text)
    chunks = [sent.text.strip() for sent in doc.sents if sent.text.strip()]

    # Guardar cada chunk con metadatos que referencien el texto original
    ids = [f"{doc_id}_chunk{i}" for i in range(len(chunks))]
    metadatas = [{"doc_id": doc_id, "chunk_text": chunk} for chunk in chunks]

    collection.add(
        documents=chunks,
        metadatas=metadatas,
        ids=ids
    )
    return chunks

  # Selección de estrategia
  if strategy == 'semantic':
      return semantic_chunking()
  elif strategy == 'sentence':
      return sentence_chunk(text, size)
  elif strategy == 'sentence_db':
      return sentence_chunk_and_store(text)
  elif strategy == 'paragraph':
      return paragraph(text)
  elif strategy == 'hierarchical':
      return hierarchical_chunk_and_store()
  else:
      raise ValueError(f"Estrategia no soportada: {strategy}")

  from .autonotebook import tqdm as notebook_tqdm


In [4]:
def compress(text, strategy):
  def quitar_parentesis(texto):
      # Eliminar texto entre paréntesis
      texto_sin_parentesis = re.sub(r'\([^)]*\)', '', texto)

      # Opcional: eliminar aclaraciones entre guiones largos o comas (simplificado)
      texto_sin_aclaraciones = re.sub(r'—[^—]*—', '', texto_sin_parentesis)
      texto_sin_aclaraciones = re.sub(r',[^,]*,', '', texto_sin_aclaraciones)

      # Limpiar espacios extra
      texto_limpio = re.sub(r'\s+', ' ', texto_sin_aclaraciones).strip()
      return texto_limpio

  def simple():
    import spacy

    # Carga modelo spaCy en español
    nlp = spacy.load("es_core_news_sm")

    doc = nlp(text.lower())

    # Eliminar stopwords y signos de puntuación
    palabras_filtradas = [token.text for token in doc if not token.is_stop and not token.is_punct]

    # Reconstruir texto sin stopwords
    texto_filtrado = " ".join(palabras_filtradas)

    # Eliminar frases repetidas simples (por ejemplo, oraciones duplicadas)
    oraciones = list(dict.fromkeys(texto_filtrado.split('. ')))  # elimina duplicados manteniendo orden

    # Reconstruir texto final
    texto_final = '. '.join(oraciones)

    return texto_final


  if strategy == 'simple':
      return simple()
  elif strategy == 'sentence':
    return text
  elif strategy == 'recursive':
    return text
  elif strategy == 'semantic':
    return text
  else:
      raise ValueError(f"Estrategia no soportada: {strategy}")
  return text

In [5]:
# !pip install google-generativeai
import google.generativeai as genai
from mistralai import Mistral

def construir_prompt_clasico(contexto, consulta):
    prompt = f"Contexto:\n{contexto}\n\nPregunta:\n{consulta}\n\nRespuesta:"
    return prompt
def construir_prompt_chat(contexto, consulta):
    prompt = [
        {"role": "system", "content": "Eres un asistente experto que responde preguntas usando el contexto proporcionado. No inventes información, no pongas texto adicional y sé conciso."},
        {"role": "user", "content": f"Contexto:\n{contexto}\n\nPregunta:\n{consulta}"}
    ]
    return prompt
def construir_prompt(contexto, consulta):
    instrucciones = (
        "Eres un asistente experto que responde preguntas basándose únicamente en el contexto proporcionado.\n"
        "No inventes información, no pongas texto adicional y sé conciso.\n\n"
    )
    prompt = f"{instrucciones}Contexto:\n{contexto}\n\nPregunta:\n{consulta}\n\nRespuesta:"
    return prompt

def build_prompt(context, consulta, strategy):
  if strategy == 0:
    return construir_prompt_chat(context, consulta)
  prompt = None
  if strategy == 1:
    prompt = construir_prompt_clasico(context, consulta)
  if strategy == 2:
    prompt = construir_prompt(context, consulta)
  # return [{
  #  "role": "user",
  #  "content": prompt,
  # }]
  return prompt

def generate(context, query, strategy):
  client = genai.Client(api_key="AIzaSyCdcvLoAPS5uJyVI9w_yyer4OPM544vW9o")
  response = client.models.generate_content(
      model="gemini-2.0-flash-lite",
      contents=build_prompt(context, query, strategy)
  )
  return response.text

def send_menssage(mesg):
  api_key = "hiYKVGzE9NhITN7JRXeaBZMsaujppzPt"
  model = "mistral-large-latest"

  client = Mistral(api_key=api_key)

  chat_response = client.chat.complete(
      model= model,
      messages=mesg
  )
  return chat_response.choices[0].message.content

  # response = client.chat.completions.create(
  #     model="accounts/fireworks/models/llama-v3p3-70b-instruct",
  #     messages= build_prompt(context, query, strategy)
  #   )
  # return response.choices[0].message.content

# client = Fireworks(api_key="fw_3ZbjyhcrMzAXRDTWRouf7SKo")


# generate("la inteligencia artificial se usa en entornos cerrrados", "donde se usa la inteligencia artificial", 1)

In [6]:
def auto_merging_retrieval(collection, query_text, n_results=10, merge_threshold=0.5):
    # Recuperar los chunks más relevantes (hijos)
    resultados = collection.query(
        query_texts=[query_text],
        n_results=n_results,
        include=["metadatas", "documents"]  # quitar "ids" de aquí
    )
    metadatas = resultados["metadatas"][0]
    documents = resultados["documents"][0]
    ids = resultados["ids"][0]  # ids vienen en el resultado, no en include

    # Agrupar por parent_id
    from collections import defaultdict
    parent_to_children = defaultdict(list)
    for idx, meta in enumerate(metadatas):
        parent_id = meta.get("parent_id")
        if parent_id:
            parent_to_children[parent_id].append((ids[idx], documents[idx]))

    merged_docs = []
    merged_ids = set()

    for parent_id, children in parent_to_children.items():
        # Obtener total hijos de ese padre en la BD
        all_metas = collection.get(include=["metadatas"])["metadatas"]
        total_hijos = sum(1 for m in all_metas if m.get("parent_id") == parent_id)

        if len(children) / max(1, total_hijos) >= merge_threshold:
            # Recuperar el chunk padre
            parent_doc = collection.get(ids=[parent_id])["documents"][0]
            merged_docs.append(parent_doc)
            merged_ids.add(parent_id)
        else:
            for cid, doc in children:
                if cid not in merged_ids:
                    merged_docs.append(doc)
                    merged_ids.add(cid)

    # También incluir chunks sin parent_id si quieres
    # (opcional, según tu caso)

    return merged_docs
contextos = auto_merging_retrieval(collection, "base de datos para textos en español", n_results=10, merge_threshold=0.5)
for c in contextos:
    print("----",c)

In [7]:
import numpy as np
from collections import Counter, defaultdict
from sklearn.cluster import KMeans

n_clusters = 5
kmeans = KMeans(n_clusters=n_clusters, random_state=42)

def kmeans_build(collection, query_text, n_results=10):
    # Obtener todos los embeddings almacenados
    items = collection.get(include=["embeddings", "metadatas", "documents"])
    embeddings = np.array(items["embeddings"])  # Shape: (n_chunks, dim_embedding)

    # Aplicar K-Means (ej: 5 clusters)
    n_clusters = 5
    kmeans = KMeans(n_clusters=n_clusters, random_state=42)
    clusters = kmeans.fit_predict(embeddings)

    # Actualizar metadatos con la etiqueta de cluster
    for idx, (id_, metadata) in enumerate(zip(items["ids"], items["metadatas"])):
        metadata["cluster"] = int(clusters[idx])
        collection.update(ids=[id_], metadatas=[metadata])

def get_relevant_clusters_and_texts(collection, query_text, n_results=10):
    # Realizar consulta para obtener chunks relevantes
    resultados = collection.query(
        query_texts=[query_text],
        n_results=n_results,
        include=["metadatas", "documents", "distances"]
    )

    metadatas = resultados["metadatas"][0]   # lista de metadatos
    documents = resultados["documents"][0]   # lista de textos/chunks
    distances = resultados["distances"][0]   # lista de distancias

    # Extraer clusters y agrupar textos por cluster
    cluster_to_texts = defaultdict(list)
    cluster_to_similarity = defaultdict(float)

    for meta, doc, dist in zip(metadatas, documents, distances):
        cluster = meta.get("cluster", "unknown")
        similarity = 1 - dist  # si distancia es coseno, similitud = 1 - distancia
        cluster_to_texts[cluster].append(doc)
        cluster_to_similarity[cluster] += similarity

    # Contar frecuencia de clusters
    cluster_counts = {cluster: len(texts) for cluster, texts in cluster_to_texts.items()}

    # Ordenar clusters por frecuencia o similitud acumulada
    clusters_ordenados = sorted(cluster_counts.items(), key=lambda x: x[1], reverse=True)

    # Preparar resultado: lista de (cluster, frecuencia, similitud, textos)
    resultado = []
    for cluster, count in clusters_ordenados:
        resultado.append({
            "cluster": cluster,
            "frequency": count,
            "total_similarity": cluster_to_similarity[cluster],
            "texts": cluster_to_texts[cluster]
        })

    return resultado

In [8]:
chunk_text(data1, strategy='sentence_db', size=50)
chunk_text(data1, strategy='hierarchical', size=50)
# chunk_text(data1, strategy='semantic', size=200)
chunk_text(data1, strategy='paragraph', size=200)

query = "A que se dedicaban los aborigenes"

collection1 = chroma_client.get_collection("hierarchical")
print(auto_merging_retrieval(collection1, query))

['En la estancia se desarrollaron cultivos aborígenes como la yuca y el tabaco, además de cultivos europeos, como hortalizas y granos, se emplearon técnicas agrícolas aborígenes y españolas.', 'Es el resultado de una mezcla\nde etnias y culturas en constante proceso de transformación.', 'En la estancia convivían aborígenes, africanos y españoles, los dos primeros como fuerza de trabajo y el último como usufructuario de la tierra y dueño de todo lo que se producía.', 'Se interrumpió violentamente la vida de estos grupos aborígenes.', 'Ya conocemos el genocidio de la población aborigen durante la conquista y colonización.', 'Los aborígenes utilizaron por lo general el método de rebeldía que afectaba\nmás a los colonialistas españoles: abandonaban el trabajo y huían a los montes,\na zonas marginales de difícil acceso para evadir la explotación que sufrían, pero\nFig.', '¿Cuáles son algunos de los procesos étnicos que se desarrollaron?7\n• La asimilación étnica entre el componente hispano 

In [9]:
import chromadb

client = chromadb.Client()
collection = client.get_collection("paragraph")
def sentence_window_retrieval(collection, query, window_size=2):
    # 1. Obtener todos los chunks y sus IDs en orden
    data = collection.get( )
    all_chunks = data["documents"]  # lista de textos
    all_ids = data["ids"]           # lista de IDs, en el mismo orden que all_chunks
 
    results = collection.query(
        query_texts=[query],
        n_results=2,
    )

    relevant_ids = results['ids'][0]  # Ejemplo: ['doc1_chunk5', 'doc1_chunk8']
    # 3. Función para obtener ventana de tamaño 2 alrededor de un índice
    def get_window_chunks_no_duplicates(all_chunks, all_ids, target_id, seen_chunks=set()):
        try:
            idx = all_ids.index(target_id)
        except ValueError:
            return "", seen_chunks  # ID no encontrado
        
        start = max(0, idx - window_size)
        end = min(len(all_chunks), idx + window_size + 1)
        
        window_chunks = []
        for i in range(start, end):
            if i not in seen_chunks:
                window_chunks.append(all_chunks[i])
                seen_chunks.add(i)
        
        return " ".join(window_chunks), seen_chunks

    # Uso

    seen = set()
    expanded_contexts = []

    for chunk_id in relevant_ids:
        context, seen = get_window_chunks_no_duplicates(all_chunks, all_ids, chunk_id, seen_chunks=seen)
        if context:
            expanded_contexts.append(context)

    result = ""
    # Mostrar resultados
    # for i, context in enumerate(expanded_contexts):
    #     print(f"Contexto expandido sin duplicados para {relevant_ids[i]}:\n{context}\n")
    #     result = result.join(context)
    return result

In [10]:
def simple_merge(collection, query):
    results = collection.query(
            query_texts=[query],
            n_results=2,
        )
    context = ""
    for i in results['documents']:
        for j in i:
            context += j
    return context

In [None]:
def store_historial(chunks, doc_id="doc1"):
    if "historial" in [col.name for col in chroma_client.list_collections()]:
        chroma_client.delete_collection("historial")
    collection = chroma_client.create_collection(name="historial")
 
    ids = [f"{doc_id}_chunk{i}" for i in range(len(chunks))]
    metadatas = [{"doc_id": doc_id, "chunk_text": chunk} for chunk in chunks]

    collection.add(
        documents=chunks,
        metadatas=metadatas,
        ids=ids
    )
    return chunks

def 

In [None]:
s_context_historial = 0
s_merge = 3
s_query = 0
s_historial_mode = 0

historial = []

for i in range(1):
    print(prompt)
    prompt = "input()"
    prompt = "A que se dedicaban los aborigenes cubanos"
    # optimizar prompt
    prompt_o = compress(prompt, "simple")

    if s_query == 0:
        query = prompt
    else: 
        query = prompt_o

    if s_context_historial == 0:
        # obtener contexto del documento
        if s_merge == 0:
            collection = chroma_client.get_collection("semantic")
            context = simple_merge(collection, query)   
        if s_merge == 1:
            collection = chroma_client.get_collection("paragraph")
            res = get_relevant_clusters_and_texts(collection, query) 
            context = ""
            for i in res:
                for j in i["texts"]:
                    context = context + j
        if s_merge == 2:
            collection = chroma_client.get_collection("sentence")
            context = sentence_window_retrieval(collection, query)   
        if s_merge == 3:
            collection = chroma_client.get_collection("hierarchical")
            res = auto_merging_retrieval(collection, query)
            context = ""
            for i in res:
                context += i

        # obtener contexto historial
        store_historial(historial)
        collection1 = chroma_client.get_collection("hierarchical")
        auto_merging_retrieval(collection1, query)

        # unir historial y documento
    else:
        # collection1 = chroma_client.get_collection("hierarchical_historial")
        # print(auto_merging_retrieval(collection1, query))
        context = ""


    # print("context", context)
    # print(query)
    context = compress(context, "simple")
    msg = [
        {
            "role": "user",
            "content": context + " " + query,
        }
    ]
    response = send_menssage(msg)
    print(response)

NameError: name 'prompt' is not defined

In [None]:
import requests

url = "https://api.openai.com/v1/chat/completions"
headers = {
    "Authorization": f"Bearer TU_API_KEY",
    "Content-Type": "application/json"
}
data = {
    "model": "gpt-4o",
    "messages": [{"role": "user", "content": "¿Cuál es la capital de Perú?"}]
}

response = requests.post(url, headers=headers, json=data)
print(response.json())


{'error': {'code': 'unsupported_country_region_territory', 'message': 'Country, region, or territory not supported', 'param': None, 'type': 'request_forbidden'}}


In [None]:
import os
from mistralai import Mistral

api_key = "hiYKVGzE9NhITN7JRXeaBZMsaujppzPt"
model = "mistral-large-latest"

client = Mistral(api_key=api_key)

chat_response = client.chat.complete(
    model= model,
    messages = [
        {
            "role": "user",
            "content": "What is the best French cheese?",
        },
    ]
)
print(chat_response.choices[0].message.content)

Choosing the "best" French cheese can be subjective and depends on personal taste, as France offers a wide variety of exceptional cheeses. However, some French cheeses are world-renowned for their unique flavors and qualities. Here are a few notable ones:

1. **Camembert de Normandie**: A soft, creamy cheese from the Normandy region, famous for its rich, buttery flavor and bloomy rind.

2. **Brie de Meaux**: Often referred to as the "King of Cheeses," this soft cheese from the Brie region has a smooth, velvety texture and a mild, slightly nutty flavor.

3. **Roquefort**: A classic blue cheese made from sheep's milk, known for its strong, tangy flavor and distinctive veins of blue mold.

4. **Comté**: A hard cheese from the Jura region, known for its complex, nutty flavor and firm, slightly granular texture.

5. **Reblochon**: A soft washed-rind and smear-ripened cheese from the Alps, often used in the traditional dish Tartiflette.

6. **Époisses**: A strong, pungent cheese from Burgund

In [None]:
# !pip install pytextrank

import spacy
import pytextrank

# Cargar el modelo de lenguaje de spaCy
nlp = spacy.load("es_core_news_sm")

# Añadir el pipeline de PyTextRank
nlp.add_pipe("textrank")

# Texto de ejemplo
text = """
En el presente trabajo se estudia el impacto de la compresión en modelos de lenguaje. 
Además, se revisa el estado del arte en técnicas extractivas. 
La compresión de contexto busca reducir el número de tokens sin perder información clave. 
El pipeline propuesto aplica técnicas como segmentación semántica y agrupamiento.
Los resultados muestran mejoras del 23% en eficiencia de respuesta.
"""

# Procesar el texto
doc = nlp(text)
total_frases = len(list(doc.sents))
limit_sentences = max(1, int(total_frases * 0.15))
# Mostrar las 3 frases más importantes según TextRank
print("== TextRank Summary ==")
for sent in doc._.textrank.summary(limit_phrases=15, limit_sentences=limit_sentences):
    print("-", sent)


== TextRank Summary ==
- La compresión de contexto busca reducir el número de tokens sin perder información clave. 



In [None]:
import spacy

nlp = spacy.load("es_core_news_sm")

# Función para evaluar automáticamente si una oración es valiosa
def frase_valiosa_auto(oracion):
    doc = nlp(oracion)

    # Regla 1: descartar frases muy cortas o sin verbo
    if len(oracion.split()) < 8 or not any(t.pos_ == "VERB" for t in doc):
        return False

    # Regla 2: conservar frases con entidades nombradas (números, organizaciones, etc.)
    if any(ent.label_ in ["PER", "ORG", "LOC", "MISC", "DATE", "TIME", "PERCENT", "MONEY", "CARDINAL", "ORDINAL", "QUANTITY"] for ent in doc.ents):
        return True

    # Regla 3: mantener si tiene estructura completa (sujeto + verbo + complemento)
    tokens = [t.dep_ for t in doc]
    estructura_completa = "nsubj" in tokens and "ROOT" in tokens and ("obj" in tokens or "obl" in tokens)
    if estructura_completa:
        return True

    return False

# Texto de ejemplo
texto = """
En el presente trabajo se estudia el impacto de la compresión en modelos de lenguaje. 
Además, se revisa el estado del arte en técnicas extractivas. 
La compresión de contexto busca reducir el número de tokens sin perder información clave. 
El pipeline propuesto aplica técnicas como segmentación semántica y agrupamiento.
Los resultados muestran mejoras del 23% en eficiencia de respuesta.
"""

# Aplicar
doc = nlp(texto)
oraciones = [str(sent).strip() for sent in doc.sents]
oraciones_filtradas = [o for o in oraciones if frase_valiosa_auto(o)]

# Resultado
texto_comprimido = " ".join(oraciones_filtradas)
print("== Compresión automática ==")
print(texto_comprimido)


== Compresión automática ==
En el presente trabajo se estudia el impacto de la compresión en modelos de lenguaje. Además, se revisa el estado del arte en técnicas extractivas. La compresión de contexto busca reducir el número de tokens sin perder información clave. Los resultados muestran mejoras del 23% en eficiencia de respuesta.


In [23]:
from mistralai import Mistral
import os

client = Mistral(api_key="hiYKVGzE9NhITN7JRXeaBZMsaujppzPt")

messages = [
    {"role": "user", "content": "¿Cuál es la capital de Cuba?"},
    {"role": "assistant", "content": "Eres un asistente útil."},
    {"role": "user", "content": "¿Cuál la primera pregunta que te hize?"}
]

response = client.chat.complete(
    model="mistral-large-latest",
    messages=messages
)

print(response.choices[0].message.content)


La primera pregunta que me hiciste fue: "¿Cuál es la capital de Cuba?"
