In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
import numpy as np

In [None]:
def create_tfidf_index(chunks):
    """
    Crea un √≠ndice TF-IDF a partir de una lista de chunks de texto.

    Par√°metros:
    - chunks (list[str]): Lista de textos ya preprocesados.

    Retorna:
    - vectorizer: Objeto TfidfVectorizer ajustado al corpus.
    - X: Matriz TF-IDF resultante.
    """
    if not chunks:
        raise ValueError("‚ùå La lista de chunks est√° vac√≠a. No se puede crear el √≠ndice TF-IDF.")

    print("‚öôÔ∏è Generando representaciones TF-IDF de los chunks...")
    vectorizer = TfidfVectorizer(stop_words="english", max_features=5000)
    X = vectorizer.fit_transform(chunks)
    print(f"üìà Indexados {len(chunks)} chunks.")
    return vectorizer, X

In [None]:
def query_tfidf(query, vectorizer, X, chunks, top_k=3):
    """
    Recupera los chunks m√°s relevantes usando similitud coseno.

    Par√°metros:
    - query (str): Texto de la consulta del usuario.
    - vectorizer: Objeto TfidfVectorizer previamente ajustado.
    - X: Matriz TF-IDF de los chunks.
    - chunks: Lista original de textos.
    - top_k (int): N√∫mero de resultados a retornar.

    Retorna:
    - Lista de tuplas (chunk, score) ordenadas por relevancia.
    """
    if not query.strip():
        raise ValueError("‚ùå La consulta est√° vac√≠a.")

    query_vec = vectorizer.transform([query])
    similarities = cosine_similarity(query_vec, X).flatten()
    top_indices = np.argsort(similarities)[::-1][:top_k]

    top_chunks = [(chunks[i], similarities[i]) for i in top_indices]
    return top_chunks