In [4]:
import numpy as np

# Función para eliminar palabras no deseadas de un texto
def eliminar_palabras_no_deseadas(texto):
    palabras_no_deseadas = ["a", "al", "con", "de", "del", "el", "en", "es", "estan", "la", "los", "las", "su", "un", "una", "unos", "unas", "tiene", "va", "y"]
    palabras = texto.split()
    palabras_filtradas = [palabra for palabra in palabras if palabra.lower() not in palabras_no_deseadas]
    return ' '.join(palabras_filtradas)

# Crear la matriz de términos
def crear_matriz_terminos(documentos):
    # Obtener la lista de palabras únicas en los documentos
    palabras_unicas = sorted(list(set([palabra for doc in documentos for palabra in doc.split()])))

    # Crear la matriz de términos
    matriz_terminos = np.zeros((len(documentos), len(palabras_unicas)))

    for i, doc in enumerate(documentos):
        doc_filtrado = eliminar_palabras_no_deseadas(doc)
        palabras_doc = doc_filtrado.split()
        for j, palabra in enumerate(palabras_unicas):
            matriz_terminos[i, j] = palabras_doc.count(palabra)

    return matriz_terminos, palabras_unicas

# Aplicar retroalimentación ciega
def retroalimentacion_ciega(matriz_terminos, consulta, documentos, iteraciones=5):
    palabras_consulta = eliminar_palabras_no_deseadas(consulta).split()
    consulta_vector = np.zeros(matriz_terminos.shape[1])
    for palabra in palabras_consulta:
        if palabra in palabras_unicas:
            indice = palabras_unicas.index(palabra)
            consulta_vector[indice] = 1

    for iteracion in range(iteraciones):
        print(f"Iteración {iteracion + 1}:")

        # Calcular las probabilidades de relevancia
        probabilidades_relevancia = np.matmul(matriz_terminos, consulta_vector)

        # Ordenar los documentos por relevancia descendente
        documentos_ordenados = np.argsort(probabilidades_relevancia)[::-1]

        print("Documentos ordenados por relevancia:")
        for doc_index in documentos_ordenados:
            print(documentos[doc_index])

        # Actualizar la consulta
        consulta_vector = np.zeros(matriz_terminos.shape[1])
        for doc_index in documentos_ordenados[:5]:  # Tomar los 5 documentos más relevantes
            consulta_vector += matriz_terminos[doc_index, :]

        print("Consulta actualizada:", consulta_vector)

    return documentos_ordenados, probabilidades_relevancia

# Ejemplo de uso
documentos = [
 
 "perro de juan es marron.",
    "felipe tiene una casa verde",
    "la jirafa del zoo es alta",
    "el perro y el gato estan en la casa",
    "pedro va en la bicicleta con su perro",
    "la bicicleta de jose es azul.",
    "juan va al zoo en bicicleta",
    "el gato es blanco y el perro es negro",
    "pedro va al zoo con su gato",
    "felipe tiene a su perro y a su gato en casa"
]

consulta = "documento importante"

matriz_terminos, palabras_unicas = crear_matriz_terminos(documentos)
retroalimentacion_ciega(matriz_terminos, consulta, documentos)


Iteración 1:
Documentos ordenados por relevancia:
felipe tiene a su perro y a su gato en casa
pedro va al zoo con su gato
el gato es blanco y el perro es negro
juan va al zoo en bicicleta
la bicicleta de jose es azul.
pedro va en la bicicleta con su perro
el perro y el gato estan en la casa
la jirafa del zoo es alta
felipe tiene una casa verde
perro de juan es marron.
Consulta actualizada: [0. 0. 0. 1. 2. 1. 1. 0. 0. 0. 0. 0. 0. 0. 1. 3. 0. 1. 1. 0. 0. 1. 1. 2.
 0. 0. 0. 0. 0. 0. 2.]
Iteración 2:
Documentos ordenados por relevancia:
felipe tiene a su perro y a su gato en casa
el gato es blanco y el perro es negro
pedro va al zoo con su gato
el perro y el gato estan en la casa
juan va al zoo en bicicleta
pedro va en la bicicleta con su perro
la bicicleta de jose es azul.
perro de juan es marron.
la jirafa del zoo es alta
felipe tiene una casa verde
Consulta actualizada: [0. 0. 0. 0. 1. 1. 2. 0. 0. 0. 0. 0. 0. 0. 1. 4. 0. 0. 1. 0. 0. 1. 1. 3.
 0. 0. 0. 0. 0. 0. 2.]
Iteración 3:
Documento

(array([9, 7, 3, 8, 4, 0, 1, 6, 5, 2], dtype=int64),
 array([ 4.,  3.,  1., 10.,  7.,  1.,  2., 10.,  7., 11.]))