In [1]:
# Boolean Retrieval
documents = {
    "D1": "AI is powerful",
    "D2": "Machine Learning and AI",
    "D3": "AI is the future"
}

def boolean_retrieval(query, docs):
    query_terms = query.lower().split()
    results = []

    for doc_id, content in docs.items():
        content_terms = content.lower().split()

        if "and" in query_terms:
            terms = [t for t in query_terms if t not in ["and"]]
            if all(term in content_terms for term in terms):
                results.append(doc_id)

        elif "or" in query_terms:
            terms = [t for t in query_terms if t not in ["or"]]
            if any(term in content_terms for term in terms):
                results.append(doc_id)

        elif "not" in query_terms:
            terms = [t for t in query_terms if t not in ["not"]]
            if terms[0] in content_terms and terms[1] not in content_terms:
                results.append(doc_id)

    return results

# 🔍 Test truy vấn
query1 = "AI AND Machine"
query2 = "AI OR Learning"
query3 = "AI NOT Learning"

print("Kết quả truy vấn Boolean:")
print(f"{query1}: {boolean_retrieval(query1, documents)}")
print(f"{query2}: {boolean_retrieval(query2, documents)}")
print(f"{query3}: {boolean_retrieval(query3, documents)}")


Kết quả truy vấn Boolean:
AI AND Machine: ['D2']
AI OR Learning: ['D1', 'D2', 'D3']
AI NOT Learning: ['D1', 'D3']


In [2]:
import numpy as np
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.metrics.pairwise import cosine_similarity

# 🔹 Tài liệu
documents = [
    "AI is powerful",
    "Machine Learning and AI",
    "AI is the future"
]

# 🔹 Truy vấn
query = ["AI Machine"]

# 🔹 Tạo vector từ tài liệu + truy vấn
vectorizer = CountVectorizer()
doc_vectors = vectorizer.fit_transform(documents + query).toarray()

# 🔹 Tính cosine similarity giữa truy vấn và từng tài liệu
query_vector = doc_vectors[-1]  # Vector của truy vấn
doc_vectors = doc_vectors[:-1]  # Vector của tài liệu

similarities = cosine_similarity([query_vector], doc_vectors)[0]

# 🔹 In kết quả
for i, score in enumerate(similarities):
    print(f"Độ tương đồng của truy vấn với D{i+1}: {score:.4f}")


Độ tương đồng của truy vấn với D1: 0.4082
Độ tương đồng của truy vấn với D2: 0.7071
Độ tương đồng của truy vấn với D3: 0.3536
