#Εργασία εργαστηρίου "Ανάκτηση πληροφορίας" 
#ΓΟΥΣΗΣ ΣΤΑΜΑΤΗΣ ice19390053 & ΠΑΠΑΜΑΚΑΡΙΟΣ ΝΙΚΟΛΑΟΣ ice19390183

Η εργασία έχει ως θέμα τη δημιουργία μηχανής αναζήτησης με σκοπό την κατανόηση των θεμελιωδών εννοιών της ανάκτησης πληροφορίας, της
ευρετηρίασης, της κατάταξης και της αναζήτησης πληροφορίας, καθώς και πρακτικές δεξιότητες στην επεξεργασία φυσικής γλώσσας και την εφαρμογή αλγορίθμων αναζήτησης.

Βήμα 1- Συλλογή δεδομένων:
 Από το Wikipedia ανακτήθηκαν 27371 άρθρα, τα οποία αποθηκεύτηκαν στο αρχείο "output.json". Για λόγους ευκολίας και συντομίας, ο κώδικάς έχει γραφτεί έτσι ώστε να επεξεργάζεται μόνο τα πρώτα 3 άρθρα από το σύνολο δεδομένων, χρησιμοποιώντας τον τελεστή ":", ο οποίος δημιουργεί slice του πίνακα που περιέχει τα πρώτα 3 αρθρά.

Βήμα 2- Προεπεξεργασία κειμένου (Text Processing):
Ο κώδικας διαβάζει δεδομένα από το output.json που περιέχει ta άρθρα, επεξεργάζεται το κείμενο από κάθε άρθρο (κανονικοποίηση, διαχωρισμός σε λέξεις, αφαίρεση stopwords, stemming/lemmatization) και αποθηκεύει το καθαρισμένο κείμενο στο cleaned_output.json.

In [7]:
#Εισαγωγή βιβλιοθηκών
#----------------------------------------------------------------
#Για να διαβάσουμε και να αποθηκεύσουμε δεδομένα σε μορφή JSON
import json
#Η βιβλιοθήκη re είναι για την επεξεργασία κανονικών εκφράσεων
import re
#Η βιβλιοθήκη Natural Language Toolkit (NLTK) χρησιμοποιείται για την επεξεργασία φυσικής γλώσσας
import nltk
#Διάφορα εργαλεία από αυτή τη βιβλιοθήκη
from nltk.corpus import stopwords #Λίστα κοινών λέξεων (όπως "και", "ή", "ο", κ.λπ.) που συνήθως δεν προσφέρουν καμία πληροφορία
from nltk.tokenize import word_tokenize #Χρησιμοποιείται για τον διαχωρισμό ενός κειμένου σε λέξεις
from nltk.stem import PorterStemmer, WordNetLemmatizer #απλοποίηση λέξεων σε μια ριζική μορφή ή σε βασική λέξη

# Λήψη των απαραίτητων εργαλείων του nltk (αν δεν έχουν ήδη κατεβεί)
nltk.download('punkt') 
nltk.download('stopwords') 
nltk.download('wordnet')

# Αρχικοποίηση stop words, stemmer, και lemmatizer
stop_words = set(stopwords.words('english')) #Φτιάχνει ένα σύνολο με τις κοινές αγγλικές λέξεις που θα αγνοηθούν στην επεξεργασία
stemmer = PorterStemmer() #Δημιουργεί ένα αντικείμενο του PorterStemmer για την αφαίρεση της κατάληξης των λέξεων
lemmatizer = WordNetLemmatizer() #Δημιουργεί ένα αντικείμενο του WordNetLemmatizer για την αναγνώριση της βασικής μορφής της λέξης

# Άνοιγμα του JSON αρχείου με τα δεδομένα
with open("output.json", "r", encoding="utf-8") as file:
    data = json.load(file)

# Λίστα για αποθήκευση των «καθαρισμένων» άρθρων
cleaned_data = []

# Συνολικός αριθμός άρθρων
total_articles = len(data)
print(f"Συνολικός αριθμός άρθρων προς επεξεργασία: {total_articles}")

# Καθαρισμός και προεπεξεργασία κειμένου για κάθε άρθρο
for i, article in enumerate(data[:3]): #Διαβαζει μονο τα πρωτα 3 αρθρα
    title = article.get("title", "")
    text = article.get("text", "")

    # 1. Κανονικοποίηση (μετατροπή σε πεζά)
    text = text.lower()

    # 2. Tokenization (Διαχωρισμός του κειμένου σε λέξεις)
    tokens = word_tokenize(text)

    # 3. Αφαίρεση σημείων στίξης και stop words
    tokens = [word for word in tokens if word.isalpha() and word not in stop_words]

    # Επιβεβαίωση ότι έχουν αφαιρεθεί τα stop words
    filtered_tokens = [word for word in tokens if word in stop_words]
    if filtered_tokens:
        print(f"Προσοχή: Τα παρακάτω stop words δεν αφαιρέθηκαν: {filtered_tokens}")

    # 4. Stemming ή Lemmatization
    stemmed_tokens = [stemmer.stem(word) for word in tokens]
    lemmatized_tokens = [lemmatizer.lemmatize(word) for word in tokens]

    # 5. Επανασύνθεση των tokens σε καθαρισμένο κείμενο
    cleaned_text = ' '.join(lemmatized_tokens)

    # Προσθήκη στο νέο σύνολο δεδομένων
    cleaned_article = {
        "title": title,
        "cleaned_text": cleaned_text
    }
    cleaned_data.append(cleaned_article)

    # Εκτύπωση προόδου κάθε 1 άρθρο
    if (i + 1) % 1 == 0:
        print(f"Επεξεργάστηκαν {i + 1}/{total_articles} άρθρα...")

# Αποθήκευση του καθαρισμένου συνόλου δεδομένων σε νέο JSON αρχείο
output_path = "cleaned_output.json"
with open(output_path, "w", encoding="utf-8") as out_file:
    json.dump(cleaned_data, out_file, ensure_ascii=False, indent=2)

print(f"Η προεπεξεργασία ολοκληρώθηκε και τα δεδομένα αποθηκεύτηκαν στο '{output_path}'")


[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\User\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\User\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\User\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


Συνολικός αριθμός άρθρων προς επεξεργασία: 27371
Επεξεργάστηκαν 1/27371 άρθρα...
Επεξεργάστηκαν 2/27371 άρθρα...
Επεξεργάστηκαν 3/27371 άρθρα...
Η προεπεξεργασία ολοκληρώθηκε και τα δεδομένα αποθηκεύτηκαν στο 'cleaned_output.json'


Βήμα 3. Ευρετήριο (Indexing):
Δημιουργία ανεστραμμένης δομής δεδομένων ευρετηρίου (inverted index) για την
αποτελεσματική αντιστοίχιση όρων στα έγγραφα στα οποία εμφανίζονται και εφαρμογή δομής δεδομένων για την αποθήκευση του ευρετηρίου.

In [None]:
# Δημιουργία ευρετηρίου (Inverted Index)
inverted_index = {}

In [None]:
 # Αναγνώριση των λέξεων (tokens)
    for word in set(lemmatized_tokens):  # Χρησιμοποιούμε set για να μην προσθέσουμε την ίδια λέξη πολλές φορές
        if word not in inverted_index:
            inverted_index[word] = []
        inverted_index[word].append(i)  # Αποθηκεύουμε τον αριθμό του άρθρου (index)

Για κάθε λέξη χωρίς σημεία στήξης, ελέγχεται αν υπάρχει στο ευρετήριο, αλλιώς δημιουργείται νέα είσοδος. Έπειτα, καταχωρείται ένας δείκτης για τον αριθμό του άρθρου που βρίσκεται η λέξη.

Για παράδειγμα, στα 3 άρθρα που επεξεργάστηκαν, η λέξη "redirect" εμφανίζεται στα άρθρα με index 0 και 2.

In [None]:
"redirect": [
    0,
    2
  ]

step_2.py --> step3.py

In [None]:
import json
import re
import nltk
nltk.download('punkt')
nltk.download('punkt_tab')
nltk.download('stopwords')
nltk.download('wordnet')
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from nltk.stem import PorterStemmer, WordNetLemmatizer

# Λήψη των απαραίτητων εργαλείων του nltk (αν δεν έχουν ήδη κατεβεί)
nltk.download('punkt')
nltk.download('stopwords')
nltk.download('wordnet')

# Αρχικοποίηση stop words, stemmer, και lemmatizer
stop_words = set(stopwords.words('english'))
stemmer = PorterStemmer()
lemmatizer = WordNetLemmatizer()

# Άνοιγμα του JSON αρχείου με τα δεδομένα
with open("./output.json", "r", encoding="utf-8") as file:
    data = json.load(file)

# Λίστα για αποθήκευση των «καθαρισμένων» άρθρων
cleaned_data = []

# Δημιουργία ευρετηρίου (Inverted Index)
inverted_index = {}

# Συνολικός αριθμός άρθρων
total_articles = len(data)
print(f"Συνολικός αριθμός άρθρων προς επεξεργασία: {total_articles}")

# Καθαρισμός και προεπεξεργασία κειμένου για κάθε άρθρο
for i, article in enumerate(data[:3]): #Διαβαζει μονο τα πρωτα 3 αρθρα
    title = article.get("title", "")
    text = article.get("text", "")

    # 1. Κανονικοποίηση (μετατροπή σε πεζά)
    text = text.lower()

    # 2. Tokenization (Διαχωρισμός του κειμένου σε λέξεις)
    tokens = word_tokenize(text)

    # 3. Αφαίρεση σημείων στίξης και stop words
    tokens = [word for word in tokens if word.isalpha() and word not in stop_words]

    # Επιβεβαίωση ότι έχουν αφαιρεθεί τα stop words
    filtered_tokens = [word for word in tokens if word in stop_words]
    if filtered_tokens:
        print(f"Προσοχή: Τα παρακάτω stop words δεν αφαιρέθηκαν: {filtered_tokens}")

    # 4. Stemming ή Lemmatization
    stemmed_tokens = [stemmer.stem(word) for word in tokens]
    lemmatized_tokens = [lemmatizer.lemmatize(word) for word in tokens]

    # 5. Επανασύνθεση των tokens σε καθαρισμένο κείμενο
    cleaned_text = ' '.join(lemmatized_tokens)

    # Προσθήκη στο νέο σύνολο δεδομένων
    cleaned_article = {
        "title": title,
        "cleaned_text": cleaned_text
    }
    cleaned_data.append(cleaned_article)

    # Αναγνώριση των λέξεων (tokens)
    for word in set(lemmatized_tokens):  # Χρησιμοποιούμε set για να μην προσθέσουμε την ίδια λέξη πολλές φορές
        if word not in inverted_index:
            inverted_index[word] = []
        inverted_index[word].append(i)  # Αποθηκεύουμε τον αριθμό του άρθρου (index)

    # Εκτύπωση προόδου κάθε 1 άρθρο
    if (i + 1) % 1 == 0:
        print(f"Επεξεργάστηκαν {i + 1}/{total_articles} άρθρα...")

# Αποθήκευση του καθαρισμένου συνόλου δεδομένων σε νέο JSON αρχείο
output_path = "cleaned_output.json"
with open(output_path, "w", encoding="utf-8") as out_file:
    json.dump(cleaned_data, out_file, ensure_ascii=False, indent=2)

print(f"Η προεπεξεργασία ολοκληρώθηκε και τα δεδομένα αποθηκεύτηκαν στο '{output_path}'")

# Αποθήκευση του ευρετηρίου (Inverted Index)
index_output_path = "inverted_index.json"
with open(index_output_path, "w", encoding="utf-8") as index_file:
    json.dump(inverted_index, index_file, ensure_ascii=False, indent=2)

print(f"Το ευρετήριο αποθηκεύτηκε στο '{index_output_path}'")

Βήμα 4. Μηχανή αναζήτησης (Search Engine): 
Ανάπτυξη διεπαφής χρήστη για την αναζήτηση όρων χρησιμοποιώντας την Python.

α) Επεξεργασία ερωτήματος (Query Processing):
Ανάπτυξη ενός module επεξεργασίας ερωτημάτων που θα προεπεξεργάζεται τα ερωτήματα που λαμβάνει από τον χρήστη, τα αναλύει και ανακτά σχετικά έγγραφα χρησιμοποιώντας το ανεστραμμένο ευρετήριο. Οι χρήστες θα μπορούν να αναζητούν έγγραφα χρησιμοποιώντας μία ή περισσότερες λέξεις. Το module θα λαμβάνει ερωτήματα χρηστών τα οποία τα γίνονται tokenized και θα εκτελεί απλές λειτουργίες Boolean (AND, OR και NOT).

In [2]:
import json

# Φόρτωση του ανεστραμμένου ευρετηρίου
with open("inverted_index.json", "r", encoding="utf-8") as file:
    inverted_index = json.load(file)

# Συνάρτηση για την ανάκτηση εγγράφων βάσει όρου
def get_documents(term):
    return set(inverted_index.get(term, []))

# Συνάρτηση για την επεξεργασία ερωτήματος
def process_query(query):
    # Διάσπαση του ερωτήματος σε tokens
    tokens = query.split()

    # Στοίβα για διαχείριση Boolean τελεστών
    stack = []

    # Διαχείριση Boolean τελεστών
    i = 0
    while i < len(tokens):
        token = tokens[i].lower()

        if token == "and":
            # Λειτουργία AND
            operand1 = stack.pop()
            operand2 = get_documents(tokens[i + 1])
            stack.append(operand1 & operand2)
            i += 1
        elif token == "or":
            # Λειτουργία OR
            operand1 = stack.pop()
            operand2 = get_documents(tokens[i + 1])
            stack.append(operand1 | operand2)
            i += 1
        elif token == "not":
            # Λειτουργία NOT
            operand2 = get_documents(tokens[i + 1])
            stack.append(set(range(len(inverted_index))) - operand2)
            i += 1
        else:
            # Επεξεργασία όρου
            stack.append(get_documents(token))
        i += 1

    # Το τελευταίο στοιχείο στη στοίβα είναι το αποτέλεσμα
    return stack.pop()

# Διεπαφή γραμμής εντολών για τον χρήστη
print("Καλωσορίσατε στη Μηχανή Αναζήτησης!")
print("\nΜπορείτε να χρησιμοποιήσετε τους παρακάτω τελεστές για τη σύνθεση των ερωτημάτων σας:")
print("- OR: Επιστρέφει έγγραφα που περιέχουν οποιονδήποτε από τους όρους (π.χ. 'machine OR learning').")
print("- AND: Επιστρέφει έγγραφα που περιέχουν όλους τους όρους (π.χ. 'machine AND learning').")
print("- NOT: Εξαιρεί έγγραφα που περιέχουν τον όρο (π.χ. 'NOT neural').")

while True:
    print("\nΕισάγετε το ερώτημά σας για αναζήτηση:")
    query = input("Πληκτρολογήστε 'q' για έξοδο.\n> ").strip()
    if query.lower() == "q":
        print("Αντίο! Σας ευχαριστούμε που χρησιμοποιήσατε τη Μηχανή Αναζήτησης.")
        break

    try:
        # Επεξεργασία του ερωτήματος
        result = process_query(query)

        # Εμφάνιση αποτελεσμάτων
        if result:
            print(f"\nΒρέθηκαν {len(result)} σχετικά έγγραφα: {sorted(result)}")
        else:
            print("\nΔεν βρέθηκαν σχετικά έγγραφα.")
    except Exception as e:
        print(f"\nΣφάλμα κατά την επεξεργασία του ερωτήματος: {e}")


Καλωσορίσατε στη Μηχανή Αναζήτησης!

Μπορείτε να χρησιμοποιήσετε τους παρακάτω τελεστές για τη σύνθεση των ερωτημάτων σας:
- OR: Επιστρέφει έγγραφα που περιέχουν οποιονδήποτε από τους όρους (π.χ. 'machine OR learning').
- AND: Επιστρέφει έγγραφα που περιέχουν όλους τους όρους (π.χ. 'machine AND learning').
- NOT: Εξαιρεί έγγραφα που περιέχουν τον όρο (π.χ. 'NOT neural').

Εισάγετε το ερώτημά σας για αναζήτηση:



Βρέθηκαν 1 σχετικά έγγραφα: [1]

Εισάγετε το ερώτημά σας για αναζήτηση:
Αντίο! Σας ευχαριστούμε που χρησιμοποιήσατε τη Μηχανή Αναζήτησης.


β) Κατάταξη αποτελεσμάτων (Ranking): 
Εφαρμογή αλγορίθμων κατάταξης:
Boolean Retrieval, TF-IDF Ranking, Okapi BM25

Ο χρήστης μπορεί να επιλέγει τον αλγόριθμο ανάκτησης.
Ταξινόμηση και παρουσίαση των αποτελεσμάτων αναζήτησης σε φιλική προς το χρήστη μορφή.

In [3]:
import json
import math
from collections import defaultdict
from sklearn.feature_extraction.text import TfidfVectorizer
import numpy as np

# Φόρτωση του ανεστραμμένου ευρετηρίου
with open("inverted_index.json", "r", encoding="utf-8") as file:
    inverted_index = json.load(file)

# Συνάρτηση για την ανάκτηση εγγράφων βάσει όρου
def get_documents(term):
    return set(inverted_index.get(term, []))

# Συνάρτηση για την επεξεργασία ερωτήματος
def process_query(query):
    tokens = query.split()
    stack = []
    i = 0
    while i < len(tokens):
        token = tokens[i].lower()
        if token == "and":
            operand1 = stack.pop()
            operand2 = get_documents(tokens[i + 1])
            stack.append(operand1 & operand2)
            i += 1
        elif token == "or":
            operand1 = stack.pop()
            operand2 = get_documents(tokens[i + 1])
            stack.append(operand1 | operand2)
            i += 1
        elif token == "not":
            operand2 = get_documents(tokens[i + 1])
            stack.append(set(range(len(inverted_index))) - operand2)
            i += 1
        else:
            stack.append(get_documents(token))
        i += 1
    return stack.pop()

# Συνάρτηση TF-IDF για την κατάταξη αποτελεσμάτων
def compute_tfidf(query, documents):
    vectorizer = TfidfVectorizer()
    tfidf_matrix = vectorizer.fit_transform(documents)
    query_vector = vectorizer.transform([query])
    
    similarities = np.dot(query_vector, tfidf_matrix.T).toarray().flatten()
    return similarities

# Συνάρτηση για τον υπολογισμό της BM25
def compute_bm25(query, documents, k1=1.5, b=0.75):
    avg_doc_len = np.mean([len(doc.split()) for doc in documents])
    idf = defaultdict(lambda: 0)
    doc_len = [len(doc.split()) for doc in documents]
    
    for doc in documents:
        for term in doc.split():
            idf[term] += 1
    
    idf = {term: math.log((len(documents) - freq + 0.5) / (freq + 0.5) + 1.0) for term, freq in idf.items()}
    
    scores = []
    for doc, length in zip(documents, doc_len):
        score = 0
        for term in query.split():
            term_freq = doc.split().count(term)
            score += idf.get(term, 0) * (term_freq * (k1 + 1)) / (term_freq + k1 * (1 - b + b * length / avg_doc_len))
        scores.append(score)
    
    return scores

# Συνάρτηση για την ταξινόμηση αποτελεσμάτων
def rank_documents(query, documents, ranking_algorithm="boolean"):
    if ranking_algorithm == "boolean":
        # Αναζήτηση με Boolean
        result = process_query(query)
        return sorted(result)
    elif ranking_algorithm == "tfidf":
        # TF-IDF Ranking
        similarities = compute_tfidf(query, documents)
        ranked_docs = sorted(enumerate(similarities), key=lambda x: x[1], reverse=True)
        return [doc[0] for doc in ranked_docs]
    elif ranking_algorithm == "bm25":
        # BM25 Ranking
        scores = compute_bm25(query, documents)
        ranked_docs = sorted(enumerate(scores), key=lambda x: x[1], reverse=True)
        return [doc[0] for doc in ranked_docs]

# Διεπαφή γραμμής εντολών για τον χρήστη
def main():
    print("Καλωσορίσατε στη Μηχανή Αναζήτησης!")
    print("\nΜπορείτε να χρησιμοποιήσετε τους παρακάτω τελεστές για τη σύνθεση των ερωτημάτων σας:")
    print("- OR: Επιστρέφει έγγραφα που περιέχουν οποιονδήποτε από τους όρους (π.χ. 'machine OR learning').")
    print("- AND: Επιστρέφει έγγραφα που περιέχουν όλους τους όρους (π.χ. 'machine AND learning').")
    print("- NOT: Εξαιρεί έγγραφα που περιέχουν τον όρο (π.χ. 'NOT neural').")
    
    documents = [""]  # Λίστα για τα έγγραφα (π.χ. κάθε έγγραφο ως απλό κείμενο)
    while True:
        print("\nΕπιλέξτε τον αλγόριθμο κατάταξης:")
        print("1: Boolean Retrieval")
        print("2: TF-IDF Ranking")
        print("3: Okapi BM25")
        print("Πληκτρολογήστε 'q' για έξοδο.")
        
        choice = input("Επιλογή αλγορίθμου (1/2/3): ").strip()
        if choice.lower() == "q":
            print("Αντίο! Σας ευχαριστούμε που χρησιμοποιήσατε τη Μηχανή Αναζήτησης.")
            break

        # Επιλογή αλγορίθμου κατάταξης
        if choice == "1":
            ranking_algorithm = "boolean"
        elif choice == "2":
            ranking_algorithm = "tfidf"
        elif choice == "3":
            ranking_algorithm = "bm25"
        else:
            print("Μη έγκυρη επιλογή, παρακαλώ προσπαθήστε ξανά.")
            continue

        # Εισαγωγή ερωτήματος
        print("\nΕισάγετε το ερώτημά σας για αναζήτηση:")
        query = input("Πληκτρολογήστε 'q' για έξοδο.\n> ").strip()
        if query.lower() == "q":
            print("Αντίο! Σας ευχαριστούμε που χρησιμοποιήσατε τη Μηχανή Αναζήτησης.")
            break

        try:
            # Κατάταξη και εμφάνιση αποτελεσμάτων
            ranked_docs = rank_documents(query, documents, ranking_algorithm)
            if ranked_docs:
                print(f"\nΒρέθηκαν {len(ranked_docs)} σχετικά έγγραφα: {ranked_docs}")
            else:
                print("\nΔεν βρέθηκαν σχετικά έγγραφα.")
        except Exception as e:
            print(f"\nΣφάλμα κατά την επεξεργασία του ερωτήματος: {e}")

if __name__ == "__main__":
    main()


Καλωσορίσατε στη Μηχανή Αναζήτησης!

Μπορείτε να χρησιμοποιήσετε τους παρακάτω τελεστές για τη σύνθεση των ερωτημάτων σας:
- OR: Επιστρέφει έγγραφα που περιέχουν οποιονδήποτε από τους όρους (π.χ. 'machine OR learning').
- AND: Επιστρέφει έγγραφα που περιέχουν όλους τους όρους (π.χ. 'machine AND learning').
- NOT: Εξαιρεί έγγραφα που περιέχουν τον όρο (π.χ. 'NOT neural').

Επιλέξτε τον αλγόριθμο κατάταξης:
1: Boolean Retrieval
2: TF-IDF Ranking
3: Okapi BM25
Πληκτρολογήστε 'q' για έξοδο.

Εισάγετε το ερώτημά σας για αναζήτηση:

Σφάλμα κατά την επεξεργασία του ερωτήματος: empty vocabulary; perhaps the documents only contain stop words

Επιλέξτε τον αλγόριθμο κατάταξης:
1: Boolean Retrieval
2: TF-IDF Ranking
3: Okapi BM25
Πληκτρολογήστε 'q' για έξοδο.
Μη έγκυρη επιλογή, παρακαλώ προσπαθήστε ξανά.

Επιλέξτε τον αλγόριθμο κατάταξης:
1: Boolean Retrieval
2: TF-IDF Ranking
3: Okapi BM25
Πληκτρολογήστε 'q' για έξοδο.
Μη έγκυρη επιλογή, παρακαλώ προσπαθήστε ξανά.

Επιλέξτε τον αλγόριθμο κατάταξ