Βήμα 1: Crawler

Στο πρόγραμμα αυτό πραγματοποιηείται web crawler και συλλέγονται τίτλοι (στοιχεία h1 κώδικα html) και τα περιεχόμενα content μαζί με το url τους. Σε κάθε έγγραφο δίνεται μοναδικό αύξον id. Τα δεδομένα αυτά αποθηκεύονται στο output.json.

In [1]:
import requests
from bs4 import BeautifulSoup
import json
import time
import re

def crawl_wikipedia(start_url, max_pages=30, output_file='output.json'):
    visited_pages = []
    pages_to_visit = [start_url]
    page_id = 1

    while pages_to_visit and len(visited_pages) < max_pages:
        current_url = pages_to_visit.pop(0)

        try:
            print(f"Γίνεται λήψη δεδομένων {len(visited_pages)+1}/{max_pages}")
            response = requests.get(current_url)
            response.encode = 'utf-8'
            if response.status_code != 200:
                print(f"Σφάλμα HTTP: {response.status_code} στη σελίδα {current_url}")
                continue

            soup = BeautifulSoup(response.content, 'html.parser')

            title = soup.find('h1').get_text()
            
            content_div = soup.find('div', class_='mw-parser-output')
            if content_div:
                content = content_div.text
                content = re.sub(r"\[\d+\]", "", content)
                content = re.sub(r"\n+", "\n\n", content)
                content = re.sub(r"\s+", " ", content).strip()
            else:
                content = "Κείμενο μη διαθέσιμο."
            
            visited_pages.append({"id": page_id,"url": current_url, "title": title, "content": content})
            page_id += 1

            for link in soup.find_all('a', href=True):
                href = link['href']
                if href.startswith('/wiki/') and ':' not in href:
                    full_url = f"https://en.wikipedia.org{href}"
                    if full_url not in [page['url'] for page in visited_pages] and full_url not in pages_to_visit:
                        pages_to_visit.append(full_url)
            
            time.sleep(1)
        
        except requests.exceptions.RequestException as e:
            print(f"Σφάλμα σύνδεσης στη σελίδα {current_url}: {e}")
        except Exception as e:
            print(f"Σφάλμα κατα την Επεξεργασία της σελίδας {current_url}: {e}")

    with open(output_file, 'w', encoding='utf-8') as file:
        json.dump(visited_pages, file, ensure_ascii=False, indent=4)

    print (f"Τα δεδομένα αποθηκεύτηκαν στο {output_file}")

if __name__ == "__main__":
    start_url = 'https://en.wikipedia.org/wiki/Python_(programming_language)'
    crawl_wikipedia(start_url)

Γίνεται λήψη δεδομένων 1/30
Γίνεται λήψη δεδομένων 2/30
Γίνεται λήψη δεδομένων 3/30
Γίνεται λήψη δεδομένων 4/30
Γίνεται λήψη δεδομένων 5/30
Γίνεται λήψη δεδομένων 6/30
Γίνεται λήψη δεδομένων 7/30
Γίνεται λήψη δεδομένων 8/30
Γίνεται λήψη δεδομένων 9/30
Γίνεται λήψη δεδομένων 10/30
Γίνεται λήψη δεδομένων 11/30
Γίνεται λήψη δεδομένων 12/30
Γίνεται λήψη δεδομένων 13/30
Γίνεται λήψη δεδομένων 14/30
Γίνεται λήψη δεδομένων 15/30
Γίνεται λήψη δεδομένων 16/30
Γίνεται λήψη δεδομένων 17/30
Γίνεται λήψη δεδομένων 18/30
Γίνεται λήψη δεδομένων 19/30
Γίνεται λήψη δεδομένων 20/30
Γίνεται λήψη δεδομένων 21/30
Γίνεται λήψη δεδομένων 22/30
Γίνεται λήψη δεδομένων 23/30
Γίνεται λήψη δεδομένων 24/30
Γίνεται λήψη δεδομένων 25/30
Γίνεται λήψη δεδομένων 26/30
Γίνεται λήψη δεδομένων 27/30
Γίνεται λήψη δεδομένων 28/30
Γίνεται λήψη δεδομένων 29/30
Γίνεται λήψη δεδομένων 30/30
Τα δεδομένα αποθηκεύτηκαν στο output.json


Ακολουθεί η λίστα με τις βιβλιοθήκες που χρησιμοποιήθηκαν στο πρόγραμμα.
Το requests χρησιμοποιείται για την αποστολή http προς τις σελιδες (του wikipedia στην περιπτωση μας).
Το BeautifulSoup χρησιμοποιείται για την ανάλυση του HTML κώδικα.
Το json χρησιμοποιείται για την αποθήκευση δεδομένων σε αρχείο json.
Τo time χρησιμοποιείται για να προσθέσει καθυστερήσεις μεταξύ των αιτημάτων για την αποφυγή "μπλοκαρίσματος".
To re χρησιμοποιείται για την εφαρμογή κανονικών εκφράσεων (regex) στην επεξεργασία κειμένου.
Η εισαγωγή των βιβλιοθηκών γίνεται στο πάνω μέρος του κώδικα.

In [None]:
import requests
from bs4 import BeautifulSoup
import json
import time
import re

Στην συνέχεια ακολουθεί η κύρια συνάρτηση του προγράμματος, η crawl_wikipedia.
Η συνάρτηση αυτή περιλαμβάνει:
start_url: Το αρχικό url με το οποίο θα ξεκινήσει το πρόγραμμα.
max_pages: Το μέγιστο αριθμό σελίδων που θα προσπαθεί να επισκεφτεί το πρόγραμμα. Ως default τιμή έχουμε βάλει το 30.
output_file: Το όνομα του αρχείου στο οποίο θα αποθηκευτούν τα δεδομένα του crawling.

In [None]:
def crawl_wikipedia(start_url, max_pages=30, output_file='output.json'):

Στην κύρια συνάρτηση οι μεταβλητές που υπάρχουν είναι οι εξής:
visited_pages: Περιέχει όλες τις σελίδες που έχει επισκεφτεί ο κώδικας.
pages_to_visit: Είναι η ουρά με τις σελίδες που δεν έχει επισκεφτεί ακόμα ο κώδικας

Ακολουθεί ο βρόγχος αναζήτησης σελίδων. Ο βρόγχος συνεχίζεται όσο α) υπάρχουν σελίδες που δεν έχουν επισκεφτεί και β) ο αριθμός των σελίδων που έχουν επισκεφτεί είναι μικρότερος απο το max_pages. Το pop(0) παίρνει την πρώτη σελίδα απο το pages_to_visit.

In [None]:
while pages_to_visit and len(visited_pages) < max_pages:
        current_url = pages_to_visit.pop(0)

Ακολουθεί η λήψη των δεδομένων της τρέχουσας σελίδας. 
Εκτελείται μέσω του requests.get() αίτημα HTML στην τρέχουσα σελίδα. Σε περίπτωση μη επιτυχής απάντησης (status code 200), εμφανίζεται μήνυμα σφάλματος και η διαδικασία συνεχίζεται με την επόμενη σελίδα.

In [None]:
try:
            print(f"Γίνεται λήψη δεδομένων {len(visited_pages)+1}/{max_pages}")
            response = requests.get(current_url)
            response.encode = 'utf-8'
            if response.status_code != 200:
                print(f"Σφάλμα HTTP: {response.status_code} στη σελίδα {current_url}")
                continue

Ακολουθεί η ανάλυση του HTML.
Με την χρήση του BeautifulSoup αναλύεται ο κώδικας για να βρεθεί ο τίτλος (h1) και το περιεχόμενο (τα υπόλοιπα στοιχεία της σελίδας).
Στην συνέχεια αφαιρούνται οι παραπομπές και τροποποιούνται οι νέες γραμμες και τα κενά σημεία που υπάρχουν στον κώδικα της σελίδας.

In [None]:
soup = BeautifulSoup(response.content, 'html.parser')

            title = soup.find('h1').get_text()
            
            content_div = soup.find('div', class_='mw-parser-output')
            if content_div:
                content = content_div.text
                content = re.sub(r"\[\d+\]", "", content)
                content = re.sub(r"\n+", "\n\n", content)
                content = re.sub(r"\s+", " ", content).strip()
            else:
                content = "Κείμενο μη διαθέσιμο."

Ακολουθεί η μορφή της αποθήκευσης των δεδομένων.
Το πρόγραμμα αποθηκεύει τα δεδομένα αυξάνοντας καθε φορα κατα 1 το id, το url της τρέχουσας ιστοσελίδας, τον τίτλο (το h1) και το περιεχόμενο (τα υπόλοιπα στοιχεία της σελίδας)

In [None]:
visited_pages.append({"id": page_id,"url": current_url, "title": title, "content": content})
            page_id += 1

Ακολουθεί η αναζήτηση των συνδέσμων.
Στην συνάρτηση αυτή αναζητούνται όλα τα <a href> στοιχεία του html κώδικα της σελίδας.
Αν ο σύνδεσμος αυτός είναι εσωτερικός, δηλαδή ξεκινάει με /wiki/ και δεν περιέχει ":" γίνεται δημιουργία του πλήρες url για την σελίδα αυτή.
Γίνεται επίσης έλεγχος ώστε α) να μην έχει γίνει ήδη "επίσκεψη" στην σελίδα και β) να μην βρίσκεται στην ουρά προς "επίσκεψη". Αν πληρούνται αυτά τα κριτήρια, τοτε το url προστίθεται στο pages_to_visit.

In [None]:
for link in soup.find_all('a', href=True):
                href = link['href']
                if href.startswith('/wiki/') and ':' not in href:
                    full_url = f"https://en.wikipedia.org{href}"
                    if full_url not in [page['url'] for page in visited_pages] and full_url not in pages_to_visit:
                        pages_to_visit.append(full_url)
            
            

Ακολουθεί η καθυστέρηση.
Η συνάρτηση αυτή υπάρχει ώστε να μην γίνει υπερφόρτωση του server.

In [None]:
time.sleep(1)

Ακολουθούν οι εξαιρέσεις του κώδικα.
Γίνεται εκτύπωση σχετικών μηνυμάτων σε σφάλματα σύνδεσης ή επεξεργασίας της σελίδας.

In [None]:
except requests.exceptions.RequestException as e:
            print(f"Σφάλμα σύνδεσης στη σελίδα {current_url}: {e}")
        except Exception as e:
            print(f"Σφάλμα κατα την Επεξεργασία της σελίδας {current_url}: {e}")

Ακολουθεί η αποθήκευση στο json αρχείο.
Όταν οι παραπάνω διεργασίες ολοκληρωθούν, τα δεδομένα θα αποθηκευτούν στο output.json με την χρήση της συνάρτησης json.dump().

In [None]:
with open(output_file, 'w', encoding='utf-8') as file:
        json.dump(visited_pages, file, ensure_ascii=False, indent=4)

    print (f"Τα δεδομένα αποθηκεύτηκαν στο {output_file}")

Ακολουθεί η εκκίνηση του προγράμματος.
Η μεταβλητή start_url περιέχει το url της ιστοσελίδας απο την οποία επιθυμούμε να ξεκινήσει το πρόγραμμα.
Γίνεται κλήση της συνάρτησης crawl_wikipedia() με τo αρχικό url.

In [None]:
if __name__ == "__main__":
    start_url = 'https://en.wikipedia.org/wiki/Python_(programming_language)'
    crawl_wikipedia(start_url)

Βήμα 2: Προ-επεξεργασία

Στον κώδικα αυτόν πραγματοποιείται προεπεξεργασία στο output.json και αποθηκέυει τα νέα δεδομένα στο processed_file.json

In [2]:
import json
import re
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
from nltk.stem import WordNetLemmatizer
from nltk import pos_tag
from nltk.corpus import wordnet
from itertools import tee, islice, chain
import nltk

nltk.download('punkt')
nltk.download('stopwords')
nltk.download('wordnet')
nltk.download('averaged_perceptron_tagger')

lemmatizer_en = WordNetLemmatizer()

stop_words_en = set(stopwords.words('english'))

def get_wordnet_pos(tag):
    if tag.startswith('J'):
        return wordnet.ADJ
    elif tag.startswith('V'):
        return wordnet.VERB
    elif tag.startswith('N'):
        return wordnet.NOUN
    elif tag.startswith('R'):
        return wordnet.ADV
    else:
        return wordnet.NOUN
    
def lemmatize_text(tokens):
    lemmatized_tokens = []
    pos_tags = pos_tag(tokens)
    for token, tag in pos_tags:
        if re.match(r'[a-zA-Z]+', token):
            wordnet_pos = get_wordnet_pos(tag)
            lemmatized_tokens.append(lemmatizer_en.lemmatize(token, pos=wordnet_pos))
        else:
            lemmatized_tokens.append(token)
    return lemmatized_tokens

def generate_ngrams(tokens, n=2):
    return [' '.join(tokens[i:i+n]) for i in range(len(tokens) - n + 1)]

def preprocess_text(text, ngram_n=2):
    if not isinstance(text, str):
        return []
    text = text.lower()
    text = re.sub(r'[^\w\s]', '', text)
    tokens = word_tokenize(text)
    tokens = [token for token in tokens if token not in stop_words_en]
    tokens = lemmatize_text(tokens)
    ngrams = generate_ngrams(tokens, ngram_n)
    return tokens + ngrams

def process_json(input_file, output_file, ngram_n=2):
    with open(input_file, 'r', encoding='utf-8') as f:
        data = json.load(f)

    processed_data = []
    for item in data:
        processed_item = {}
        for key, value in item.items():
            if isinstance(value, str):
                processed_item[key] = preprocess_text(value, ngram_n)
            else:
                processed_item[key] = value
        processed_data.append(processed_item)

    with open(output_file, 'w', encoding='utf-8') as f:
        json.dump(processed_data, f, ensure_ascii=False, indent=4)

process_json("output.json", "processed_file.json", ngram_n=2)
                

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\spyro\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\spyro\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\spyro\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     C:\Users\spyro\AppData\Roaming\nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!


Ακολουθεί η λίστα με τις βιβλιοθήκες που χρησιμοποιήθηκαν στο πρόγραμμα.
Το json χρησιμοποιείται για την αποθήκευση δεδομένων σε αρχείο json.
To re χρησιμοποιείται για την εφαρμογή κανονικών εκφράσεων (regex) στην επεξεργασία κειμένου.
To nltk είναι η κύρια βιβλιοθήκη που περιέχει υπο-βιβλιοθήκες.
Το nltk.tokenize.word_tokenize χρησιμοποιείται για την διαίρεση του κειμένού σε tokens.
Το nltk.corpus.stopwords παρέχει τα stopwords.
To nltk.stem.WordNetLemmatizer χρησιμοποιείται για την λημματοποίηση των λέξεων.
To nltk.pos_tag χρησιμοποιείται για την αναγνώριση του μέρους του λόγου της κάθε λέξης.
To nltk.corpus.wordnet χρησιμοποιείται για τον προσδιορισμό της λημματοποιήσης
Tα itertools.tee, islice, chain παρέχουν βοηθητικές συναρτήσεις για τον χειρισμό αλληλουχιών.
Η εισαγωγή των βιβλιοθηκών γίνεται στο πάνω μέρος του κώδικα.

In [None]:
import json
import re
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
from nltk.stem import WordNetLemmatizer
from nltk import pos_tag
from nltk.corpus import wordnet
from itertools import tee, islice, chain
import nltk

Ακολουθεί λήψη των απαραίτητων δεδομένων απο την nltk.

In [None]:
nltk.download('punkt')
nltk.download('stopwords')
nltk.download('wordnet')
nltk.download('averaged_perceptron_tagger')

Aκολουθεί η συνάρτηση get_wordnet_pos.
H συνάρτηση αυτή μετατρέπει τις ετικέτες που παρέχονται από το pos_tag σε μορφή που κατανοέι ο WordNetLemmatizer.
Aν η ετικέτα ξεκινάει με J, στο wordnet επιστρέφεται επίθετο. Αντιστοιχα:
Αν ξεκινάει με V επιστρέφεται ρήμα.
Αν ξεκινάει με N επιστρέφει ουσιαστικό.
Αν ξεκινάει με R επιστρέφει επίρρημα.
Αν δεν ταιριάζει με κανένα απο τα παραπάνω, παίρνει ως default τιμή του ουσιαστικού

In [None]:
def get_wordnet_pos(tag):
    if tag.startswith('J'):
        return wordnet.ADJ
    elif tag.startswith('V'):
        return wordnet.VERB
    elif tag.startswith('N'):
        return wordnet.NOUN
    elif tag.startswith('R'):
        return wordnet.ADV
    else:
        return wordnet.NOUN

Ακολουθεί η συνάρτηση lemmatize_text.
Στην συνάρτηση αυτή γίνεται λημματοποίηση στον κατάλογο λέξεων tokens.
Αρχίκα μέσω της pos_tag αναγνωρίζουμε το μέρος του λόγου της κάθε λέξης.
Χρησιμοποιούμε την συνάρτηση get_wordnet_pos για να μετατραπεί η λέξη σε μορφή κατανοητή απο τον WordNetLemmatizer.
Εάν η λέξη έιναι αλφαβητική (η ταυτοποιήση γίνεται με το if re.match(r'[a-zA-Z]+', token)) γίνεται λημματοποίηση της λέξης. Σε περίπτωση που η "λεξη" δεν ειναι αλφαβητική πχ αριθμός, δεν γίνεται επεξεργασία.
Τέλος, γίνεται επιστροφή των λημματοποιημένων λέξεων.

In [None]:
def lemmatize_text(tokens):
    lemmatized_tokens = []
    pos_tags = pos_tag(tokens)
    for token, tag in pos_tags:
        if re.match(r'[a-zA-Z]+', token):
            wordnet_pos = get_wordnet_pos(tag)
            lemmatized_tokens.append(lemmatizer_en.lemmatize(token, pos=wordnet_pos))
        else:
            lemmatized_tokens.append(token)
    return lemmatized_tokens

Ακολουθεί η συνάρτηση generate_ngrams.
Στην συνάρτηση αυτή δημιουργούνται n-grams δυο λέξεων από τον κατάλογο tokens.

In [None]:
def generate_ngrams(tokens, n=2):
    return [' '.join(tokens[i:i+n]) for i in range(len(tokens) - n + 1)]

Ακολουθεί η συνάρτηση preprocess_text.
Στην συνάρτηση αυτη γίνονται με την σειρά οι εξής λειτουργίες που χρειάονται για την προ-επεξεργασία του κειμένου:
Μετατροπη σε πεζά.
Αφαίρεση σημείων στίξης.
Tokenization.
Αφαίρεση των stop words.
Λημματοποίηση.
N-grams.
Τέλος, επιστρέφει τα επεξεργασμένα tokens και n-grams.

In [None]:
def preprocess_text(text, ngram_n=2):
    if not isinstance(text, str):
        return []
    text = text.lower()
    text = re.sub(r'[^\w\s]', '', text)
    tokens = word_tokenize(text)
    tokens = [token for token in tokens if token not in stop_words_en]
    tokens = lemmatize_text(tokens)
    ngrams = generate_ngrams(tokens, ngram_n)
    return tokens + ngrams

Ακολουθεί η συνάρτηση process_json.
Στην συνάρτηση αυτή επεξεργαζόμαστε και αποθηκέυουμε δεδομένα των json αρχείων.
Αρχικά, φορτώνεται το αρχείο εισόδου, το output.json με την χρήση της json.load().
Γίνεται επεξεργασία του κάθε δεδομένου της αρχείου.
Τέλος, γίνεται αποθήκευση των επεξεργασμένων δεδομένων στο output file, το processed_file.json με την χρήση της json.dump().


In [None]:
def process_json(input_file, output_file, ngram_n=2):
    with open(input_file, 'r', encoding='utf-8') as f:
        data = json.load(f)

    processed_data = []
    for item in data:
        processed_item = {}
        for key, value in item.items():
            if isinstance(value, str):
                processed_item[key] = preprocess_text(value, ngram_n)
            else:
                processed_item[key] = value
        processed_data.append(processed_item)

    with open(output_file, 'w', encoding='utf-8') as f:
        json.dump(processed_data, f, ensure_ascii=False, indent=4)

Βήμα 3: Inverted Index

Στο πρόγραμμα αυτό πραγματοποιείται η δημιουργία μιας ανεστραμένης δομής δεδομένων ευρετηρίου και η αποθήκευσή της στο inverted_index.json.

In [3]:
import json

def create_content_inverted_index(file_path, output_file="inverted_index.json"):

    try:
        with open(file_path, 'r', encoding='utf-8') as f:
            data = json.load(f)
    except FileNotFoundError:
        print(f"Σφάλμα: Το αρχείο {file_path} δεν βρέθηκε.")
        return None
    except json.JSONDecodeError:
        print(f"Σφάλμα: Το αρχείο {file_path} δεν είναι έγκυρο JSON.")
        return None

    content_index = {}

    for document in data:
        doc_id = document['id']
        content_words = document['content']

        for word in content_words:
            if word not in content_index:
                content_index[word] = []
            if doc_id not in content_index[word]:
                content_index[word].append(doc_id)
    
    try:
        with open(output_file, "w", encoding='utf-8') as outfile:
            json.dump(content_index, outfile, ensure_ascii=False, indent=4)
        print(f"Ο ανεστραμμένος ευρετήριος αποθηκεύτηκε στο {output_file}")
    except Exception as e:
        print(f"Σφάλμα κατά την αποθήκευση του αρχείου: {e}")
        return None
    
    return content_index

file_path = "processed_file.json"
content_index = create_content_inverted_index(file_path)

if content_index:
    print("Ευρετήριο περιεχομένου:")
    for word, doc_ids in content_index.items():
        print(f"{word}: {doc_ids}")

Ο ανεστραμμένος ευρετήριος αποθηκεύτηκε στο inverted_index.json
Ευρετήριο περιεχομένου:
generalpurpose: [1, 4, 12, 26]
programming: [1, 4, 5, 6, 7, 8, 10, 11, 12, 13, 17, 18, 19, 20, 21, 26]
language: [1, 4, 5, 6, 7, 8, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 26, 29, 30]
article: [1, 2, 3, 4, 5, 6, 7, 8, 10, 14, 15, 16, 17, 19, 20, 21, 26, 29]
python: [1, 3, 4, 5, 6, 8, 10, 11, 13, 15, 17, 18, 19, 20, 21, 26, 30]
program: [1, 4, 5, 6, 7, 8, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 26, 29, 30]
animal: [1, 3, 18]
see: [1, 2, 4, 5, 6, 7, 8, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 26, 29]
genus: [1, 3]
pythonparadigmmultiparadigm: [1]
objectoriented: [1, 4, 5, 6, 7, 8, 10, 11, 12, 14, 17, 18, 19, 21]
procedural: [1, 4, 5, 6, 7, 8, 10, 11, 12]
imperative: [1, 4, 5, 6, 7, 8]
functional: [1, 4, 5, 6, 7, 8, 10, 11, 12, 14, 17, 19, 21, 29]
structure: [1, 4, 5, 6, 7, 8, 10, 11, 12, 14, 15, 17, 18, 19, 21, 26]
reflectivedesigned: [1]
byguido: [1]
van: [1, 3, 4, 8, 13, 15]
r

Στο πρόγραμμα χρησιμοποιήθηκε μόνο η βιβλιοθήκη json η χρησιμοποιείται για την αποθήκευση δεδομένων σε αρχείο json.

In [None]:
import json

Ακολουθεί άνοιγμα του json αρχειου και φορτώνεται μια μεταβλητή.
Το <<with open(file_path, 'r', encoding='utf-8') as f:>> μας διασφαλίζει οτι το έγγραφο θα ανοιξει σε λειτουργία read με κωδικοποίηση utf-8.
To data = json.load(f) διαβάζει το περιεχόμενο του json και το μετατρέπει σε λίστα ή λεξικό, ανάλογα την δομή.
Το except FileNotFoundError: "ελέγχει" αν υπαρχει το αρχειο στην συγκεκριμενη τοποθεσία. Αν δεν υπαρχεί, εμφανίζεται αντιστοιχο μήνυμα και επιστρέφεται το None.
Το json.JSONDecodeError: "ελέγχει" αν το περιεχόμενο του αρχείου είναι έγκυρο json. Αν δεν είναι, εμφανίζεται αντιστοιχο μήνυμα και επιστρέφεται το None

In [None]:
    try:
        with open(file_path, 'r', encoding='utf-8') as f:
            data = json.load(f)
    except FileNotFoundError:
        print(f"Σφάλμα: Το αρχείο {file_path} δεν βρέθηκε.")
        return None
    except json.JSONDecodeError:
        print(f"Σφάλμα: Το αρχείο {file_path} δεν είναι έγκυρο JSON.")
        return None

Ακολουθεί η δημιουργία του ανεστραμμένου ευρετηρίου.
Το content_index = {} δημιουργεί το κενό λεξικό που θα περιέχει το ανεστραμμένο ευρετήριο.
Το for document in data: κάνει επεξεργασία κάθε εγγραφου απο τα δεδομένα που φορτώθηκαν απο το json.
Το doc_id = document['id'] πάιρνει το id του εκάστοτε εγγράφου.
Το content_words = document['content'] πάιρνει την λίστα λέξεων που περιέχει το έγγραφο.
Το for word in content_words: επεξεργάζεται την κάθε λέξη του περιεχομένου του κάθε εγγράφου.
Το if word not in content_index: ελέγχει αν η λέξη δεν υπάρχει ήδη στο ευρετήριο, την προσθέτη με κενή λίστα
To if doc_id not in content_index[word]: ελέγχει αν το id δεν υπάρχει ήδη στην λίστα εγγράφων της κάθε λέξης. Αν δεν υπάρχει, προσθέτει το id.

In [None]:
    content_index = {}

    for document in data:
        doc_id = document['id']
        content_words = document['content']

        for word in content_words:
            if word not in content_index:
                content_index[word] = []
            if doc_id not in content_index[word]:
                content_index[word].append(doc_id)

Aκολουθεί η αποθήκευση του ανεστραμμένου ευρετηρίου στο inverted_index.json.
Το with open(output_file, "w", encoding='utf-8') as outfile:ανοίγει το αρχείο εξόδου και κάνει write με κωδικοποίηση utf-8
Το json.dump(content_index, outfile, ensure_ascii=False, indent=4) αποθηκεύει το λεξικό content_index ως json. 
Η παράμετρος ensure_ascii=False επιτρέπει την αποθήκευση χαρακτήρων unicode χωρίς οι χαρακτήρες να γίνονται escaped.
Η παράμετρος indent=4 κάνει πιο ευανάγνωστο το json προσφέροντας 4 κενά ανά εσοχή.
Το except Exception as e: εκτυπώνει μηνυμα σε περίπτωση σφάλματος κατα την αποθήκευση.

In [None]:
try:
        with open(output_file, "w", encoding='utf-8') as outfile:
            json.dump(content_index, outfile, ensure_ascii=False, indent=4)
        print(f"Ο ανεστραμμένος ευρετήριος αποθηκεύτηκε στο {output_file}")
    except Exception as e:
        print(f"Σφάλμα κατά την αποθήκευση του αρχείου: {e}")
        return None

Ακολουθεί η "επιστροφή" του ευρετηρίου.

In [None]:
return content_index

Ακολουθεί η εκτύπβση του ευρετηρίου.
Αν το ευρετήριο δεν είναι κενο, εκτυπώνει μήνυμα για κάθε λέξη που περιέχει μαζί με τα αντίστοιχα έγγραφα που περιέχεται η κάθε λέξη.

In [None]:
if content_index:
    print("Ευρετήριο περιεχομένου:")
    for word, doc_ids in content_index.items():
        print(f"{word}: {doc_ids}")

Βήμα 4: Μηχανή αναζήτησης και Ranking

Στο πρόγραμμα αυτό

In [4]:
import re
import json
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
from nltk.stem import WordNetLemmatizer
from nltk import pos_tag
from nltk.corpus import wordnet
import nltk
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
from rank_bm25 import BM25Okapi

try:
    nltk.data.find('tokenizers/punkt')
except LookupError:
    nltk.download('punkt')
try:
    nltk.data.find('corpora/stopwords')
except LookupError:
    nltk.download('stopwords')
try:
    nltk.data.find('corpora/wordnet')
except LookupError:
    nltk.download('wordnet')
try:
    nltk.data.find('taggers/averaged_perceptron_tagger')
except LookupError:
    nltk.download('averaged_perceptron_tagger')

lemmatizer_en = WordNetLemmatizer()
stop_words_en = set(stopwords.words('english'))

def get_wordnet_pos(tag):
    if tag.startswith('J'):
        return wordnet.ADJ
    elif tag.startswith('V'):
        return wordnet.VERB
    elif tag.startswith('N'):
        return wordnet.NOUN
    elif tag.startswith('R'):
        return wordnet.ADV
    else:
        return wordnet.NOUN

def lemmatize_text(tokens):
    return [lemmatizer_en.lemmatize(token, pos=get_wordnet_pos(pos_tag([token])[0][1])) for token in tokens]

def preprocess_query(query):
    tokens = word_tokenize(query)
    processed_tokens = [
        lemmatize_text([re.sub(r'[^\w\s]', '', token.lower())])[0]
        for token in tokens
        if re.sub(r'[^\w\s]', '', token.lower()) and re.sub(r'[^\w\s]', '', token.lower()) not in stop_words_en
    ]
    return ' '.join(processed_tokens)

def load_output_file(file_path):
    try:
        with open(file_path, 'r', encoding='utf-8') as f:
            return json.load(f)
    except FileNotFoundError:
        print(f"Σφάλμα: Το αρχείο {file_path} δεν βρέθηκε.")
        return None
    except json.JSONDecodeError:
        print(f"Σφάλμα: Το αρχείο {file_path} δεν είναι έγκυρο JSON.")
        return None

def display_results(results, output_data):
    if output_data is None:
        return

    for doc_id in results:
        doc = next((item for item in output_data if item['id'] == doc_id), None)
        if doc:
            print(f"Έγγραφο {doc_id}: Τίτλος: {doc['title']}, URL: {doc['url']}")
        else:
            print(f"Έγγραφο {doc_id}: Δεν βρέθηκαν πληροφορίες για το έγγραφο με ID {doc_id}")

def boolean_retrieval(query, documents):
    query = query.strip().lower()
    tokens = re.findall(r'\b\w+\b|and|or|not', query, flags=re.IGNORECASE)
    
    print(f"Tokens από το ερώτημα: {tokens}") 

    def evaluate(operators, operands):
        operator = operators.pop()
        if operator == "not":
            term = operands.pop()
            operands.append(doc_ids - term)
        else:
            right = operands.pop()
            left = operands.pop()
            if operator == "and":
                operands.append(left & right)
            elif operator == "or":
                operands.append(left | right)

    doc_ids = set(range(1, len(documents) + 1))
    terms = {doc["id"]: set(doc["content"].lower().split()) for doc in documents}

    operands = []
    operators = []
    precedence = {"not": 3, "and": 2, "or": 1}
    
    for token in tokens:
        if token in precedence:
            while (operators and 
                    precedence[operators[-1]] >= precedence[token]):
                evaluate(operators, operands)
            operators.append(token)
        else:
            term_set = {doc_id for doc_id, content in terms.items() if token in content}
            print(f"Όρος '{token}' βρέθηκε στα έγγραφα: {sorted(term_set)}")  
            operands.append(term_set)

    while operators:
        evaluate(operators, operands)

    return sorted(operands.pop() if operands else [])

def tfidf_retrieval(query, processed_documents):
    vectorizer = TfidfVectorizer()

    documents = [doc["content"] for doc in processed_documents]
    all_data = documents + [query]

    tfidf_matrix = vectorizer.fit_transform(all_data)

    query_vector = tfidf_matrix[-1]

    cosine_similarities = cosine_similarity(tfidf_matrix[:-1], query_vector.reshape(1, -1))

    doc_ids = [doc["id"] for doc in processed_documents]
    sorted_results = sorted(zip(doc_ids, cosine_similarities.squeeze()), key=lambda x: x[1], reverse=True)

    return [result[0] for result in sorted_results]

def vms_retrieval(query, processed_documents):
    vectorizer = TfidfVectorizer()

    documents = [doc["content"] for doc in processed_documents]
    all_data = documents + [query]

    tfidf_matrix = vectorizer.fit_transform(all_data)

    query_vector = tfidf_matrix[-1]

    cosine_similarities = cosine_similarity(tfidf_matrix[:-1], query_vector.reshape(1, -1))

    doc_ids = [doc["id"] for doc in processed_documents]
    sorted_results = sorted(zip(doc_ids, cosine_similarities.squeeze()), key=lambda x: x[1], reverse=True)

    return [result[0] for result in sorted_results if result[1] > 0]

def bm25_retrieval(query, processed_documents):
    corpus = [doc["content"].split() for doc in processed_documents]
    bm25 = BM25Okapi(corpus)
    tokenized_query = query.split()

    doc_scores = bm25.get_scores(tokenized_query)

    doc_ids = [doc["id"] for doc in processed_documents]
    sorted_results = sorted(zip(doc_ids, doc_scores), key=lambda x: x[1], reverse=True)

    return [result[0] for result in sorted_results if result[1] > 0]


def main():
    output_file_path = "output.json"
    output_data = load_output_file(output_file_path)

    if output_data is None:
        return

    processed_documents = [{"id": item["id"], "content": item["content"]} for item in output_data]

    while True:
        query = input("Εισάγεται το ερώτημα αναζήτησης (exit για έξοδο): ").strip()
        if query.lower() == "exit":
            break

        search_type = input("Επιλέξτε τύπο αναζήτησης (1: Boolean 2: TF-IDF 3: VMS 4: BM25): ").strip()

        if search_type == "1":
            results = boolean_retrieval(query, processed_documents)
        elif search_type == "2":
            results = tfidf_retrieval(query, processed_documents)
        elif search_type == "3":
            results = vms_retrieval(query, processed_documents)
        elif search_type == "4":
            results = bm25_retrieval(query, processed_documents)
        else:
            print("Μη έγκυρη επιλογή. Δοκιμάστε ξανά.")
            continue

        if results:
            print("Αποτελέσματα αναζήτησης:")
            display_results(results, output_data)
        else:
            print("Δεν βρέθηκαν έγγραφα που να ταιριάζουν.")

if __name__ == "__main__":
    main()


[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\spyro\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


Tokens από το ερώτημα: ['python', 'and', 'article']
Όρος 'python' βρέθηκε στα έγγραφα: [1, 3, 4, 5, 6, 13, 15, 17, 18, 19, 21, 26, 30]
Όρος 'article' βρέθηκε στα έγγραφα: [1, 2, 3, 4, 5, 7, 8, 10, 15, 16, 17, 19, 20, 21, 26]
Αποτελέσματα αναζήτησης:
Έγγραφο 1: Τίτλος: Python (programming language), URL: https://en.wikipedia.org/wiki/Python_(programming_language)
Έγγραφο 3: Τίτλος: Python (genus), URL: https://en.wikipedia.org/wiki/Python_(genus)
Έγγραφο 4: Τίτλος: Programming paradigm, URL: https://en.wikipedia.org/wiki/Programming_paradigm
Έγγραφο 5: Τίτλος: Comparison of multi-paradigm programming languages, URL: https://en.wikipedia.org/wiki/Multi-paradigm
Έγγραφο 15: Τίτλος: Python Software Foundation, URL: https://en.wikipedia.org/wiki/Python_Software_Foundation
Έγγραφο 17: Τίτλος: Type system, URL: https://en.wikipedia.org/wiki/Type_system
Έγγραφο 19: Τίτλος: Type system, URL: https://en.wikipedia.org/wiki/Dynamic_typing
Έγγραφο 21: Τίτλος: Type system, URL: https://en.wikipedia.

Ξεκινάμε με την εισαγωγή των βιβλιοθηκών. 
Βιβλιοθήκη re: χρησιμοποιείται για κανονικές εκφράσεις (regular expressions).
Βιβλιοθήκη json: χρησιμοποιείται για την ανάγνωση και εγγραφή αρχείων JSON.
Βιβλιοθήκη nltk.tokenize: χρησιμοποιείται για τη διάσπαση κειμένου σε λέξεις.
Βιβλιοθήκη nltik.corpus.stopwords: χρησιμοποιείται για την αφαίρεση λέξεων σταματημάτων.
Βιβλιοθήκη nltk.stem.WordNetLemmetizer: χρησιμοποιείται για τη λέξη "κανονικοποίηση" (lemmatization).
Βιβλιοθήκη nltk.corpus.wordnet: χρησιμοποιείται για τη χρήση του WordNet για POS tagging (μέρος του λόγου).
Βιβλιοθήκη sklearn.feauture_extraction.text.TfidVector: χρησιμοποιείται για τη δημιουργία ενός πλέγματος TF-IDF.
Βιβλιοθήκηrank_bm25.BM25Okapi: χρησιμοποιείται για την εφαρμογή του BM25 αλγορίθμου για ανάκτηση κειμένων.

In [None]:
import re
import json
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
from nltk.stem import WordNetLemmatizer
from nltk import pos_tag
from nltk.corpus import wordnet
import nltk
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
from rank_bm25 import BM25Okapi

Επιπρόσθετα, γίνεται έλεγχος για τον αν υπάρχουν οι βιβλιοθήκες και αν όχι τις κατεβάζει.

nltk.data.find: Eλέγχει αν τα δεομένα υπάρχουν τοπικά
nltk.download: Κατεβάζει τα δεδομένα αν δεν υπάρχουν

In [None]:
try:
    nltk.data.find('tokenizers/punkt')
except LookupError:
    nltk.download('punkt')
try:
    nltk.data.find('corpora/stopwords')
except LookupError:
    nltk.download('stopwords')
try:
    nltk.data.find('corpora/wordnet')
except LookupError:
    nltk.download('wordnet')
try:
    nltk.data.find('taggers/averaged_perceptron_tagger')
except LookupError:
    nltk.download('averaged_perceptron_tagger')

Εδώ, υλοποιείται η διαδικασία της λεξικοποίησης και της κανονικοποίησης των λέξεων για την καλύτερη σύγκριση κατά την αναζήτηση.

WordNetLemmetizer(): Δημιουργεί έναν λημματοποιητή για τα αγγλικά.
stop_words_en: Φορτώνει τα stopwords στα αγγλικά.

In [None]:
lemmatizer_en = WordNetLemmatizer()
stop_words_en = set(stopwords.words('english'))

get_wordnet_pos: Χρησιμοποιείται για την ανάκτηση του μέρους του λόγου (POS) που έχει κάθε λέξη, χρησιμοποιώντας το tagging, μέσω του pos_tag του NLTK. Η λειτουργία αυτή επιστρέφει την κατάλληλη τιμή από το WordNet για κάθε λέξη.

In [None]:
def get_wordnet_pos(tag):
    if tag.startswith('J'):
        return wordnet.ADJ
    elif tag.startswith('V'):
        return wordnet.VERB
    elif tag.startswith('N'):
        return wordnet.NOUN
    elif tag.startswith('R'):
        return wordnet.ADV
    else:
        return wordnet.NOUN

lemmatize_text: Λημματοποιεί τις λέξεις του κειμένου με βάση το μέρος του λόγου τους (POS). Χρησιμοποιεί τον λημματοποιητή του NLTK και το αποτέλεσμα από το POS tagging.

In [None]:
def lemmatize_text(tokens):
    return [lemmatizer_en.lemmatize(token, pos=get_wordnet_pos(pos_tag([token])[0][1])) for token in tokens]

preprocess_query: Η συνάρτηση αυτή καθαρίζει το κείμενο (αφαίρεση ειδικών χαρακτήρων και μετατροπή των λέξεων σε πεζά), απομακρύνει τις stop words και λημματοποιεί τις υπόλοιπες λέξεις.

In [None]:
def preprocess_query(query):
    tokens = word_tokenize(query)
    processed_tokens = [
        lemmatize_text([re.sub(r'[^\w\s]', '', token.lower())])[0]
        for token in tokens
        if re.sub(r'[^\w\s]', '', token.lower()) and re.sub(r'[^\w\s]', '', token.lower()) not in stop_words_en
    ]
    return ' '.join(processed_tokens)

Παρακάτω βλέπουμε τις συναρτήσεις που χρησιμοποιούνται για φόρτωση αρχείου δεδομένων και την εμφάνιση των αποτελεσμάτων της αναζήτησης.

load_output_file: Φορτώνει το αρχείο output.json, το οποίο περιέχει τα δεδομένα των εγγράφων. Σε περίπτωση που το αρχείο δεν υπάρχει ή είναι κατεστραμμένο, επιστρέφει None.

In [None]:
def load_output_file(file_path):
    try:
        with open(file_path, 'r', encoding='utf-8') as f:
            return json.load(f)
    except FileNotFoundError:
        print(f"Σφάλμα: Το αρχείο {file_path} δεν βρέθηκε.")
        return None
    except json.JSONDecodeError:
        print(f"Σφάλμα: Το αρχείο {file_path} δεν είναι έγκυρο JSON.")
        return None

display_results: Εμφανίζει τα αποτελέσματα της αναζήτησης στον χρήστη με βάση το doc_id. Ελέγχει αν τα έγγραφα με το συγκεκριμένο doc_id υπάρχουν στα δεδομένα και εμφανίζει τον τίτλο και το URL τους.

In [None]:
def display_results(results, output_data):
    if output_data is None:
        return

    for doc_id in results:
        doc = next((item for item in output_data if item['id'] == doc_id), None)
        if doc:
            print(f"Έγγραφο {doc_id}: Τίτλος: {doc['title']}, URL: {doc['url']}")
        else:
            print(f"Έγγραφο {doc_id}: Δεν βρέθηκαν πληροφορίες για το έγγραφο με ID {doc_id}")

Στη συνέχεια,χρησιμοποιούνται συναρτήσεις οι οποίες υλοποιούν διάφορους αλγορίθμους αναζήτησης: Boolean, TF-IDF, VMS και BM25.

Συνάρτηση για την αναζήτηση:
Boolean: Λειτουργεί με λογικούς τελεστές (AND, OR, NOT).

boolean_retrieval: Χωρίζει το ερώτημα σε tokens και στη συνέχεια αναλύει τα λογικά συνδέσμους (AND, OR, NOT). Για κάθε όρο του ερωτήματος, δημιουργεί ένα σύνολο εγγράφων που περιέχουν τον όρο και κάνει τις αντίστοιχες λογικές πράξεις.

In [None]:
def boolean_retrieval(query, documents):
    query = query.strip().lower()
    tokens = re.findall(r'\b\w+\b|and|or|not', query, flags=re.IGNORECASE)
    
    print(f"Tokens από το ερώτημα: {tokens}") 

    def evaluate(operators, operands):
        operator = operators.pop()
        if operator == "not":
            term = operands.pop()
            operands.append(doc_ids - term)
        else:
            right = operands.pop()
            left = operands.pop()
            if operator == "and":
                operands.append(left & right)
            elif operator == "or":
                operands.append(left | right)

Η συνάρτηση TF-IDF.
Υπολογίζει την οιμοιότητα του ερωτήμταος και των εγγράφων με τη χρήση της μεθόδου TF-IDF. 

Πιο συγκεκριμένα:
tfidf_retrieval: Δημιουργεί μια "μήτρα" TF-IDF για τα έγγραφα και το ερώτημα, και υπολογίζει την ομοιότητα μεταξύ του ερωτήματος και των εγγράφων χρησιμοποιώντας την ομοιότητα του συνημίτονου (cosine similarity).

In [None]:
def tfidf_retrieval(query, processed_documents):
    vectorizer = TfidfVectorizer()

    documents = [doc["content"] for doc in processed_documents]
    all_data = documents + [query]

    tfidf_matrix = vectorizer.fit_transform(all_data)

    query_vector = tfidf_matrix[-1]

    cosine_similarities = cosine_similarity(tfidf_matrix[:-1], query_vector.reshape(1, -1))

    doc_ids = [doc["id"] for doc in processed_documents]
    sorted_results = sorted(zip(doc_ids, cosine_similarities.squeeze()), key=lambda x: x[1], reverse=True)

    return [result[0] for result in sorted_results]

Η συνάρτηση VMS Retrieval:

έχει παρόμοια λειτουργία με την TF-IDF, αλλά με διαφορετικό αποτέλεσμα, καθώς χρησιμοποιεί διαφορετική μορφή εξόδου.

In [None]:
def vms_retrieval(query, processed_documents):
    vectorizer = TfidfVectorizer()

    documents = [doc["content"] for doc in processed_documents]
    all_data = documents + [query]

    tfidf_matrix = vectorizer.fit_transform(all_data)

    query_vector = tfidf_matrix[-1]

    cosine_similarities = cosine_similarity(tfidf_matrix[:-1], query_vector.reshape(1, -1))

    doc_ids = [doc["id"] for doc in processed_documents]
    sorted_results = sorted(zip(doc_ids, cosine_similarities.squeeze()), key=lambda x: x[1], reverse=True)

    return [result[0] for result in sorted_results if result[1] > 0]

Η συνάρτηση MB25:

Xρησιμοποιεί τον αλγόριθμο BM25 για την κατάταξη των εγγράφων με βάση την ομοιότητά τους με το ερώτημα.

Πιο συγκεκριμένα:
bm25_retrieval: Υπολογίζει τις βαθμολογίες για κάθε έγγραφο χρησιμοποιώντας τον αλγόριθμο BM25 και επιστρέφει τα έγγραφα με τη μεγαλύτερη βαθμολογία.

In [None]:
def bm25_retrieval(query, processed_documents):
    corpus = [doc["content"].split() for doc in processed_documents]
    bm25 = BM25Okapi(corpus)
    tokenized_query = query.split()

    doc_scores = bm25.get_scores(tokenized_query)

    doc_ids = [doc["id"] for doc in processed_documents]
    sorted_results = sorted(zip(doc_ids, doc_scores), key=lambda x: x[1], reverse=True)

    return [result[0] for result in sorted_results if result[1] > 0]

Τέλος, συναντάμε το κύριο σώμα του προγράμματος.
Σε αυτό το σημείο γίνονται οι εξής λειοτυργίες:

Το πρόγραμμα φορτώνει δεδομένα από το αρχείο, συλλέγει τις επιλογές του χρήστη και καλεί την αντίστοιχη συνάρτηση. 

Συνεχίζει έως ότου δοθεί ως είσοδος το exit. 

In [None]:
def main():
    output_file_path = "output.json"
    output_data = load_output_file(output_file_path)

    if output_data is None:
        return

    processed_documents = [{"id": item["id"], "content": item["content"]} for item in output_data]

    while True:
        query = input("Εισάγεται το ερώτημα αναζήτησης (exit για έξοδο): ").strip()
        if query.lower() == "exit":
            break

        search_type = input("Επιλέξτε τύπο αναζήτησης (1: Boolean 2: TF-IDF 3: VMS 4: BM25): ").strip()

        if search_type == "1":
            results = boolean_retrieval(query, processed_documents)
        elif search_type == "2":
            results = tfidf_retrieval(query, processed_documents)
        elif search_type == "3":
            results = vms_retrieval(query, processed_documents)
        elif search_type == "4":
            results = bm25_retrieval(query, processed_documents)
        else:
            print("Μη έγκυρη επιλογή. Δοκιμάστε ξανά.")
            continue

        if results:
            print("Αποτελέσματα αναζήτησης:")
            display_results(results, output_data)
        else:
            print("Δεν βρέθηκαν έγγραφα που να ταιριάζουν.")

Βήμα 5: Αξιολόγηση συστήματος

Στο πρόγραμμα αυτό γίνεται αξιολόγηση της απόδοσης της μηχανής αναζήτησης.

In [5]:
import json
from sklearn.metrics import precision_score, recall_score, f1_score

with open('output.json', 'r', encoding='utf-8') as f:
    documents = {str(doc['id']): doc for doc in json.load(f)}

with open('questions.json', 'r', encoding='utf-8') as f:
    questions = json.load(f)['questions']

with open('relevance.json', 'r', encoding='utf-8') as f:
    relevance = json.load(f)['relevance']

with open("inverted_index.json", "r", encoding="utf-8") as f:
    inverted_index = json.load(f)

def search(query, inverted_index):
    terms = query.lower().split()
    result_set = [set(inverted_index.get(term, [])) for term in terms]
    if result_set:
        return list(set.intersection(*result_set))
    return []

def calculate_metrics(retrieved, ground_truth, all_doc_ids):
    all_precisions = []
    all_recalls = []
    all_f1s = []
    map_score = 0

    for q_id, relevant_docs in ground_truth.items():
        retrieved_docs = set(retrieved.get(q_id, []))
        relevant_docs = set(relevant_docs)

        binary_retrieved = [1 if doc in retrieved_docs else 0 for doc in all_doc_ids]
        binary_relevant = [1 if doc in relevant_docs else 0 for doc in all_doc_ids]

        precision = precision_score(binary_relevant, binary_retrieved, zero_division=0)
        recall = recall_score(binary_relevant, binary_retrieved, zero_division=0)
        f1 = f1_score(binary_relevant, binary_retrieved, zero_division=0)

        all_precisions.append(precision)
        all_recalls.append(recall)
        all_f1s.append(f1)

        if relevant_docs:
            precision_at_k = [
                len(relevant_docs & set(retrieved_docs[:k + 1])) / (k + 1)
                for k in range(len(retrieved_docs))
            ]
            avg_precision = sum(precision_at_k) / len(relevant_docs) if relevant_docs else 0
            map_score += avg_precision
    
    mean_precision = sum(all_precisions) / len(all_precisions) if all_precisions else 0
    mean_recall = sum(all_recalls) / len(all_recalls) if all_recalls else 0
    mean_f1 = sum(all_f1s) / len(all_f1s) if all_f1s else 0
    map_score /= len(ground_truth) if ground_truth else 1

    return mean_precision, mean_recall, mean_f1, map_score

all_doc_ids = set(documents.keys())

retrieved_documents = {}
for q_id, query in questions.items():
    retrieved_documents[q_id] = search(query, inverted_index)
    print(f"Ερώτηση: {query}")
    print(f"Συναφή έγγραφα: {retrieved_documents[q_id]}")

precision, recall, f1, map_score = calculate_metrics(retrieved_documents, relevance, all_doc_ids)

print(f"Ακρίβεια: {precision:.2f}")
print(f"Ανάκληση: {recall:.2f}")
print(f"F1 Score: {f1:.2f}")
print(f"MAP: {map_score:.2f}")

Ερώτηση: Ποιος δημιούργησε την Python και ποία είναι η ιστορία της δημιουργίας της;
Συναφή έγγραφα: []
Ερώτηση: Ποία είναι τα βασικά χαρακτηριστικά που καθιστούν την Python ιδανική γοα χρήση σε διάφορα πεδία;
Συναφή έγγραφα: []
Ερώτηση: Ποια προγραμματιστικά παρδείγματα υποστηρίζει η Python και πως επιχυγχάνεται η ευελιξία της;
Συναφή έγγραφα: []
Ερώτηση: Ποιες ήταν οι μεγαλύτερες αλλαγές που εισήχθησαν στο Python 3 σε σχέση με το Python 2;
Συναφή έγγραφα: []
Ερώτηση: Τι είναι το Zen of Python και πώς επηρεάζει τη φιλοσοφία της Python;
Συναφή έγγραφα: []
Ερώτηση: Ποια είναι τα νέα χαρακτηριστικά του Python 3.13 και πώς βελτιώνουν τη γλώσσα;
Συναφή έγγραφα: []
Ερώτηση: Ποιες είναι οι χρήσεις του Python στη μηχανική μάθηση και στην τεχνητή νοημοσύνη;
Συναφή έγγραφα: []
Ερώτηση: Τι είναι τα f-strings και γιατί θεωρούνται βολικά για διαχείριση συμβολοσειρών;
Συναφή έγγραφα: []
Ερώτηση: Ποια είναι τα πλεονεκτήματα της Python στη διαχείριση της μνήμης και στη βελτιστοποίηση πόρων;
Συναφή έγγ

Σε αυτό το σημείο ο κώδικας φορτώνει τα δεδομένα από τέσσερα JSON αρχεία.

Τα αρχεία αυτά είναι:

output.json: Περιέχει τα έγγραφα (documents) με τα χαρακτηριστικά τους (ID, περιεχόμενο κ.λπ.). Φορτώνονται σε έναν λεξικό όπου το κλειδί είναι το ID του εγγράφου.

questions.json: περιέχει ερωτήσεις και τους αντίστοιχους συνδέσμους. Οι ερωτήσεις παρουσιάζονται με τη μορφή λεξικού μαζί με το αντίστοιχο ID τους. 

relevance.json: περιέχει τη σχετικότητα (relevance) των εγγράφων για κάθε ερώτηση. Πιο συγκεκριμένα καθορίζει ποια έγγραφα είναι συναφή με κάθε ερώτημα.

inverted_index.json: Περιέχει τον ανεστραμμένο ευρετήριο, δηλαδή ένα λεξικό όπου τα κλειδιά είναι οι όροι (λέξεις) και οι τιμές είναι τα έγγραφα που περιέχουν αυτούς τους όρους.


In [None]:
with open('output.json', 'r', encoding='utf-8') as f:
    documents = {str(doc['id']): doc for doc in json.load(f)}

with open('questions.json', 'r', encoding='utf-8') as f:
    questions = json.load(f)['questions']

with open('relevance.json', 'r', encoding='utf-8') as f:
    relevance = json.load(f)['relevance']

with open("inverted_index.json", "r", encoding="utf-8") as f:
    inverted_index = json.load(f)

Σε αυτό το στάδιο η συνάρτηση search υλοποιεί την αναζήτηση ενός ερωτήματος στον ανεστραμμένο ευρετήριο.

Συγκεκριμένα:
terms = query.lower().split(): Το ερώτημα μετατρέπεται σε πεζά γράμματα και χωρίζεται σε όρους.
result_set = [set(inverted_index.get(term, [])) for term in terms]: Για κάθε όρο του ερωτήματος, γίνεται αναζήτηση στο ανεστραμμένο ευρετήριο και επιστρέφεται το σύνολο των εγγράφων που περιέχουν τον όρο. Εάν ο όρος δεν βρεθεί, επιστρέφεται κενό.
set.intersection(*result_set):Υπολογίζει τα έγγραφα που περιέχουν όλους τους όρους του ερωτήματος.


In [None]:
def search(query, inverted_index):
    terms = query.lower().split()
    result_set = [set(inverted_index.get(term, [])) for term in terms]
    if result_set:
        return list(set.intersection(*result_set))
    return []

Στη συνάρτηση αυτή υπολογίζονται οι μετρικές αξιολογήσεις αναζήτησης.

Οι βασικές μετρήσεις:
precision_score: Υπολογίζει την ακρίβεια (precision).
recall_score: Υπολογίζει την ανάκληση (recall). 
f1_score: Υπολογίζει το F1-score.

MAP (Mean Average Precision):
precision_at_k: Υπολογίζει την ακρίβεια στο k-οστό έγγραφο. Για κάθε ερώτημα, εξετάζει τα πρώτα k έγγραφα και υπολογίζει την ακρίβεια τους.
avg_precision: Υπολογίζει τον μέσο όρο της ακρίβειας για όλα τα έγγραφα του ερωτήματος και προσθέτει το αποτέλεσμα στο MAP score.

Τελευταίο βήμα είναι ο υπολογισμός της μέσης ακρίβειας, της μέσης ανάκλησης, του μέσου F1-score και του συνολικού MAP για όλες τις ερωτήσεις.

In [None]:
def calculate_metrics(retrieved, ground_truth, all_doc_ids):
    all_precisions = []
    all_recalls = []
    all_f1s = []
    map_score = 0

    for q_id, relevant_docs in ground_truth.items():
        retrieved_docs = set(retrieved.get(q_id, []))
        relevant_docs = set(relevant_docs)

        binary_retrieved = [1 if doc in retrieved_docs else 0 for doc in all_doc_ids]
        binary_relevant = [1 if doc in relevant_docs else 0 for doc in all_doc_ids]

        precision = precision_score(binary_relevant, binary_retrieved, zero_division=0)
        recall = recall_score(binary_relevant, binary_retrieved, zero_division=0)
        f1 = f1_score(binary_relevant, binary_retrieved, zero_division=0)

        all_precisions.append(precision)
        all_recalls.append(recall)
        all_f1s.append(f1)

        if relevant_docs:
            precision_at_k = [
                len(relevant_docs & set(retrieved_docs[:k + 1])) / (k + 1)
                for k in range(len(retrieved_docs))
            ]
            avg_precision = sum(precision_at_k) / len(relevant_docs) if relevant_docs else 0
            map_score += avg_precision
    
    mean_precision = sum(all_precisions) / len(all_precisions) if all_precisions else 0
    mean_recall = sum(all_recalls) / len(all_recalls) if all_recalls else 0
    mean_f1 = sum(all_f1s) / len(all_f1s) if all_f1s else 0
    map_score /= len(ground_truth) if ground_truth else 1

    return mean_precision, mean_recall, mean_f1, map_score

Ακολουθεί η εκτέλεση αναζητήσεων και η εκτύπωση αποτελεσμάτων.

Η μεταβλητή all_doc_ids περιέχει το σύνολο των ID των εγγράφων που χρησιμοποιούνται για τη σύγκριση.
Για κάθε ερώτημα (q_id, query), εκτελείται η αναζήτηση στον ανεστραμμένο ευρετήριο και αποθηκεύονται τα ανακτηθέντα έγγραφα (retrieved_documents).

Τα αποτελέσματα αναζήτησης εκτυπώνονται στον χρήστη για κάθε ερώτημα.

In [None]:
all_doc_ids = set(documents.keys())

retrieved_documents = {}
for q_id, query in questions.items():
    retrieved_documents[q_id] = search(query, inverted_index)
    print(f"Ερώτηση: {query}")
    print(f"Συναφή έγγραφα: {retrieved_documents[q_id]}")

Στο τελεύταίο στάδιο, υλοποείται ο υπολογισμός και η εκτύπωση μετρικών. 

In [None]:
precision, recall, f1, map_score = calculate_metrics(retrieved_documents, relevance, all_doc_ids)

print(f"Ακρίβεια: {precision:.2f}")
print(f"Ανάκληση: {recall:.2f}")
print(f"F1 Score: {f1:.2f}")
print(f"MAP: {map_score:.2f}")