# Βήμα 3: Δημιουργία Ανεστραμμένου Ευρετηρίου (Reverse Index)

Σε αυτό το βήμα, θα δημιουργήσουμε το ανεστραμμένο ευρετήριο (inverted index) από τα επεξεργασμένα άρθρα.

Το ανεστραμμένο ευρετήριο είναι μια δομή δεδομένων που συνδέει τους όρους (tokens) με τα άρθρα όπου εμφανίζονται. Είναι κρίσιμο για την αναζήτηση, καθώς επιτρέπει γρήγορη ανάκτηση άρθρων που περιέχουν συγκεκριμένους όρους.


## Κελί 1: Εισαγωγή βιβλιοθηκών

In [6]:
from collections import defaultdict
import json

## Κελί 2: Συνάρτηση για τη δημιουργία του ανεστραμμένου ευρετηρίου 
Σχόλιο:
Αυτή η συνάρτηση:Διατρέχει όλα τα άρθρα,διαχωρίζει το περιεχόμενο κάθε άρθρου σε λέξεις (tokens),για κάθε λέξη, ενημερώνει το ευρετήριο με το ID του άρθρου όπου εμφανίζεται.

In [7]:
def create_inverted_index(articles):
    """
    Δημιουργεί ανεστραμμένο ευρετήριο.
    
    Args:
        articles (list): Λίστα επεξεργασμένων άρθρων.
    
    Returns:
        dict: Ανεστραμμένο ευρετήριο με τους όρους ως κλειδιά
              και λίστες με τα IDs των άρθρων όπου εμφανίζονται.
    """
    inverted_index = defaultdict(list)
    for idx, article in enumerate(articles):
        tokens = article['content'].split()  # Διαχωρίζουμε το κείμενο σε λέξεις
        for token in set(tokens):  # Χρησιμοποιούμε `set` για μοναδικούς όρους ανά άρθρο
            inverted_index[token].append(idx)
    return inverted_index


## Κελί 3: Φόρτωση επεξεργασμένων άρθρων
Σχόλιο:Φορτώνουμε τα επεξεργασμένα άρθρα από το αρχείο processed_articles.json που δημιουργήθηκε στο προηγούμενο βήμα.

In [8]:
# Φόρτωση επεξεργασμένων άρθρων από το αρχείο 'processed_articles.json'
with open('processed_articles.json', 'r', encoding='utf-8') as f:
    articles = json.load(f)

print(f"Loaded {len(articles)} processed articles.")


Loaded 100 processed articles.


## Κελί 4: Δημιουργία του ανεστραμμένου ευρετηρίου 
Σχόλιο:
Χρησιμοποιούμε τη συνάρτηση create_inverted_index για να δημιουργήσουμε το ανεστραμμένο ευρετήριο. Εμφανίζουμε πόσοι μοναδικοί όροι υπάρχουν στο ευρετήριο.

In [9]:
# Δημιουργία του ανεστραμμένου ευρετηρίου
inverted_index = create_inverted_index(articles)

print(f"Inverted index created with {len(inverted_index)} unique tokens.")


Inverted index created with 24298 unique tokens.


## Κελί 5: Αποθήκευση του ανεστραμμένου ευρετηρίου 
Σχόλιο:
Αποθηκεύουμε το ανεστραμμένο ευρετήριο σε ένα αρχείο inverted_index.json για χρήση στα επόμενα βήματα.

In [10]:
# Αποθήκευση του ανεστραμμένου ευρετηρίου σε αρχείο JSON
with open('inverted_index.json', 'w', encoding='utf-8') as f:
    json.dump(inverted_index, f, indent=4, ensure_ascii=False)

print("Inverted index saved to 'inverted_index.json'.")


Inverted index saved to 'inverted_index.json'.
