## Imports

In [1]:
import json
import re
from collections import defaultdict
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
import nltk

nltk.download('punkt')
nltk.download('stopwords')


[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\Kambouris1970\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\Kambouris1970\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

Αυτή είναι μια συνάρτηση που καθαρίζει το περιεχόμενο με την αφαίρεση ειδικών χαρακτήρων και την μετατροπή σε lowercase. Κρατάει τους αλφαριθμητικούς. Επίσης η πρώτη εντολή φορτώνει αγγλικές stopwords.

In [2]:

stop_words = set(stopwords.words('english'))

def clean_text(text):
    text = re.sub(r'[^\w\s]', '', text)  
    return text.lower()


## Ανεστραμμένο Ευρετήριο
Τέλος έχουμε την συνάρτηση για το ανεστραμμένο ευρετήριο. Ξεκινάει με την επεξεργασία κάθε άρθρου, καθαρίζει τον τίτλο και το περιεχόμενο, ενώνει τίτλο και περιεχόμενο και συμβολίζει λέξεις με την χρήση του nltk.word_tokenize. Επίσης αφαιρεί stopwords και μετατρέπει τα sets σε lists για σειριοποίηση.

In [3]:

def create_inverted_index(file_path):
    inverted_index = defaultdict(set) 

   
    with open(file_path, 'r', encoding='utf-8') as file:
        articles = json.load(file)
   
    for article in articles:
        title = clean_text(article.get('title', ''))
        content = clean_text(article.get('processed_content', ''))

        full_text = title + " " + content
        
        words = word_tokenize(full_text)

        words = [word for word in words if word not in stop_words]

        for word in words:
            inverted_index[word].add(title)  
    
    inverted_index = {word: list(titles) for word, titles in inverted_index.items()}
    
    return inverted_index

def save_inverted_index(inverted_index, output_file):
    with open(output_file, 'w', encoding='utf-8') as file:
        json.dump(inverted_index, file, ensure_ascii=False, indent=4)

if __name__ == '__main__':
    input_file = 'preprocessed_wikipedia_articles.json'  # Input JSON file with processed articles
    output_file = 'inverted_index.json'  # Output JSON file for inverted index

    # Create the inverted index
    inverted_index = create_inverted_index(input_file)

    # Save the inverted index to a file
    save_inverted_index(inverted_index, output_file)

    print(f"Inverted index saved to {output_file}")


Inverted index saved to inverted_index.json
