## imports


In [1]:
import json
import re
import nltk
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
from nltk.stem import WordNetLemmatizer
from string import punctuation
import os

nltk.download('punkt')
nltk.download('stopwords')


[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\Kambouris1970\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\Kambouris1970\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

## Lemmatizer,Tokenization, Stopword Removal, punctuation removal

Εδώ γίνεται η διαδικασία προεπεξργασίας του άρθρου.

In [2]:

lemmatizer = WordNetLemmatizer()
stop_words = set(stopwords.words('english'))  

def preprocess_text(text):
    # Αφαίρεση ειδικών χαρακτήρων και αριθμών
    text = re.sub(r'[^\w\s]', '', text)  # Αφαίρεση σημείων στίξης
    text = re.sub(r'\d+', '', text)      # Αφαίρεση αριθμών
    # Tokenization
    tokens = word_tokenize(text.lower())  # Μετατροπή σε πεζά και διαχωρισμός λέξεων
    # Αφαίρεση stop words
    filtered_tokens = [word for word in tokens if word not in stop_words]
    # Lemmatization
    lemmatized_tokens = [lemmatizer.lemmatize(word) for word in filtered_tokens]
    
    return ' '.join(lemmatized_tokens)  # Επιστροφή του κειμένου ως string


## Άνοιγμα αρχείου και δημιουργία JSON

In [3]:

# Φόρτωση των άρθρων από το JSON
file_path = os.path.join(os.getcwd(), 'filtered_wikipedia_articles.json')
print(f"Trying to load file from: {file_path}")

# Άνοιγμα του αρχείου με error handling
try:
    with open(file_path, 'r', encoding='utf-8') as file:
        articles_data = json.load(file)
except FileNotFoundError:
    print(f"File not found: {file_path}")
    exit(1)
except json.JSONDecodeError:
    print("Error parsing JSON.")
    exit(1)


Trying to load file from: y:\Anaktish\2025-jupyter\filtered_wikipedia_articles.json


## Αποθήκευση σε JSON και error handling.

In [None]:

# Προεπεξεργασία άρθρων
preprocessed_articles = []
for article in articles_data:
    if 'content' in article and article['content']:  # Ελέγξτε αν υπάρχει περιεχόμενο
        processed_content = preprocess_text(article['content'])
        preprocessed_articles.append({
            'title': article.get('title', 'No Title'),
            'processed_content': processed_content
        })

# Αποθήκευση σε νέο αρχείο JSON
output_file_path = 'preprocessed_wikipedia_articles.json'
try:
    with open(output_file_path, 'w', encoding='utf-8') as file:
        json.dump(preprocessed_articles, file, indent=4)
    print(f"Η προεπεξεργασία ολοκληρώθηκε! Τα αποτελέσματα αποθηκεύτηκαν στο αρχείο '{output_file_path}'.")
except Exception as e:
    print(f"Error saving the file: {e}")



Η προεπεξεργασία ολοκληρώθηκε! Τα αποτελέσματα αποθηκεύτηκαν στο αρχείο 'preprocessed_wikipedia_articles.json'.
