# Βήμα 2: Προεπεξεργασία Κειμένου

Σε αυτό το βήμα, θα προεπεξεργαστούμε τα άρθρα που συλλέξαμε από τη Wikipedia. Οι ενέργειες που θα πραγματοποιήσουμε περιλαμβάνουν:
1. **Tokenization**: Διάσπαση του κειμένου σε λέξεις.
2. **Stop-Word Removal**: Αφαίρεση λέξεων χωρίς σημασιολογική σημασία (π.χ., "the", "is").
3. **Stemming/Lemmatization**: Επιστροφή των λέξεων στη βασική τους μορφή.
4. **Αφαίρεση Ειδικών Χαρακτήρων**: Αφαίρεση σημείων στίξης και άλλων χαρακτήρων που δεν είναι απαραίτητοι.


## Κελί 1: Εισαγωγή βιβλιοθηκών

In [6]:
import re
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
from nltk.stem import WordNetLemmatizer
import json

## Κελί 2: Συνάρτηση για την προεπεξεργασία κειμένου

In [7]:
def preprocess_text(text):
    """
    Προεπεξεργάζεται το κείμενο:
    - Καθαρισμός ειδικών χαρακτήρων.
    - Tokenization.
    - Αφαίρεση stop-words.
    - Lemmatization.
    """
    text = text.lower()  # Μετατροπή σε πεζά
    text = re.sub(r'[^a-zA-Z0-9\s]', '', text)  # Αφαίρεση ειδικών χαρακτήρων
    tokens = word_tokenize(text)  # Tokenization
    stop_words = set(stopwords.words('english'))  # Stop-words
    tokens = [token for token in tokens if token not in stop_words]  # Αφαίρεση stop-words
    lemmatizer = WordNetLemmatizer()  # Lemmatization
    tokens = [lemmatizer.lemmatize(token) for token in tokens]
    return ' '.join(tokens)


## Κελί 3: Φόρτωση άρθρων από το αρχείο

In [8]:
# Φόρτωση άρθρων από το αρχείο 'articles.json'
with open('articles.json', 'r', encoding='utf-8') as f:
    articles = json.load(f)

print(f"Loaded {len(articles)} articles for preprocessing.")


Loaded 100 articles for preprocessing.


## Κελί 4: Εφαρμογή προεπεξεργασίας στα άρθρα

In [9]:
# Εφαρμογή προεπεξεργασίας σε όλα τα άρθρα
processed_articles = []
for article in articles:
    processed_content = preprocess_text(article['content'])
    processed_articles.append({"title": article['title'], "content": processed_content})

print(f"Preprocessed {len(processed_articles)} articles.")


Preprocessed 100 articles.


## Κελί 5: Αποθήκευση επεξεργασμένων άρθρων

In [10]:
# Αποθήκευση των επεξεργασμένων άρθρων σε νέο αρχείο
with open('processed_articles.json', 'w', encoding='utf-8') as f:
    json.dump(processed_articles, f, indent=4, ensure_ascii=False)

print("Preprocessed articles saved to 'processed_articles.json'.")


Preprocessed articles saved to 'processed_articles.json'.
