In [None]:
import nltk
nltk.download('punkt')
nltk.download('stopwords')
from nltk.stem import SnowballStemmer
stemmer = SnowballStemmer("english")

from web_crawler import crawl_articles
from text_preprocessing import preprocess_dataset
from inverted_index import create_inverted_index
from ranking import calculate_tfidf, rank_documents, calculate_vsm, rank_vsm, calculate_bm25, rank_bm25
from evaluation import evaluate_retrieval, calculate_map


In [None]:
[nltk_data] Downloading package punkt to C:\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to C:\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package punkt to C:\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to C:\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!

In [None]:
dataset = crawl_articles() #Κλήση της συνάρτησης για να μας φέρει τα άρθρα

In [None]:
Συλλογή άρθρου: https://en.wikipedia.org/wiki/Rock_music
Συλλογή άρθρου: https://en.wikipedia.org/wiki/Pop_music
Συλλογή άρθρου: https://en.wikipedia.org/wiki/Heavy_metal_music
Συλλογή άρθρου: https://en.wikipedia.org/wiki/Metallica
Συλλογή άρθρου: https://en.wikipedia.org/wiki/Linkin_Park
Συλλογή άρθρου: https://en.wikipedia.org/wiki/Avenged_Sevenfold
Συλλογή άρθρου: https://en.wikipedia.org/wiki/Jazz
Συλλογή άρθρου: https://en.wikipedia.org/wiki/Classical_music
Συλλογή άρθρου: https://en.wikipedia.org/wiki/Guitar
Συλλογή άρθρου: https://en.wikipedia.org/wiki/Violin
Συλλογή άρθρου: https://en.wikipedia.org/wiki/Clarinet

In [None]:
dataset = preprocess_dataset(dataset) #Κλήση συνάρτησης για να προεπεξεργαστεί το κέιμενο
inverted_index = create_inverted_index(dataset) #Κλήση συνάρτησης για να εδημιουργήσει το ευρετήριο

In [None]:
while True:
        print("\nΕισάγετε τη λέξη κλειδί σας ή γράψτε 'exit' για τερματισμό:")
        query = input("Κλειδί: ").lower()

In [None]:
Εισάγετε τη λέξη κλειδί σας ή γράψτε 'exit' για τερματισμό:
Κλειδί: 

In [None]:
if query == 'exit':
            print("Έξοδος από το πρόγραμμα.")
            break

        print("\nΕπιλέξτε αλγόριθμο κατάταξης:")
        print("1. TF-IDF")
        print("2. Vector Space Model (VSM)")
        print("3. Okapi BM25")
        print("Γράψτε 'exit' για έξοδο.")
        algorithm_choice = input("Επιλογή (1, 2, 3): ").strip()

In [None]:
Επιλέξτε αλγόριθμο:
1. TF-IDF
2. Vector Space Model (VSM)
3. Okapi BM25
Γράψτε 'exit' για τερματισμό.
Επιλογή (1, 2, 3):

In [None]:
if algorithm_choice.lower() == 'exit':
            print("Έξοδος από το πρόγραμμα.")
            break

        relevant_docs = [[0, 2]]  # Μόνο ένα ερώτημα
        retrieved_docs = []  # Λίστα για αποθήκευση των επιστρεφόμενων εγγράφων

        if algorithm_choice == "1":
            print("\nΧρησιμοποιώντας αλγόριθμο TF-IDF...")
            tfidf = calculate_tfidf(dataset, inverted_index)
            ranked_docs = rank_documents(query, tfidf, dataset)
        elif algorithm_choice == "2":
            print("\nΧρησιμοποιώντας Vector Space Model (VSM)...")
            tfidf = calculate_tfidf(dataset, inverted_index)
            doc_vectors = calculate_vsm(dataset, inverted_index, tfidf)
            ranked_docs = rank_vsm(query, doc_vectors, tfidf)
        elif algorithm_choice == "3":
            print("\nΧρησιμοποιώντας Okapi BM25...")
            bm25_scores = calculate_bm25(dataset, inverted_index)
            ranked_docs = rank_bm25(query, bm25_scores)
        else:
            print("Μη έγκυρη επιλογή αλγορίθμου. Δοκιμάστε ξανά.")
            continue

        print("\nΑποτελέσματα αναζήτησης:")
        if not ranked_docs:
            print("Δεν βρέθηκαν αποτελέσματα.")
        for doc in ranked_docs:
            try:
                doc_id = int(doc.get('doc_id'))
                title = dataset[doc_id].get('title', 'Άγνωστος τίτλος')
                retrieved_docs.append(doc_id)
                print(f"{title} (Βαθμολογία: {doc['score']:.4f})")
            except (ValueError, KeyError) as e:
                print(f"Σφάλμα με το doc_id: {doc.get('doc_id')} - {e}")

        # Εισαγωγή στο σύστημα αξιολόγησης
        evaluation_metrics = evaluate_retrieval(relevant_docs[0], retrieved_docs)
        print("\nΑξιολόγηση Αποτελεσμάτων:")
        print(f"Precision: {evaluation_metrics['precision']:.4f}")
        print(f"Recall: {evaluation_metrics['recall']:.4f}")
        print(f"F1 Score: {evaluation_metrics['f1_score']:.4f}")

        # Υπολογισμός MAP
        map_score = calculate_map(relevant_docs, [retrieved_docs])
        print(f"\nMean Average Precision (MAP): {map_score:.4f}")

if __name__ == "__main__":
    main()


In [None]:
Χρησιμοποιώντας αλγόριθμο TF-IDF... (τυχαίο παράδειγμα, σε ξεχωριστό αρχείο θα υπάρχουν περισσότερα)

Αποτελέσματα αναζήτησης:
Rock music (Βαθμολογία: 391.3241)
Heavy metal music (Βαθμολογία: 96.7440)
Linkin Park (Βαθμολογία: 63.0467)
Metallica (Βαθμολογία: 42.3934)
Avenged Sevenfold (Βαθμολογία: 18.4792)
Jazz (Βαθμολογία: 18.4792)
Pop music (Βαθμολογία: 13.0441)
Guitar (Βαθμολογία: 9.7831)
Violin (Βαθμολογία: 5.4351)
Clarinet (Βαθμολογία: 1.0870)

Αξιολόγηση Αποτελεσμάτων:
Precision: 0.2000
Recall: 1.0000
F1 Score: 0.3333

Mean Average Precision (MAP): 1.0000

Εισάγετε τη λέξη κλειδί σας ή γράψτε 'exit' για τερματισμό:
Κλειδί: 
