#Ανάκτηση Πληροφορίας
#Εργαστηριακή Άσκηση Εξαμήνου

#Βήμα 1: Συλλογή δεδομένων από το Wikipedia

In [3]:
import requests
from bs4 import BeautifulSoup

# Βήμα 1: Διεύθυνση άρθρου στο Wikipedia
url = "https://en.wikipedia.org/wiki/Python_(programming_language)"

# Βήμα 2: Στείλε αίτημα HTTP για να κατεβάσεις το περιεχόμενο
response = requests.get(url)

# Έλεγχος ότι το αίτημα ήταν επιτυχές
if response.status_code == 200:
    print("Η σελίδα φορτώθηκε επιτυχώς!")
    
    # Ανάλυση του HTML περιεχομένου με BeautifulSoup
    soup = BeautifulSoup(response.content, 'html.parser')
    
    # Βρες τον τίτλο του άρθρου
    title = soup.find('h1').get_text()
    print(f"Τίτλος της σελίδας: {title}")
    
    # Βρες το κυρίως περιεχόμενο του άρθρου
    content = soup.find('div', {'class': 'mw-parser-output'})
    if content:
        text = content.get_text()
        print(f"Μέρος του άρθρου:\n{text[:500]}")  # Εκτύπωσε τους πρώτους 500 χαρακτήρες
    else:
        print("Δεν βρέθηκε περιεχόμενο στη σελίδα.")
else:
    print("Σφάλμα κατά την φόρτωση της σελίδας.")


import json

# Βήμα 3: Αποθήκευση του άρθρου σε αρχείο JSON
if content:
    data = {
        "title": title,
        "content": text
    }
    # Αποθήκευση σε αρχείο JSON
    with open('wikipedia_article.json', 'w', encoding='utf-8') as json_file:
        json.dump(data, json_file, ensure_ascii=False, indent=4)
    print("Τα δεδομένα αποθηκεύτηκαν σε αρχείο 'wikipedia_article.json'.")

Η σελίδα φορτώθηκε επιτυχώς!
Τίτλος της σελίδας: Python (programming language)
Μέρος του άρθρου:
General-purpose programming language
This article is about the Python programming language. For the animal, see Python (genus).


PythonParadigmMulti-paradigm: object-oriented,[1] procedural (imperative), functional, structured, reflectiveDesigned byGuido van RossumDeveloperPython Software FoundationFirst appeared20 February 1991; 33 years ago (1991-02-20)[2]Stable release3.13.1
   / 3 December 2024; 35 days ago (3 December 2024)
Typing disciplineduck, dynamic, strong;[3] optional type annotatio
Τα δεδομένα αποθηκεύτηκαν σε αρχείο 'wikipedia_article.json'.


#Βήμα 2: Προεπεξεργασία κειμένου (Text Processing)
Αρχικά κάνουμε εγκατάσταση κάποιων βιβλιοθηκών για να μπορέσει να τρέξει το πρόγραμμα και στη συνέχεια εκτελούμε τον κώδικα

In [18]:
import nltk
nltk.download('punkt')


[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\catra\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [20]:
import nltk
nltk.download('punkt_tab')


[nltk_data] Downloading package punkt_tab to
[nltk_data]     C:\Users\catra\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!


True

In [22]:
import json
import re
import nltk
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
from nltk.stem import WordNetLemmatizer

# Εξασφαλίζουμε ότι έχουμε τα απαραίτητα δεδομένα από το nltk
nltk.download('punkt')
nltk.download('stopwords')
nltk.download('wordnet')

def preprocess_text(text):
    # Αφαίρεση HTML tags
    text = re.sub(r'<.*?>', '', text)
    
    # Κάνουμε τα πάντα μικρά γράμματα
    text = text.lower()
    
    # Αφαίρεση μη-αλφαριθμητικών χαρακτήρων
    text = re.sub(r'[^a-z\s]', '', text)
    
    # Διαχωρισμός σε λέξεις
    words = word_tokenize(text)
    
    # Αφαίρεση stopwords
    stop_words = set(stopwords.words('english'))
    words = [word for word in words if word not in stop_words]
    
    # Χρήση Lemmatization για την επιστροφή των λέξεων στην κανονική τους μορφή
    lemmatizer = WordNetLemmatizer()
    words = [lemmatizer.lemmatize(word) for word in words]
    
    # Επιστροφή του επεξεργασμένου κειμένου
    return ' '.join(words)

def preprocess_data():
    with open('wikipedia_article.json', 'r', encoding='utf-8') as file:
        data = json.load(file)

    # Εξάγουμε το περιεχόμενο του άρθρου
    article_text = data.get('content', '')

    # Επεξεργαζόμαστε το κείμενο
    cleaned_text = preprocess_text(article_text)

    # Αποθήκευση του καθαρισμένου κειμένου σε νέο αρχείο
    with open('cleaned_wikipedia_article.json', 'w', encoding='utf-8') as file:
        json.dump({'cleaned_content': cleaned_text}, file, ensure_ascii=False, indent=4)

    print("Το κείμενο προεπεξεργάστηκε και αποθηκεύτηκε στο cleaned_wikipedia_article.json")

if __name__ == "__main__":
    preprocess_data()

Το κείμενο προεπεξεργάστηκε και αποθηκεύτηκε στο cleaned_wikipedia_article.json


[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\catra\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\catra\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\catra\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


#Βήμα 3: Ευρετήριο
Δημιουργούμε ένα inverted index με σκοπό την αποτελεσματική αντιστοίχηση όρων στα έγγραφα που εμφανίζονται

In [29]:
import json
import re
from collections import defaultdict
import nltk
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords

# Εξασφαλίζουμε ότι έχουμε τα απαραίτητα δεδομένα από το nltk
nltk.download('punkt')
nltk.download('stopwords')

# Βήμα 1: Φόρτωση των δεδομένων από το cleaned_data.json
with open("cleaned_wikipedia_article.json", "r", encoding="utf-8") as f:
    cleaned_data = json.load(f)

# Βήμα 2: Δημιουργία του ανεστραμμένου ευρετηρίου
inverted_index = defaultdict(list)  # Χρησιμοποιούμε defaultdict για εύκολη εισαγωγή δεδομένων

# Εξασφαλίζουμε ότι έχουμε τα stopwords
stop_words = set(stopwords.words('english'))

for doc_id, content in cleaned_data.items():
    # Χρησιμοποιούμε το word_tokenize για να διαχωρίσουμε σωστά τις λέξεις
    words = word_tokenize(content.lower())  # Μετατρέπουμε σε μικρά γράμματα για ομοιομορφία
    
    # Αφαίρεση stopwords και μη αλφαριθμητικών χαρακτήρων
    words = [word for word in words if word.isalnum() and word not in stop_words]
    
    # Προσθήκη των λέξεων στο ανεστραμμένο ευρετήριο
    for word in set(words):  # Χρησιμοποιούμε set για να αποθηκεύσουμε μόνο μοναδικές λέξεις
        inverted_index[word].append(doc_id)

# Βήμα 3: Αποθήκευση του ανεστραμμένου ευρετηρίου σε αρχείο JSON
with open("inverted_index.json", "w", encoding="utf-8") as f:
    json.dump(inverted_index, f, ensure_ascii=False, indent=4)

print("Το ανεστραμμένο ευρετήριο αποθηκεύτηκε στο inverted_index.json!")

Το ανεστραμμένο ευρετήριο αποθηκεύτηκε στο inverted_index.json!


[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\catra\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\catra\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


#Βήμα 4: Μηχανή αναζήτησης

In [36]:
import json
import re
import math
from collections import defaultdict
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
import numpy as np

# Εξασφαλίζουμε ότι έχουμε τα απαραίτητα δεδομένα από το nltk
import nltk
nltk.download('punkt')
nltk.download('stopwords')

# Φόρτωση του ανεστραμμένου ευρετηρίου
with open("inverted_index.json", "r", encoding="utf-8") as f:
    inverted_index = json.load(f)

# Φόρτωση των εγγράφων
with open("cleaned_wikipedia_article.json", "r", encoding="utf-8") as f:
    cleaned_data = json.load(f)

# Λειτουργία Tokenization και καθαρισμού
def preprocess_query(query):
    query = query.lower()  # Μετατρέπουμε το ερώτημα σε μικρά γράμματα
    words = word_tokenize(query)  # Διαχωρίζουμε το ερώτημα σε λέξεις
    stop_words = set(stopwords.words('english'))
    words = [word for word in words if word.isalnum() and word not in stop_words]
    return words

# Boolean Retrieval (AND, OR, NOT)
def boolean_retrieval(query, operator="AND"):
    query_terms = preprocess_query(query)
    result_docs = set(cleaned_data.keys())
    
    if operator == "AND":
        # Βρίσκουμε έγγραφα που περιέχουν όλα τα terms
        for term in query_terms:
            if term in inverted_index:
                result_docs &= set(inverted_index[term])
            else:
                result_docs = set()  # Αν μια λέξη δεν υπάρχει, το αποτέλεσμα είναι κενό
                break
    elif operator == "OR":
        # Βρίσκουμε έγγραφα που περιέχουν τουλάχιστον ένα από τα terms
        for term in query_terms:
            if term in inverted_index:
                result_docs |= set(inverted_index[term])
    elif operator == "NOT":
        # Βρίσκουμε έγγραφα που δεν περιέχουν κάποια από τα terms
        for term in query_terms:
            if term in inverted_index:
                result_docs -= set(inverted_index[term])

    return result_docs

# TF-IDF Retrieval
def tf_idf(query):
    query_terms = preprocess_query(query)
    doc_scores = defaultdict(float)

    # Υπολογισμός TF για τα έγγραφα
    for doc_id, content in cleaned_data.items():
        term_freq = defaultdict(int)
        words = word_tokenize(content.lower())
        for word in words:
            if word in query_terms:
                term_freq[word] += 1

        # Υπολογισμός του TF
        for word, freq in term_freq.items():
            tf = freq / len(words)
            # Υπολογισμός του IDF
            idf = math.log(len(cleaned_data) / (1 + len(inverted_index.get(word, []))))
            doc_scores[doc_id] += tf * idf  # Συνδυασμός TF και IDF

    # Ταξινόμηση των εγγράφων σύμφωνα με το σκορ TF-IDF
    ranked_docs = sorted(doc_scores.items(), key=lambda x: x[1], reverse=True)
    return ranked_docs

# Διεπαφή αναζήτησης
def search(query, method="boolean", operator="AND"):
    if method == "boolean":
        return boolean_retrieval(query, operator)
    elif method == "tfidf":
        return tf_idf(query)
    else:
        print("Unknown method!")
        return []

# Παράδειγμα χρήσης
if __name__ == "__main__":
    query = input("Enter your query: ")
    method = input("Choose retrieval method (boolean/tfidf): ").lower()
    
    if method == "boolean":
        operator = input("Choose operator (AND/OR/NOT): ").upper()
        results = search(query, method=method, operator=operator)
    else:
        results = search(query, method=method)
    
    if isinstance(results, list):
        print("Results (TF-IDF):")
        for doc_id, score in results:
            print(f"Document: {doc_id} | Score: {score}")
    else:
        print("Results (Boolean):")
        for doc_id in results:
            print(f"Document: {doc_id}")

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\catra\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\catra\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


Enter your query:  Python programming
Choose retrieval method (boolean/tfidf):  tfidf


Results (TF-IDF):
Document: cleaned_content | Score: -0.04757677666427172


#Βήμα 5: Αξιολόγηση Συστήματος

In [39]:
import numpy as np
from sklearn.metrics import precision_score, recall_score, f1_score

# Σύνολο δοκιμαστικών ερωτημάτων και σχετικών εγγράφων
queries = {
    "Python programming": ["Python_(programming_language)", "Artificial_intelligence"],
    "Machine learning": ["Machine_learning"],
    "Artificial intelligence": ["Artificial_intelligence"]
}

# Αποτελέσματα που ανακτήθηκαν από τη μηχανή αναζήτησης
retrieved_results = {
    "Python programming": ["Python_(programming_language)", "Machine_learning"],
    "Machine learning": ["Machine_learning"],
    "Artificial intelligence": ["Artificial_intelligence", "Python_(programming_language)"]
}

# Αξιολογήσεις σχετικότητας
true_relevance = {
    "Python programming": [1, 1],
    "Machine learning": [1],
    "Artificial intelligence": [1, 0]
}

# Υπολογισμός μετρικών αξιολόγησης
def evaluate_search_engine(queries, retrieved_results, true_relevance):
    precisions = []
    recalls = []
    f1_scores = []
    average_precisions = []

    for query, relevant_docs in queries.items():
        # Ανακτήθηκαν τα έγγραφα για το συγκεκριμένο ερώτημα
        retrieved_docs = retrieved_results.get(query, [])

        # Ετικέτες πραγματικής σχετικότητας
        true_labels = [1 if doc in relevant_docs else 0 for doc in retrieved_docs]

        # Υπολογισμός ακρίβειας και ανάκλησης
        precisions.append(precision_score(true_labels, [1] * len(true_labels), zero_division=1))
        recalls.append(recall_score(true_labels, [1] * len(true_labels), zero_division=1))
        f1_scores.append(f1_score(true_labels, [1] * len(true_labels), zero_division=1))

        # Υπολογισμός Mean Average Precision (MAP)
        precision_at_k = [
            precision_score(true_labels[:k], [1] * k, zero_division=1) for k in range(1, len(true_labels) + 1)
        ]
        average_precisions.append(np.mean(precision_at_k))

    return {
        "Mean Precision": np.mean(precisions),
        "Mean Recall": np.mean(recalls),
        "Mean F1-Score": np.mean(f1_scores),
        "MAP": np.mean(average_precisions)
    }

# Εκτέλεση αξιολόγησης
metrics = evaluate_search_engine(queries, retrieved_results, true_relevance)

# Εκτύπωση αποτελεσμάτων
print("Αποτελέσματα Αξιολόγησης:")
for metric, value in metrics.items():
    print(f"{metric}: {value:.2f}")


Αποτελέσματα Αξιολόγησης:
Mean Precision: 0.67
Mean Recall: 1.00
Mean F1-Score: 0.78
MAP: 0.83
