In [1]:
# Wikipedia Search Engine Notebook

## Εισαγωγή
# Σε αυτό το Notebook, υλοποιούμε μία μηχανή αναζήτησης που βασίζεται σε δεδομένα από τη Wikipedia.
# Ο κώδικας περιλαμβάνει:
# 1. Συλλογή δεδομένων από τη Wikipedia.
# 2. Επεξεργασία κειμένου και δημιουργία αντιστραμμένου ευρετηρίου.
# 3. Υλοποίηση βασικών λειτουργιών αναζήτησης.
# 4. Αξιολόγηση της μηχανής αναζήτησης.

## Βιβλιοθήκες και Ρυθμίσεις
# Εδώ εισάγουμε τις απαραίτητες βιβλιοθήκες για τη συλλογή και επεξεργασία των δεδομένων.
# Κατεβάζουμε επίσης τα απαραίτητα δεδομένα για την επεξεργασία κειμένου.

import csv
import nltk
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
from collections import defaultdict
import string
import requests
from bs4 import BeautifulSoup
import os
from sklearn.metrics import precision_score, recall_score, f1_score
from nltk.stem import PorterStemmer, WordNetLemmatizer

# Κατεβάζουμε τα απαραίτητα δεδομένα για την επεξεργασία κειμένου
nltk.download('punkt')
nltk.download('stopwords')

## Υλοποίηση Κλάσης WikipediaScraper
# Σε αυτό το τμήμα, ορίζουμε την κλάση `WikipediaScraper`, η οποία συλλέγει δεδομένα από άρθρα της Wikipedia βάσει θεμάτων.
# Τα δεδομένα αποθηκεύονται σε ένα αρχείο CSV για περαιτέρω επεξεργασία.

class WikipediaScraper:
    """Class για συλλογή δεδομένων από την Wikipedia."""

    def __init__(self, base_url, csv_file):
        self.base_url = base_url
        self.csv_file = csv_file

    def scrape(self, topic_list):
        """Συλλέγει άρθρα από τη Wikipedia βάσει των θεμάτων και τα αποθηκεύει σε CSV."""
        if os.path.exists(self.csv_file):
            print(f"File {self.csv_file} already exists. Skipping scraping.")
            return

        with open(self.csv_file, 'w', encoding='utf-8', newline='') as file:
            writer = csv.writer(file)
            writer.writerow(['doc_id', 'content'])
            doc_id = 1

            for topic in topic_list:
                url = f"{self.base_url}{topic}"
                print(f"Scraping: {url}")
                response = requests.get(url)
                if response.status_code == 200:
                    soup = BeautifulSoup(response.content, 'html.parser')
                    paragraphs = soup.find_all('p')
                    content = " ".join([para.get_text() for para in paragraphs])
                    if content.strip():
                        writer.writerow([doc_id, content])
                        doc_id += 1
                else:
                    print(f"Failed to retrieve: {url}")

        print(f"Scraping complete. Data saved to {self.csv_file}")

## Υλοποίηση Κλάσης SearchEngine
# Στο επόμενο βήμα, υλοποιούμε την κλάση `SearchEngine`, η οποία περιλαμβάνει μεθόδους για την αναζήτηση και επεξεργασία κειμένων.

class SearchEngine:
    """Class για αναζήτηση εγγράφων."""

    def __init__(self, csv_file):
        self.csv_file = csv_file
        self.documents = {}
        self.inverted_index = defaultdict(list)
        self.stop_words = set(stopwords.words('english'))
        self.stemmer = PorterStemmer()
        self.lemmatizer = WordNetLemmatizer()
        self._load_documents()
        self._build_inverted_index()

    def _load_documents(self):
        """Φορτώνει έγγραφα από το αρχείο CSV."""
        if not os.path.exists(self.csv_file):
            raise FileNotFoundError(f"File {self.csv_file} does not exist.")

        with open(self.csv_file, 'r', encoding='utf-8') as file:
            reader = csv.reader(file)
            next(reader)
            for row in reader:
                doc_id, content = row[0], row[1]
                self.documents[doc_id] = content

    def _preprocess(self, text):
        """Επεξεργάζεται και κανονικοποιεί το κείμενο."""
        text = ''.join(char for char in text if char.isalnum() or char.isspace())
        tokens = word_tokenize(text.lower())
        tokens = [token for token in tokens if token not in self.stop_words and token not in string.punctuation]
        tokens = [self.stemmer.stem(self.lemmatizer.lemmatize(token)) for token in tokens]
        return tokens

    def _build_inverted_index(self):
        """Δημιουργεί το inverted index από τα έγγραφα."""
        for doc_id, content in self.documents.items():
            tokens = self._preprocess(content)
            for token in set(tokens):
                self.inverted_index[token].append(doc_id)

    def search(self, query):
        """Αναζητά έγγραφα που ταιριάζουν με το ερώτημα."""
        query_tokens = self._preprocess(query)
        if not query_tokens:
            return []

        doc_scores = defaultdict(int)
        for token in query_tokens:
            if token in self.inverted_index:
                for doc_id in self.inverted_index[token]:
                    doc_scores[doc_id] += 1

        sorted_docs = sorted(doc_scores.items(), key=lambda x: x[1], reverse=True)
        return [doc_id for doc_id, _ in sorted_docs]

    def evaluate(self, test_queries, test_labels):
        """Αξιολογεί τη μηχανή αναζήτησης με precision, recall, και F1-score."""
        y_true = []
        y_pred = []

        for query, relevant_docs in zip(test_queries, test_labels):
            retrieved_docs = self.search(query)
            y_true.extend([1 if doc in relevant_docs else 0 for doc in self.documents.keys()])
            y_pred.extend([1 if doc in retrieved_docs else 0 for doc in self.documents.keys()])

        precision = precision_score(y_true, y_pred, zero_division=0)
        recall = recall_score(y_true, y_pred, zero_division=0)
        f1 = f1_score(y_true, y_pred, zero_division=0)

        return precision, recall, f1

## Παράδειγμα Χρήσης
# Εδώ παρουσιάζουμε ένα παράδειγμα χρήσης της μηχανής αναζήτησης, περιλαμβάνοντας scraping, αναζήτηση και αξιολόγηση.

### Είσοδος Θεμάτων
# Εισάγουμε τα θέματα που θέλουμε να συλλέξουμε από τη Wikipedia.
user_input = "Natural_language_processing,Python_(programming_language)"
topics = [topic.strip() for topic in user_input.split(',') if topic.strip()]

### Scraping
# Εκτελούμε τη διαδικασία scraping για να συλλέξουμε τα δεδομένα.
scraper = WikipediaScraper("https://en.wikipedia.org/wiki/", "wikipedia_documents.csv")
scraper.scrape(topics)

### Αναζήτηση
# Δημιουργούμε αντικείμενο SearchEngine και πραγματοποιούμε αναζήτηση για το ερώτημα "machine learning".
search_engine = SearchEngine('wikipedia_documents.csv')
query = "machine learning"
results = search_engine.search(query)
print("Documents found:", results)

### Αξιολόγηση
# Αξιολογούμε τη μηχανή αναζήτησης χρησιμοποιώντας test queries και labels.
test_queries = ["machine learning", "neural networks"]
test_labels = [["1", "2"], ["3", "4"]]
precision, recall, f1 = search_engine.evaluate(test_queries, test_labels)
print(f"Evaluation Results - Precision: {precision}, Recall: {recall}, F1-score: {f1}")

# Τέλος Notebook



[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\User\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\User\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


File wikipedia_documents.csv already exists. Skipping scraping.
Documents found: ['1']
Evaluation Results - Precision: 1.0, Recall: 0.3333333333333333, F1-score: 0.5
