Βήμα 1: Crawler

Στο πρόγραμμα αυτό πραγματοποιηείται web crawler και συλλέγονται τίτλοι (στοιχεία h1 κώδικα html) και τα περιεχόμενα content μαζί με το url τους. Σε κάθε έγγραφο δίνεται μοναδικό αύξον id. Τα δεδομένα αυτά αποθηκεύονται στο output.json.

In [1]:
import requests
from bs4 import BeautifulSoup
import json
import time
import re

def crawl_wikipedia(start_url, max_pages=30, output_file='output.json'):
    visited_pages = []
    pages_to_visit = [start_url]
    page_id = 1

    while pages_to_visit and len(visited_pages) < max_pages:
        current_url = pages_to_visit.pop(0)

        try:
            print(f"Γίνεται λήψη δεδομένων {len(visited_pages)+1}/{max_pages}")
            response = requests.get(current_url)
            response.encode = 'utf-8'
            if response.status_code != 200:
                print(f"Σφάλμα HTTP: {response.status_code} στη σελίδα {current_url}")
                continue

            soup = BeautifulSoup(response.content, 'html.parser')

            title = soup.find('h1').get_text()
            
            content_div = soup.find('div', class_='mw-parser-output')
            if content_div:
                content = content_div.text
                content = re.sub(r"\[\d+\]", "", content)
                content = re.sub(r"\n+", "\n\n", content)
                content = re.sub(r"\s+", " ", content).strip()
            else:
                content = "Κείμενο μη διαθέσιμο."
            
            visited_pages.append({"id": page_id,"url": current_url, "title": title, "content": content})
            page_id += 1

            for link in soup.find_all('a', href=True):
                href = link['href']
                if href.startswith('/wiki/') and ':' not in href:
                    full_url = f"https://en.wikipedia.org{href}"
                    if full_url not in [page['url'] for page in visited_pages] and full_url not in pages_to_visit:
                        pages_to_visit.append(full_url)
            
            time.sleep(1)
        
        except requests.exceptions.RequestException as e:
            print(f"Σφάλμα σύνδεσης στη σελίδα {current_url}: {e}")
        except Exception as e:
            print(f"Σφάλμα κατα την Επεξεργασία της σελίδας {current_url}: {e}")

    with open(output_file, 'w', encoding='utf-8') as file:
        json.dump(visited_pages, file, ensure_ascii=False, indent=4)

    print (f"Τα δεδομένα αποθηκεύτηκαν στο {output_file}")

if __name__ == "__main__":
    start_url = 'https://en.wikipedia.org/wiki/Python_(programming_language)'
    crawl_wikipedia(start_url)

Γίνεται λήψη δεδομένων 1/30
Γίνεται λήψη δεδομένων 2/30
Γίνεται λήψη δεδομένων 3/30
Γίνεται λήψη δεδομένων 4/30
Γίνεται λήψη δεδομένων 5/30
Γίνεται λήψη δεδομένων 6/30
Γίνεται λήψη δεδομένων 7/30
Γίνεται λήψη δεδομένων 8/30
Γίνεται λήψη δεδομένων 9/30
Γίνεται λήψη δεδομένων 10/30
Γίνεται λήψη δεδομένων 11/30
Γίνεται λήψη δεδομένων 12/30
Γίνεται λήψη δεδομένων 13/30
Γίνεται λήψη δεδομένων 14/30
Γίνεται λήψη δεδομένων 15/30
Γίνεται λήψη δεδομένων 16/30
Γίνεται λήψη δεδομένων 17/30
Γίνεται λήψη δεδομένων 18/30
Γίνεται λήψη δεδομένων 19/30
Γίνεται λήψη δεδομένων 20/30
Γίνεται λήψη δεδομένων 21/30
Γίνεται λήψη δεδομένων 22/30
Γίνεται λήψη δεδομένων 23/30
Γίνεται λήψη δεδομένων 24/30
Γίνεται λήψη δεδομένων 25/30
Γίνεται λήψη δεδομένων 26/30
Γίνεται λήψη δεδομένων 27/30
Γίνεται λήψη δεδομένων 28/30
Γίνεται λήψη δεδομένων 29/30
Γίνεται λήψη δεδομένων 30/30
Τα δεδομένα αποθηκεύτηκαν στο output.json


Ακολουθεί η λίστα με τις βιβλιοθήκες που χρησιμοποιήθηκαν στο πρόγραμμα.
Το requests χρησιμοποιείται για την αποστολή http προς τις σελιδες (του wikipedia στην περιπτωση μας).
Το BeautifulSoup χρησιμοποιείται για την ανάλυση του HTML κώδικα.
Το json χρησιμοποιείται για την αποθήκευση δεδομένων σε αρχείο json.
Τo time χρησιμοποιείται για να προσθέσει καθυστερήσεις μεταξύ των αιτημάτων για την αποφυγή "μπλοκαρίσματος".
To re χρησιμοποιείται για την εφαρμογή κανονικών εκφράσεων (regex) στην επεξεργασία κειμένου.
Η εισαγωγή των βιβλιοθηκών γίνεται στο πάνω μέρος του κώδικα.

In [None]:
import requests
from bs4 import BeautifulSoup
import json
import time
import re

Στην συνέχεια ακολουθεί η κύρια συνάρτηση του προγράμματος, η crawl_wikipedia.
Η συνάρτηση αυτή περιλαμβάνει:
start_url: Το αρχικό url με το οποίο θα ξεκινήσει το πρόγραμμα.
max_pages: Το μέγιστο αριθμό σελίδων που θα προσπαθεί να επισκεφτεί το πρόγραμμα. Ως default τιμή έχουμε βάλει το 30.
output_file: Το όνομα του αρχείου στο οποίο θα αποθηκευτούν τα δεδομένα του crawling.

In [None]:
def crawl_wikipedia(start_url, max_pages=30, output_file='output.json'):

Στην κύρια συνάρτηση οι μεταβλητές που υπάρχουν είναι οι εξής:
visited_pages: Περιέχει όλες τις σελίδες που έχει επισκεφτεί ο κώδικας.
pages_to_visit: Είναι η ουρά με τις σελίδες που δεν έχει επισκεφτεί ακόμα ο κώδικας

Ακολουθεί ο βρόγχος αναζήτησης σελίδων. Ο βρόγχος συνεχίζεται όσο α) υπάρχουν σελίδες που δεν έχουν επισκεφτεί και β) ο αριθμός των σελίδων που έχουν επισκεφτεί είναι μικρότερος απο το max_pages. Το pop(0) παίρνει την πρώτη σελίδα απο το pages_to_visit.

In [None]:
while pages_to_visit and len(visited_pages) < max_pages:
        current_url = pages_to_visit.pop(0)

Ακολουθεί η λήψη των δεδομένων της τρέχουσας σελίδας. 
Εκτελείται μέσω του requests.get() αίτημα HTML στην τρέχουσα σελίδα. Σε περίπτωση μη επιτυχής απάντησης (status code 200), εμφανίζεται μήνυμα σφάλματος και η διαδικασία συνεχίζεται με την επόμενη σελίδα.

In [None]:
try:
            print(f"Γίνεται λήψη δεδομένων {len(visited_pages)+1}/{max_pages}")
            response = requests.get(current_url)
            response.encode = 'utf-8'
            if response.status_code != 200:
                print(f"Σφάλμα HTTP: {response.status_code} στη σελίδα {current_url}")
                continue

Ακολουθεί η ανάλυση του HTML.
Με την χρήση του BeautifulSoup αναλύεται ο κώδικας για να βρεθεί ο τίτλος (h1) και το περιεχόμενο (τα υπόλοιπα στοιχεία της σελίδας).
Στην συνέχεια αφαιρούνται οι παραπομπές και τροποποιούνται οι νέες γραμμες και τα κενά σημεία που υπάρχουν στον κώδικα της σελίδας.

In [None]:
soup = BeautifulSoup(response.content, 'html.parser')

            title = soup.find('h1').get_text()
            
            content_div = soup.find('div', class_='mw-parser-output')
            if content_div:
                content = content_div.text
                content = re.sub(r"\[\d+\]", "", content)
                content = re.sub(r"\n+", "\n\n", content)
                content = re.sub(r"\s+", " ", content).strip()
            else:
                content = "Κείμενο μη διαθέσιμο."

Ακολουθεί η μορφή της αποθήκευσης των δεδομένων.
Το πρόγραμμα αποθηκεύει τα δεδομένα αυξάνοντας καθε φορα κατα 1 το id, το url της τρέχουσας ιστοσελίδας, τον τίτλο (το h1) και το περιεχόμενο (τα υπόλοιπα στοιχεία της σελίδας)

In [None]:
visited_pages.append({"id": page_id,"url": current_url, "title": title, "content": content})
            page_id += 1

Ακολουθεί η αναζήτηση των συνδέσμων.
Στην συνάρτηση αυτή αναζητούνται όλα τα <a href> στοιχεία του html κώδικα της σελίδας.
Αν ο σύνδεσμος αυτός είναι εσωτερικός, δηλαδή ξεκινάει με /wiki/ και δεν περιέχει ":" γίνεται δημιουργία του πλήρες url για την σελίδα αυτή.
Γίνεται επίσης έλεγχος ώστε α) να μην έχει γίνει ήδη "επίσκεψη" στην σελίδα και β) να μην βρίσκεται στην ουρά προς "επίσκεψη". Αν πληρούνται αυτά τα κριτήρια, τοτε το url προστίθεται στο pages_to_visit.

In [None]:
for link in soup.find_all('a', href=True):
                href = link['href']
                if href.startswith('/wiki/') and ':' not in href:
                    full_url = f"https://en.wikipedia.org{href}"
                    if full_url not in [page['url'] for page in visited_pages] and full_url not in pages_to_visit:
                        pages_to_visit.append(full_url)
            
            

Ακολουθεί η καθυστέρηση.
Η συνάρτηση αυτή υπάρχει ώστε να μην γίνει υπερφόρτωση του server.

In [None]:
time.sleep(1)

Ακολουθούν οι εξαιρέσεις του κώδικα.
Γίνεται εκτύπωση σχετικών μηνυμάτων σε σφάλματα σύνδεσης ή επεξεργασίας της σελίδας.

In [None]:
except requests.exceptions.RequestException as e:
            print(f"Σφάλμα σύνδεσης στη σελίδα {current_url}: {e}")
        except Exception as e:
            print(f"Σφάλμα κατα την Επεξεργασία της σελίδας {current_url}: {e}")

Ακολουθεί η αποθήκευση στο json αρχείο.
Όταν οι παραπάνω διεργασίες ολοκληρωθούν, τα δεδομένα θα αποθηκευτούν στο output.json με την χρήση της συνάρτησης json.dump().

In [None]:
with open(output_file, 'w', encoding='utf-8') as file:
        json.dump(visited_pages, file, ensure_ascii=False, indent=4)

    print (f"Τα δεδομένα αποθηκεύτηκαν στο {output_file}")

Ακολουθεί η εκκίνηση του προγράμματος.
Η μεταβλητή start_url περιέχει το url της ιστοσελίδας απο την οποία επιθυμούμε να ξεκινήσει το πρόγραμμα.
Γίνεται κλήση της συνάρτησης crawl_wikipedia() με τo αρχικό url.

In [None]:
if __name__ == "__main__":
    start_url = 'https://en.wikipedia.org/wiki/Python_(programming_language)'
    crawl_wikipedia(start_url)

Βήμα 2: Προ-επεξεργασία

Στον κώδικα αυτόν πραγματοποιείται προεπεξεργασία στο output.json και αποθηκέυει τα νέα δεδομένα στο processed_file.json

In [2]:
import json
import re
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
from nltk.stem import WordNetLemmatizer
from nltk import pos_tag
from nltk.corpus import wordnet
from itertools import tee, islice, chain
import nltk

nltk.download('punkt')
nltk.download('stopwords')
nltk.download('wordnet')
nltk.download('averaged_perceptron_tagger')

lemmatizer_en = WordNetLemmatizer()

stop_words_en = set(stopwords.words('english'))

def get_wordnet_pos(tag):
    if tag.startswith('J'):
        return wordnet.ADJ
    elif tag.startswith('V'):
        return wordnet.VERB
    elif tag.startswith('N'):
        return wordnet.NOUN
    elif tag.startswith('R'):
        return wordnet.ADV
    else:
        return wordnet.NOUN
    
def lemmatize_text(tokens):
    lemmatized_tokens = []
    pos_tags = pos_tag(tokens)
    for token, tag in pos_tags:
        if re.match(r'[a-zA-Z]+', token):
            wordnet_pos = get_wordnet_pos(tag)
            lemmatized_tokens.append(lemmatizer_en.lemmatize(token, pos=wordnet_pos))
        else:
            lemmatized_tokens.append(token)
    return lemmatized_tokens

def generate_ngrams(tokens, n=2):
    return [' '.join(tokens[i:i+n]) for i in range(len(tokens) - n + 1)]

def preprocess_text(text, ngram_n=2):
    if not isinstance(text, str):
        return []
    text = text.lower()
    text = re.sub(r'[^\w\s]', '', text)
    tokens = word_tokenize(text)
    tokens = [token for token in tokens if token not in stop_words_en]
    tokens = lemmatize_text(tokens)
    ngrams = generate_ngrams(tokens, ngram_n)
    return tokens + ngrams

def process_json(input_file, output_file, ngram_n=2):
    with open(input_file, 'r', encoding='utf-8') as f:
        data = json.load(f)

    processed_data = []
    for item in data:
        processed_item = {}
        for key, value in item.items():
            if isinstance(value, str):
                processed_item[key] = preprocess_text(value, ngram_n)
            else:
                processed_item[key] = value
        processed_data.append(processed_item)

    with open(output_file, 'w', encoding='utf-8') as f:
        json.dump(processed_data, f, ensure_ascii=False, indent=4)

process_json("output.json", "processed_file.json", ngram_n=2)
                

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\spyro\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\spyro\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\spyro\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     C:\Users\spyro\AppData\Roaming\nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!


Ακολουθεί η λίστα με τις βιβλιοθήκες που χρησιμοποιήθηκαν στο πρόγραμμα.
Το json χρησιμοποιείται για την αποθήκευση δεδομένων σε αρχείο json.
To re χρησιμοποιείται για την εφαρμογή κανονικών εκφράσεων (regex) στην επεξεργασία κειμένου.
To nltk είναι η κύρια βιβλιοθήκη που περιέχει υπο-βιβλιοθήκες.
Το nltk.tokenize.word_tokenize χρησιμοποιείται για την διαίρεση του κειμένού σε tokens.
Το nltk.corpus.stopwords παρέχει τα stopwords.
To nltk.stem.WordNetLemmatizer χρησιμοποιείται για την λημματοποίηση των λέξεων.
To nltk.pos_tag χρησιμοποιείται για την αναγνώριση του μέρους του λόγου της κάθε λέξης.
To nltk.corpus.wordnet χρησιμοποιείται για τον προσδιορισμό της λημματοποιήσης
Tα itertools.tee, islice, chain παρέχουν βοηθητικές συναρτήσεις για τον χειρισμό αλληλουχιών.
Η εισαγωγή των βιβλιοθηκών γίνεται στο πάνω μέρος του κώδικα.

In [None]:
import json
import re
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
from nltk.stem import WordNetLemmatizer
from nltk import pos_tag
from nltk.corpus import wordnet
from itertools import tee, islice, chain
import nltk

Ακολουθεί λήψη των απαραίτητων δεδομένων απο την nltk.

In [None]:
nltk.download('punkt')
nltk.download('stopwords')
nltk.download('wordnet')
nltk.download('averaged_perceptron_tagger')

Aκολουθεί η συνάρτηση get_wordnet_pos.
H συνάρτηση αυτή μετατρέπει τις ετικέτες που παρέχονται από το pos_tag σε μορφή που κατανοέι ο WordNetLemmatizer.
Aν η ετικέτα ξεκινάει με J, στο wordnet επιστρέφεται επίθετο. Αντιστοιχα:
Αν ξεκινάει με V επιστρέφεται ρήμα.
Αν ξεκινάει με N επιστρέφει ουσιαστικό.
Αν ξεκινάει με R επιστρέφει επίρρημα.
Αν δεν ταιριάζει με κανένα απο τα παραπάνω, παίρνει ως default τιμή του ουσιαστικού

In [None]:
def get_wordnet_pos(tag):
    if tag.startswith('J'):
        return wordnet.ADJ
    elif tag.startswith('V'):
        return wordnet.VERB
    elif tag.startswith('N'):
        return wordnet.NOUN
    elif tag.startswith('R'):
        return wordnet.ADV
    else:
        return wordnet.NOUN

Ακολουθεί η συνάρτηση lemmatize_text.
Στην συνάρτηση αυτή γίνεται λημματοποίηση στον κατάλογο λέξεων tokens.
Αρχίκα μέσω της pos_tag αναγνωρίζουμε το μέρος του λόγου της κάθε λέξης.
Χρησιμοποιούμε την συνάρτηση get_wordnet_pos για να μετατραπεί η λέξη σε μορφή κατανοητή απο τον WordNetLemmatizer.
Εάν η λέξη έιναι αλφαβητική (η ταυτοποιήση γίνεται με το if re.match(r'[a-zA-Z]+', token)) γίνεται λημματοποίηση της λέξης. Σε περίπτωση που η "λεξη" δεν ειναι αλφαβητική πχ αριθμός, δεν γίνεται επεξεργασία.
Τέλος, γίνεται επιστροφή των λημματοποιημένων λέξεων.

In [None]:
def lemmatize_text(tokens):
    lemmatized_tokens = []
    pos_tags = pos_tag(tokens)
    for token, tag in pos_tags:
        if re.match(r'[a-zA-Z]+', token):
            wordnet_pos = get_wordnet_pos(tag)
            lemmatized_tokens.append(lemmatizer_en.lemmatize(token, pos=wordnet_pos))
        else:
            lemmatized_tokens.append(token)
    return lemmatized_tokens

Ακολουθεί η συνάρτηση generate_ngrams.
Στην συνάρτηση αυτή δημιουργούνται n-grams δυο λέξεων από τον κατάλογο tokens.

In [None]:
def generate_ngrams(tokens, n=2):
    return [' '.join(tokens[i:i+n]) for i in range(len(tokens) - n + 1)]

Ακολουθεί η συνάρτηση preprocess_text.
Στην συνάρτηση αυτη γίνονται με την σειρά οι εξής λειτουργίες που χρειάονται για την προ-επεξεργασία του κειμένου:
Μετατροπη σε πεζά.
Αφαίρεση σημείων στίξης.
Tokenization.
Αφαίρεση των stop words.
Λημματοποίηση.
N-grams.
Τέλος, επιστρέφει τα επεξεργασμένα tokens και n-grams.

In [None]:
def preprocess_text(text, ngram_n=2):
    if not isinstance(text, str):
        return []
    text = text.lower()
    text = re.sub(r'[^\w\s]', '', text)
    tokens = word_tokenize(text)
    tokens = [token for token in tokens if token not in stop_words_en]
    tokens = lemmatize_text(tokens)
    ngrams = generate_ngrams(tokens, ngram_n)
    return tokens + ngrams

Ακολουθεί η συνάρτηση process_json.
Στην συνάρτηση αυτή επεξεργαζόμαστε και αποθηκέυουμε δεδομένα των json αρχείων.
Αρχικά, φορτώνεται το αρχείο εισόδου, το output.json με την χρήση της json.load().
Γίνεται επεξεργασία του κάθε δεδομένου της αρχείου.
Τέλος, γίνεται αποθήκευση των επεξεργασμένων δεδομένων στο output file, το processed_file.json με την χρήση της json.dump().


In [None]:
def process_json(input_file, output_file, ngram_n=2):
    with open(input_file, 'r', encoding='utf-8') as f:
        data = json.load(f)

    processed_data = []
    for item in data:
        processed_item = {}
        for key, value in item.items():
            if isinstance(value, str):
                processed_item[key] = preprocess_text(value, ngram_n)
            else:
                processed_item[key] = value
        processed_data.append(processed_item)

    with open(output_file, 'w', encoding='utf-8') as f:
        json.dump(processed_data, f, ensure_ascii=False, indent=4)

Βήμα 3: Inverted Index