# Μέρος Β1.ii: Ταξινόμηση Νομικών Εγγράφων με Λογιστική Παλινδρόμηση (Logistic Regression) και Word2Vec

Αυτό το notebook αφορά την υλοποίηση και αξιολόγηση μοντέλων Λογιστικής Παλινδρόμησης για την ταξινόμηση ελληνικών νομικών εγγράφων, χρησιμοποιώντας πυκνές αναπαραστάσεις κειμένου (dense embeddings) που προέρχονται από το Word2Vec. Η εργασία αυτή αποτελεί μέρος του ερωτήματος Β1.ii της εξαμηνιαίας εργασίας.

**Επεξήγηση Κελιού:**
Εισαγωγή στο notebook: Λογιστική Παλινδρόμηση με Word2Vec για ταξινόμηση νομικών κειμένων (Β1.ii).

## 1. Τεχνική Ανάλυση Αλγορίθμων

### 1.1. Λογιστική Παλινδρόμηση (Logistic Regression)

Η Λογιστική Παλινδρόμηση μοντελοποιεί την πιθανότητα μιας παρατήρησης να ανήκει σε μια κλάση, χρησιμοποιώντας τη σιγμοειδή συνάρτηση. Είναι κατάλληλη για προβλήματα ταξινόμησης.

**Βασικά Σημεία:**
- **Εκπαίδευση:** Βρίσκει βέλτιστους συντελεστές μεγιστοποιώντας την πιθανοφάνεια ή ελαχιστοποιώντας το κόστος.
- **Κύριες Παράμετροι (`scikit-learn`):**
  - `solver`: Αλγόριθμος βελτιστοποίησης (π.χ., 'liblinear').
  - `C`: Αντίστροφη ισχύς κανονικοποίησης (μικρότερο `C` = ισχυρότερη κανονικοποίηση).
  - `max_iter`: Μέγιστες επαναλήψεις.
- **Πλεονεκτήματα:** Απλότητα, ερμηνευσιμότητα, αποδοτικότητα, παροχή πιθανοτήτων.
- **Μειονεκτήματα:** Υπόθεση γραμμικότητας, μπορεί να μην αποδίδει καλά σε μη γραμμικά όρια.

**Επεξήγηση Κελιού:**
Συνοπτική τεχνική ανάλυση της Λογιστικής Παλινδρόμησης: βασική ιδέα, εκπαίδευση, παράμετροι, πλεονεκτήματα και μειονεκτήματα.

### 1.2. Αναπαράσταση Κειμένου: Word2Vec

Το Word2Vec δημιουργεί πυκνά διανύσματα (embeddings) για λέξεις, συλλαμβάνοντας τη σημασιολογική τους σημασία. Εκπαιδεύεται προβλέποντας λέξεις από το πλαίσιό τους (CBOW) ή το πλαίσιο από μια λέξη (Skip-gram).

**Βασικά Σημεία:**
- **Αρχιτεκτονικές:** CBOW (γρήγορο, καλό για συχνές λέξεις), Skip-gram (καλό για σπάνιες λέξεις).
- **Κύριες Παράμετροι (`gensim`):
  - `vector_size`: Διάσταση των embeddings.
  - `window`: Μέγεθος πλαισίου λέξεων.
  - `min_count`: Ελάχιστη συχνότητα λέξης για συμπερίληψη.
  - `sg`: 0 για CBOW, 1 για Skip-gram.
  - `epochs`: Επαναλήψεις εκπαίδευσης.
- **Document Embeddings:** Συνήθως ο μέσος όρος των word embeddings των λέξεων ενός εγγράφου.
- **Πλεονεκτήματα:** Σύλληψη σημασιολογίας, πυκνά διανύσματα χαμηλότερης διάστασης.
- **Μειονεκτήματα:** Απώλεια πληροφορίας με απλό μέσο όρο, χειρισμός λέξεων εκτός λεξιλογίου (OOV).

**Επεξήγηση Κελιού:**
Συνοπτική τεχνική ανάλυση του Word2Vec: βασική ιδέα, αρχιτεκτονικές, παράμετροι, δημιουργία document embeddings, πλεονεκτήματα και μειονεκτήματα.

### 1.3. Συνδυασμός Λογιστικής Παλινδρόμησης με Word2Vec

Η διαδικασία συνδυασμού περιλαμβάνει:
1.  **Προεπεξεργασία Κειμένου.**
2.  **Εκπαίδευση Word2Vec** για τη δημιουργία word embeddings.
3.  **Δημιουργία Document Embeddings** (π.χ., μέσος όρος των word embeddings).
4.  **Εκπαίδευση Λογιστικής Παλινδρόμησης** με τα document embeddings ως χαρακτηριστικά.

**Οφέλη:** Τα Word2Vec embeddings παρέχουν πλούσια σημασιολογικά χαρακτηριστικά, και η Λογιστική Παλινδρόμηση είναι ένας αποδοτικός ταξινομητής για αυτά τα πυκνά διανύσματα.

**Επεξήγηση Κελιού:**
Περιγραφή του συνδυασμού Λογιστικής Παλινδρόμησης και Word2Vec: βήματα και οφέλη.

## 2. Υλοποίηση και Πειράματα

Στα παρακάτω κελιά κώδικα, θα ρυθμίσουμε και θα εκτελέσουμε τα πειράματα ταξινόμησης χρησιμοποιώντας Λογιστική Παλινδρόμηση με Word2Vec. Θα χρησιμοποιήσουμε τις συναρτήσεις από το αρχείο `utils.py`.

**Επεξήγηση Κελιού:**
Έναρξη της ενότητας υλοποίησης και πειραμάτων.

In [1]:
import sys
import os
import numpy as np

# Προσθήκη του γονικού καταλόγου στο path για την εισαγωγή του utils.py
current_notebook_dir = os.getcwd() 
parent_dir = os.path.dirname(current_notebook_dir) 
if parent_dir not in sys.path:
    sys.path.insert(0, parent_dir)

try:
    from utils import (
        load_and_preprocess_data,
        run_experiment, # Αυτή η συνάρτηση χειρίζεται πλέον και το Word2Vec feature generation
        script_execution_timer
    )
    print("Successfully imported from utils.py")
except ImportError as e:
    print(f"Error importing from utils.py: {e}")
    print(f"Please ensure utils.py is in the correct path: {parent_dir} or that the notebook's parent directory is correctly identified.")

from sklearn.linear_model import LogisticRegression
# Η import της Word2Vec γίνεται μέσα στο utils.py όταν χρειάζεται

  from .autonotebook import tqdm as notebook_tqdm


Successfully imported from utils.py


**Επεξήγηση Κελιού:**
Εισαγωγή βιβλιοθηκών και ρύθμιση path για το `utils.py`.

### 2.1. Ρυθμίσεις Πειράματος

Παρακαλώ επιλέξτε τις παραμέτρους για το πείραμα. Μπορείτε να αλλάξετε τις τιμές των μεταβλητών στο παρακάτω κελί κώδικα.

**Επεξήγηση Κελιού:**
Ενότητα διαμόρφωσης παραμέτρων πειράματος.

In [2]:
# --- Configuration ---
# Επιλέξτε την ετικέτα-στόχο: "volume", "chapter", ή "subject"
DATASET_CONFIG = "volume" 

# Ποσοστό του dataset που θα χρησιμοποιηθεί (1.0 για ολόκληρο, < 1.0 για υποσύνολο)
SUBSET_PERCENTAGE = 0.3 # Για λόγους ταχύτητας κατά την επίδειξη. Αλλάξτε σε 1.0 για πλήρη δεδομένα.

# Αριθμός K-folds για Cross-Validation (1 για απλό train/test split)
# Σύμφωνα με την αναφορά, για 'volume' έγινε 5-fold CV, για 'chapter'/'subject' έγινε single split.
N_SPLITS_CV = 1 
if DATASET_CONFIG == "volume":
    print("INFO: For 'volume' target, typically 5-fold CV was used in the report. Adjust N_SPLITS_CV if needed.")
    # N_SPLITS_CV = 5 # Uncomment to match report for 'volume'

RANDOM_STATE = 42
SINGLE_SPLIT_TEST_SIZE = 0.1 # Μέγεθος του test set όταν N_SPLITS_CV = 1

# Αποθήκευση/Φόρτωση εκπαιδευμένων μοντέλων χαρακτηριστικών (Word2Vec model)
SAVE_TRAINED_FEATURE_MODELS = True
LOAD_TRAINED_FEATURE_MODELS_IF_EXIST = True

# Word2Vec specific parameters (όπως στην αναφορά και το main_LogRegr_W2V.py)
WORD2VEC_VECTOR_SIZE = 100
WORD2VEC_WINDOW = 5
WORD2VEC_MIN_COUNT = 2
WORD2VEC_WORKERS = 4 # Προσαρμόστε ανάλογα με τους πυρήνες της CPU σας
WORD2VEC_SG = 0      # 0 για CBOW (όπως στην αναφορά), 1 για Skip-gram
WORD2VEC_EPOCHS = 10
# --- End Configuration ---

INFO: For 'volume' target, typically 5-fold CV was used in the report. Adjust N_SPLITS_CV if needed.


**Επεξήγηση Κελιού:**
Παράμετροι διαμόρφωσης για το πείραμα (dataset, Word2Vec, split).

In [3]:
@script_execution_timer
def run_logregr_w2v_experiment(dataset_config, subset_percentage, n_splits_cv, random_state, 
                               single_split_test_size, save_feature_models, load_feature_models,
                               w2v_vector_size, w2v_window, w2v_min_count, w2v_workers, w2v_sg, w2v_epochs):
    model_name_script = "LogRegr"
    feature_method_name = "Word2Vec"
    
    base_run_id = f"{model_name_script}_{feature_method_name}_{dataset_config}"
    
    print(f"Starting {model_name_script} with {feature_method_name} for '{dataset_config}' config...")
    
    # Το feature_config για το Word2Vec ορίζεται εδώ και περνιέται στο run_experiment
    feature_config = {
        'method': 'word2vec',
        'params': {
            'vector_size': w2v_vector_size,
            'window': w2v_window,
            'min_count': w2v_min_count,
            'workers': w2v_workers,
            'sg': w2v_sg,
            'epochs': w2v_epochs,
            'seed': random_state # Προσθήκη seed για αναπαραγωγιμότητα του Word2Vec
        }
    }
    
    model_class = LogisticRegression
    # Παράμετροι μοντέλου όπως στην αναφορά
    model_init_params = {'solver': 'liblinear', 'max_iter': 1000, 'random_state': random_state, 'C': 1.0}

    # Καθορισμός καταλόγων εξόδου
    script_dir = os.getcwd() # Τρέχων κατάλογος του notebook
    experiment_output_base_dir = os.path.join(script_dir, "outputs", base_run_id)
    reports_output_dir = os.path.join(experiment_output_base_dir, "reports")
    feature_models_output_dir = os.path.join(experiment_output_base_dir, "feature_models")
    
    os.makedirs(reports_output_dir, exist_ok=True)
    os.makedirs(feature_models_output_dir, exist_ok=True)
    print(f"INFO: Experiment outputs will be saved in '{experiment_output_base_dir}'")

    # Εκτύπωση ρυθμίσεων
    if 0 < subset_percentage < 1.0:
        print(f"INFO: Using a {subset_percentage*100:.0f}% subset of the data.")
    else:
        print("INFO: Using all available data (after filtering).")
    
    if n_splits_cv == 1:
        print(f"INFO: Performing a single train/test split (test_size={single_split_test_size}).")
    elif n_splits_cv > 1:
        print(f"INFO: Performing {n_splits_cv}-Fold Cross-Validation.")
    else:
        print("ERROR: N_SPLITS_CV must be >= 1.")
        return

    print(f"INFO: Saving of trained Word2Vec models is {'ENABLED' if save_feature_models else 'DISABLED'}.")
    print(f"INFO: Loading of existing Word2Vec models is {'ENABLED' if load_feature_models else 'DISABLED'}.")

    # Φόρτωση και προεπεξεργασία δεδομένων
    texts_proc, labels_proc, unique_labels_proc, unique_labels_proc_str = load_and_preprocess_data(
        dataset_config, subset_percentage, random_state
    )

    if texts_proc is None or len(texts_proc) == 0:
        print("Failed to load or preprocess data. Exiting.")
        return

    # Εκτέλεση πειράματος
    success = run_experiment(
        texts_to_process=texts_proc,
        labels_to_process=labels_proc,
        unique_labels_to_process=unique_labels_proc,
        unique_labels_to_process_str=unique_labels_proc_str,
        n_splits=n_splits_cv,
        feature_config=feature_config, # Περνάμε το feature_config του Word2Vec
        model_class=model_class,
        model_init_params=model_init_params,
        base_run_identifier=base_run_id, 
        reports_output_dir=reports_output_dir,
        feature_models_output_dir=feature_models_output_dir,
        random_state=random_state,
        save_trained_features=save_feature_models,
        load_trained_features_if_exist=load_feature_models,
        single_split_test_size=single_split_test_size
    )

    if success:
        print(f"\nExperiment '{base_run_id}' completed successfully.")
    else:
        print(f"\nExperiment '{base_run_id}' encountered errors.")

    print(f"\n{model_name_script} with {feature_method_name} script finished for {dataset_config} dataset.")

**Επεξήγηση Κελιού:**
Συνάρτηση `run_logregr_w2v_experiment` που ενσωματώνει τη λογική εκτέλεσης του πειράματος.

### 2.2. Εκτέλεση Πειράματος

Το παρακάτω κελί θα εκτελέσει το πείραμα με τις ρυθμίσεις που ορίστηκαν παραπάνω.

**Επεξήγηση Κελιού:**
Εισαγωγή στο κελί εκτέλεσης του πειράματος.

In [4]:
run_logregr_w2v_experiment(
    dataset_config=DATASET_CONFIG,
    subset_percentage=SUBSET_PERCENTAGE,
    n_splits_cv=N_SPLITS_CV,
    random_state=RANDOM_STATE,
    single_split_test_size=SINGLE_SPLIT_TEST_SIZE,
    save_feature_models=SAVE_TRAINED_FEATURE_MODELS,
    load_feature_models=LOAD_TRAINED_FEATURE_MODELS_IF_EXIST,
    w2v_vector_size=WORD2VEC_VECTOR_SIZE,
    w2v_window=WORD2VEC_WINDOW,
    w2v_min_count=WORD2VEC_MIN_COUNT,
    w2v_workers=WORD2VEC_WORKERS,
    w2v_sg=WORD2VEC_SG,
    w2v_epochs=WORD2VEC_EPOCHS
)


--- Script 'run_logregr_w2v_experiment' started at: 2025-05-24 20:35:25 ---
Starting LogRegr with Word2Vec for 'volume' config...
INFO: Experiment outputs will be saved in 'c:\Users\USER\Desktop\PROJECTS\ML_GreekLegalDocs\merosB1\outputs\LogRegr_Word2Vec_volume'
INFO: Using a 30% subset of the data.
INFO: Performing a single train/test split (test_size=0.1).
INFO: Saving of trained Word2Vec models is ENABLED.
INFO: Loading of existing Word2Vec models is ENABLED.
Loading dataset 'AI-team-UoA/greek_legal_code' with 'volume' configuration...
Dataset loaded in 36.76 seconds.
Extracting text and labels...
Full dataset extracted in 0.48s. Samples: 28536
Original unique labels in full dataset (volume config): 47
Filtering out classes with fewer than 2 samples...
No classes needed filtering based on min_samples_per_class.
Dataset size after filtering for min_samples_per_class: 28536 samples.
Unique labels after initial filtering: 47

Selecting a 30% subset from the filtered data...
Subset siz

**Επεξήγηση Κελιού:**
Εκτέλεση του πειράματος με τις καθορισμένες παραμέτρους.

## 3. Αποτελέσματα και Σχολιασμός

Τα αναλυτικά αποτελέσματα (classification reports) για κάθε εκτέλεση (είτε single run είτε για κάθε fold του CV και το mean report) αποθηκεύονται στον κατάλογο `outputs/[MODEL_FEATURE_CONFIG]/reports/`. 

Για παράδειγμα, αν εκτελέσατε LogRegr με Word2Vec για το `subject` (single run):
`merosB1/ii/outputs/LogRegr_Word2Vec_subject/reports/`

Αντίστοιχα για LogRegr με Word2Vec για το `volume` (με 5-fold CV):
`merosB1/ii/outputs/LogRegr_Word2Vec_volume/reports/` (θα περιέχει αναφορές για κάθε fold και τη μέση αναφορά).

Τα αποτελέσματα που παρουσιάζονται στην επιστημονική αναφορά (`B1.md`) για LogReg+W2V προέρχονται από εκτελέσεις αυτού του κώδικα με τις κατάλληλες ρυθμίσεις (π.χ., `N_SPLITS_CV=5` για την ετικέτα `volume` και `N_SPLITS_CV=1` για `chapter` και `subject`, με `SUBSET_PERCENTAGE=1.0` όπου ήταν υπολογιστικά εφικτό ή όπως αναφέρεται στην αναφορά).

Η επιλογή του `SUBSET_PERCENTAGE` και `N_SPLITS_CV` επηρεάζει σημαντικά τον χρόνο εκτέλεσης. Για την πλήρη αναπαραγωγή των αποτελεσμάτων της αναφοράς, ενδέχεται να απαιτηθεί σημαντικός υπολογιστικός χρόνος και πόροι.

**Επεξήγηση Κελιού:**
Πληροφορίες για την εύρεση των αποτελεσμάτων και σύνδεση με την επιστημονική αναφορά.