# Μέρος Β2.iii: Ανάλυση Αποτελεσμάτων Συσταδοποίησης K-Means

Αυτό το notebook αφορά την ανάλυση και ερμηνεία των συστάδων (clusters) που δημιουργήθηκαν από τον αλγόριθμο K-Means στο Μέρος Β2.ii. Θα εξετάσουμε τα χαρακτηριστικά των συστάδων για να κατανοήσουμε το περιεχόμενό τους.

**Επεξήγηση Κελιού:**
Εισαγωγή στον σκοπό του notebook: ανάλυση των αποτελεσμάτων της K-Means συσταδοποίησης από το προηγούμενο βήμα (B2.ii).

## 1. Ρυθμίσεις και Φόρτωση Δεδομένων

Εισάγουμε τις απαραίτητες βιβλιοθήκες και φορτώνουμε το αρχείο CSV που περιέχει τα έγγραφα και τις αντιστοιχίες τους στις συστάδες, όπως αυτό εξήχθη από το `kmeans_final.py`.

**Επεξήγηση Κελιού:**
Προετοιμασία για την ανάλυση: εισαγωγή βιβλιοθηκών και επισήμανση της φόρτωσης των δεδομένων.

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import os

# Ορισμός της διαδρομής προς το αρχείο CSV που περιέχει τις συστάδες.
# Αυτό το αρχείο παράγεται από το script kmeans_final.py (Μέρος Β2.ii).
# Προσαρμόστε τη διαδρομή εάν το notebook ή το αρχείο CSV βρίσκεται σε διαφορετική θέση.
current_notebook_dir = os.getcwd()
path_to_csv = os.path.join(current_notebook_dir, '..', 'documents_with_clusters.csv') 
# Εναλλακτικά, αν το kmeans_final.py αποθηκεύει στο merosB2/outputs:
# path_to_csv = os.path.join(os.path.dirname(current_notebook_dir), 'outputs', 'documents_with_clusters.csv')
# Ελέγξτε τη δομή του φακέλου σας και τη θέση του αρχείου documents_with_clusters.csv.
# Η προεπιλεγμένη ρύθμιση στο kmeans_final.py είναι:
# SCRIPT_DIR (merosB2/ii/) -> '..' -> merosB2/documents_with_clusters.csv
# Άρα, από το merosB2/iii/, η διαδρομή '../documents_with_clusters.csv' είναι σωστή.

TEXT_COLUMN_USED_IN_B2_II = 'summary' # Επιβεβαιώστε ότι είναι η ίδια στήλη που χρησιμοποιήθηκε στο kmeans_final.py ('summary' ή 'text')
CHOSEN_K_FROM_B2_II = 21 # Επιβεβαιώστε ότι είναι ο ίδιος αριθμός K που χρησιμοποιήθηκε στο kmeans_final.py

print(f"Αναμένεται το αρχείο CSV εδώ: {os.path.abspath(path_to_csv)}")
print(f"Στήλη κειμένου που χρησιμοποιήθηκε: {TEXT_COLUMN_USED_IN_B2_II}")
print(f"Αριθμός συστάδων (K): {CHOSEN_K_FROM_B2_II}")

**Επεξήγηση Κελιού:**
Εισαγωγή βιβλιοθηκών Python και ορισμός βασικών παραμέτρων, όπως η διαδρομή προς το αρχείο δεδομένων με τις συστάδες και η στήλη κειμένου που χρησιμοποιήθηκε για τη συσταδοποίηση.

In [None]:
try:
    df_clustered = pd.read_csv(path_to_csv)
    print("DataFrame φορτώθηκε επιτυχώς.")
    print(f"Διαστάσεις DataFrame: {df_clustered.shape}")
    display(df_clustered.head())
    print("\nΠληροφορίες DataFrame:")
    df_clustered.info()
except FileNotFoundError:
    print(f"ΣΦΑΛΜΑ: Το αρχείο δεν βρέθηκε στη διαδρομή: {os.path.abspath(path_to_csv)}")
    print("Παρακαλώ βεβαιωθείτε ότι το script kmeans_final.py (Μέρος Β2.ii) έχει εκτελεστεί και το αρχείο CSV υπάρχει στην αναμενόμενη θέση.")
    df_clustered = None

**Επεξήγηση Κελιού:**
Φόρτωση του αρχείου CSV που περιέχει τα δεδομένα και τις αντιστοιχίες συστάδων. Εμφανίζονται οι πρώτες γραμμές και οι πληροφορίες του DataFrame για επιβεβαίωση.

## 2. Ανάλυση Μεγέθους Συστάδων

Εξετάζουμε τον αριθμό των εγγράφων που ανήκουν σε κάθε συστάδα.

**Επεξήγηση Κελιού:**
Εισαγωγή στην ανάλυση του μεγέθους των συστάδων.

In [None]:
if df_clustered is not None:
    cluster_sizes = df_clustered['cluster_id'].value_counts().sort_index()
    print("--- Μεγέθη Συστάδων ---")
    for cluster_id_val, size in cluster_sizes.items():
        print(f"  Συστάδα {cluster_id_val}: {size} έγγραφα")
    
    plt.figure(figsize=(12, 6))
    sns.barplot(x=cluster_sizes.index, y=cluster_sizes.values, palette="viridis")
    plt.title(f'Κατανομή Εγγράφων ανά Συστάδα (K={CHOSEN_K_FROM_B2_II})', fontsize=15)
    plt.xlabel('ID Συστάδας', fontsize=12)
    plt.ylabel('Αριθμός Εγγράφων', fontsize=12)
    plt.xticks(rotation=45)
    plt.grid(axis='y', linestyle='--')
    plt.tight_layout()
    plt.show()
else:
    print("Το DataFrame δεν έχει φορτωθεί, παράλειψη ανάλυσης μεγέθους συστάδων.")

**Επεξήγηση Κελιού:**
Υπολογισμός και οπτικοποίηση του αριθμού των εγγράφων σε κάθε συστάδα. Αυτό βοηθά στον εντοπισμό πολύ μικρών ή πολύ μεγάλων συστάδων.

## 3. Ανάλυση Περιεχομένου Συστάδων

### 3.1. Κορυφαίοι Όροι ανά Συστάδα (Top Terms)

Για να προσδιορίσουμε τους πιο αντιπροσωπευτικούς όρους για κάθε συστάδα, χρειαζόμαστε το εκπαιδευμένο μοντέλο TF-IDF (`vectorizer`) και τα κεντροειδή (`cluster_centers_`) του μοντέλου K-Means από το Μέρος Β2.ii.

**Σημείωση:** Το script `kmeans_final.py` δεν αποθηκεύει αυτά τα αντικείμενα από προεπιλογή. Εάν θέλετε να εκτελέσετε αυτή την ανάλυση, θα πρέπει:
1.  Να τροποποιήσετε το `kmeans_final.py` ώστε να αποθηκεύει το `vectorizer` και το `kmeans_model` (π.χ., χρησιμοποιώντας `joblib.dump`).
2.  Να φορτώσετε αυτά τα αντικείμενα εδώ (π.χ., με `joblib.load`).
3.  Να χρησιμοποιήσετε τον παρακάτω ενδεικτικό κώδικα.

Εναλλακτικά, εάν εκτελείτε αυτό το notebook στην ίδια συνεδρία Python (session) μετά την εκτέλεση του `kmeans_final.py` και έχετε τα `vectorizer` και `kmeans_model` διαθέσιμα ως μεταβλητές, μπορείτε να τα χρησιμοποιήσετε απευθείας.

**Επεξήγηση Κελιού:**
Επεξήγηση της μεθοδολογίας για την εύρεση των κορυφαίων όρων ανά συστάδα και επισήμανση των προαπαιτούμενων (μοντέλο vectorizer και k-means).

In [None]:
print("--- Ενδεικτικός Κώδικας για Κορυφαίους Όρους (Απαιτεί Vectorizer και K-Means Model) ---")
print("Αυτός ο κώδικας δεν θα εκτελεστεί εκτός αν έχετε φορτώσει τα 'vectorizer' και 'kmeans_model'.")

# Παράδειγμα (υποθέτοντας ότι έχετε τα 'vectorizer' και 'kmeans_model'):
'''
import joblib

# Υποθετικές διαδρομές αποθήκευσης/φόρτωσης
# path_to_vectorizer = os.path.join(current_notebook_dir, '..', 'ii', 'outputs', 'tfidf_vectorizer.joblib')
# path_to_kmeans_model = os.path.join(current_notebook_dir, '..', 'ii', 'outputs', 'kmeans_model.joblib')

try:
    # vectorizer = joblib.load(path_to_vectorizer)
    # kmeans_model = joblib.load(path_to_kmeans_model)
    # print("Vectorizer και K-Means model φορτώθηκαν (υποθετικά).")
    
    # # Εάν δεν τα έχετε φορτώσει, ο παρακάτω κώδικας θα προκαλέσει σφάλμα
    # if 'vectorizer' in locals() and 'kmeans_model' in locals():
    #     print("\nTop terms per cluster:")
    #     order_centroids = kmeans_model.cluster_centers_.argsort()[:, ::-1]
    #     terms = vectorizer.get_feature_names_out()
    #     for i in range(CHOSEN_K_FROM_B2_II):
    #         print(f"Cluster {i}:", end='')
    #         for ind in order_centroids[i, :10]: # top 10 terms
    #             print(f' {terms[ind]}', end='')
    #         print()
    # else:
    #     print("Vectorizer ή/και K-Means model δεν είναι διαθέσιμα για την ανάλυση κορυφαίων όρων.")
    pass # Αφήστε το κενό ή σχολιασμένο μέχρι να έχετε τα μοντέλα
except NameError:
    print("Vectorizer ή/και K-Means model δεν έχουν οριστεί.")
except FileNotFoundError:
    print("Ένα ή περισσότερα αρχεία μοντέλου (.joblib) δεν βρέθηκαν. Βεβαιωθείτε ότι έχουν αποθηκευτεί σωστά.")
'''
print("Παρακαλώ αποσχολιάστε και προσαρμόστε τον παραπάνω κώδικα εάν έχετε αποθηκεύσει και φορτώσει τα μοντέла.")

**Επεξήγηση Κελιού:**
Παροχή ενδεικτικού κώδικα για την εξαγωγή των κορυφαίων όρων. Ο κώδικας είναι σχολιασμένος καθώς προϋποθέτει τη φόρτωση των μοντέλων.

### 3.2. Κατανομή Μεταδεδομένων ανά Συστάδα

Εξετάζουμε πώς κατανέμονται γνωστές κατηγορίες ή ετικέτες (π.χ., `case_category`, `case_tags` από το αρχικό dataset) μέσα στις συστάδες που δημιουργήθηκαν.

**Επεξήγηση Κελιού:**
Εισαγωγή στην ανάλυση της κατανομής των υπαρχόντων μεταδεδομένων (π.χ. κατηγορίες υποθέσεων) εντός των συστάδων.

In [None]:
if df_clustered is not None:
    metadata_columns = ['case_category', 'case_tags'] # Στήλες από το dataset DominusTea/GreekLegalSum
    
    for col in metadata_columns:
        if col in df_clustered.columns:
            print(f"\n--- Ανάλυση Κατανομής για τη στήλη: '{col}' ---")
            
            # Χειρισμός λιστών ή πολλαπλών τιμών στη στήλη 'case_tags' (αν χρειάζεται)
            # Για απλότητα, εδώ θα εξετάσουμε τις μοναδικές τιμές ως έχουν.
            # Μπορεί να χρειαστεί πιο προχωρημένη επεξεργασία για 'case_tags' αν είναι λίστες.
            if df_clustered[col].dtype == 'object' and df_clustered[col].str.contains(r'\[|\|]', regex=True).any():
                 print(f"Σημείωση: Η στήλη '{col}' φαίνεται να περιέχει λίστες ή ειδικούς χαρακτήρες. Η απλή value_counts μπορεί να μην είναι ιδανική.")
                 # Εδώ θα μπορούσε να μπει κώδικας για explode ή άλλη επεξεργασία των tags

            # Ομαδοποίηση ανά cluster_id και υπολογισμός ποσοστών για κάθε τιμή της στήλης col
            # Χρησιμοποιούμε unstack και fillna για καλύτερη παρουσίαση
            try:
                distribution = df_clustered.groupby('cluster_id')[col].value_counts(normalize=True).mul(100).unstack(fill_value=0)
                plt.figure(figsize=(15, 8))
                sns.heatmap(distribution, annot=True, fmt=".1f", cmap="YlGnBu", linewidths=.5)
                plt.title(f'Ποσοστιαία Κατανομή της Στήλης "{col}" ανά Συστάδα (%)', fontsize=15)
                plt.xlabel(f'Τιμές Στήλης "{col}"', fontsize=12)
                plt.ylabel('ID Συστάδας', fontsize=12)
                plt.xticks(rotation=45, ha='right')
                plt.yticks(rotation=0)
                plt.tight_layout()
                plt.show()
            except Exception as e:
                print(f"Δεν ήταν δυνατή η δημιουργία heatmap για τη στήλη '{col}': {e}")
                print("Εμφάνιση απλών value_counts ανά συστάδα:")
                for cluster_id_val in sorted(df_clustered['cluster_id'].unique()):
                    print(f"  Συστάδα {cluster_id_val} - {col}:")
                    print(df_clustered[df_clustered['cluster_id'] == cluster_id_val][col].value_counts(normalize=True).mul(100).head(5))
                    print("---")
        else:
            print(f"Η στήλη μεταδεδομένων '{col}' δεν βρέθηκε στο DataFrame.")
else:
    print("Το DataFrame δεν έχει φορτωθεί, παράλειψη ανάλυσης μεταδεδομένων.")

**Επεξήγηση Κελιού:**
Ομαδοποίηση των δεδομένων ανά συστάδα και ανάλυση της κατανομής των τιμών από επιλεγμένες στήλες μεταδεδομένων (π.χ., `case_category`). Οπτικοποίηση με heatmap για την εύκολη σύγκριση των κατανομών μεταξύ των συστάδων.

### 3.3. Εμφάνιση Αντιπροσωπευτικών Εγγράφων ανά Συστάδα

Εμφανίζουμε μερικά παραδείγματα εγγράφων από κάθε συστάδα για να πάρουμε μια ποιοτική αίσθηση του περιεχομένου τους.

**Επεξήγηση Κελιού:**
Εισαγωγή στην εμφάνιση δειγμάτων εγγράφων από κάθε συστάδα.

In [None]:
if df_clustered is not None:
    print(f"\n--- Αντιπροσωπευτικά Έγγραφα (από τη στήλη '{TEXT_COLUMN_USED_IN_B2_II}') ανά Συστάδα ---")
    
    # Αριθμός δειγμάτων προς εμφάνιση ανά συστάδα
    n_samples_per_cluster = 2 

    for i in range(CHOSEN_K_FROM_B2_II):
        print(f"\n  Συστάδα {i}:")
        cluster_samples = df_clustered[df_clustered['cluster_id'] == i][TEXT_COLUMN_USED_IN_B2_II].sample(min(n_samples_per_cluster, cluster_sizes.get(i, 0)), random_state=42)
        for idx, sample_text in enumerate(cluster_samples):
            print(f"    Δείγμα {idx+1}: {sample_text[:200]}...") # Εμφάνιση των πρώτων 200 χαρακτήρων
        if cluster_samples.empty:
             print("    (Δεν υπάρχουν έγγραφα ή δεν επαρκούν για δειγματοληψία σε αυτή τη συστάδα)")
else:
    print("Το DataFrame δεν έχει φορτωθεί, παράλειψη εμφάνισης αντιπροσωπευτικών εγγράφων.")

**Επεξήγηση Κελιού:**
Εμφάνιση μερικών τυχαίων δειγμάτων κειμένου από κάθε συστάδα. Αυτό βοηθά στην ποιοτική αξιολόγηση και κατανόηση του θέματος κάθε συστάδας.

## 4. Συμπεράσματα

Σε αυτό το σημείο, έχοντας αναλύσει τα μεγέθη των συστάδων, (ιδανικά) τους κορυφαίους όρους, την κατανομή των μεταδεδομένων και έχοντας δει αντιπροσωπευτικά έγγραφα, μπορούμε να αρχίσουμε να σχηματίζουμε μια εικόνα για το τι αντιπροσωπεύει κάθε συστάδα.

Η ερμηνεία των συστάδων είναι συχνά μια επαναληπτική διαδικασία και μπορεί να απαιτήσει περαιτέρω διερεύνηση ή και προσαρμογή των παραμέτρων της συσταδοποίησης (π.χ., αλλαγή του Κ, διαφορετική προεπεξεργασία κειμένου).

**Επεξήγηση Κελιού:**
Συνοπτικά συμπεράσματα και επισημάνσεις σχετικά με τη διαδικασία ερμηνείας των συστάδων.