In [None]:
# %% [markdown]
# # Ανάλυση Νομικών Κειμένων - Μέρος 1: Εξερεύνηση Δεδομένων
# 
# **Στόχοι:**
# 1. Βασική ανάλυση δομής δεδομένων
# 2. Εξερεύνηση νομικών αναφορών
# 3. Στατιστική ανάλυση κειμένων
# 4. Οπτικοποίηση κατανομών

# %% [markdown]
# ## 1. Αρχικοποίηση και Φόρτωση Βιβλιοθηκών

# %%
# Βασικές βιβλιοθήκες
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from pathlib import Path
import re
from collections import Counter
import warnings
warnings.filterwarnings('ignore')

# Ρυθμίσεις γραφημάτων
sns.set_theme(style="whitegrid")  # Χρήση του seaborn styling
plt.rcParams['figure.figsize'] = (12, 6)
plt.rcParams['font.size'] = 12

# %% [markdown]
# ## 2. Φόρτωση και Αρχική Εξέταση Δεδομένων

# %%
def load_and_validate_data(file_path: str) -> pd.DataFrame:
    """
    Φόρτωση και αρχικός έλεγχος δεδομένων
    
    Args:
        file_path (str): Διαδρομή αρχείου
        
    Returns:
        pd.DataFrame: Καθαρισμένο dataset
    """
    try:
        # Φόρτωση δεδομένων
        df = pd.read_csv(file_path)
        
        # Βασικοί έλεγχοι
        print("📊 Βασικά Στατιστικά:")
        print(f"- Συνολικές υποθέσεις: {len(df):,}")
        print(f"- Στήλες: {', '.join(df.columns)}")
        print(f"\n🔍 Ελλιπή δεδομένα:\n{df.isnull().sum()}")
        
        # Προσθήκη χαρακτηριστικών κειμένου
        df['text_length'] = df['case_text'].str.len()
        
        return df
    
    except FileNotFoundError:
        print(f"❌ Σφάλμα: Το αρχείο {file_path} δεν βρέθηκε")
        raise
    except Exception as e:
        print(f"❌ Σφάλμα κατά τη φόρτωση: {str(e)}")
        raise

# Φόρτωση δεδομένων με το σωστό path
df = load_and_validate_data("data/raw/legal_cases.csv")

# %% [markdown]
# ## 3. Ανάλυση Κατανομής Κατηγοριών

# %%
def analyze_case_distribution(df: pd.DataFrame) -> None:
    """
    Ανάλυση και οπτικοποίηση κατανομής υποθέσεων
    """
    try:
        # Υπολογισμός κατανομής
        case_dist = df['case_outcome'].value_counts()
        
        # Δημιουργία γραφήματος
        fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(15, 6))
        
        # Ραβδόγραμμα
        sns.barplot(x=case_dist.values, y=case_dist.index, ax=ax1)
        ax1.set_title('Κατανομή Κατηγοριών Υποθέσεων')
        ax1.set_xlabel('Πλήθος Υποθέσεων')
        
        # Πίτα
        ax2.pie(case_dist.values, labels=case_dist.index, autopct='%1.1f%%')
        ax2.set_title('Ποσοστιαία Κατανομή')
        
        plt.tight_layout()
        plt.show()
        
        # Εκτύπωση στατιστικών
        print("\n📈 Στατιστικά Κατηγοριών:")
        for outcome, count in case_dist.items():
            percentage = (count/len(df)) * 100
            print(f"- {outcome}: {count:,} υποθέσεις ({percentage:.1f}%)")
            
    except Exception as e:
        print(f"❌ Σφάλμα κατά την ανάλυση κατανομής: {str(e)}")
        raise

analyze_case_distribution(df)

OSError: 'seaborn' is not a valid package style, path of style file, URL of style file, or library style name (library styles are listed in `style.available`)