In [3]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


#T test GERARCHICO vs NON GERARCHICO

Date le previsioni di due modelli:

*   Gruppo A il modello GERARCHICO (ex. LSGBERT + BiGRU).
*   Gruppo B il modello NON GERARCHICO (ex. LSGBERT).

Considero:

*  **Ipotesi nulla H0:** La media di A non è maggiore di quella di B ovvero &mu;(A) <= &mu;(B)

*  **Ipotesi alternativa H1:** La media di A è maggiore di quella di B ovvero &mu;(A) > &mu;(B)

Utilizzo il t test accoppiato ([***stats.ttest_rel()***](https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.ttest_rel.html)) in quanto i modelli sono testati sullo stesso set di dati.

Imposto come parametro ***alternative='greater'*** in questo modo faccio un "one-tailed" test per vedere se la media della distribuzione del GRUPPO A (modello gerarchico) non è maggiore della media della distribuzione GRUPPO B (modello non gerarchico). Ovvero vedo se il GRUPPO A, essendo quello più performante in quanto rappresenta il modello gerarchico,  sia effettivamente migliore del GRUPPO B (non gerarchico).  

Imposto alpha=0.05 e lo confronto con il p-value:
*   p-value<&alpha;: respingiamo l'ipotesi nulla H0 e quindi A è effettivamente migliore di B. questa è la condizione che determina che il modello A e migliore del modello B.
*    p-value>=&alpha;: non si hanno evidenze sufficienti per respingere l'ipotesi nulla (H0) e quindi non possiamo dire che A sia effettivamente migliore di B.





## LSGBERT + BiGRU vs LSGBERT

In [2]:
import pickle
import numpy as np
from scipy import stats

In [3]:
# Load predizioni modello GERARCHICO
with open('/content/drive/MyDrive/Thesis/statistical_analysis/LSGBERT/preds_lsgbert_bigru.pkl', 'rb') as file:
    preds_A = pickle.load(file) # prediction modello A ex. [1, 0, 0, 1, 1 .....]
print(preds_A)

[1 0 0 ... 0 1 1]


In [4]:
# Load predizioni modello NON GERARCHICO
with open('/content/drive/MyDrive/Thesis/statistical_analysis/LSGBERT/preds_lsgbert.pkl', 'rb') as file:
    preds_B = pickle.load(file) # prediction modello B
print(preds_B)

[1 0 0 ... 0 1 1]


In [5]:
media_A = np.mean(preds_A)
media_B = np.mean(preds_B)
varianza_A = np.var(preds_A)
varianza_B = np.var(preds_B)

# Eseguo il t-test
t_stat, p_value = stats.ttest_rel(preds_A, preds_B, alternative='greater')
# alternative='greater' indica il test one-sided in cui testiamo se la media di A è maggiore di quella di B

In [6]:
print("LSGBERT + BiGRU vs LSGBERT")
print('F1core LSGBERT + BiGRU: 82.13')
print('F1core LSGBERT: 82.01')
print("Media di Gruppo A:", media_A)
print("Media di Gruppo B:", media_B)
print("Varianza di Gruppo A:", varianza_A)
print("Varianza di Gruppo B:", varianza_B)
print("T-Statistic:", t_stat)
print("P-Value:", p_value)

# Imposto il livello di significatività (alpha)
alpha = 0.05

# Confronto il p-value con alpha
if p_value < alpha:
    print("L'ipotesi nulla può essere respinta. La media di Gruppo A (GERARCHICO) è maggiore di quella di Gruppo B (NON GERARCHICO).")
else:
    print("Non ci sono evidenze sufficienti per respingere l'ipotesi nulla.")

LSGBERT + BiGRU vs LSGBERT
F1core LSGBERT + BiGRU: 82.13
F1core LSGBERT: 82.01
Media di Gruppo A: 0.48350923482849606
Media di Gruppo B: 0.46965699208443273
Varianza di Gruppo A: 0.24972805466405834
Varianza di Gruppo B: 0.24907930187063582
T-Statistic: 1.8087458118855655
P-Value: 0.03534433912011695
L'ipotesi nulla può essere respinta. La media di Gruppo A (GERARCHICO) è maggiore di quella di Gruppo B (NON GERARCHICO).


## LegalBERT + BiGRU vs LegalBERT

In [7]:
import pickle
import numpy as np
from scipy import stats

In [8]:
# Load predizioni modello GERARCHICO
with open('/content/drive/MyDrive/Thesis/statistical_analysis/LegalBERT/preds_legalbert_bigru.pkl', 'rb') as file:
    preds_A = pickle.load(file) # prediction modello A ex. [1, 0, 0, 1, 1 .....]

In [9]:
# Load predizioni modello NON GERARCHICO
with open('/content/drive/MyDrive/Thesis/statistical_analysis/LegalBERT/preds_legalbert.pkl', 'rb') as file:
    preds_B = pickle.load(file) # prediction modello B

In [10]:
media_A = np.mean(preds_A)
media_B = np.mean(preds_B)
varianza_A = np.var(preds_A)
varianza_B = np.var(preds_B)

# Eseguo il t-test
t_stat, p_value = stats.ttest_rel(preds_A, preds_B, alternative='greater')
# alternative='greater' indica il test one-sided in cui testiamo se la media di A è maggiore di quella di B

In [11]:
print("LegalBERT + BiGRU vs LegalBERT")
print('F1core LegalBERT + BiGRU: 78.90')
print('F1core LegalBERT: 75.32')
print("Media di Gruppo A:", media_A)
print("Media di Gruppo B:", media_B)
print("Varianza di Gruppo A:", varianza_A)
print("Varianza di Gruppo B:", varianza_B)
print("T-Statistic:", t_stat)
print("P-Value:", p_value)

# Imposto il livello di significatività (alpha)
alpha = 0.05

# Confronto il p-value con alpha
if p_value < alpha:
    print("L'ipotesi nulla può essere respinta. La media di Gruppo A (GERARCHICO) è maggiore di quella di Gruppo B (NON GERARCHICO).")
else:
    print("Non ci sono evidenze sufficienti per respingere l'ipotesi nulla.")

LegalBERT + BiGRU vs LegalBERT
F1core LegalBERT + BiGRU: 78.90
F1core LegalBERT: 75.32
Media di Gruppo A: 0.5019788918205804
Media di Gruppo B: 0.41160949868073876
Varianza di Gruppo A: 0.24999608398716244
Varianza di Gruppo B: 0.24218711927652964
T-Statistic: 9.179008788223511
P-Value: 6.915985227202249e-20
L'ipotesi nulla può essere respinta. La media di Gruppo A (GERARCHICO) è maggiore di quella di Gruppo B (NON GERARCHICO).


## CaseLawBERT + BiGRU vs CaseLawBERT

In [12]:
import pickle
import numpy as np
from scipy import stats

In [13]:
# Load predizioni modello GERARCHICO
with open('/content/drive/MyDrive/Thesis/statistical_analysis/CaseLawBERT/preds_caselawbert_bigru.pkl', 'rb') as file:
    preds_A = pickle.load(file) # prediction modello A ex. [1, 0, 0, 1, 1 .....]

In [14]:
# Load predizioni modello NON GERARCHICO
with open('/content/drive/MyDrive/Thesis/statistical_analysis/CaseLawBERT/preds_caselawbert.pkl', 'rb') as file:
    preds_B = pickle.load(file) # prediction modello B

In [15]:
media_A = np.mean(preds_A)
media_B = np.mean(preds_B)
varianza_A = np.var(preds_A)
varianza_B = np.var(preds_B)

# Eseguo il t-test
t_stat, p_value = stats.ttest_rel(preds_A, preds_B, alternative='greater')
# alternative='greater' indica il test one-sided in cui testiamo se la media di A è maggiore di quella di B

In [16]:
print("CaseLawBERT + BiGRU vs CaseLawBERT")
print('F1core CaseLawBERT + BiGRU: 81.12')
print('F1core CaseLawBERT: 75.51')
print("Media di Gruppo A:", media_A)
print("Media di Gruppo B:", media_B)
print("Varianza di Gruppo A:", varianza_A)
print("Varianza di Gruppo B:", varianza_B)
print("T-Statistic:", t_stat)
print("P-Value:", p_value)

# Imposto il livello di significatività (alpha)
alpha = 0.05

# Confronto il p-value con alpha
if p_value < alpha:
    print("L'ipotesi nulla può essere respinta. La media di Gruppo A (GERARCHICO) è maggiore di quella di Gruppo B (NON GERARCHICO).")
else:
    print("Non ci sono evidenze sufficienti per respingere l'ipotesi nulla.")

CaseLawBERT + BiGRU vs CaseLawBERT
F1core CaseLawBERT + BiGRU: 81.12
F1core CaseLawBERT: 75.51
Media di Gruppo A: 0.49604221635883905
Media di Gruppo B: 0.37994722955145116
Varianza di Gruppo A: 0.24998433594864972
Varianza di Gruppo B: 0.23558733230762796
T-Statistic: 11.27352957232616
P-Value: 1.1529304778845641e-28
L'ipotesi nulla può essere respinta. La media di Gruppo A (GERARCHICO) è maggiore di quella di Gruppo B (NON GERARCHICO).


## RoBERTa + BiGRU vs RoBERTa

In [17]:
import pickle
import numpy as np
from scipy import stats

In [18]:
# Load predizioni modello GERARCHICO
with open('/content/drive/MyDrive/Thesis/statistical_analysis/RoBERTa/preds_roberta_bigru.pkl', 'rb') as file:
    preds_A = pickle.load(file) # prediction modello A ex. [1, 0, 0, 1, 1 .....]

In [19]:
# Load predizioni modello NON GERARCHICO
with open('/content/drive/MyDrive/Thesis/statistical_analysis/RoBERTa/preds_roberta.pkl', 'rb') as file:
    preds_B = pickle.load(file) # prediction modello B

In [20]:
media_A = np.mean(preds_A)
media_B = np.mean(preds_B)
varianza_A = np.var(preds_A)
varianza_B = np.var(preds_B)

# Eseguo il t-test
t_stat, p_value = stats.ttest_rel(preds_A, preds_B, alternative='greater')
# alternative='greater' indica il test one-sided in cui testiamo se la media di A è maggiore di quella di B

In [21]:
print("RoBERTa + BiGRU vs RoBERTa")
print('F1core RoBERTa + BiGRU: 72.55')
print('F1core RoBERTa: 69.62')
print("Media di Gruppo A:", media_A)
print("Media di Gruppo B:", media_B)
print("Varianza di Gruppo A:", varianza_A)
print("Varianza di Gruppo B:", varianza_B)
print("T-Statistic:", t_stat)
print("P-Value:", p_value)

# Imposto il livello di significatività (alpha)
alpha = 0.05

# Confronto il p-value con alpha
if p_value < alpha:
    print("L'ipotesi nulla può essere respinta. La media di Gruppo A (GERARCHICO) è maggiore di quella di Gruppo B (NON GERARCHICO).")
else:
    print("Non ci sono evidenze sufficienti per respingere l'ipotesi nulla.")

RoBERTa + BiGRU vs RoBERTa
F1core RoBERTa + BiGRU: 72.55
F1core RoBERTa: 69.62
Media di Gruppo A: 0.6147757255936676
Media di Gruppo B: 0.38984168865435354
Varianza di Gruppo A: 0.23682653281444718
Varianza di Gruppo B: 0.2378651464414757
T-Statistic: 18.64423355423415
P-Value: 2.6276517200972362e-70
L'ipotesi nulla può essere respinta. La media di Gruppo A (GERARCHICO) è maggiore di quella di Gruppo B (NON GERARCHICO).


#DOMAIN-SPECIFIC vs NON DOMAIN-SPECIFIC

In questo caso cosidero:

*   GRUPPO A: DOMAIN-SPECIFIC TRANSFORMERS
*   GRUPPO B: NON DOMAIN-SPECIFIC



##LSGBERT vs RoBERTa

In [22]:
import pickle
import numpy as np
from scipy import stats

In [23]:
# Load predizioni modello domain-specific
with open('/content/drive/MyDrive/Thesis/statistical_analysis/LSGBERT/preds_lsgbert.pkl', 'rb') as file:
    preds_A = pickle.load(file) # prediction modello A ex. [1, 0, 0, 1, 1 .....]

In [24]:
# Load predizioni modello NON domain specific
with open('/content/drive/MyDrive/Thesis/statistical_analysis/RoBERTa/preds_roberta.pkl', 'rb') as file:
    preds_B = pickle.load(file) # prediction modello A ex. [1, 0, 0, 1, 1 .....]

In [25]:
media_A = np.mean(preds_A)
media_B = np.mean(preds_B)
varianza_A = np.var(preds_A)
varianza_B = np.var(preds_B)

# Eseguo il t-test
t_stat, p_value = stats.ttest_rel(preds_A, preds_B, alternative='greater')
# alternative='greater' indica il test one-sided in cui testiamo se la media di A è maggiore di quella di B

In [26]:
print("LSGBERT vs RoBERTa")
print('F1core LSGBERT: 82.01')
print('F1core RoBERTa: 69.62')
print("Media di Gruppo A:", media_A)
print("Media di Gruppo B:", media_B)
print("Varianza di Gruppo A:", varianza_A)
print("Varianza di Gruppo B:", varianza_B)
print("T-Statistic:", t_stat)
print("P-Value:", p_value)

# Imposto il livello di significatività (alpha)
alpha = 0.05

# Confronto il p-value con alpha
if p_value < alpha:
    print("L'ipotesi nulla può essere respinta. La media di Gruppo A (DOMAIN-SPECIFIC) è maggiore di quella di Gruppo B.")
else:
    print("Non ci sono evidenze sufficienti per respingere l'ipotesi nulla.")

LSGBERT vs RoBERTa
F1core LSGBERT: 82.01
F1core RoBERTa: 69.62
Media di Gruppo A: 0.46965699208443273
Media di Gruppo B: 0.38984168865435354
Varianza di Gruppo A: 0.24907930187063582
Varianza di Gruppo B: 0.2378651464414757
T-Statistic: 6.083526683492163
P-Value: 7.430679764541474e-10
L'ipotesi nulla può essere respinta. La media di Gruppo A (DOMAIN-SPECIFIC) è maggiore di quella di Gruppo B.


##LegalBERT vs RoBERTa

In [27]:
import pickle
import numpy as np
from scipy import stats

In [28]:
# Load predizioni modello domain-specific
with open('/content/drive/MyDrive/Thesis/statistical_analysis/LegalBERT/preds_legalbert.pkl', 'rb') as file:
    preds_A = pickle.load(file) # prediction modello A ex. [1, 0, 0, 1, 1 .....]

In [29]:
# Load predizioni modello NON domain specific
with open('/content/drive/MyDrive/Thesis/statistical_analysis/RoBERTa/preds_roberta.pkl', 'rb') as file:
    preds_B = pickle.load(file) # prediction modello A ex. [1, 0, 0, 1, 1 .....]

In [30]:
media_A = np.mean(preds_A)
media_B = np.mean(preds_B)
varianza_A = np.var(preds_A)
varianza_B = np.var(preds_B)

# Eseguo il t-test
t_stat, p_value = stats.ttest_rel(preds_A, preds_B, alternative='greater')
# alternative='greater' indica il test one-sided in cui testiamo se la media di A è maggiore di quella di B

In [31]:
print("LegalBERT vs RoBERTa")
print('F1core LegalBERT: 75.32')
print('F1core RoBERTa: 69.62')
print("Media di Gruppo A:", media_A)
print("Media di Gruppo B:", media_B)
print("Varianza di Gruppo A:", varianza_A)
print("Varianza di Gruppo B:", varianza_B)
print("T-Statistic:", t_stat)
print("P-Value:", p_value)

# Imposto il livello di significatività (alpha)
alpha = 0.05

# Confronto il p-value con alpha
if p_value < alpha:
    print("L'ipotesi nulla può essere respinta. La media di Gruppo A (DOMAIN-SPECIFIC) è maggiore di quella di Gruppo B.")
else:
    print("Non ci sono evidenze sufficienti per respingere l'ipotesi nulla.")

LegalBERT vs RoBERTa
F1core LegalBERT: 75.32
F1core RoBERTa: 69.62
Media di Gruppo A: 0.41160949868073876
Media di Gruppo B: 0.38984168865435354
Varianza di Gruppo A: 0.24218711927652964
Varianza di Gruppo B: 0.2378651464414757
T-Statistic: 1.7576226362492853
P-Value: 0.039506840249757987
L'ipotesi nulla può essere respinta. La media di Gruppo A (DOMAIN-SPECIFIC) è maggiore di quella di Gruppo B.


##CaseLawBERT vs RoBERTa

In [32]:
import pickle
import numpy as np
from scipy import stats

In [33]:
# Load predizioni modello domain-specific
with open('/content/drive/MyDrive/Thesis/statistical_analysis/CaseLawBERT/preds_caselawbert.pkl', 'rb') as file:
    preds_A = pickle.load(file) # prediction modello A ex. [1, 0, 0, 1, 1 .....]

In [34]:
# Load predizioni modello NON domain specific
with open('/content/drive/MyDrive/Thesis/statistical_analysis/RoBERTa/preds_roberta.pkl', 'rb') as file:
    preds_B = pickle.load(file) # prediction modello A ex. [1, 0, 0, 1, 1 .....]

In [35]:
media_A = np.mean(preds_A)
media_B = np.mean(preds_B)
varianza_A = np.var(preds_A)
varianza_B = np.var(preds_B)

# Eseguo il t-test
t_stat, p_value = stats.ttest_rel(preds_A, preds_B, alternative='greater')
# alternative='greater' indica il test one-sided in cui testiamo se la media di A è maggiore di quella di B

In [36]:
print("CaseLawBERT vs RoBERTa")
print('F1core CaseLawBERT: 75.51')
print('F1core RoBERTa: 69.62')
print("Media di Gruppo A:", media_A)
print("Media di Gruppo B:", media_B)
print("Varianza di Gruppo A:", varianza_A)
print("Varianza di Gruppo B:", varianza_B)
print("T-Statistic:", t_stat)
print("P-Value:", p_value)

# Imposto il livello di significatività (alpha)
alpha = 0.05

# Confronto il p-value con alpha
if p_value < alpha:
    print("L'ipotesi nulla può essere respinta. La media di Gruppo A (DOMAIN-SPECIFIC) è maggiore di quella di Gruppo B.")
else:
    print("Non ci sono evidenze sufficienti per respingere l'ipotesi nulla.")

CaseLawBERT vs RoBERTa
F1core CaseLawBERT: 75.51
F1core RoBERTa: 69.62
Media di Gruppo A: 0.37994722955145116
Media di Gruppo B: 0.38984168865435354
Varianza di Gruppo A: 0.23558733230762796
Varianza di Gruppo B: 0.2378651464414757
T-Statistic: -0.8294165146343344
P-Value: 0.7965002889749478
Non ci sono evidenze sufficienti per respingere l'ipotesi nulla.


##LSGBERT vs BERT

In [37]:
import pickle
import numpy as np
from scipy import stats

In [38]:
# Load predizioni modello domain-specific
with open('/content/drive/MyDrive/Thesis/statistical_analysis/LSGBERT/preds_lsgbert.pkl', 'rb') as file:
    preds_A = pickle.load(file) # prediction modello A ex. [1, 0, 0, 1, 1 .....]

In [39]:
# Load predizioni modello NON domain specific
with open('/content/drive/MyDrive/Thesis/statistical_analysis/BERT/preds_bert.pkl', 'rb') as file:
    preds_B = pickle.load(file) # prediction modello A ex. [1, 0, 0, 1, 1 .....]

In [40]:
media_A = np.mean(preds_A)
media_B = np.mean(preds_B)
varianza_A = np.var(preds_A)
varianza_B = np.var(preds_B)

# Eseguo il t-test
t_stat, p_value = stats.ttest_rel(preds_A, preds_B, alternative='greater')
# alternative='greater' indica il test one-sided in cui testiamo se la media di A è maggiore di quella di B

In [41]:
print("LSGBERT vs RoBERTa")
print('F1core LSGBERT: 82.01')
print('F1core BERT: 68.31')
print("Media di Gruppo A:", media_A)
print("Media di Gruppo B:", media_B)
print("Varianza di Gruppo A:", varianza_A)
print("Varianza di Gruppo B:", varianza_B)
print("T-Statistic:", t_stat)
print("P-Value:", p_value)

# Imposto il livello di significatività (alpha)
alpha = 0.05

# Confronto il p-value con alpha
if p_value < alpha:
    print("L'ipotesi nulla può essere respinta. La media di Gruppo A (DOMAIN-SPECIFIC) è maggiore di quella di Gruppo B.")
else:
    print("Non ci sono evidenze sufficienti per respingere l'ipotesi nulla.")

LSGBERT vs RoBERTa
F1core LSGBERT: 82.01
F1core BERT: 68.31
Media di Gruppo A: 0.46965699208443273
Media di Gruppo B: 0.33773087071240104
Varianza di Gruppo A: 0.24907930187063582
Varianza di Gruppo B: 0.2236687296802445
T-Statistic: 9.737081389213824
P-Value: 4.485083658548397e-22
L'ipotesi nulla può essere respinta. La media di Gruppo A (DOMAIN-SPECIFIC) è maggiore di quella di Gruppo B.


##LegalBERT vs BERT

In [42]:
import pickle
import numpy as np
from scipy import stats

In [43]:
# Load predizioni modello domain-specific
with open('/content/drive/MyDrive/Thesis/statistical_analysis/LegalBERT/preds_legalbert.pkl', 'rb') as file:
    preds_A = pickle.load(file) # prediction modello A ex. [1, 0, 0, 1, 1 .....]

In [44]:
# Load predizioni modello NON domain specific
with open('/content/drive/MyDrive/Thesis/statistical_analysis/BERT/preds_bert.pkl', 'rb') as file:
    preds_B = pickle.load(file) # prediction modello A ex. [1, 0, 0, 1, 1 .....]

In [45]:
media_A = np.mean(preds_A)
media_B = np.mean(preds_B)
varianza_A = np.var(preds_A)
varianza_B = np.var(preds_B)

# Eseguo il t-test
t_stat, p_value = stats.ttest_rel(preds_A, preds_B, alternative='greater')
# alternative='greater' indica il test one-sided in cui testiamo se la media di A è maggiore di quella di B

In [46]:
print("LegalBERT vs RoBERTa")
print('F1core LegalBERT: 75.32')
print('F1core BERT: 68.31')
print("Media di Gruppo A:", media_A)
print("Media di Gruppo B:", media_B)
print("Varianza di Gruppo A:", varianza_A)
print("Varianza di Gruppo B:", varianza_B)
print("T-Statistic:", t_stat)
print("P-Value:", p_value)

# Imposto il livello di significatività (alpha)
alpha = 0.05

# Confronto il p-value con alpha
if p_value < alpha:
    print("L'ipotesi nulla può essere respinta. La media di Gruppo A (DOMAIN-SPECIFIC) è maggiore di quella di Gruppo B.")
else:
    print("Non ci sono evidenze sufficienti per respingere l'ipotesi nulla.")

LegalBERT vs RoBERTa
F1core LegalBERT: 75.32
F1core BERT: 68.31
Media di Gruppo A: 0.41160949868073876
Media di Gruppo B: 0.33773087071240104
Varianza di Gruppo A: 0.24218711927652964
Varianza di Gruppo B: 0.2236687296802445
T-Statistic: 5.987024431671023
P-Value: 1.3319091388249977e-09
L'ipotesi nulla può essere respinta. La media di Gruppo A (DOMAIN-SPECIFIC) è maggiore di quella di Gruppo B.


##CaseLawBERT vs RoBERTa

In [47]:
import pickle
import numpy as np
from scipy import stats

In [48]:
# Load predizioni modello domain-specific
with open('/content/drive/MyDrive/Thesis/statistical_analysis/CaseLawBERT/preds_caselawbert.pkl', 'rb') as file:
    preds_A = pickle.load(file) # prediction modello A ex. [1, 0, 0, 1, 1 .....]

In [49]:
# Load predizioni modello NON domain specific
with open('/content/drive/MyDrive/Thesis/statistical_analysis/BERT/preds_bert.pkl', 'rb') as file:
    preds_B = pickle.load(file) # prediction modello A ex. [1, 0, 0, 1, 1 .....]

In [50]:
media_A = np.mean(preds_A)
media_B = np.mean(preds_B)
varianza_A = np.var(preds_A)
varianza_B = np.var(preds_B)

# Eseguo il t-test
t_stat, p_value = stats.ttest_rel(preds_A, preds_B, alternative='greater')
# alternative='greater' indica il test one-sided in cui testiamo se la media di A è maggiore di quella di B

In [51]:
print("CaseLawBERT vs RoBERTa")
print('F1core CaseLawBERT: 75.51')
print('F1core BERT: 68.31')
print("Media di Gruppo A:", media_A)
print("Media di Gruppo B:", media_B)
print("Varianza di Gruppo A:", varianza_A)
print("Varianza di Gruppo B:", varianza_B)
print("T-Statistic:", t_stat)
print("P-Value:", p_value)

# Imposto il livello di significatività (alpha)
alpha = 0.05

# Confronto il p-value con alpha
if p_value < alpha:
    print("L'ipotesi nulla può essere respinta. La media di Gruppo A (DOMAIN-SPECIFIC) è maggiore di quella di Gruppo B.")
else:
    print("Non ci sono evidenze sufficienti per respingere l'ipotesi nulla.")

CaseLawBERT vs RoBERTa
F1core CaseLawBERT: 75.51
F1core BERT: 68.31
Media di Gruppo A: 0.37994722955145116
Media di Gruppo B: 0.33773087071240104
Varianza di Gruppo A: 0.23558733230762796
Varianza di Gruppo B: 0.2236687296802445
T-Statistic: 3.4631373856191376
P-Value: 0.000274389334484123
L'ipotesi nulla può essere respinta. La media di Gruppo A (DOMAIN-SPECIFIC) è maggiore di quella di Gruppo B.


#LSGBERT + BiGRU vs ALL

In questo caso cosidero:

*   GRUPPO A: LSGBERT + BiGRU
*   GRUPPO B: ALL



##LSGBERT + BiGRU vs RoBERTa + BiGRU

In [1]:
import pickle
import numpy as np
from scipy import stats

In [53]:
# Load predizioni modello domain-specific
with open('/content/drive/MyDrive/Thesis/statistical_analysis/LSGBERT/preds_lsgbert_bigru.pkl', 'rb') as file:
    preds_A = pickle.load(file) # prediction modello A ex. [1, 0, 0, 1, 1 .....]

In [2]:
# Load predizioni modello NON domain specific
with open('/content/drive/MyDrive/Thesis/statistical_analysis/RoBERTa/preds_roberta_bigru.pkl', 'rb') as file:
    preds_B = pickle.load(file) # prediction modello A ex. [1, 0, 0, 1, 1 .....]

FileNotFoundError: ignored

In [55]:
media_A = np.mean(preds_A)
media_B = np.mean(preds_B)
varianza_A = np.var(preds_A)
varianza_B = np.var(preds_B)

# Eseguo il t-test
t_stat, p_value = stats.ttest_rel(preds_A, preds_B, alternative='greater')
# alternative='greater' indica il test one-sided in cui testiamo se la media di A è maggiore di quella di B

In [56]:
print("LSGBERT + BiGRU vs RoBERTa + BiGRU")
print('F1core LSGBERT + BiGRU: 82.13')
print('F1core RoBERTa + BiGRU: 72.55')
print("Media di Gruppo A:", media_A)
print("Media di Gruppo B:", media_B)
print("Varianza di Gruppo A:", varianza_A)
print("Varianza di Gruppo B:", varianza_B)
print("T-Statistic:", t_stat)
print("P-Value:", p_value)

# Imposto il livello di significatività (alpha)
alpha = 0.05

# Confronto il p-value con alpha
if p_value < alpha:
    print("L'ipotesi nulla può essere respinta. La media di Gruppo A è maggiore di quella di Gruppo B.")
else:
    print("Non ci sono evidenze sufficienti per respingere l'ipotesi nulla.")

LSGBERT + BiGRU vs RoBERTa + BiGRU
F1core LSGBERT + BiGRU: 82.13
F1core RoBERTa + BiGRU: 72.55
Media di Gruppo A: 0.48350923482849606
Media di Gruppo B: 0.6147757255936676
Varianza di Gruppo A: 0.24972805466405834
Varianza di Gruppo B: 0.23682653281444718
T-Statistic: -10.166690524899787
P-Value: 1.0
Non ci sono evidenze sufficienti per respingere l'ipotesi nulla.


##LSGBERT + BiGRU vs CaseLawBERT + BiGRU

In [57]:
import pickle
import numpy as np
from scipy import stats

In [58]:
# Load predizioni modello domain-specific
with open('/content/drive/MyDrive/Thesis/statistical_analysis/LSGBERT/preds_lsgbert_bigru.pkl', 'rb') as file:
    preds_A = pickle.load(file) # prediction modello A ex. [1, 0, 0, 1, 1 .....]

In [59]:
# Load predizioni modello NON domain specific
with open('/content/drive/MyDrive/Thesis/statistical_analysis/CaseLawBERT/preds_caselawbert_bigru.pkl', 'rb') as file:
    preds_B = pickle.load(file) # prediction modello A ex. [1, 0, 0, 1, 1 .....]

In [60]:
media_A = np.mean(preds_A)
media_B = np.mean(preds_B)
varianza_A = np.var(preds_A)
varianza_B = np.var(preds_B)

# Eseguo il t-test
t_stat, p_value = stats.ttest_rel(preds_A, preds_B, alternative='greater')
# alternative='greater' indica il test one-sided in cui testiamo se la media di A è maggiore di quella di B

In [61]:
print("LSGBERT + BiGRU vs CaseLawBERT + BiGRU")
print('F1core LSGBERT+ BiGRU: 82.13')
print('F1core CaseLawBERT + BiGRU: 81.12')
print("Media di Gruppo A:", media_A)
print("Media di Gruppo B:", media_B)
print("Varianza di Gruppo A:", varianza_A)
print("Varianza di Gruppo B:", varianza_B)
print("T-Statistic:", t_stat)
print("P-Value:", p_value)

# Imposto il livello di significatività (alpha)
alpha = 0.05

# Confronto il p-value con alpha
if p_value < alpha:
    print("L'ipotesi nulla può essere respinta. La media di Gruppo A è maggiore di quella di Gruppo B.")
else:
    print("Non ci sono evidenze sufficienti per respingere l'ipotesi nulla.")

LSGBERT + BiGRU vs CaseLawBERT + BiGRU
F1core LSGBERT+ BiGRU: 82.13
F1core CaseLawBERT + BiGRU: 81.12
Media di Gruppo A: 0.48350923482849606
Media di Gruppo B: 0.49604221635883905
Varianza di Gruppo A: 0.24972805466405834
Varianza di Gruppo B: 0.24998433594864972
T-Statistic: -1.2669194253482252
P-Value: 0.897310586342117
Non ci sono evidenze sufficienti per respingere l'ipotesi nulla.


##LSGBERT + BiGRU vs LegalBERT + BiGRU

In [62]:
import pickle
import numpy as np
from scipy import stats

In [63]:
# Load predizioni modello domain-specific
with open('/content/drive/MyDrive/Thesis/statistical_analysis/LSGBERT/preds_lsgbert_bigru.pkl', 'rb') as file:
    preds_A = pickle.load(file) # prediction modello A ex. [1, 0, 0, 1, 1 .....]

In [64]:
# Load predizioni modello NON domain specific
with open('/content/drive/MyDrive/Thesis/statistical_analysis/LegalBERT/preds_legalbert_bigru.pkl', 'rb') as file:
    preds_B = pickle.load(file) # prediction modello A ex. [1, 0, 0, 1, 1 .....]

In [65]:
media_A = np.mean(preds_A)
media_B = np.mean(preds_B)
varianza_A = np.var(preds_A)
varianza_B = np.var(preds_B)

# Eseguo il t-test
t_stat, p_value = stats.ttest_rel(preds_A, preds_B, alternative='greater')
# alternative='greater' indica il test one-sided in cui testiamo se la media di A è maggiore di quella di B

In [66]:
print("LSGBERT + BiGRU vs LegalBERT + BiGRU")
print('F1core LSGBERT + BiGRU: 82.13')
print('F1core LegalBERT + BiGRU: 78.90')
print("Media di Gruppo A:", media_A)
print("Media di Gruppo B:", media_B)
print("Varianza di Gruppo A:", varianza_A)
print("Varianza di Gruppo B:", varianza_B)
print("T-Statistic:", t_stat)
print("P-Value:", p_value)

# Imposto il livello di significatività (alpha)
alpha = 0.05

# Confronto il p-value con alpha
if p_value < alpha:
    print("L'ipotesi nulla può essere respinta. La media di Gruppo A è maggiore di quella di Gruppo B.")
else:
    print("Non ci sono evidenze sufficienti per respingere l'ipotesi nulla.")

LSGBERT + BiGRU vs LegalBERT + BiGRU
F1core LSGBERT + BiGRU: 82.13
F1core LegalBERT + BiGRU: 78.90
Media di Gruppo A: 0.48350923482849606
Media di Gruppo B: 0.5019788918205804
Varianza di Gruppo A: 0.24972805466405834
Varianza di Gruppo B: 0.24999608398716244
T-Statistic: -1.779271380145979
P-Value: 0.9623021406041894
Non ci sono evidenze sufficienti per respingere l'ipotesi nulla.


##LSGBERT + BiGRU vs RoBERTa

In [67]:
import pickle
import numpy as np
from scipy import stats

In [68]:
# Load predizioni modello domain-specific
with open('/content/drive/MyDrive/Thesis/statistical_analysis/LSGBERT/preds_lsgbert_bigru.pkl', 'rb') as file:
    preds_A = pickle.load(file) # prediction modello A ex. [1, 0, 0, 1, 1 .....]

In [69]:
# Load predizioni modello NON domain specific
with open('/content/drive/MyDrive/Thesis/statistical_analysis/RoBERTa/preds_roberta.pkl', 'rb') as file:
    preds_B = pickle.load(file) # prediction modello A ex. [1, 0, 0, 1, 1 .....]

In [70]:
media_A = np.mean(preds_A)
media_B = np.mean(preds_B)
varianza_A = np.var(preds_A)
varianza_B = np.var(preds_B)

# Eseguo il t-test
t_stat, p_value = stats.ttest_rel(preds_A, preds_B, alternative='greater')
# alternative='greater' indica il test one-sided in cui testiamo se la media di A è maggiore di quella di B

In [71]:
print("LSGBERT + BiGRU vs RoBERTa")
print('F1core LSGBERT + BiGRU: 82.13')
print('F1core RoBERTa + BiGRU: 69.62')
print("Media di Gruppo A:", media_A)
print("Media di Gruppo B:", media_B)
print("Varianza di Gruppo A:", varianza_A)
print("Varianza di Gruppo B:", varianza_B)
print("T-Statistic:", t_stat)
print("P-Value:", p_value)

# Imposto il livello di significatività o.alpha)
alpha = 0.05

# Confronto il p-value con alpha
if p_value < alpha:
    print("L'ipotesi nulla può essere respinta. La media di Gruppo A è maggiore di quella di Gruppo B.")
else:
    print("Non ci sono evidenze sufficienti per respingere l'ipotesi nulla.")

LSGBERT + BiGRU vs RoBERTa
F1core LSGBERT + BiGRU: 82.13
F1core RoBERTa + BiGRU: 69.62
Media di Gruppo A: 0.48350923482849606
Media di Gruppo B: 0.38984168865435354
Varianza di Gruppo A: 0.24972805466405834
Varianza di Gruppo B: 0.2378651464414757
T-Statistic: 7.127125285705539
P-Value: 7.899853565748172e-13
L'ipotesi nulla può essere respinta. La media di Gruppo A è maggiore di quella di Gruppo B.


##LSGBERT + BiGRU vs LegalBERT

In [72]:
import pickle
import numpy as np
from scipy import stats

In [73]:
# Load predizioni modello domain-specific
with open('/content/drive/MyDrive/Thesis/statistical_analysis/LSGBERT/preds_lsgbert_bigru.pkl', 'rb') as file:
    preds_A = pickle.load(file) # prediction modello A ex. [1, 0, 0, 1, 1 .....]

In [74]:
# Load predizioni modello NON domain specific
with open('/content/drive/MyDrive/Thesis/statistical_analysis/LegalBERT/preds_legalbert.pkl', 'rb') as file:
    preds_B = pickle.load(file) # prediction modello A ex. [1, 0, 0, 1, 1 .....]

In [75]:
media_A = np.mean(preds_A)
media_B = np.mean(preds_B)
varianza_A = np.var(preds_A)
varianza_B = np.var(preds_B)

# Eseguo il t-test
t_stat, p_value = stats.ttest_rel(preds_A, preds_B, alternative='greater')
# alternative='greater' indica il test one-sided in cui testiamo se la media di A è maggiore di quella di B

In [76]:
print("LSGBERT + BiGRU vs LegalBERT")
print('F1core LSGBERT + BiGRU: 82.13')
print('F1core LegalBERT: 75.32')
print("Media di Gruppo A:", media_A)
print("Media di Gruppo B:", media_B)
print("Varianza di Gruppo A:", varianza_A)
print("Varianza di Gruppo B:", varianza_B)
print("T-Statistic:", t_stat)
print("P-Value:", p_value)

# Imposto il livello di significatività (alpha)
alpha = 0.05

# Confronto il p-value con alpha
if p_value < alpha:
    print("L'ipotesi nulla può essere respinta. La media di Gruppo A è maggiore di quella di Gruppo B.")
else:
    print("Non ci sono evidenze sufficienti per respingere l'ipotesi nulla.")

LSGBERT + BiGRU vs LegalBERT
F1core LSGBERT + BiGRU: 82.13
F1core LegalBERT: 75.32
Media di Gruppo A: 0.48350923482849606
Media di Gruppo B: 0.41160949868073876
Varianza di Gruppo A: 0.24972805466405834
Varianza di Gruppo B: 0.24218711927652964
T-Statistic: 6.157409546677504
P-Value: 4.726205181925424e-10
L'ipotesi nulla può essere respinta. La media di Gruppo A è maggiore di quella di Gruppo B.


##LSGBERT + BiGRU vs CaseLawBERT

In [77]:
import pickle
import numpy as np
from scipy import stats

In [78]:
# Load predizioni modello domain-specific
with open('/content/drive/MyDrive/Thesis/statistical_analysis/LSGBERT/preds_lsgbert_bigru.pkl', 'rb') as file:
    preds_A = pickle.load(file) # prediction modello A ex. [1, 0, 0, 1, 1 .....]

In [79]:
# Load predizioni modello NON domain specific
with open('/content/drive/MyDrive/Thesis/statistical_analysis/CaseLawBERT/preds_caselawbert.pkl', 'rb') as file:
    preds_B = pickle.load(file) # prediction modello A ex. [1, 0, 0, 1, 1 .....]

In [80]:
media_A = np.mean(preds_A)
media_B = np.mean(preds_B)
varianza_A = np.var(preds_A)
varianza_B = np.var(preds_B)

# Eseguo il t-test
t_stat, p_value = stats.ttest_rel(preds_A, preds_B, alternative='greater')
# alternative='greater' indica il test one-sided in cui testiamo se la media di A è maggiore di quella di B

In [81]:
print("LSGBERT + BiGRU vs CaseLawBERT")
print('F1core LSGBERT + BiGRU: 82.13')
print('F1core CaseLawBERT: 75.51')
print("Media di Gruppo A:", media_A)
print("Media di Gruppo B:", media_B)
print("Varianza di Gruppo A:", varianza_A)
print("Varianza di Gruppo B:", varianza_B)
print("T-Statistic:", t_stat)
print("P-Value:", p_value)

# Imposto il livello di significatività (alpha)
alpha = 0.05

# Confronto il p-value con alpha
if p_value < alpha:
    print("L'ipotesi nulla può essere respinta. La media di Gruppo A (DOMAIN-SPECIFIC) è maggiore di quella di Gruppo B.")
else:
    print("Non ci sono evidenze sufficienti per respingere l'ipotesi nulla.")

LSGBERT + BiGRU vs CaseLawBERT
F1core LSGBERT + BiGRU: 82.13
F1core CaseLawBERT: 75.51
Media di Gruppo A: 0.48350923482849606
Media di Gruppo B: 0.37994722955145116
Varianza di Gruppo A: 0.24972805466405834
Varianza di Gruppo B: 0.23558733230762796
T-Statistic: 8.903428036155395
P-Value: 7.564565378690303e-19
L'ipotesi nulla può essere respinta. La media di Gruppo A (DOMAIN-SPECIFIC) è maggiore di quella di Gruppo B.
