In [1]:
import pandas as pd
import sys
import os
sys.path.append(os.path.dirname(sys.path[0]) + '/src')
from ast import literal_eval
from datasets.ie_hyperion_dataset import find_word_bounds, clean_text

df = pd.read_csv('../data/processed/pipeline/test/ie_hyperion.csv', converters={'Stralci': literal_eval, 'Repertori': literal_eval})
df = df.head(50)
df['Testo'] = df['Testo'].map(clean_text)
df['Stralci'] = df['Stralci'].map(lambda x: [clean_text(s) for s in x])
df['Bounds'] = df.apply(lambda x: find_word_bounds(x['Stralci'], x['Testo']), axis=1).values.tolist()

In [2]:
df

Unnamed: 0,Testo,Stralci,Repertori,Bounds
0,"Comunque, se tutti i giornalisti che oggi si s...","[Comunque,, se tutti i giornalisti che oggi si...","[commento, valutazione, possibilità]","[(0, 0), (1, 36), (37, 41)]"
1,"""Ha suscitato scandalo la proposta di Salvini ...",[Ha suscitato scandalo la proposta di Salvini ...,"[sancire, valutazione, conferma, conferma, imp...","[(0, 12), (13, 33), (34, 51), (52, 63), (64, 7..."
2,Via via che si aggrava la crisi prodotta dalla...,[Via via che si aggrava la crisi prodotta dall...,"[causa, sancire, causa, sancire, giudizio, com...","[(0, 21), (22, 35), (36, 55), (56, 78), (79, 8..."
3,"""In Veneto, livelli più elevati di tamponi e m...","[""In Veneto, livelli più elevati di tamponi e ...","[valutazione, sancire]","[(0, 32), (33, 53)]"
4,"Presidente, il corretto di stile di vita è tor...","[Presidente, il corretto di stile di vita è to...","[opinione, sancire]","[(0, 15), (16, 30)]"
5,Senior Italia Federanziani ha attivato un sost...,[Senior Italia Federanziani ha attivato un sos...,"[descrizione, specificazione]","[(0, 30), (32, 46)]"
6,Io resto a casa,[Io resto a casa],[sancire],"[(0, 3)]"
7,i cantieri non sono aperti e non so dov'è lei ...,[i cantieri non sono aperti e non so dov'è lei...,"[non risposta, prescrizione, prescrizione]","[(0, 12), (13, 35), (36, 37)]"
8,Fateci lavorare,[Fateci lavorare ],[prescrizione],"[(0, 1)]"
9,“La fase due è stata decisa dal Governo. Io mi...,"[La fase due è stata decisa dal Governo., Io m...","[sancire, sancire]","[(0, 7), (8, 15)]"


## Compute predictions with NLTK segmenter

In [2]:
from models.nltk_segmenter import NLTKSegmenter


nltk_seg = NLTKSegmenter()
df['Stralci_predetti'] = df['Testo'].map(nltk_seg.predict).values.tolist()
df['Bounds_predetti'] = df.apply(lambda x: find_word_bounds(x['Stralci_predetti'], x['Testo']), axis=1).values.tolist()

[nltk_data] Downloading package punkt to /Users/michele/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


In [3]:
from models.bert_segmenter import BertSegmenter

bert_seg = BertSegmenter()
df['Stralci_predetti'] = df['Testo'].map(bert_seg.predict).values.tolist()
df['Bounds_predetti'] = df.apply(lambda x: find_word_bounds(x['Stralci_predetti'], x['Testo']), axis=1).values.tolist()

In [10]:
df.head(20)

Unnamed: 0,Testo,Stralci,Repertori,Bounds,Stralci_predetti,Bounds_predetti
0,"Comunque , se tutti i giornalisti che oggi si ...","[Comunque , , se tutti i giornalisti che oggi ...","[commento, valutazione, possibilità]","[(0, 0), (1, 36), (37, 41)]","[Comunque , se tutti i giornalisti che oggi si...","[(0, 41)]"
1,"""Ha suscitato scandalo la proposta di Salvini ...",[Ha suscitato scandalo la proposta di Salvini ...,"[sancire, valutazione, conferma, conferma, imp...","[(0, 12), (13, 33), (34, 51), (52, 63), (64, 7...","[""Ha suscitato scandalo la proposta di Salvini...","[(0, 13), (14, 34), (35, 52), (53, 64), (65, 7..."
2,Via via che si aggrava la crisi prodotta dalla...,[Via via che si aggrava la crisi prodotta dall...,"[causa, sancire, causa, sancire, giudizio, com...","[(0, 21), (22, 35), (36, 55), (56, 78), (79, 8...",[Via via che si aggrava la crisi prodotta dall...,"[(0, 22), (23, 56), (57, 79), (80, 130), (131,..."
3,"""In Veneto , livelli più elevati di tamponi e ...","[""In Veneto , livelli più elevati di tamponi e...","[valutazione, sancire]","[(0, 32), (33, 53)]","[""In Veneto , livelli più elevati di tamponi e...","[(0, 33), (34, 53)]"
4,"Presidente , il corretto di stile di vita è to...","[Presidente , il corretto di stile di vita è t...","[opinione, sancire]","[(0, 15), (16, 30)]","[Presidente , il corretto di stile di vita è t...","[(0, 16), (17, 30)]"
5,Senior Italia Federanziani ha attivato un sost...,[Senior Italia Federanziani ha attivato un sos...,"[descrizione, specificazione]","[(0, 30), (32, 46)]",[Senior Italia Federanziani ha attivato un sos...,"[(0, 46)]"
6,Io resto a casa,[Io resto a casa],[sancire],"[(0, 3)]",[Io resto a casa],"[(0, 3)]"
7,i cantieri non sono aperti e non so dov'è lei ...,[i cantieri non sono aperti e non so dov'è lei...,"[non risposta, prescrizione, prescrizione]","[(0, 12), (13, 35), (36, 37)]",[i cantieri non sono aperti e non so dov'è lei...,"[(0, 12), (13, 36), (37, 37)]"
8,Fateci lavorare,[Fateci lavorare ],[prescrizione],"[(0, 1)]",[Fateci lavorare],"[(0, 1)]"
9,“La fase due è stata decisa dal Governo . Io m...,"[La fase due è stata decisa dal Governo . , Io...","[sancire, sancire]","[(0, 7), (8, 15)]",[“La fase due è stata decisa dal Governo . Io ...,"[(0, 15)]"


In [5]:
print(df.iloc[4]['Stralci'])
df.iloc[4]['Stralci_predetti']

['Presidente, il corretto di stile di vita è tornare a lavorare, in sicurezza, al più presto! ', 'I Veneti no i xe boni da star coe man in man tuto ‘sto tempo!']


['Presidente, il corretto di stile di vita è tornare a lavorare, in sicurezza, al più presto! I',
 ' Veneti no i xe boni da star coe man in man tuto ‘sto tempo!']

## Repertories classificaiton

In [4]:
from models.bert_rep import BertRep

bert_rep = BertRep()
df['Repertori_predetti'] = df['Stralci_predetti'].map(bert_rep.predict).values.tolist()

## Metrics

In [5]:
def intersection(A, B):
    start = max(A[0], B[0])
    end = min(A[1], B[1])
    if(start > end):
        return 0
    return end - start + 1


def C(pred_bound:tuple, gt_bound:tuple, pred_rep:str, gt_rep:str, norm_factor:int) -> float:
    if pred_rep != gt_rep:
        return 0
    x = intersection(pred_bound, gt_bound)
    return x / norm_factor

def precision(pred_bounds:list, gt_bounds:list, pred_reps:list, gt_reps:list) -> float:
    curr_sum = 0
    for i in range(len(pred_bounds)):
        for j in range(len(gt_bounds)):
            curr_sum += C(pred_bounds[i], gt_bounds[j], pred_reps[i], gt_reps[j], pred_bounds[i][1] - pred_bounds[i][0] + 1)
    return curr_sum / len(pred_bounds)

def recall(pred_bounds:list, gt_bounds:list, pred_reps:list, gt_reps:list) -> float:
    curr_sum = 0
    for i in range(len(pred_bounds)):
        for j in range(len(gt_bounds)):
            curr_sum += C(pred_bounds[i], gt_bounds[j], pred_reps[i], gt_reps[j], gt_bounds[j][1] - gt_bounds[j][0] + 1)
    return curr_sum / len(gt_bounds)

def f1(prec:float, rec:float) -> float:
    if prec and rec:
        return 2 * ((prec * rec)/(prec + rec))
    return 0

def IoU(pred_bounds:list, gt_bounds:list, pred_reps:list, gt_reps:list) -> float:
    curr_sum = 0
    for i in range(len(pred_bounds)):
        for j in range(len(gt_bounds)):
            curr_sum += C(pred_bounds[i], gt_bounds[j], pred_reps[i], gt_reps[j], max(pred_bounds[i][1], gt_bounds[j][1]) - min(pred_bounds[i][0], gt_bounds[j][0]) + 1)
    return curr_sum / len(pred_bounds)



In [6]:
df['Precision'] =  df.apply(lambda x: precision(x['Bounds_predetti'], x['Bounds'], x['Repertori_predetti'], x['Repertori']), axis=1)
df['Recall'] =  df.apply(lambda x: recall(x['Bounds_predetti'], x['Bounds'], x['Repertori_predetti'], x['Repertori']), axis=1)
df['F1'] =  df.apply(lambda x: f1(x['Precision'], x['Recall']), axis=1)
df['IoU'] =  df.apply(lambda x: IoU(x['Bounds_predetti'], x['Bounds'], x['Repertori_predetti'], x['Repertori']), axis=1)


In [10]:
df

Unnamed: 0,Testo,Stralci,Repertori,Bounds,Stralci_predetti,Bounds_predetti,Repertori_predetti,Precision,Recall,F1,IoU,Norm_bounds,Norm_rep,Norm_precision,Norm_recall,Norm_f1,Norm_IoU
0,"Comunque, se tutti i giornalisti che oggi si s...","[Comunque,, se tutti i giornalisti che oggi si...","[commento, valutazione, possibilità]","[(0, 0), (1, 36), (37, 41)]","[Comunque, se tutti i giornalisti che oggi si ...","[(0, 41)]",[commento],0.023810,0.333333,0.044444,0.023810,"[(0, 41)]",[commento],0.023810,0.333333,0.044444,0.023810
1,"""Ha suscitato scandalo la proposta di Salvini ...",[Ha suscitato scandalo la proposta di Salvini ...,"[sancire, valutazione, conferma, conferma, imp...","[(0, 12), (13, 33), (34, 51), (52, 63), (64, 7...","[""Ha suscitato scandalo la proposta di Salvini...","[(0, 12), (13, 33), (34, 51), (52, 63), (64, 7...","[giudizio, opinione, giudizio, valutazione, co...",0.296296,0.230769,0.259459,0.296296,"[(0, 12), (13, 33), (34, 51), (52, 63), (64, 7...","[giudizio, opinione, giudizio, valutazione, co...",0.296296,0.230769,0.259459,0.296296
2,Via via che si aggrava la crisi prodotta dalla...,[Via via che si aggrava la crisi prodotta dall...,"[causa, sancire, causa, sancire, giudizio, com...","[(0, 21), (22, 35), (36, 55), (56, 78), (79, 8...",[Via via che si aggrava la crisi prodotta dall...,"[(0, 21), (22, 55), (56, 78), (79, 129), (130,...","[causa, valutazione, contrapposizione, giudizi...",0.179739,0.153846,0.165787,0.179739,"[(0, 21), (22, 55), (56, 78), (79, 129), (130,...","[causa, valutazione, contrapposizione, giudizi...",0.215686,0.153846,0.179592,0.215686
3,"""In Veneto, livelli più elevati di tamponi e m...","[""In Veneto, livelli più elevati di tamponi e ...","[valutazione, sancire]","[(0, 32), (33, 53)]","[""In Veneto, livelli più elevati di tamponi e ...","[(0, 32), (33, 53)]","[valutazione, sancire]",1.000000,1.000000,1.000000,1.000000,"[(0, 32), (33, 53)]","[valutazione, sancire]",1.000000,1.000000,1.000000,1.000000
4,"Presidente, il corretto di stile di vita è tor...","[Presidente, il corretto di stile di vita è to...","[opinione, sancire]","[(0, 15), (16, 30)]","[Presidente, il corretto di stile di vita è to...","[(0, 15), (16, 30)]","[prescrizione, commento]",0.000000,0.000000,0.000000,0.000000,"[(0, 15), (16, 30)]","[prescrizione, commento]",0.000000,0.000000,0.000000,0.000000
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
3061,ma se non vi piace quello che dice Zaia perché...,[ma se non vi piace quello che dice Zaia perch...,[commento],"[(0, 23)]",[ma se non vi piace quello che dice Zaia perch...,"[(0, 23)]",[commento],1.000000,1.000000,1.000000,1.000000,"[(0, 23)]",[commento],1.000000,1.000000,1.000000,1.000000
3062,ZAIA SERVONO VACCINI ASL 7 BASSANO DEL GRAPPA!...,[ZAIA SERVONO VACCINI ASL 7 BASSANO DEL GRAPPA...,"[sancire, prescrizione]","[(0, 7), (8, 19)]",[ZAIA SERVONO VACCINI ASL 7 BASSANO DEL GRAPPA...,"[(0, 7), (8, 19)]","[prescrizione, prescrizione, ridimensionamento]",0.500000,0.500000,0.500000,0.500000,"[(0, 19)]",[prescrizione],0.600000,0.500000,0.545455,0.600000
3063,Almeno hanno ammesso chiaramente quanto la ret...,[Almeno hanno ammesso chiaramente quanto la re...,[commento],"[(0, 37)]",[Almeno hanno ammesso chiaramente quanto la re...,"[(0, 14), (15, 29), (30, 37)]","[contrapposizione, giudizio, ridimensionamento]",0.000000,0.000000,0.000000,0.000000,"[(0, 14), (15, 29), (30, 37)]","[contrapposizione, giudizio, ridimensionamento]",0.000000,0.000000,0.000000,0.000000
3064,Questo dovrebbe essere un mrstriere che uno sc...,[Questo dovrebbe essere un mrstriere che uno s...,"[prescrizione, sancire]","[(0, 21), (22, 35)]",[Questo dovrebbe essere un mrstriere che uno s...,"[(0, 21), (22, 35)]","[prescrizione, giudizio]",0.500000,0.500000,0.500000,0.500000,"[(0, 21), (22, 35)]","[prescrizione, giudizio]",0.500000,0.500000,0.500000,0.500000


In [7]:

print(df['Precision'].mean())
print(df['Recall'].mean())
print(df['F1'].mean())
print(df['IoU'].mean())


0.3047094800457689
0.30353414371873155
0.29561532528038836
0.2178770273271005


In [8]:
def normalize(bounds:list, reps:list):
    norm_bounds = []
    norm_reps = []
    
    for i in range(len(bounds)):
        if norm_reps and norm_reps[-1] == reps[i]:
            norm_bounds[-1] = (norm_bounds[-1][0], bounds[i][1])
        else:
            norm_bounds.append(bounds[i])
            norm_reps.append(reps[i])
    return pd.Series([norm_bounds, norm_reps])


"""
normalized = []
    for i in range(len(bounds_w_rep)):
        #normalized is not empty
        if normalized:
            if normalized[-1]['Repertorio'] == bounds_w_rep[i]['Repertorio']:
                new_span = (normalized[-1]['Bounds'][0], bounds_w_rep[i]['Bounds'][1])
                new_span_features = {
                    'Bounds' : new_span, 
                    'Repertorio' : bounds_w_rep[i]['Repertorio']
                    }
                del normalized[-1]
                normalized.append(new_span_features)
            else:
                normalized.append(bounds_w_rep[i])
        else:
            normalized.append(bounds_w_rep[i])
    return [e['Bounds'] for e in normalized]
"""



"\nnormalized = []\n    for i in range(len(bounds_w_rep)):\n        #normalized is not empty\n        if normalized:\n            if normalized[-1]['Repertorio'] == bounds_w_rep[i]['Repertorio']:\n                new_span = (normalized[-1]['Bounds'][0], bounds_w_rep[i]['Bounds'][1])\n                new_span_features = {\n                    'Bounds' : new_span, \n                    'Repertorio' : bounds_w_rep[i]['Repertorio']\n                    }\n                del normalized[-1]\n                normalized.append(new_span_features)\n            else:\n                normalized.append(bounds_w_rep[i])\n        else:\n            normalized.append(bounds_w_rep[i])\n    return [e['Bounds'] for e in normalized]\n"

In [9]:
df[['Norm_bounds', 'Norm_rep']] =  df.apply(lambda x: normalize(x['Bounds_predetti'], x['Repertori_predetti']), axis=1)

df['Norm_precision'] =  df.apply(lambda x: precision(x['Norm_bounds'], x['Bounds'], x['Norm_rep'], x['Repertori']), axis=1)
df['Norm_recall'] =  df.apply(lambda x: recall(x['Norm_bounds'], x['Bounds'], x['Norm_rep'], x['Repertori']), axis=1)
df['Norm_f1'] =  df.apply(lambda x: f1(x['Norm_precision'], x['Norm_recall']), axis=1)
df['Norm_IoU'] =  df.apply(lambda x: IoU(x['Norm_bounds'], x['Bounds'], x['Norm_rep'], x['Repertori']), axis=1)

print(df['Norm_precision'].mean())
print(df['Norm_recall'].mean())
print(df['Norm_f1'].mean())
print(df['Norm_IoU'].mean())

0.29351827761622273
0.30353414371873155
0.2886571763709411
0.2427361186838209


In [96]:
df.loc[df['Norm_recall'] < df['Recall']]

Unnamed: 0,Testo,Stralci,Repertori,Bounds,Stralci_predetti,Bounds_predetti,Repertori_predetti,Precision,Recall,F1,Norm_bounds,Norm_rep,Norm_precision,Norm_recall,Norm_f1,IoU,Norm_IoU
15,Caro Zaia la seguo ogni giorno. Da quello che ...,[Caro Zaia la seguo ogni giorno. Da quello che...,"[commento, giudizio, commento, opinione]","[(0, 17), (19, 22), (23, 47), (47, 90)]","[Caro Zaia la seguo ogni giorno. Da, quello c...","[(0, 6), (7, 22), (23, 34), (35, 47), (48, 73)...","[non risposta, opinione, contrapposizione, opi...",0.296703,0.227273,0.257388,"[(0, 6), (7, 22), (23, 34), (35, 86), (87, 91)]","[non risposta, opinione, contrapposizione, opi...",0.153846,0.227273,0.183486,0.129174,0.142857
777,Non state pensando al disagio degli adolescent...,[Non state pensando al disagio degli adolescen...,[sancire],"[(0, 25)]",[Non state pensando al disagio degli adolescen...,"[(0, 6), (7, 12), (13, 20), (21, 25)]","[prescrizione, sancire, sancire, giustificazione]",0.5,0.538462,0.518519,"[(0, 6), (7, 20), (21, 25)]","[prescrizione, sancire, giustificazione]",0.333333,0.538462,0.411765,0.134615,0.179487
867,Su questo ti do ragione presidente...dire che ...,"[Su questo ti do ragione presidente..., dire c...","[commento, giudizio, specificazione, commento]","[(0, 5), (6, 13), (13, 26), (27, 28)]","[Su questo ti do ragione presidente..., dire c...","[(0, 5), (6, 13), (13, 27), (28, 28)]","[opinione, giudizio, giudizio, deresponsabiliz...",0.266667,0.28125,0.273764,"[(0, 5), (6, 27), (28, 28)]","[opinione, giudizio, deresponsabilizzazione]",0.121212,0.25,0.163265,0.261364,0.121212
1008,"Ciao Luca, so che tra tutti i messaggi che ric...","[Ciao Luca,, so che tra tutti i messaggi che r...","[generalizzazione, possibilità, opinione, poss...","[(0, 1), (2, 16), (17, 24), (24, 35), (36, 49)...","[Ciao Luca, so che tra tutti i messaggi che ri...","[(0, 16), (17, 24), (25, 35), (36, 64), (65, 7...","[commento, commento, possibilità, deresponsabi...",0.378489,0.291667,0.329454,"[(0, 24), (25, 35), (36, 64), (65, 74), (75, 76)]","[commento, possibilità, deresponsabilizzazione...",0.396552,0.291667,0.336117,0.328489,0.379885
1454,Bufera sui tamponi. Il Pd a Zaia: «Basta confu...,"[Bufera sui tamponi. , Il Pd a Zaia:, «Basta c...","[sancire, ridimensionamento, sancire, prescriz...","[(0, 2), (3, 6), (7, 19), (20, 43), (44, 72), ...",[Bufera sui tamponi. Il Pd a Zaia: «Basta conf...,"[(0, 10), (11, 20), (21, 73), (74, 187), (188,...","[sancire, prescrizione, prescrizione, consider...",0.234065,0.25641,0.244729,"[(0, 10), (11, 73), (74, 187), (188, 195)]","[sancire, prescrizione, considerazione, giusti...",0.254329,0.25641,0.255365,0.185791,0.21342
2043,"sono d'accordo , dipende molto da lui , solo c...","[sono d'accordo , dipende molto da lui , solo ...",[opinione],"[(0, 26)]","[sono d'accordo , dipende molto da lui , solo,...","[(0, 6), (7, 21), (22, 26)]","[opinione, opinione, possibilità]",0.666667,0.814815,0.733333,"[(0, 21), (22, 26)]","[opinione, possibilità]",0.5,0.814815,0.619718,0.271605,0.407407
2603,Zaia ci spieghi perché un anziano in RSA VACCI...,[Zaia ci spieghi perché un anziano in RSA VACC...,"[contrapposizione, sancire, valutazione, sanci...","[(0, 61), (63, 74), (75, 98), (99, 103), (104,...",[Zaia ci spieghi perché un anziano in RSA VACC...,"[(0, 63), (64, 69), (70, 83), (84, 98), (99, 9...","[valutazione, sancire, sancire, giustificazion...",0.193878,0.183333,0.188458,"[(0, 63), (64, 83), (84, 98), (99, 99), (100, ...","[valutazione, sancire, giustificazione, prescr...",0.11,0.183333,0.1375,0.105442,0.104762
2926,Troppo poco rispetto per chi lavora al servizi...,[Troppo poco rispetto per chi lavora al serviz...,[giudizio],"[(0, 18)]",[Troppo poco rispetto per chi lavora al serviz...,"[(0, 10), (11, 17), (18, 18)]","[giudizio, giudizio, deresponsabilizzazione]",0.666667,0.947368,0.782609,"[(0, 17), (18, 18)]","[giudizio, deresponsabilizzazione]",0.5,0.947368,0.654545,0.315789,0.473684


In [88]:
df.iloc[34]

Testo                 Duecentomila veneti hanno già ricevuto il bonu...
Stralci               [Duecentomila veneti hanno già ricevuto il bon...
Repertori                               [sancire, descrizione, sancire]
Bounds                                    [(0, 14), (16, 47), (48, 53)]
Stralci_predetti      [Duecentomila veneti hanno già ricevuto il bon...
Bounds_predetti                                               [(0, 53)]
Repertori_predetti                                        [descrizione]
Precision                                                      0.592593
Recall                                                         0.333333
F1                                                             0.426667
Norm_bounds                                                   [(0, 53)]
Norm_rep                                                  [descrizione]
Norm_precision                                                 0.592593
Norm_recall                                                    0

In [49]:
print(df.iloc[3038]['Norm_bounds'], df.iloc[3038]['Bounds'], df.iloc[3038]['Norm_rep'], df.iloc[3038]['Repertori'])

[(0, 31)] [(0, 31)] ['sancire'] ['sancire']


In [89]:
precision(df.iloc[2926]['Norm_bounds'], df.iloc[2926]['Bounds'], df.iloc[2926]['Norm_rep'], df.iloc[2926]['Repertori'])

0.5