# Split corpus

This notebook allows to divide a corpus into a training, testing and validation part. The split will reserve respectively:
- 1000 sentences for testing
- 1000 sentences for validation
- 1000 sentences with missing subjects

In [50]:
from random import randint
from random import seed
import spacy
import it_core_news_lg
import numpy as np
nlp = it_core_news_lg.load()

seed(3)

## 1. Import data

### Italian corpus

In [51]:
path_lang_en_i = '../corpora/it-en/europarl-v7.it-en.en'
path_lang_it = '../corpora/it-en/europarl-v7.it-en.it'

lang_en_i = open(path_lang_en_i, "r")
lang_it = open(path_lang_it, "r")

print("Italian parallel corpus loaded:")
lines_en_i = lang_en_i.readlines()
lines_it = lang_it.readlines()

print(path_lang_en_i.split('/')[-1] + ' ' +  str(len(lines_en_i)) + ' lines')
print(path_lang_it.split('/')[-1] + ' ' +  str(len(lines_it)) + ' lines')


Italian parallel corpus loaded:
europarl-v7.it-en.en 1909115 lines
europarl-v7.it-en.it 1909115 lines


### Spanish corpus

In [52]:
path_lang_en_s = '../corpora/es-en/europarl-v7.es-en.en'
path_lang_sp = '../corpora/es-en/europarl-v7.es-en.es'

lang_en_s = open(path_lang_en_s, "r")
lang_sp = open(path_lang_sp, "r")

print("Spanish parallel corpus loaded:")
lines_en_s = lang_en_s.readlines()
lines_sp = lang_sp.readlines()

print(path_lang_en_s.split('/')[-1] + ' ' +  str(len(lines_en_s)) + ' lines')
print(path_lang_sp.split('/')[-1] + ' ' +  str(len(lines_sp)) + ' lines')


Spanish parallel corpus loaded:
europarl-v7.es-en.en 1965734 lines
europarl-v7.es-en.es 1965734 lines


In [53]:
if not re.search(r"^\s+$", "ciao"):
    print ("All Spaces")

All Spaces


## 2. Split data

In [78]:
import re

# italian 
validation_it = []
test_it = []
validation_en_i = []
test_en_i = []

# spanish
validation_sp = []
test_sp = []
validation_en_s = []
test_en_s = []

# indices (used later to make special validation dataset)
idx_val = []
idx_test = []

# create validation datasets
while len(validation_it) != 1000:
    i = randint(0, (len(lines_it)-1))
    if i not in idx_val:
        if not re.search(r"^\s+$", lines_it[i]) and not re.search(r"^\s+$", lines_sp[i]) and not re.search(r"^\s+$", lines_en_i[i]) and not re.search(r"^\s+$", lines_en_s[i]):
             # store index
            idx_val.append(i)

            # italian
            validation_it.append(lines_it[i])
            validation_en_i.append(lines_en_i[i])

            # spanish
            validation_sp.append(lines_sp[i])
            validation_en_s.append(lines_en_s[i])    


# create test datasets
while len(test_sp) != 1000:
    i = randint(0, (len(lines_it)-1))
    if i not in idx_val and i not in idx_test:
        if not re.search(r"^\s+$", lines_it[i]) and not re.search(r"^\s+$", lines_sp[i]) and not re.search(r"^\s+$", lines_en_i[i]) and not re.search(r"^\s+$", lines_en_s[i]):
            # store index
            idx_test.append(i)

            # italian
            test_it.append(lines_it[i])
            test_en_i.append(lines_en_i[i])

            # spanish
            test_sp.append(lines_sp[i])
            test_en_s.append(lines_en_s[i])

    
    

In [28]:
missed_idx

['Gli Stati membri più facoltosi lancerebbero un chiaro segnale di solidarietà se contribuissero a tale processo con le proprie risorse.\n',
 '\xa0\xa0 Quasi un europeo su quattro (all’incirca un milione all’anno) sarà vittima del cancro.\n',
 '3 e 6 – presentati dal gruppo Verts/ALE – che, nel contesto del settimo programma quadro, condurrebbero al collasso dell’intera struttura della ricerca e dei suoi progressi in tema di nanoscienze e nanotecnologie.\n',
 'Questo, onorevoli parlamentari, per quanto attiene al secondo capitolo delle priorità riconducibili a Lisbona.\n',
 'Do la parola al Presidente in carica del Consiglio Juncker, Primo Ministro del Lussemburgo, cui vorrei rinnovare il cordoglio del Parlamento per la morte di Sua Altezza Reale, la Granduchessa Giuseppina Carlotta di Lussemburgo, Principessa del Belgio.\n',
 'Come potrà la Direzione generale "Commercio" promuovere un modello commerciale più favorevole ai paesi ACP pur tutelando gli interessi commerciali europei?\n',


In [7]:
nlp = it_core_news_lg.load()

sentence = ' "Meglio che una simile discussione sia guidata dai sentimenti che dall\'industria!'
sen = nlp(sentence)



for word in sen:
    print(f'{word.text:{12}} {word.pos_:{10}} {word.tag_:{10}} {word.dep_:{8}}')
    #print(word.tag_.split('='))
    if 'Inf' in word.tag_ or 'Ger' in word.tag_  or'Part' in word.tag_:
        print('--------', word.text)
        

             SPACE      _SP                
"            PUNCT      FB         punct   
Meglio       ADV        B          ROOT    
che          SCONJ      CS         mark    
una          DET        RI__Definite=Ind|Gender=Fem|Number=Sing|PronType=Art det     
simile       X          A__Number=Sing amod    
discussione  NOUN       S__Gender=Fem|Number=Sing nsubj:pass
sia          AUX        VA__Mood=Sub|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin aux:pass
guidata      VERB       V__Gender=Fem|Number=Sing|Tense=Past|VerbForm=Part ccomp   
-------- guidata
dai          DET        E_RD__Definite=Def|Gender=Masc|Number=Plur|PronType=Art case    
sentimenti   NOUN       S__Gender=Masc|Number=Plur obl:agent
che          PRON       PR__PronType=Rel cc      
dall'        DET        E_RD__Definite=Def|Number=Sing|PronType=Art case    
industria    NOUN       S__Gender=Fem|Number=Sing conj    
!            PUNCT      FS         punct   


In [None]:
from textpipeliner import NamedEntityFilterPipe
from textpipeliner import NamedEntityExtractorPipe
from textpipeliner import FindTokensPipe
from textpipeliner import SequencePipe
from textpipeliner import AggregatePipe
from textpipeliner import AnyPipe
from textpipeliner import *


pipes_structure = [  
                AggregatePipe([

                    FindTokensPipe("NOUN/nsubj"),
                    ]),
            FindTokensPipe("NOUN"),
                     ]


engine = PipelineEngine(pipes_structure, Context(sen))
print(engine.process())




In [None]:
    pipes_structure = [  
                AggregatePipe([
            FindTokensPipe("ADV/ccomp/VERB/nsubj:pass")
            ]),
            FindTokensPipe("ADV/ccomp/VERB/aux:pass")
                     ]

engine = PipelineEngine(pipes_structure, Context(sen))
print(engine.process())


In [None]:
sent = next(sen.sents)

print_tree(sent, "pos_")

In [None]:
    pipes_structure = [  
                AggregatePipe([
            FindTokensPipe("NOUN/appos/PRON/acl:relcl/AUX/nsubj")
            ]),
            FindTokensPipe("NOUN/appos/PRON/acl:relcl/AUX")
                     ]
    
    pipes_structure = [  
                AggregatePipe([
            FindTokensPipe("PRON")
            ]),
            FindTokensPipe("PRON/acl:relcl/AUX/aux/AUX")
                     ]
    
    pipes_structure = [  
                AggregatePipe([
            FindTokensPipe("NOUN/advmod/ADV/case/VERB/nsunj")
            ]),
            FindTokensPipe("NOUN/advmod/ADV/case/VERB")
                     ]
    
    pipes_structure = [  
                AggregatePipe([
            FindTokensPipe("ADV/ccomp/VERB/nsubj:pass")
            ]),
            FindTokensPipe("ADV/ccomp/VERB/aux:pass")
                     ]

In [None]:
find_subjects(sen, ['Solleverò', 'invito'])


# Extract sentences without subjects for special validation dataset

In [14]:
import re
import SVextractor


special_idx = []
total_subjs = 0
total_verbs = 0
type_verbs = []

verb_subj_pairs = []
zeros = 0
missed_idx = []
checked_s = 0

amount_verbs_per_sentence = []

while len(special_idx) != 10000:
    i = randint(0, (len(lines_it)-1))
    if i not in idx_val and i not in idx_test:
        
        sentence = lines_it[i]
        sentence = re.sub(r"\((.*?)\)", "", sentence)
        sen = nlp(sentence)
        

        verbs = [str(tok) for tok in sen if ((tok.pos_ == "VERB") or 
                                          (tok.pos_ == "AUX")) and 
                                          ('Inf' not in tok.tag_.split('=') and 
                                          'Part' not in tok.tag_.split('=') and 
                                          'Ger' not in tok.tag_.split('='))]
                                       #(tok.dep_ == "aux") or 
                                        #  (tok.dep_ == "aux:pass") or 
                                        #  (tok.pos_ == "VERB") or 
                                         # (tok.dep_ == "cop") or
                                        #  (tok.dep_ == "ROOT") or
                                         # (tok.dep_ == "acl:relcl") or
                                        #  (tok.dep_ == "aux")]
        #print(verbs)
        copy_verbs = verbs[:]
        
        amount_verbs_per_sentence.append(len(verbs))
        
        
        subjects = [str(tok) for tok in sen if ( (tok.dep_ == "nsubj") or 
                                                 (tok.dep_ == "prop") or
                                                (tok.dep_ == "csubj:pass") or 
                                                 (tok.dep_ == "csubj") or 
                                                 (tok.pos_ == "PRON" and 
                                                  'Prs' not in tok.tag_.split('=')  and 
                                                  'obl' not in tok.tag_.split('=') and 
                                                  'obj' not in tok.tag_.split('=') and 
                                                  'Rel' not in tok.tag_ and
                                                  'Ind' not in tok.tag_.split('=') and
                                                  'Dem' not in tok.tag_.split('=') and
                                                  'Rel nsubj' not in tok.tag_ and
                                                   tok.pos_ != 'SCONJ') or 
                                                 (tok.dep_ == "nsubj:pass")) and
                                                 (tok.dep_ != "xcomp") and
                                                 #('Rel' not in tok.tag_) and               
                                                 (tok.pos_ != 'SCONJ')]
        
        #print(subjects) 
        
            
        if len(verbs) > 0 and len(subjects) == 0:
            type_verbs.append([str(tok.tag_) for tok in sen if ((tok.pos_ == "VERB") or 
                                          (tok.pos_ == "AUX")) and 
                                          ('Inf' not in tok.tag_.split('=') and 
                                          'Part' not in tok.tag_.split('=') and 
                                          'Ger' not in tok.tag_.split('='))])
        
        total_subjs += min(len(verbs), len(subjects))
        total_verbs += len(verbs)
        
        #if len(verbs) > 0 and min(len(verbs), len(subjects)) < len(verbs):
        if len(verbs) == 1 :
            checked_s += 1
            special_idx.append(i)
            print(subjects) 
            print(verbs) 
            
        
            out = ''
            for words in sentence.split():
                for word in words.split('\''):
                    word = str(word)
                    if word in verbs:
                        verbs.remove(word)
                        out += '\x1b[1;03;31;4m'+ word + '\x1b[0m' + ' '
                    elif word in subjects:
                        subjects.remove(word)
                        out += '\x1b[1;03;32;4m'+ word + '\x1b[0m' + ' '
                    else:
                        out += (word) + ' '
            print(out)
            
            r = SVextractor.find_subjects(sen, copy_verbs)
            if len(r) == 0:
                zeros += 1
                missed_idx.append(lines_it[i])
            verb_subj_pairs.append(r)
            
            print('\n-------------------------------')
        
        
        
        
        #print('\n-------------------------------')
print('1: ', str(checked_s))    
print('Missed: ', str(zeros))
print(str( (1 -total_subjs / total_verbs) * 100 ), '%')

['discussione']
['è']
La [1;03;32;4mdiscussione[0m [1;03;31;4mè[0m chiusa. 
Rule 14
([discussione], [è])

-------------------------------
['Comitato']
['dovrebbe']
Il [1;03;32;4mComitato[0m esecutivo [1;03;31;4mdovrebbe[0m astenersi dal pronunciarsi in merito. 
Rule 2
([Comitato], [dovrebbe], [astenersi])

-------------------------------
['Signor']
['saremmo']
[1;03;32;4mSignor[0m Presidente, alla vigilia di Natale [1;03;31;4msaremmo[0m normalmente di buon umore. 
Rule 15
([Signor], [saremmo])

-------------------------------
['Consiglio']
['ha']
Il [1;03;32;4mConsiglio[0m non li [1;03;31;4mha[0m accolti. 
Rule 2
([Consiglio], [ha], [accolti])

-------------------------------
[]
['Bisogna']
[1;03;31;4mBisogna[0m assolutamente conseguire un equilibrio adeguato tra la semplificazione delle procedure e le modalità atte a garantire efficacia e una buona gestione finanziaria in modo da produrre una politica facile da attuare con un profilo più elevato. 
Rule 4
([], [Bisogn

[]
['chiedo']
Signora Commissario, le [1;03;31;4mchiedo[0m di riconoscere le sue responsabilità e di assumersele. 
Rule 4
([], [chiedo])

-------------------------------
['votazione']
['svolgerà']
La [1;03;32;4mvotazione[0m si [1;03;31;4msvolgerà[0m domani alle 11.00. 
Rule 4
([votazione], [svolgerà])

-------------------------------
['ordine']
['reca']
L [1;03;32;4mordine[0m del giorno [1;03;31;4mreca[0m la discussione sulla relazione , presentata dall onorevole Herman a nome della commissione per i problemi economici e monetari e la politica industriale, sulla proposta di decisione del Consiglio relativa alla consultazione della Banca centrale europea da parte delle autorità degli Stati membri sui progetti di disposizioni legislative 0725 - C4-0147/98-98/0056). 
Rule 4
([ordine], [reca])

-------------------------------
['Procedere']
['denota']
[1;03;32;4mProcedere[0m in questo modo a livello linguistico [1;03;31;4mdenota[0m una presa di posizione politica. 
Rule 4
([],

['governi']
['stanno']
Grazie all ordine di Malta, al Jesuit Refugee Service e a molte organizzazioni cristiane, i [1;03;32;4mgoverni[0m [1;03;31;4mstanno[0m riconoscendo l obbligo di affrontare il destino dei rifugiati. 
Rule 2
([governi], [stanno], [riconoscendo])

-------------------------------
['Lukashenko']
['ha']
[1;03;32;4mLukashenko[0m [1;03;31;4mha[0m cercato di impedire ai bielorussi di viaggiare all’estero. 
Rule 2
([Lukashenko], [ha], [cercato])

-------------------------------
[]
['è']
Non [1;03;31;4mè[0m soltanto il Bill of Rights del 1689 o i 10 emendamenti del 1787 alla Costituzione di Jefferson ad aver conferito loro una dimensione universale, ma anche la Dichiarazione del 1989. 
Rule 33
([Bill], [è])

-------------------------------
['partiti', 'che']
['sono']
In molti paesi europei, ci [1;03;31;4msono[0m [1;03;32;4mpartiti[0m [1;03;32;4mche[0m sonoriusciti a collocarsial centro della vita politicacon discorsi populistie demagogici. 
Rule 7
([partiti]

['adottare']
['E’']
[1;03;31;4mE’[0m necessario [1;03;32;4madottare[0m una riforma genuina della politica della pesca e un modo completamente nuovo di concepire le nostre relazioni con i paesi poveri. 
Rule 16
([], [E’])

-------------------------------
['violenza']
['esisterebbe']
La [1;03;32;4mviolenza[0m contro le donne non [1;03;31;4mesisterebbe[0m senza il contributo di ciascun uomo o senza l indulgenza sociale verso ogni singolo atto di violenza. 
Rule 4
([violenza], [esisterebbe])

-------------------------------
['rafforzare']
['occorre']
Allo stesso tempo, [1;03;31;4moccorre[0m [1;03;32;4mrafforzare[0m le reti di esperti e la cooperazione professionale, per esempio attraverso lo sviluppo della cooperazione transfrontaliera sulla base dei rapporti intraregionali. 
Rule 4
([], [occorre])

-------------------------------
['detenzione']
['esiste']
In Kosovo, [1;03;31;4mesiste[0m una rilevante [1;03;32;4mdetenzione[0m di moneta fisica. 
Rule 4
([detenzione], [esiste

['strumenti']
['sono']
Tutti questi [1;03;32;4mstrumenti[0m [1;03;31;4msono[0m essenziali per conformarsi al principio della coesione economica e sociale. 
Rule 19
([strumenti], [sono])

-------------------------------
[]
['ringrazio']
Per concludere, [1;03;31;4mringrazio[0m tutti gli onorevoli deputati intervenuti nella discussione per le loro osservazioni. 
Rule 4
([], [ringrazio])

-------------------------------
[]
['tratta']
Si [1;03;31;4mtratta[0m di un buon inizio. 
Rule 4
([], [tratta])

-------------------------------
[]
['Prendo']
[1;03;31;4mPrendo[0m atto della sua osservazione, onorevole Speroni. 
Rule 4
([], [Prendo])

-------------------------------
['regioni']
['sono']
In questi paesi, le [1;03;32;4mregioni[0m oggetto dei finanziamenti dei Fondi strutturali [1;03;31;4msono[0m situate a migliaia di chilometri dalle aree di mercato centrali dell Europa, nei pressi della frontiera con la Russia. 
Rule 6
([regioni], [sono])

-------------------------------
['st

[]
['Seguiamo']
[1;03;31;4mSeguiamo[0m naturalmente gli sviluppi da vicino. 
Rule 4
([], [Seguiamo])

-------------------------------
[]
['congratulo']
Mi [1;03;31;4mcongratulo[0m con lei per l onestà della sua affermazione. 
Rule 4
([], [congratulo])

-------------------------------
['competenze']
['sono']
Le [1;03;32;4mcompetenze[0m per l  esecuzione dei controlli [1;03;31;4msono[0m state assegnate agli Stati membri. 
Rule 6
([competenze], [sono])

-------------------------------
[]
['Dobbiamo']
[1;03;31;4mDobbiamo[0m confrontare i benefici effettivi per gli utenti e il costo per le aziende del settore. 
Rule 6
([], [Dobbiamo])

-------------------------------
[]
['possono']
In particolare, si [1;03;31;4mpossono[0m adottare sanzioni commerciali contro queste due aree? 
Rule 6
([], [possono])

-------------------------------
['Unione']
['è']
L [1;03;32;4mUnione[0m europea, di conseguenza, [1;03;31;4mè[0m diventata una minaccia per le normative in materia di mercato del

['operatori']
['hanno']
Gli [1;03;32;4moperatori[0m delle moderne tecnologie dell informazione e della comunicazione [1;03;31;4mhanno[0m osservato una maggiore richiesta dei loro prodotti. 
Rule 2
([operatori], [hanno], [osservato])

-------------------------------
[]
['riceveranno']
26 [1;03;31;4mriceveranno[0m risposta per iscritto. 
Rule 4
([], [riceveranno])

-------------------------------
['BERS']
['invita']
Nel settore pubblico la [1;03;32;4mBERS[0m [1;03;31;4minvita[0m all adozione della massima trasparenza per garantire la concorrenza e la parità di trattamento ai partecipanti al mercato. 
Rule 4
([BERS], [invita])

-------------------------------
['discussione']
['riguarda']
– Onorevoli colleghi, la [1;03;32;4mdiscussione[0m di oggi [1;03;31;4mriguarda[0m l’esito del Vertice informale del Consiglio europeo di Hampton Court, non i risultati del semestre di Presidenza britannica. 
Rule 4
([discussione], [riguarda])

-------------------------------
['minoranze']
['

['inoltro']
['è']
L [1;03;32;4minoltro[0m di aiuti alle parti bisognose della società [1;03;31;4mè[0m agevolato dal collegamento con il sostegno all adeguamento strutturale particolarmente rivolto ai settori sociali. 
Rule 14
([inoltro], [è])

-------------------------------
['relatrice']
['ha']
La [1;03;32;4mrelatrice[0m [1;03;31;4mha[0m indicato la questione più importante: come collegare le spese di riscossione ai criteri di rendimento. 
Rule 2
([relatrice], [ha], [indicato])

-------------------------------
['stile']
['influiscono']
Su tali questioni [1;03;31;4minfluiscono[0m piuttosto lo [1;03;32;4mstile[0m di vita, un ambiente sano e la fiducia nelle spiegazioni e nella consulenza professionale del medico. 
Rule 7
([stile], [influiscono])

-------------------------------
['mantenimento']
['verrebbe']
Il [1;03;32;4mmantenimento[0m del modello di società europeo [1;03;31;4mverrebbe[0m favorito da un efficace risposta alle questioni poste dalla disoccupazione. 
Rule 

[]
['Dobbiamo']
[1;03;31;4mDobbiamo[0m avviare la procedura di conciliazione sulle quattro direttive contemporaneamente. 
Rule 6
([], [Dobbiamo])

-------------------------------
['condizioni']
['sono']
Le [1;03;32;4mcondizioni[0m geografiche nei paesi del nord [1;03;31;4msono[0m diametralmente opposte a quelle del sud. 
Rule 60
([condizioni], [sono])

-------------------------------
[]
['dedico']
Probabilmente [1;03;31;4mdedico[0m a questo aspetto più energie che a qualunque altra nostra azione. 
Rule 4
([], [dedico])

-------------------------------
[]
['è']
Non [1;03;31;4mè[0m giusto. 
Rule 16
([], [è])

-------------------------------
[]
['abbiamo']
Per questo, [1;03;31;4mabbiamo[0m atteso con estremo interesse la prima relazione annuale completa del Mediatore, oggetto della relazione dell on. Papakyariazis. 
Rule 2
([], [abbiamo], [atteso])

-------------------------------
['convivere']
['è']
In una società industriale moderna, [1;03;31;4mè[0m inevitabile dover [1;0

[]
['Sono']
[1;03;31;4mSono[0m scelte di competenza dei singoli Stati membri. 
Rule 15
([], [Sono])

-------------------------------
[]
['Vorrei']
[1;03;31;4mVorrei[0m però soffermarmi su una questione. 
Rule 2
([], [Vorrei], [soffermarmi])

-------------------------------
['gruppo']
['ha']
Il [1;03;32;4mgruppo[0m Verde/Alleanza libera europea [1;03;31;4mha[0m tuttavia delle critiche da muovere. 
Rule 4
([gruppo], [ha])

-------------------------------
['fanatici']
['procederanno']
I [1;03;32;4mfanatici[0m di Lisbona di questo Parlamento ora [1;03;31;4mprocederanno[0m a velocità supersonica alla creazione di un nuovo superstato europeo di 500 milioni di persone. 
Rule 4
([fanatici], [procederanno])

-------------------------------
['cambiamento']
['E’']
[1;03;31;4mE’[0m necessario un [1;03;32;4mcambiamento[0m drastico della politica in materia di trasporti. 
Rule 16
([cambiamento], [E’])

-------------------------------
['parti']
['sono']
Durante tutto questo periodo, v


-------------------------------
['importanza']
['è']
. – L’importanza dell’ammissione di cittadini di paesi terzi per lavori temporanei e stagionali [1;03;31;4mè[0m ampiamente riconosciuta dall’Unione. 
Rule 14
([importanza], [è])

-------------------------------
['risoluzione']
['è']
Quindi, signora Presidente, questa [1;03;32;4mrisoluzione[0m [1;03;31;4mè[0m a nostro avviso un documento estremamente positivo ed utile per raggiungere uno degli obiettivi prioritari del Parlamento e dell Unione europea. 

-------------------------------
[]
['è']
Ma ancora più grave, [1;03;31;4mè[0m stato contestato e fischiato il padre del ministro della Pubblica istruzione, partigiano, detenuto a Dachau, medaglia d’argento e medaglia di bronzo della Resistenza. 
Rule 2
([], [è], [contestato])

-------------------------------
[]
['veniamo']
Infine, signor Presidente, [1;03;31;4mveniamo[0m al commercio di armi. 
Rule 4
([], [veniamo])

-------------------------------
[]
['devono']
Non [1;03;3

['progetto']
['era']
Il [1;03;32;4mprogetto[0m preliminare di bilancio della Commissione [1;03;31;4mera[0m di 129,2 miliardi di euro per gli stanziamenti d impegno e di 121 miliardi di euro per gli stanziamenti di pagamento. 
Rule 15
([progetto], [era])

-------------------------------
['osservazioni']
['sono']
Vi [1;03;31;4msono[0m osservazioni? 
Rule 7
([osservazioni], [sono])

-------------------------------
['von']
['Desidero']
[1;03;31;4mDesidero[0m anche rendere omaggio alle azioni dei suoi e dei miei predecessori signor Presidente, gli onorevoli [1;03;32;4mvon[0m Wogau e Randzio-Plath, ancora qui con noi oggi. 
Rule 4
([von], [Desidero])

-------------------------------
['Unione']
['ha']
In entrambi i casi, l’Unione [1;03;31;4mha[0m dimostrato il suo impegno nei confronti di un effettivo multilateralismo, la sua capacità di assumere la e di avere un’influenza anche nella riforma delle Nazioni Unite. 
Rule 2
([Unione], [ha], [dimostrato])

----------------------------

[]
['tratta']
Si [1;03;31;4mtratta[0m di una sola piccola parola: anche. 
Rule 4
([], [tratta])

-------------------------------
['opposizione']
['è']
Pertanto, esprimendo voto contrario, si [1;03;31;4mè[0m confermata l  [1;03;32;4mopposizione[0m al cammino federalista senza mettere in discussione gli aspetti positivi della relazione. 
Rule 2
([opposizione], [è], [confermata])

-------------------------------
['seconda', 'forum']
['vuole']
La seconda, il "forum europeo sull energia nucleare”, [1;03;31;4mvuole[0m essere una piattaforma per un vasto e trasparente scambio di opinioni tra le parti in causa sulle possibilità e sui rischi legati all energia nucleare. 
Rule 11
([seconda, forum], [vuole])

-------------------------------
[]
['Dobbiamo']
[1;03;31;4mDobbiamo[0m essere molto chiari in proposito. 
Rule 27
([], [Dobbiamo])

-------------------------------
[]
['Sono']
[1;03;31;4mSono[0m già passati due mesi da allora. 
Rule 2
([], [Sono], [passati])

--------------------

['agenzie']
['sono']
Le [1;03;32;4magenzie[0m [1;03;31;4msono[0m tenute a trasmetterci il loro programma di lavoro, con una lista di mansioni e di informazioni in merito alle variazioni intervenute rispetto all anno precedente e al motivo di tali modifiche. 
Rule 26
([agenzie], [sono])

-------------------------------
['rifiuto', 'mancanza']
['è']
Più importante [1;03;31;4mè[0m però il suo [1;03;32;4mrifiuto[0m a firmare il trattato di Lisbona, una [1;03;32;4mmancanza[0m di rispetto nei confronti di noi tutti e del popolo europeo. 

-------------------------------
['Polonia']
['ha']
La [1;03;32;4mPolonia[0m [1;03;31;4mha[0m fatto ricorso al diritto di veto per tutelare i propri interessi. 
Rule 2
([Polonia], [ha], [fatto])

-------------------------------
[]
['Sono']
[1;03;31;4mSono[0m certo di interpretare i sentimenti di tutti i deputati del Parlamento dichiarandomi favorevole a un miglior coordinamento e a una maggiore collaborazione nella lotta contro la criminalità


-------------------------------
['violenza']
['risolve']
E tuttavia attraverso il terrore e la [1;03;32;4mviolenza[0m non si [1;03;31;4mrisolve[0m nessun conflitto. 
Rule 134
([violenza], [risolve])

-------------------------------
['comprendere']
["E'"]
E  stato quindi possibile [1;03;32;4mcomprendere[0m e discutere le priorità delle commissioni parlamentari e dei gruppi politici. 
Rule 50
([], [E'])

-------------------------------
['fondi']
['devono']
I [1;03;32;4mfondi[0m extra [1;03;31;4mdevono[0m essere spesi nell ambito dell agricoltura e dell economia rurale per dare sostegno ai piccoli agricoltori e alla popolazione attiva nelle zone rurali. 
Rule 2
([fondi], [devono], [spesi])

-------------------------------
['obiettivo']
['è']
L [1;03;32;4mobiettivo[0m di un integrazione più profonda delle aree economiche europea e dell America latina [1;03;31;4mè[0m di creare una situazione vantaggiosa per entrambe le parti. 
Rule 4
([obiettivo], [è])

----------------------

[]
['Sono']
[1;03;31;4mSono[0m pertanto ottimista in proposito. 
Rule 15
([], [Sono])

-------------------------------
['bilancio']
['presenta']
Il [1;03;32;4mbilancio[0m dell Unione si [1;03;31;4mpresenta[0m non come un complemento, bensì come un concorrente dei bilanci nazionali. 
Rule 4
([bilancio], [presenta])

-------------------------------
['accordo']
['ha']
L [1;03;32;4maccordo[0m di partenariato e di cooperazione con l Ucraina entrato in vigore il 1- marzo 1998 [1;03;31;4mha[0m aperto un nuovo capitolo nelle relazioni dell Unione con questo paese. 
Rule 2
([accordo], [ha], [aperto])

-------------------------------
['discussione']
['verrà']
La [1;03;32;4mdiscussione[0m non [1;03;31;4mverrà[0m ripresa. 
Rule 14
([discussione], [verrà])

-------------------------------
['contributo']
['Credo']
[1;03;31;4mCredo[0m tuttavia che, per far fronte a tali eccezioni, il [1;03;32;4mcontributo[0m del 15 per cento sia esiguo. 
Rule 4
([], [Credo])

-----------------------

['Commissione']
['vuole']
Signora Presidente, la [1;03;32;4mCommissione[0m [1;03;31;4mvuole[0m ringraziare il relatore per aver suggerito all Assemblea di esprimere un parere favorevole riguardo alle norme di attuazione ceche in materia di aiuti pubblici. 
Rule 6
([Commissione], [vuole])

-------------------------------
[]
['sono']
Ma dove [1;03;31;4msono[0m realmente le proposte per un’adeguata organizzazione dei porti? 
Rule 15
([], [sono])

-------------------------------
['razionalità']
["E'"]
E  questa la [1;03;32;4mrazionalità[0m dell  Unione europea. 
Rule 13
([razionalità], [E'])

-------------------------------
['incidenti']
['hanno']
Gli [1;03;32;4mincidenti[0m di Baia Mare in Romania e di Aznalcollár in Spagna [1;03;31;4mhanno[0m spinto la Commissione a includere nello scopo della direttiva anche le attività minerarie e le discariche. 
Rule 2
([incidenti], [hanno], [spinto])

-------------------------------
['Che']
['è']
[1;03;32;4mChe[0m ne [1;03;31;4mè[0m d

['cooperazione']
["E'"]
E  stata offerta a Israele la [1;03;32;4mcooperazione[0m in merito a questi progetti e a queste politiche. 
Rule 2
([cooperazione], [E'], [offerta])

-------------------------------
['garantire']
['è']
In primo luogo, per la futura competitività del settore della trasformazione in Europa e per il benessere delle famiglie europee, [1;03;31;4mè[0m essenziale [1;03;32;4mgarantire[0m nel mercato dell’energia una concorrenza priva di distorsioni. 
Rule 15
([garantire], [è])

-------------------------------
[]
['ho']
Naturalmente [1;03;31;4mho[0m votato a favore della relazione. 
Rule 2
([], [ho], [votato])

-------------------------------
['Commissione']
['è']
La [1;03;32;4mCommissione[0m si [1;03;31;4mè[0m sforzata di migliorare la situazione in loco . 
Rule 2
([Commissione], [è], [sforzata])

-------------------------------
['onorevole', 'Harbour']
['parlava']
L  [1;03;32;4monorevole[0m [1;03;32;4mHarbour[0m [1;03;31;4mparlava[0m della possibilità


-------------------------------
['direttiva']
['è']
La [1;03;32;4mdirettiva[0m in questione, tuttavia, non [1;03;31;4mè[0m ancora operativa. 
Rule 16
([direttiva], [è])

-------------------------------
['creare']
['è']
Non [1;03;31;4mè[0m possibile [1;03;32;4mcreare[0m posti di lavoro solo tramite interventi statali. 
Rule 15
([creare], [è])

-------------------------------
[]
['Riprenderei']
[1;03;31;4mRiprenderei[0m la richiesta del relatore quanto al miglioramento delle statistiche, in particolare per valutare puntualmente l efficienza dei programmi di finanziamento. 
Rule 4
([], [Riprenderei])

-------------------------------
['ringraziare']
['Desidero']
[1;03;31;4mDesidero[0m [1;03;32;4mringraziare[0m il relatore ancora una volta, e ringraziare la Commissione per averci permesso di sancire tale principio. 
Rule 4
([], [Desidero])

-------------------------------
[]
['E’']
[1;03;31;4mE’[0m un emendamento volto a proteggere i diritti umani. 
Rule 15
([], [E’])

----

[]
['potrà']
Sul piano politico, la Commissione - e la comunità internazionale nel suo complesso - [1;03;31;4mpotrà[0m aiutare lo Zimbabwe soltanto in stretta collaborazione con un governo legittimo e dotato di un margine di manovra sufficiente a intraprendere gli interventi politici ed economici indispensabili. 
Rule 6
([], [potrà])

-------------------------------
['relazione']
['rende']
La [1;03;32;4mrelazione[0m non [1;03;31;4mrende[0m giustizia a tale situazione. 
Rule 4
([relazione], [rende])

-------------------------------
['miglioramenti']
['sono']
Questi [1;03;32;4mmiglioramenti[0m [1;03;31;4msono[0m dovuti per una parte non trascurabile al contributo del Parlamento europeo alla Convenzione e alla Conferenza intergovernativa. 
Rule 14
([miglioramenti], [sono])

-------------------------------
['giudici']
['possono']
In particolare, ai sensi dell articolo 15 del regolamento n. 1/2003, i [1;03;32;4mgiudici[0m nazionali [1;03;31;4mpossono[0m sollecitare il parere d

['evidenziare']
['desidero']
Onorevoli colleghi, innanzi tutto [1;03;31;4mdesidero[0m [1;03;32;4mevidenziare[0m la qualità della relazione dell onorevole Castex, un testo su un argomento decisivo per il futuro del modello sociale europeo, nonché per la crescita economica nel territori dell Unione europea. 
Rule 4
([], [desidero])

-------------------------------
['effettuare']
['spetta']
Ovviamente, in ultima istanza, [1;03;31;4mspetta[0m però anche agli Stati membri [1;03;32;4meffettuare[0m il lavoro e stanziare le risorse necessarie. 
Rule 4
([], [spetta])

-------------------------------
['programma']
['coincide']
Il [1;03;32;4mprogramma[0m legislativo e di lavoro per il prossimo anno coincide, signori parlamentari, con i grandi cambiamenti per l’Unione europea. 
Rule 4
([programma], [coincide])

-------------------------------
[]
['Ringrazio']
[1;03;31;4mRingrazio[0m la signora Commissario per la sua risposta estesa e assai dettagliata. 
Rule 4
([], [Ringrazio])

------

['comitati']
['sono']
I [1;03;32;4mcomitati[0m aziendali europei e la responsabilità aziendale [1;03;31;4msono[0m strumenti usati per consolidare il partenariato sociale ed egemonizzare il movimento dei lavoratori. 
Rule 15
([comitati], [sono])

-------------------------------
['questo']
['è']
Anche [1;03;32;4mquesto[0m [1;03;31;4mè[0m stato detto molte volte. 
Rule 2
([questo], [è], [detto])

-------------------------------
[]
['commettono']
In Romania si [1;03;31;4mcommettono[0m reati a sfondo etnico, soprattutto ai danni delle donne. 
Rule 7
([], [commettono])

-------------------------------
['simbolo']
['fondono']
Tuttavia, in entrambi i casi [1;03;32;4msimbolo[0m e idolo si [1;03;31;4mfondono[0m in un  immagine e nell  accesso dell  umano in una sfera superiore. 
Rule 7
([simbolo], [fondono])

-------------------------------
['rinviarla']
['è']
Ecco perché [1;03;31;4mè[0m necessario rinviarla. 
Rule 125
([], [è])

-------------------------------
[]
['ringrazio']
V

[]
["E'"]
E  importante anche dal punto di vista di una probabile futura valutazione di prodotti del tabacco meno dannosi per la salute. 
Rule 15
([], [E'])

-------------------------------
['popolazione']
['è']
La [1;03;32;4mpopolazione[0m [1;03;31;4mè[0m vittima di una politica del terrore attuata sia dall esercito indonesiano che dai ribelli del GAM, a partire dal 1976. 
Rule 15
([popolazione], [è])

-------------------------------
['enfasi']
['è']
Per la Grecia, l [1;03;32;4menfasi[0m [1;03;31;4mè[0m posta sulla riorganizzazione del bilancio. 
Rule 14
([enfasi], [è])

-------------------------------
['io']
['ringrazio']
). Signor Presidente, signor Commissario, onorevoli colleghi, anch [1;03;32;4mio[0m [1;03;31;4mringrazio[0m in primo luogo l onorevole Maat. 
Rule 4
([io], [ringrazio])

-------------------------------
['esempi']
['Citerò']
[1;03;31;4mCiterò[0m alcuni esempi. 
Rule 7
([esempi], [Citerò])

-------------------------------
['ringraziare']
['desidero']
Sig

['proposta']
['esorta']
La [1;03;32;4mproposta[0m di risoluzione avanzata dalla commissione per la pesca [1;03;31;4mesorta[0m giustamente la Commissione a presentare un emendamento per migliorare il regolamento e dotarlo della flessibilità necessaria. 
Rule 4
([proposta], [esorta])

-------------------------------
['ambizione']
['è']
L’ambizione ideologica del Trattato, cioè quella di creare uno spazio di libertà, sicurezza e giustizia, naturalmente [1;03;31;4mè[0m quasi divina. 
Rule 16
([ambizione], [è])

-------------------------------
['domanda']
['è']
La mia prima [1;03;32;4mdomanda[0m [1;03;31;4mè[0m duplice. 
Rule 15
([domanda], [è])

-------------------------------
['città']
['ho']
Non [1;03;31;4mho[0m dimenticato la mia visita a Pripyat, una [1;03;32;4mcittà[0m fantasma ancora con le tende alle finestre e qua e là sparpagliati i giocattoli dei bambini. 
Rule 2
([città], [ho], [dimenticato])

-------------------------------
['Unione']
['ha']
L  [1;03;32;4mUnione

ERROR:root:Internal Python error in the inspect module.
Below is the traceback from this internal error.



Rule 7
([Signor, Monde], [intitolava])

-------------------------------
['proroga']
['potrebbe']
Per alcuni farmaci con un basso volume di vendite, la [1;03;32;4mproroga[0m di sei mesi [1;03;31;4mpotrebbe[0m dimostrarsi necessaria allo scopo di recuperare i costi. 
Rule 2
([proroga], [potrebbe], [dimostrarsi])

-------------------------------
[]
['dipendiamo']
relatrice. - Grazie, Signora Presidente, signor Commissario, onorevoli colleghi, nella nostra vita quotidiana [1;03;31;4mdipendiamo[0m sempre più dai trasporti. 
Rule 4
([Grazie], [dipendiamo])

-------------------------------
['modo']
['è']
Il [1;03;32;4mmodo[0m corretto e il solo modo genuino di migliorare la situazione sociale [1;03;31;4mè[0m tramite la crescita economica. 
Rule 15
([modo], [è])

-------------------------------
['cose']
['sono']
Su questo punto le [1;03;32;4mcose[0m non [1;03;31;4msono[0m ancora del tutto chiare. 
Rule 19
([cose], [sono])

-------------------------------
['Trattato']
['è']
Il nuo

TypeError: object of type 'NoneType' has no len()

In [None]:
import matplotlib.pyplot as plt

plt.hist(amount_verbs_per_sentence, bins = 20)


In [None]:
import re

special_idx = []
total_subjs = 0
total_verbs = 0
type_verbs = []

verb_subj_pairs = []
zeros = 0
missed_idx = []

amount_verbs_per_sentence = 0

for i in range(len(lines_it)):
    if i%5000 == 0:
        print('Reached sentence ', str(i))         
    sentence = lines_it[i]
    sentence = re.sub(r"\((.*?)\)", "", sentence)
    sen = nlp(sentence)


    verbs = [str(tok) for tok in sen if ((tok.pos_ == "VERB") or 
                                      (tok.pos_ == "AUX")) and 
                                      ('Inf' not in tok.tag_.split('=') and 
                                      'Part' not in tok.tag_.split('=') and 
                                      'Ger' not in tok.tag_.split('='))]
                                   #(tok.dep_ == "aux") or 
                                    #  (tok.dep_ == "aux:pass") or 
                                    #  (tok.pos_ == "VERB") or 
                                     # (tok.dep_ == "cop") or
                                    #  (tok.dep_ == "ROOT") or
                                     # (tok.dep_ == "acl:relcl") or
                                    #  (tok.dep_ == "aux")]
    #print(verbs)
    copy_verbs = verbs[:]



    subjects = [str(tok) for tok in sen if ( (tok.dep_ == "nsubj") or 
                                             (tok.dep_ == "prop") or
                                            (tok.dep_ == "csubj:pass") or 
                                             (tok.dep_ == "csubj") or 
                                             (tok.pos_ == "PRON" and 
                                              'Prs' not in tok.tag_.split('=')  and 
                                              'obl' not in tok.tag_.split('=') and 
                                              'obj' not in tok.tag_.split('=') and 
                                              'Rel' not in tok.tag_ and
                                              'Ind' not in tok.tag_.split('=') and
                                              'Dem' not in tok.tag_.split('=') and
                                              'Rel nsubj' not in tok.tag_ and
                                               tok.pos_ != 'SCONJ') or 
                                             (tok.dep_ == "nsubj:pass")) and
                                             (tok.dep_ != "xcomp") and
                                             #('Rel' not in tok.tag_) and               
                                             (tok.pos_ != 'SCONJ')]

    #print(subjects) 


    if len(verbs) > 0 and len(subjects) == 0:
        type_verbs.append([str(tok.tag_) for tok in sen if ((tok.pos_ == "VERB") or 
                                      (tok.pos_ == "AUX")) and 
                                      ('Inf' not in tok.tag_.split('=') and 
                                      'Part' not in tok.tag_.split('=') and 
                                      'Ger' not in tok.tag_.split('='))])

    total_subjs += min(len(verbs), len(subjects))
    total_verbs += len(verbs)

    #if len(verbs) > 0 and min(len(verbs), len(subjects)) < len(verbs):
    if len(verbs) == 1 :
        special_idx.append(i)
        amount_verbs_per_sentence += 1
        #print(subjects) 
        #print(verbs) 


        out = ''
        for words in sentence.split():
            for word in words.split('\''):
                word = str(word)
                if word in verbs:
                    verbs.remove(word)
                    out += '\x1b[1;03;31;4m'+ word + '\x1b[0m' + ' '
                elif word in subjects:
                    subjects.remove(word)
                    out += '\x1b[1;03;32;4m'+ word + '\x1b[0m' + ' '
                else:
                    out += (word) + ' '
        #print(out)

        r = SVextractor.find_subjects(sen, copy_verbs, False)
        if len(r) == 0:
            zeros += 1
            missed_idx.append(lines_it[i])
        verb_subj_pairs.append(r)

        #print('\n-------------------------------')



        
        #print('\n-------------------------------')
    
print('Missed: ', str(zeros))
print(str( (1 -total_subjs / total_verbs) * 100 ), '%')

Reached sentence  0
Reached sentence  5000
Reached sentence  10000
Reached sentence  15000
Reached sentence  20000
Reached sentence  25000
Reached sentence  30000
Reached sentence  35000
Reached sentence  40000
Reached sentence  45000
Reached sentence  50000
Reached sentence  55000
Reached sentence  60000
Reached sentence  65000
Reached sentence  70000
Reached sentence  75000
Reached sentence  80000
Reached sentence  85000
Reached sentence  90000
Reached sentence  95000
Reached sentence  100000
Reached sentence  105000
Reached sentence  110000
Reached sentence  115000
Reached sentence  120000
Reached sentence  125000
Reached sentence  130000
Reached sentence  135000
Reached sentence  140000
Reached sentence  145000
Reached sentence  150000
Reached sentence  155000
Reached sentence  160000
Reached sentence  165000
Reached sentence  170000
Reached sentence  175000
Reached sentence  180000
Reached sentence  185000
Reached sentence  190000
Reached sentence  195000
Reached sentence  200000


In [None]:
freq_sub = 0
freq_verbs = 0
for i in verb_subj_pairs:
    if np.size(i) > 0:
        if i[0][0]:
            freq_sub += 1
        freq_verbs += 1
        
print(str( (1 -freq_sub / freq_verbs) * 100 ), '%')

In [None]:
len(missed_idx)

In [None]:
sent = next(sen.sents)
find_tokens(sent, "cop")

In [None]:
plt.hist(data, bins=np.arange(data.min(), data.max()+1))


### Check type of verbs in sentences with missing subjects

The spacy parse returns an output of this type, from which we can extract useful information
VA__Mood=Ind|Number=Plur|Person=1|Tense=Pres|VerbForm=Fin

The meaning of each feature tag can be found here:
https://universaldependencies.org/u/feat/index.html

The verb form is not considere, as all the verbs are finite verbs

In [None]:
conj = []
moods = []
tenses = []
clitics = [] # refer to the clitic pronoun attacched to the verb (guarda'mi')
for verbs_analysis in type_verbs:
    for single_verb in verbs_analysis:

        n = None
        pl = None
        mood = None
        tense = None
        verbform = None
        clitic = "No"
        
        for part in single_verb.split('|'):
            if "Person" in part:
                n = part.split('=')[-1].split(',')[-1]
                
            if "Number" in part:
                pl = part.split('=')[-1]
                
            if "Mood" in part:
                mood = part.split('=')[-1]
                
            if "Tense" in part:
                tense = part.split('=')[-1]
            
            if "V_PC__Clitic" in part:
                clitic = part.split('=')[-1]
                
        if pl == 'Plur':
            if n == "1":
                n = "4"
            elif n == "2":
                n = "5"
            elif n == "3":
                n = "6"
                
        conj.append(n)
        moods.append(mood)
        tenses.append(tense)
        clitics.append(clitic)

        
conj = [x for x in conj if x is not None]
moods = [x for x in moods if x is not None]
tenses = [x for x in tenses if x is not None]
clitics = [x for x in clitics if x is not None]

### Plot

In [None]:
import matplotlib.pyplot as plt

# prepare data
bar_tick_label = np.unique(conj)
bar_height = []
for type_person in bar_tick_label:
    #print('Person type',type_person, ":", conj.count(type_person))
    bar_height.append(conj.count(type_person))
    
bar_label = bar_height
bar_tick_label = ['1st sing', '2nd sing', '3rd sing', '1st plur', '2nd plur', '3rd plur']
bar_x = [1,2,3,4,5,6]

# plot
plt.rcParams["figure.figsize"] = (15,10)


# plot 1
fig, ax = plt.subplots(2, 2)
bar_plot = ax[0, 0].bar(bar_x,bar_height,tick_label=bar_tick_label,  color=(0.52,0.17,0.57, 0.6))

def autolabel(rects):
    for idx,rect in enumerate(bar_plot):
        height = rect.get_height()
        ax[0, 0].text(rect.get_x() + rect.get_width()/2., 0.95*height,
                bar_label[idx],
                ha='center', va='bottom', rotation=0)

autolabel(bar_plot)
ax[0, 0].set_axisbelow(True)
ax[0, 0].grid()
ax[0, 0].set_title('Conjugation')


# plot 2
# prepare data
bar_tick_label = np.unique(moods)
bar_height = []
for type_mood in bar_tick_label:
    #print('Person type',type_person, ":", conj.count(type_person))
    bar_height.append(moods.count(type_mood))
    
bar_label = bar_height
bar_tick_label = ['conditional', 'imperative', 'indicative', 'subjunctive']
bar_x = [1,2,3,4]


bar_plot = ax[1, 0].bar(bar_x,bar_height,tick_label=bar_tick_label,  color=(0.9,0.17,0.57, 0.6))

def autolabel(rects):
    for idx,rect in enumerate(bar_plot):
        height = rect.get_height()
        ax[1, 0].text(rect.get_x() + rect.get_width()/2., 0.95*height,
                bar_label[idx],
                ha='center', va='bottom', rotation=0)

autolabel(bar_plot)
ax[1, 0].set_axisbelow(True)
ax[1, 0].grid()
ax[1, 0].set_title('Mood')

# plot 3
# prepare data
bar_tick_label = np.unique(tenses)
bar_height = []
for type_tenses in bar_tick_label:
    #print('Person type',type_person, ":", conj.count(type_person))
    bar_height.append(tenses.count(type_tenses))
    
bar_label = bar_height
bar_tick_label = ['Future', 'Imperfect', 'Past', 'Present']
bar_x = [1,2,3,4]



bar_plot = ax[0, 1].bar(bar_x,bar_height,tick_label=bar_tick_label,  color=(0.9,0.9,0.57, 0.6))

def autolabel(rects):
    for idx,rect in enumerate(bar_plot):
        height = rect.get_height()
        ax[0, 1].text(rect.get_x() + rect.get_width()/2., 0.95*height,
                bar_label[idx],
                ha='center', va='bottom', rotation=0)

autolabel(bar_plot)
ax[0, 1].set_axisbelow(True)
ax[0, 1].grid()
ax[0, 1].set_title('Tense')

# plot 4

# prepare data
bar_tick_label = np.unique(clitics)
bar_height = []
for type_cl in bar_tick_label:
    #print('Person type',type_person, ":", conj.count(type_person))
    bar_height.append(clitics.count(type_cl))
    
bar_label = bar_height
bar_tick_label = ['No', 'Yes']
bar_x = [1,2]

bar_plot = ax[1, 1].bar(bar_x,bar_height,tick_label=bar_tick_label,  color=(0.1,0.6,0.57, 0.6))

def autolabel(rects):
    for idx,rect in enumerate(bar_plot):
        height = rect.get_height()
        ax[1, 1].text(rect.get_x() + rect.get_width()/2., 0.95*height,
                bar_label[idx],
                ha='center', va='bottom', rotation=0)

autolabel(bar_plot)
ax[1, 1].set_axisbelow(True)
ax[1, 1].grid()
ax[1, 1].set_title('Clitics')

# save and show
fig.suptitle('Analysis of verbs of null subject sentences')

plt.savefig("plot_ALL.png", bbox_inches='tight')
plt.show()




In [79]:

special_idx = []
total_subjs = 0
total_verbs = 0

type_verbs = []

sentences_null = 0
senteces_null_verbs = 0

for i in range(len(lines_it)):
    if i%5000 == 0:
        print('Reached sentence ', str(i))
    sentence = lines_it[i]
    sen = nlp(sentence)
    
    verbs = []
    subjects = []
    
    verbs = [str(tok) for tok in sen if ((tok.pos_ == "VERB") or 
                                          (tok.pos_ == "AUX")) and 
                                          ('Inf' not in tok.tag_.split('=') and 
                                          'Part' not in tok.tag_.split('=') and 
                                          'Ger' not in tok.tag_.split('='))]
                                       #(tok.dep_ == "aux") or 
                                        #  (tok.dep_ == "aux:pass") or 
                                        #  (tok.pos_ == "VERB") or 
                                         # (tok.dep_ == "cop") or
                                        #  (tok.dep_ == "ROOT") or
                                         # (tok.dep_ == "acl:relcl") or
                                        #  (tok.dep_ == "aux")]
    




    subjects = [str(tok) for tok in sen if ( (tok.dep_ == "nsubj") or 
                                                 (tok.dep_ == "prop") or
                                                 (tok.dep_ == "csubj") or 
                                                 (tok.pos_ == "PRON" and 
                                                  'Prs' not in tok.tag_.split('=')  and 
                                                  'obl' not in tok.tag_.split('=') and 
                                                  'obj' not in tok.tag_.split('=') and 
                                                  'Rel' not in tok.tag_ and
                                                  'Ind' not in tok.tag_.split('=') and
                                                  'Dem' not in tok.tag_.split('=') and
                                                  'Rel nsubj' not in tok.tag_ and
                                                   tok.pos_ != 'SCONJ') or 
                                                 (tok.dep_ == "nsubj:pass")) and
                                                 (tok.dep_ != "xcomp") and
                                                 ('Rel' not in tok.tag_) and               
                                                 (tok.pos_ != 'SCONJ')]
    
    if len(verbs) > 0 and len(subjects) == 0:
        special_idx.append(i)
        #print(verbs) 
        senteces_null_verbs += len(verbs)
        sentences_null += 1
        type_verbs.append([str(tok.tag_) for tok in sen if ((tok.pos_ == "VERB") or 
                                      (tok.pos_ == "AUX")) and 
                                      ('Inf' not in tok.tag_.split('=') and 
                                      'Part' not in tok.tag_.split('=') and 
                                      'Ger' not in tok.tag_.split('='))])
        


    total_subjs += min(len(verbs), len(subjects))
    total_verbs += len(verbs)



    
print(str( (1 -total_subjs / total_verbs) * 100 ), '%')
print(str(sentences_null), ' senteces have no subjects, for a total of ')

Reached sentence  0
Reached sentence  5000
Reached sentence  10000
Reached sentence  15000
Reached sentence  20000
Reached sentence  25000
Reached sentence  30000
Reached sentence  35000
Reached sentence  40000
Reached sentence  45000
Reached sentence  50000
Reached sentence  55000
Reached sentence  60000
Reached sentence  65000
Reached sentence  70000
Reached sentence  75000
Reached sentence  80000
Reached sentence  85000
Reached sentence  90000


KeyboardInterrupt: 

In [92]:
matched_indices_it = []

matched_indices_sp = []


for j in special_idx: 
    print(lines_en_i[j])
    print('es: ', lines_en_i[j])
    if lines_en_i[j]  == lines_en_i[j] :
        print(len(matched_indices_sp))
        print(lines_it[j])
        print('es: ', lines_sp[i])
        matched_indices_sp.append(j)
        matched_indices_it.append(j)
    #print('-------------')

I declare resumed the session of the European Parliament adjourned on Friday 17 December 1999 , and I would like once again to wish you a happy new year in the hope that you enjoyed a pleasant fes@@ tive period .

es:  I declare resumed the session of the European Parliament adjourned on Friday 17 December 1999 , and I would like once again to wish you a happy new year in the hope that you enjoyed a pleasant fes@@ tive period .

0
Dichiaro ripresa la sessione del Parlamento europeo , interrotta venerdì 17 dicembre e rinnovo a tutti i miei migliori auguri nella speranza che abbiate trascorso delle buone vacanze .

es:  Reanudación del período de sesiones

Please rise , then , for this minute &apos; s silence .

es:  Please rise , then , for this minute &apos; s silence .

1
Vi invito pertanto ad alz@@ arvi in piedi per osservare appunto un minuto di silenzio .

es:  Reanudación del período de sesiones

Madam President , on a point of order .

es:  Madam President , on a point of order .

487
Non condivido queste preoccupazioni .

es:  Reanudación del período de sesiones

Mrs Wallström has the floor on behalf of the Commission .

es:  Mrs Wallström has the floor on behalf of the Commission .

488
Ha facoltà , a nome della Commissione , la signora Commissario Wallström

es:  Reanudación del período de sesiones

Thank you , Mr Bowe , for your question .

es:  Thank you , Mr Bowe , for your question .

489
La ringrazio , onorevole Bowe , per la sua interrogazione .

es:  Reanudación del período de sesiones

This is the most detailed and comprehensive report to date on the environmental effects of the Kosovo conflict and I recommend it to those who have not yet studied it .

es:  This is the most detailed and comprehensive report to date on the environmental effects of the Kosovo conflict and I recommend it to those who have not yet studied it .

490
Si tratta del rapporto più dettagliato e più esauriente finora elaborato sulle conseguenze per l &apos; ambiente del conflitt

es:  Obviously , I cannot adopt a stance on this special case and on the particular product which has been mentioned here , but I shall go directly back and see what I can obtain in the way of information about this particular case .

993
E &apos; chiaro che non posso prendere posizione nei confronti dello specifico caso del prodotto qui menzionato , ma , non appena rientr@@ erò , provved@@ erò a far@@ mi trasmettere informazioni al riguardo .

es:  Reanudación del período de sesiones

I believe we can learn something from this .

es:  I believe we can learn something from this .

994
Credo che se ne possa trarre un insegnamento .

es:  Reanudación del período de sesiones

I would like to draw your attention to something Mr Go@@ od@@ will asked , that is to the connections we make between the precautionary principle and the world beyond the European Union .

es:  I would like to draw your attention to something Mr Go@@ od@@ will asked , that is to the connections we make between the pr


These concerns must be looked at while setting up the programmes .

es:  These concerns must be looked at while setting up the programmes .

1492
Si tratta di preoccupazioni da tenere presenti nella fase di concezione dei programmi .

es:  Reanudación del período de sesiones

I now turn to the controversial issue of asylum-@@ seekers and refugees .

es:  I now turn to the controversial issue of asylum-@@ seekers and refugees .

1493
Passo ora alla controversa questione dei richiedenti asilo e dei profughi .

es:  Reanudación del período de sesiones

It is only fair and right for them to be able to access EQ@@ UAL in the same way as everyone else .

es:  It is only fair and right for them to be able to access EQ@@ UAL in the same way as everyone else .

1494
E &apos; assolutamente giusto e sacros@@ anto che possano beneficiare di EQ@@ UAL come tutti gli altri .

es:  Reanudación del período de sesiones

Thank you , Mr President . Ladies and gentlemen , with the LEADER report , rural de


es:  Reanudación del período de sesiones

I can confirm , and thank you for having asked me about this , that we will use all the most modern means , television in particular , to broadcast our public debates in each country and even across Europe .

es:  I can confirm , and thank you for having asked me about this , that we will use all the most modern means , television in particular , to broadcast our public debates in each country and even across Europe .

1952
Nel ringraziarla per avermi interpel@@ lato su questo punto , le confermo che intendiamo utilizzare tutti i mezzi moderni e in particolare la televisione per rit@@ ras@@ mettere i nostri dibattiti pubblici nei vari paesi e addirittura su scala europea .

es:  Reanudación del período de sesiones

However , I believe we must also make the effort to get as close as possible to the people .

es:  However , I believe we must also make the effort to get as close as possible to the people .

1953
Ma credo che si debba tentare di a


However , apart from these principles , there is the consideration that water , as a common resource , cannot be subjected to the rules of the market .

es:  However , apart from these principles , there is the consideration that water , as a common resource , cannot be subjected to the rules of the market .

2437
Ma al di là di questi principi , bisogna considerare l &apos; acqua come un bene comune che non può sottos@@ tare alle regole del mercato .

es:  Reanudación del período de sesiones

This means that the neoliberal model now re@@ ign@@ s in the field of water .

es:  This means that the neoliberal model now re@@ ign@@ s in the field of water .

2438
Si applica quindi anche all &apos; acqua il modello neoliberale imper@@ ante .

es:  Reanudación del período de sesiones

We have voted against Amendments Nos 25 and 72 which would require the achievement of minimal an@@ thro@@ pro@@ gen@@ ic pollution in all groundwater .

es:  We have voted against Amendments Nos 25 and 72 which

2934
Non bisogna dimenticare che è proprio il capitale umano l &apos; elemento basilare che fa funzionare un &apos; impresa assicurando buoni risultati .

es:  Reanudación del período de sesiones

I , like all Members present , am sadd@@ ened by this loss of jobs . Equally , I am sadd@@ ened by the announcement made by Go@@ od@@ year that has prompted this resolution .

es:  I , like all Members present , am sadd@@ ened by this loss of jobs . Equally , I am sadd@@ ened by the announcement made by Go@@ od@@ year that has prompted this resolution .

2935
Come tutti i deputati presenti , sono add@@ ol@@ orato per questi tagli occupazionali e sono ugualmente dis@@ piaciuto per l &apos; annuncio fatto da Go@@ od@@ year , che ha sollecitato questa risoluzione .

es:  Reanudación del período de sesiones

Mr President , I will not use my speaking time by going into the individual cases debated here today .

es:  Mr President , I will not use my speaking time by going into the individual cases 

3412
Sono favorevole allo stanziamento di fondi per i programmi nazionali , anche considerando le disposizioni da osservare in relazione ai programmi minimi .

es:  Reanudación del período de sesiones

I agree with the proposals that information provided to international organisations should also be made available to the Commission .

es:  I agree with the proposals that information provided to international organisations should also be made available to the Commission .

3413
Mi trovo concor@@ de con la proposta di fornire anche alla Commissione le informazioni destinate alle organizzazioni internazionali .

es:  Reanudación del período de sesiones

But to enligh@@ ten the decision makers , let us practise honest science , without the ulteri@@ or mo@@ tive of having the European Union finance excuses to destroy our fishing boats . For if we must preserve the sho@@ als of fish , we must also preserve the ports and the fishermen .

es:  But to enligh@@ ten the decision makers , let us p

es:  Do we want to play a leading role in this globalisation ?

3899
Vogliamo essere leader di questa globalizzazione ?

es:  Reanudación del período de sesiones

Do we want behave responsibly in respect of developing countries and the Third World in this matter ?

es:  Do we want behave responsibly in respect of developing countries and the Third World in this matter ?

3900
Vogliamo attu@@ arla in maniera responsabile nei confronti dei paesi sottos@@ vilup@@ p@@ ati e del Terzo mondo ?

es:  Reanudación del período de sesiones

There is an obvious need for a collective conscience which will take care of the whole world and not just our own particular interests .

es:  There is an obvious need for a collective conscience which will take care of the whole world and not just our own particular interests .

3901
Si fa sentire la necessità di una coscienza globale di prend@@ erci cura di tutto il mondo , non solo del nostro interesse particolare .

es:  Reanudación del período de sesiones


4412
Pertanto da tale consenso di base si deve far nascere una coalizione di tutti i democratici contro ogni forma di estremismo , non solo di destra , ma anche di sinistra .

es:  Reanudación del período de sesiones

I agree with Mr Martínez when he stressed the importance of providing adequate protection and support for victims .

es:  I agree with Mr Martínez when he stressed the importance of providing adequate protection and support for victims .

4413
Sono d &apos; accordo con l &apos; onorevole Martínez , che ha posto in rilievo l &apos; importanza di offrire una protezione e un sostegno adeguati alle vittime .

es:  Reanudación del período de sesiones

Allow me to take this opportunity to express my full recognition of the major humanitarian work which the International Red Cross and other humanitarian organisations carry out in regard both to spreading knowledge of the humanitarian principles as expressed in the Geneva Conventions and to providing aid to war victims throughou


es:  A few weeks ago I visited Mexico for a number of reasons , one of which was to find out what Mex@@ ic@@ ans think of the new framework for relations between their country and the European Union , announced with great fan@@ fare in most of the media .

4895
Po@@ che settimane fa mi sono recato in Messico per vari motivi e , fra l &apos; altro , per conoscere l &apos; opinione dei messic@@ ani sul nuovo quadro dei rapporti fra il loro paese e l &apos; Unione europea , annunciato con grande enfasi da molti mass@@ -@@ media .

es:  Reanudación del período de sesiones

After analysing what I saw , read and heard during my stay in the Republic of the United Mexican States , I came to the same conclusion as Mrs Fer@@ rer , author of the report we are debating today , and I congratulate her publicly . This is the best agreement the European Union has yet signed to promote trade and investment and it will benefit both parties .

es:  After analysing what I saw , read and heard during my s

5395
Signor Presidente , signor Commissario , condivido appieno le preoccupazioni esposte dagli oratori che mi hanno preceduto .

es:  Reanudación del período de sesiones

But I regret I am not in a position to read the mind of the S@@ V@@ C .

es:  But I regret I am not in a position to read the mind of the S@@ V@@ C .

5396
Come ho detto , temo però di non poter leggere i pensi@@ eri del comitato .

es:  Reanudación del período de sesiones

Mrs Jackson , on behalf of the Committee on the Environment , Public Health and Consumer Policy , on the h@@ ush@@ k@@ it issue ( B5-00@@ 20 / 2000 ) .

es:  Mrs Jackson , on behalf of the Committee on the Environment , Public Health and Consumer Policy , on the h@@ ush@@ k@@ it issue ( B5-00@@ 20 / 2000 ) .

5397
Jackson , a nome della commissione per l &apos; ambiente , la sanità pubblica e la politica dei consumatori , sulla questione degli aerei mun@@ iti di &quot; h@@ ush@@ k@@ its &quot; ( dispositivi anti@@ rumore ) ( B5-00@@ 20 / 2000 ) .


IOPub data rate exceeded.
The notebook server will temporarily stop sending output
to the client in order to avoid crashing it.
To change this limit, set the config variable
`--NotebookApp.iopub_data_rate_limit`.

Current values:
NotebookApp.iopub_data_rate_limit=1000000.0 (bytes/sec)
NotebookApp.rate_limit_window=3.0 (secs)




es:  We have put forward a number of proposals .

8950
Abbiamo presentato una serie di proposte .

es:  Reanudación del período de sesiones

We want to devol@@ ve more responsibility to delegations and , where possible , to national authorities in the field .

es:  We want to devol@@ ve more responsibility to delegations and , where possible , to national authorities in the field .

8951
Vogliamo devol@@ vere maggiori responsabilità alle delegazioni e , ove possibile , alle autorità nazionali in loco .

es:  Reanudación del período de sesiones

We have proposed special treatment for the pre-accession strategy : humanitarian assistance and macro-financial assistance with fully integrated management .

es:  We have proposed special treatment for the pre-accession strategy : humanitarian assistance and macro-financial assistance with fully integrated management .

8952
Abbiamo proposto un trattamento speciale per la strategia di preadesione : assistenza umanitaria e assistenza macrofinan

es:  Can something be done about this ?

9388
Non si può fare qualcosa ?

es:  Reanudación del período de sesiones

Mr President , the Group of the European Liberal , Democrat and Reform Party welcomes the Commission &apos; s proposal , which will lead to increased public scrutiny of public undertakings and to increased competition .

es:  Mr President , the Group of the European Liberal , Democrat and Reform Party welcomes the Commission &apos; s proposal , which will lead to increased public scrutiny of public undertakings and to increased competition .

9389
Signor Presidente , il gruppo ELDR sal@@ uta con favore la proposta della Commissione che comporterà un aumento della trasparenza nelle imprese pubbliche e un rafforzamento della concorrenza .

es:  Reanudación del período de sesiones

These are very reasonable demands .

es:  These are very reasonable demands .

9390
Si tratta di richieste del tutto legittime .

es:  Reanudación del período de sesiones

Mr President , Commissio

es:  Reanudación del período de sesiones

Mr President , I want to add my voice to those Members calling for the swift passage of this legislation through Parliament .

es:  Mr President , I want to add my voice to those Members calling for the swift passage of this legislation through Parliament .

9858
Signor Presidente , vorrei unire la mia voce a quella dei deputati che richiedono la rapida approvazione di questo provvedimento legislativo da parte del Parlamento .

es:  Reanudación del período de sesiones

I want to thank the rapporteur for incorporating the amendment by the Committee on Legal Affairs to extend the proposal to cover institutional racism .

es:  I want to thank the rapporteur for incorporating the amendment by the Committee on Legal Affairs to extend the proposal to cover institutional racism .

9859
Vorrei ringraziare la relatrice per aver incluso l &apos; emendamento della commissione giuridica volto ad affrontare il razzismo istituzionale .

es:  Reanudación del 

This is not how we treat consumers of hero@@ in or coc@@ ain@@ e .

es:  This is not how we treat consumers of hero@@ in or coc@@ ain@@ e .

10322
Non è così che trattiamo i consumatori di ero@@ ina o di coc@@ ain@@ a .

es:  Reanudación del período de sesiones

It is necessary to ensure that tobacco products are hard to come by and to warn the rest of the users about the risks as best we can .

es:  It is necessary to ensure that tobacco products are hard to come by and to warn the rest of the users about the risks as best we can .

10323
Dobbiamo rendere i prodotti del tabacco difficili da reperire e avver@@ tire al massimo i restanti consumatori dei rischi a cui vanno incontro .

es:  Reanudación del período de sesiones

From the public health point of view it is necessary that we no longer take the interests of tobacco producers and sel@@ lers into account .

es:  From the public health point of view it is necessary that we no longer take the interests of tobacco producers and sel@

es:  It has not yet been mentioned here , Commissioner , but I would like to raise the question nevertheless .

10823
Signor Commissario , le voglio fare una domanda su un punto che non è stato ancora toccato .

es:  Reanudación del período de sesiones

Will the European democratic parties which in future appoint themselves as European parties only be supported if they stand for the values on which Europe is built ?

es:  Will the European democratic parties which in future appoint themselves as European parties only be supported if they stand for the values on which Europe is built ?

10824
I partiti democratici europei che in futuro si costituiranno come &quot; partiti europei &quot; saranno finanziati solo e soltanto se si riconoscer@@ anno nei valori fond@@ anti dell &apos; Europa ?

es:  Reanudación del período de sesiones

This seems a rhetor@@ ical question to me .

es:  This seems a rhetor@@ ical question to me .

10825
A mio parere , porsi questa domanda significa nel contempo

es:  Initi@@ ally , the Commission &apos; s reaction was low-@@ key , in the form of a recommendation . It subsequently took a tougher line with a proposal for binding rules .

11308
La Commissione re@@ ag@@ ì a tale nostra richiesta dapprima più mor@@ bid@@ amente con una raccomandazione , poi più decisamente con una proposta di norme vincolanti .

es:  Reanudación del período de sesiones

We have now provided the framework ; all that is left now is the transposition .

es:  We have now provided the framework ; all that is left now is the transposition .

11309
Ora è tutto pronto , resta solo da tradurre le norme in pratica .

es:  Reanudación del período de sesiones

Let us hope , together with the thousands of SMEs in whose interest it is for the Member States to respect the transposition period , that our Member States act more swiftly . In fact , let us encourage them to do so .

es:  Let us hope , together with the thousands of SMEs in whose interest it is for the Member States t


es:  Reanudación del período de sesiones

I am certain that this will guarantee better operating conditions for the European Monitoring Centre and increase the potential for taking integrated and efficient decisions .

es:  I am certain that this will guarantee better operating conditions for the European Monitoring Centre and increase the potential for taking integrated and efficient decisions .

11812
Sono certa che così si potranno garantire migliori condizioni per l &apos; attività dell &apos; Osservatorio e per l &apos; adozione di decisioni più complete ed efficaci .

es:  Reanudación del período de sesiones

I should like to say that the definition of a drug@@ s-@@ free society is a good one .

es:  I should like to say that the definition of a drug@@ s-@@ free society is a good one .

11813
Tengo a dire che la definizione di &quot; società senza droga &quot; è una buona definizione .

es:  Reanudación del período de sesiones

It is an aggressive approach I should like to see m

With regard to the budget for the period 2000-@@ 2004 , which was the main issue at stake , we would clearly have preferred to agree on an amount closer to EUR 850 million - the sum proposed by the European Parliament - than the EUR 6@@ 13 million set by the Commission and the Council .

es:  With regard to the budget for the period 2000-@@ 2004 , which was the main issue at stake , we would clearly have preferred to agree on an amount closer to EUR 850 million - the sum proposed by the European Parliament - than the EUR 6@@ 13 million set by the Commission and the Council .

12331
Per quanto concerne il bilancio di riferimento per il periodo 2000-@@ 2004 , che era la questione principale in sospeso , ovviamente avremmo preferito che si fosse raggiunto un accordo più vicino agli 850 milioni di euro , valore proposto dal Parlamento europeo , piuttosto che i 6@@ 13 milioni di euro fissati dalla Commissione e dal Consiglio .

es:  Reanudación del período de sesiones

I am especially satis

12830
Signor Presidente , non essendo abitu@@ ato a parlare per due minuti sono un po &apos; preoccupato di non riuscire a impiegare tutto il tempo a mia disposizione , ma ved@@ rò di impegn@@ armi al massimo .

es:  Reanudación del período de sesiones

Polit@@ ically it is clearly intended to undermine the nation state , and thus it threatens democracy in Europe .

es:  Polit@@ ically it is clearly intended to undermine the nation state , and thus it threatens democracy in Europe .

12831
Dal punto di vista politico , è volto a minare lo Stato nazionale e quindi minaccia la democrazia in Europa .

es:  Reanudación del período de sesiones

This is not about information , this is about propaganda .

es:  This is not about information , this is about propaganda .

12832
Qui non si tratta di informazione , qui si tratta di propaganda .

es:  Reanudación del período de sesiones

The very idea is absurd .

es:  The very idea is absurd .

12833
La sola idea che possa essere così ha dell &apo

13340
Insieme al nostro presidente , onorevole G@@ em@@ elli , stiamo cercando di rendere la nostra commissione più efficace e più efficiente nel lavoro che svolge a nome dei cittadini .

es:  Reanudación del período de sesiones

I would also like to thank the Commission for the support we have received in the Petitions Committee . That has been very good and very effective through the year .

es:  I would also like to thank the Commission for the support we have received in the Petitions Committee . That has been very good and very effective through the year .

13341
Infine vorrei ringraziare la Commissione per il sostegno offerto alla nostra commissione , un sostegno valido e costante per tutto l &apos; anno .

es:  Reanudación del período de sesiones

I hope under the French Presidency we will get the same support from the Council but that unfortunately has been lacking in the past .

es:  I hope under the French Presidency we will get the same support from the Council but that unfo

es:  We have tried to include such circumstances by means of Amendment 16 .

13823
Abbiamo tentato di tenerne conto con l &apos; emendamento n . 16 .

es:  Reanudación del período de sesiones

These steps are absolutely necessary , I believe , to det@@ er environmental cro@@ o@@ ks and prevent irresponsible actions which cause serious environmental damage .

es:  These steps are absolutely necessary , I believe , to det@@ er environmental cro@@ o@@ ks and prevent irresponsible actions which cause serious environmental damage .

13824
Si tratta di passi del tutto necessari , a mio avviso , per impedire sc@@ em@@ pi ambientali e azioni irresponsabili in grado di causare un danno ecologico grave .

es:  Reanudación del período de sesiones

I am in favour of the Framework Decision and of the amendments which have been tabled .

es:  I am in favour of the Framework Decision and of the amendments which have been tabled .

13825
Val@@ uto positivamente la decisione quadro e gli emendamenti ch

I am standing firm on this : by the end of 2001 we should have EUR 800 million more at our disposal for the Western Balkans than we do at present .

es:  I am standing firm on this : by the end of 2001 we should have EUR 800 million more at our disposal for the Western Balkans than we do at present .

14324
Ribadisco : entro la fine del 2001 dovremmo disporre di 800 milioni di euro in più dell &apos; importo attuale per i Balcani .

es:  Reanudación del período de sesiones

Another word on foreign policy : the Budget Council has cut the funding for the Mediterranean programme - which is also something you mentioned - by EUR 150 million .

es:  Another word on foreign policy : the Budget Council has cut the funding for the Mediterranean programme - which is also something you mentioned - by EUR 150 million .

14325
Ancora un commento sulla politica estera : il Consiglio &quot; bilancio &quot; ha tagli@@ ato di 150 milioni i fondi per il programma Mediterraneo , come è stato già detto .


IOPub data rate exceeded.
The notebook server will temporarily stop sending output
to the client in order to avoid crashing it.
To change this limit, set the config variable
`--NotebookApp.iopub_data_rate_limit`.

Current values:
NotebookApp.iopub_data_rate_limit=1000000.0 (bytes/sec)
NotebookApp.rate_limit_window=3.0 (secs)



In [93]:
print(len(matched_indices_it))
print(len(matched_indices_sp))

17400
17400


In [94]:
special_it = []
special_sp = []

special_en_s = []
special_en_i = []

selected_special_idx = []

i = 0
while len(special_sp) != 1000:
    if i not in idx_val and i not in idx_test:
        if not re.search(r"^\s+$", lines_it[i]) and not re.search(r"^\s+$", lines_sp[i]) and not re.search(r"^\s+$", lines_en_i[i]) and not re.search(r"^\s+$", lines_en_s[i]):
        #print(lines_sp[matched_indices_sp[i]])
        #print(lines_it[matched_indices_it[i]])
        #print('-------------------')

            special_sp.append(lines_sp[matched_indices_sp[i]])
            special_en_s.append(lines_en_s[matched_indices_sp[i]])

            special_it.append(lines_it[matched_indices_it[i]])
            special_en_i.append(lines_en_i[matched_indices_it[i]])
            
            selected_special_idx.append(i)
            
    i += 1


In [95]:
special_idx_final = []

for i in selected_special_idx:
    special_idx_final.append(matched_indices_it[i])

# Create training datasets

Excluding the other sentences extracted

In [96]:
train_en_i = []
train_en_s = []
train_it = []
train_sp = []


for i in range(len(lines_sp)):
    if i not in matched_indices_sp and i not in idx_val and i not in idx_test and i not in special_idx_final:
        if not re.search(r"^\s+$", lines_sp[i])  and not re.search(r"^\s+$", lines_en_s[i]):
            train_sp.append(lines_sp[i])
            train_en_s.append(lines_en_s[i])
        
for i in range(len(lines_it)):
    if i not in matched_indices_it and i not in idx_val and i not in idx_test and i not in special_idx_final:
        if not re.search(r"^\s+$", lines_it[i])  and not re.search(r"^\s+$", lines_en_i[i]):
            train_it.append(lines_it[i])
            train_en_i.append(lines_en_i[i])


## 4. Save 

### Italian

In [97]:
# validation dataset
str_validation_it = ''
for i in validation_it:
    str_validation_it += i
    
text_file = open('../data/it-en/valid.it', "w")
text_file.write(str_validation_it) 
text_file.close()

str_validation_en_i = ''
for i in validation_en_i:
    str_validation_en_i += i
    

text_file = open('../data/it-en/valid.en', "w")
text_file.write(str_validation_en_i) 
text_file.close()

str_special_it = ''
for i in special_it:
    str_special_it += i
    

# special validation dataset
text_file = open('../data/it-en/valid_special.it', "w")
text_file.write(str_special_it) 
text_file.close()

str_special_en_i = ''
for i in special_en_i:
    str_special_en_i += i
    

text_file = open('../data/it-en/valid_special.en', "w")
text_file.write(str_special_en_i) 
text_file.close()


# test dataset

str_test_it = ''
for i in test_it:
    str_test_it += i
    

text_file = open('../data/it-en/test.it', "w")
text_file.write(str_test_it) 
text_file.close()

str_test_en_i = ''
for i in test_en_i:
    str_test_en_i += i
    


text_file = open('../data/it-en/test.en' , "w")
text_file.write(str_test_en_i) 
text_file.close()

# training dataset
str_train_it = ''
for i in train_it:
    str_train_it += i
    


text_file = open('../data/it-en/train.it', "w")
text_file.write(str_train_it) 
text_file.close()

str_train_en_i = ''
for i in train_en_i:
    str_train_en_i += i
    
text_file = open('../data/it-en/train.en' , "w")
text_file.write(str_train_en_i) 
text_file.close()

### Spanish

In [98]:
# validation dataset
str_validation_sp = ''
for i in validation_sp:
    str_validation_sp += i
    
text_file = open('../data/sp-en/valid.sp', "w")
text_file.write(str_validation_sp) 
text_file.close()

str_validation_en_s = ''
for i in validation_en_s:
    str_validation_en_s += i
    

text_file = open('../data/sp-en/valid.en', "w")
text_file.write(str_validation_en_s) 
text_file.close()

str_special_sp = ''
for i in special_sp:
    str_special_sp += i
    

# special validation dataset
text_file = open('../data/sp-en/valid_special.sp', "w")
text_file.write(str_special_sp) 
text_file.close()

str_special_en_s = ''
for i in special_en_s:
    str_special_en_s += i
    

text_file = open('../data/sp-en/valid_special.en', "w")
text_file.write(str_special_en_s) 
text_file.close()


# test dataset

str_test_sp = ''
for i in test_sp:
    str_test_sp += i
    

text_file = open('../data/sp-en/test.sp', "w")
text_file.write(str_test_sp) 
text_file.close()

str_test_en_s = ''
for i in test_en_s:
    str_test_en_s += i
    


text_file = open('../data/sp-en/test.en' , "w")
text_file.write(str_test_en_s) 
text_file.close()

# training dataset
str_train_sp = ''
for i in train_sp:
    str_train_sp += i
    


text_file = open('../data/sp-en/train.sp', "w")
text_file.write(str_train_sp) 
text_file.close()

str_train_en_s = ''
for i in train_en_s:
    str_train_en_s += i
    
text_file = open('../data/sp-en/train.en' , "w")
text_file.write(str_train_en_s) 
text_file.close()

In [99]:
print("Spanish:")
print("Training data sentences: ", str(len(train_sp)), str(len(train_en_s)))
print("Test data sentences: ", str(len(test_sp)), str(len(test_en_s)))
print("Validation data sentences: ", str(len(validation_sp)), str(len(validation_en_s)))
print("Special data sentences: ", str(len(special_sp)), str(len(special_en_s)))

print()
print("Italian:")
print("Training data sentences: ", str(len(train_it)), str(len(train_en_i)))
print("Test data sentences: ", str(len(test_it)), str(len(test_en_i)))
print("Validation data sentences: ", str(len(validation_it)), str(len(validation_en_i)))
print("Special data sentences: ", str(len(special_it)), str(len(special_en_i)))

Spanish:
Training data sentences:  1941326 1941326
Test data sentences:  1000 1000
Validation data sentences:  1000 1000
Special data sentences:  1000 1000

Italian:
Training data sentences:  1881349 1881349
Test data sentences:  1000 1000
Validation data sentences:  1000 1000
Special data sentences:  1000 1000


# Load the tokenized corpus (with subword unit) for splitting

In [75]:
path_lang_en_i = '../corpora/it-en/corpus.clean.bpe.32000.en'
path_lang_it = '../corpora/it-en/corpus.clean.bpe.32000.it'

lang_en_i = open(path_lang_en_i, "r")
lang_it = open(path_lang_it, "r")

print("Italian parallel corpus loaded:")
lines_en_i = lang_en_i.readlines()
lines_it = lang_it.readlines()

print(path_lang_en_i.split('/')[-1] + ' ' +  str(len(lines_en_i)) + ' lines')
print(path_lang_it.split('/')[-1] + ' ' +  str(len(lines_it)) + ' lines')

Italian parallel corpus loaded:
corpus.clean.bpe.32000.en 1900728 lines
corpus.clean.bpe.32000.it 1900728 lines


In [76]:
# italian 
validation_it = []
test_it = []
validation_en_i = []
test_en_i = []

for i in idx_val:
    validation_it.append(lines_it[i])
    validation_en_i.append(lines_en_i[i])
    
for i in idx_test:
    test_it.append(lines_it[i])
    test_en_i.append(lines_en_i[i])

IndexError: list index out of range