# Perturbazione di testo

## Import vari
Altrimenti non funzia niente

In [1]:
from itertools import chain
from nltk import word_tokenize
from nltk.tokenize.treebank import TreebankWordDetokenizer

## utils.py
Tutti gli usi di random sono incapsulati in questo file nel caso ci fosse la necessità di cambiare fonte random.

In [2]:
import random


# Return True with a probability of prob
def probability_boolean(prob):
    return random.random() < prob

# Trova tuttle le sottosequenze di una sub-stringa in un'altra stringa
def find_all(a_str, sub):
    start = 0
    while True:
        start = a_str.find(sub, start)
        if start == -1:
            return
        yield start
        start += len(sub)  # use start += 1 to find overlapping matches


def randint(a, b):
    return random.randint(a, b)


def shuffle(lst):
    random.shuffle(lst)


def random_choice(lst):
    return random.choice(lst)


## Overview
Lo script è composto da tre classi principali:
 - SuperPipeline
 - Pipeline
 - PerturbationModule
 
Una pipeline è un insieme di moduli che vanno ad eseguire delle perturbazioni su un testo input. Ogni modulo aggiunto ad una pipeline è caratterizato da una probabilità di perturbazione. <br>
 E' possibile combinare più pipeline in una superpipeline, che applica pipeline diverse a segmenti diversi del testo in put.

### SuperPipeline
Una SuperPipeline non fa altro che applicare le trasformazioni contenute nelle sue subpipeline. Ogni subpipeline ha un peso associato: maggiore è il peso, maggiore è la probabilità (rispetto alle altre subpipeline) che la subpipeline venga usata per un certo segmento di input.

In [3]:
class SuperPipeline:
    def __init__(self):
        self.sub_pipelines = []
        self.sub_pipelines_weights = []

    def addPipeline(self, pipeline, weight=1):
        self.sub_pipelines.append(pipeline)
        index = len(self.sub_pipelines) - 1
        self.sub_pipelines_weights.extend([index]*weight)

    # Input is a DIVIDED list of strings
    def run(self, input):
        return [self.sub_pipelines[random_choice(self.sub_pipelines_weights)].run(i) for i in input]

### Pipeline
Una Pipeline è un insieme di moduli in sequenza che applicano perturbazioni al testo. L'ordine dei moduli è rilevante ai fini del risultato finale.

In [4]:
class Pipeline:
    def __init__(self):
        self.modules = []

    def addModule(self, module):
        self.modules.append(module)

    def run(self, input):
        for module in self.modules:
            input = module.apply(input)
        return input

### Moduli
Sono presenti tre tipi di moduli:
 - TokenizerModule
 - DetokenizerModule
 - PerturbationModule
 
I primi due sono sostanzialmente obbligatori in ogni pipeline. <br>
Tutti i moduli devono implementare il metodo ``apply(self,tokens)``.

In [5]:
class TokenizerModule:
    def apply(self, input):
        return word_tokenize(input)


class DetokenizerModule:
    def apply(self, input):
        return TreebankWordDetokenizer().detokenize(input)

Il PerturbationModule invece è il modulo responsabile per la perturbazione del testo. Ogni modulo di perturbazione riceve dal modulo precende un numero n di token e ne invia un numero k al modulo successivo. Per perturbare il testo il modulo si avvale di:
 - **Raggruppamento**: I token sono raggruppati in gruppi da 1 a n token a seconda della trasformazione da applicare
 - **Funzione di perturbazione**: ogni instanza del modulo ha una funzione di perturbazione che lo caratteriza. Questa funzione prende input un gruppo di token lungo da 1 a n, e emette un gruppo di token lungo da 0 a k.
 - **Probabilità**: un gruppo di token viene perturbato con una certa probabilità, definita quando il modulo viene inizializzato.


In [6]:
class PerturbationModule:
    def __init__(self):
        self.function = None
        self.token_grouping = None
        self.probability = None

    def group(self, tokens):
        padded = [*tokens, *[""] *
                  (self.token_grouping - (len(tokens) % self.token_grouping))]
        grouped = [padded[i: i+self.token_grouping]
                   for i in range(0, len(padded)-self.token_grouping, self.token_grouping)]
        return grouped

    def __init__(self, perturbation_function, token_grouping, probability):
        self.perturbation_function = perturbation_function
        self.token_grouping = token_grouping
        self. probability = probability

    def apply(self, tokens):
        perturbed_list = [self.perturbation_function(t) if probability_boolean(
            self.probability) else t for t in self.group(tokens)]
        return list(chain.from_iterable(perturbed_list))

Gli errori da introdurre vengono modellati attraverso delle specializzazioni del PerturbationModule. Queste specializzazioni sono ottenute mediante la creazione di istanze con lunghezza di gruppo e funzione di perturbazione differente. Per ogni tipologia di errore è presente un generatore di istanze di quel tipo di errore. Ogni generatore è una funzione che riceve in input la probabilità di perturbazione, oltre ad altri parametri specifici alla tipologia di errore. <br>
Ad esempio, ``CharsSubModule`` prende in input un dizionario con la distribuzione di probabilità degli errori nel riconscimento di certi caratteri.

In [7]:
# TODO possibile non segmentare l'intera parola, ma dividerla in pezzettoni
# e segmentarne solo alcuni
def split(token):
    return " ".join([char for char in token])


def split_tokens(list_of_tokens):
    return [split(t) for t in list_of_tokens]


def SplitModuleGenerator(probability):
    return PerturbationModule(
        perturbation_function=split_tokens,
        token_grouping=1,
        probability=probability
    )


def AddPunctuationModule(probability, punctChar):
    return PerturbationModule(
        perturbation_function=lambda tokens: [*tokens, punctChar],
        token_grouping=1,
        probability=probability
    )


def MergeWordHyphenModule(probability):
    return PerturbationModule(
        perturbation_function=lambda tokens: [f"{tokens[0]}-{tokens[1]}"],
        token_grouping=2,
        probability=probability
    )


def addComma(token, punctChar):
    orginal_length = len(token)
    comma_pointer = 0
    if len(token) > 1:
        while comma_pointer < orginal_length:
            comma_pointer += randint(1, orginal_length-1)
            if comma_pointer < orginal_length:
                token = token[:comma_pointer] + \
                    punctChar + token[comma_pointer:]
                comma_pointer += 1
    return token


def SplitWithCommaModule(probability, punctChar):
    return PerturbationModule(
        perturbation_function=lambda tokens: [
            addComma(t, punctChar) for t in tokens],
        token_grouping=1,
        probability=probability
    )


def replaceChars(token, subMatrix):
    appliable = {k: subMatrix[k] for k in subMatrix.keys() if k in token}
    subCandidates = list(appliable.keys())
    shuffle(subCandidates)
    tokenBitMask = [0 for char in token]
    for sub in subCandidates:
        subProb = appliable[sub]["prob"]
        subWith = appliable[sub]["sub"]
        for start in find_all(token, sub):
            if sum(tokenBitMask[start:start+len(sub)]) == 0 and probability_boolean(subProb):
                token = token[:start] + subWith + token[start+len(sub):]
                tokenBitMask = tokenBitMask[:start] + \
                    [1 for c in subWith] + tokenBitMask[start+len(sub):]
    return token


def replaceChars_Tokens(tokens, subMatrix):
    return [replaceChars(t, subMatrix) for t in tokens]


def CharsSubModule(subMatrix, probability=1):
    return PerturbationModule(
        perturbation_function=lambda tokens: replaceChars_Tokens(
            tokens, subMatrix),
        token_grouping=1,
        probability=probability
    )

## Miglioramenti da applicare

Attualemente, sto lavorarando sui seguenti punti:
 - Il modulo di detokenizzazione usa una funzione di detokenizzazione integrata in nltk che inserisce degli spazi superflui dopo la punteggiatura. Devo trovare un'alternativa o riscriverlo da zero.
 - Devo implentare una funzione per dividere automaticamente il testo prima (o nel mezzo) della superpipeline.

## Main di Prova

In [8]:
subMatrix = {
    "n": {"sub": "ii", "prob": 0.5},
    "rn": {"sub": "m", "prob": 0.5}
}


pipeline = Pipeline()
hypenModule = MergeWordHyphenModule(0.1)
splitModule = SplitModuleGenerator(0.05)
charSub = CharsSubModule(subMatrix)
punctModule = AddPunctuationModule(0.01, ".")
commaModule = SplitWithCommaModule(0.1, ",")


pipeline.addModule(TokenizerModule())

pipeline.addModule(hypenModule)
pipeline.addModule(splitModule)
pipeline.addModule(charSub)
pipeline.addModule(punctModule)
pipeline.addModule(commaModule)

pipeline.addModule(DetokenizerModule())


pip2 = Pipeline()
pip2.addModule(TokenizerModule())
pip2.addModule(DetokenizerModule())

str1 = "L’Inter non ha la pancia piena. I nerazzurri superano anche la Roma e trovano la seconda vittoria dopo l’aritmetica dello scudetto: 3-1 a San Siro. Nel primo tempo reti di Brozovic, Vecino e Mkhitaryan. Poco dopo la mezz’ora Sanchez lascia il campo per un problema alla caviglia, entra Lautaro che viene poi sostituito al 77’: battibecco con Conte al momento del cambio. Piccola crepa di un’altra ottima serata per l’Inter, che nella prima metà di secondo tempo deve soffrire per portare a casa i tre punti: l’occasione più importante per la Roma è il palo di Dzeko, nel finale Lukaku chiude la partita in contropiede. Fonseca resta a +2 dal Sassuolo."
input = [str1]*4


superPip = SuperPipeline()
superPip.addPipeline(pipeline, 2)
superPip.addPipeline(pip2, 3)

output = superPip.run(input)
for section in output:
    print(section)
    print("****************************************")

L ’ Inter non ha la pancia piena . - I nerazzurri s u p e r a n o aiiche la Roma e trovaiio-la seconda vittoria do,po l ’ aritmetica dello scudetto : 3-1 a San Siro . Nel primo tempo-reti di Brozovic ,-Vecino e Mkhitaryaii . Poco dopo la mezz ’ ora Sanchez lascia il campo per uii problema alla cavigl,ia ,-eiitra Lautaro che viene poi sostituito al 77 . ’: battibecco coii Conte al momento del-cambio . Piccola crepa di u n ’ altra ottima serata p e r l-’ Inter, che iiella prima-metà di secondo tempo deve soffrire per portare a casa i tre puiiti: l ’ occasione più importante per la Roma-è il palo di Dzeko, nel finale Lukaku chiude l a partita-iii coiitropiede . Foiisec,a rest,a a +2 dal Sassuolo
****************************************
L ’ I n t e r iiiin h a la paiicia p i e ii a . I nerazzurri superaiio aiiche la Roma e trova,i,io-la seconda vittoria dopo-l ’ aritmetica dello scudetto : 3-1 . a S a ii Siro . Nel pri,mo tempo reti di B,ro,zovic, Veciiio e Mkhitaryan . Poc,o dopo la mezz 