In [1]:
import re

In [13]:
# Signos de puntuación (sdp)
punct_signs = ['.',',',';',':','?','!']
# Signos que afectan a las mayúscualas del entorno
mayus_signs = ['.','?','!']

In [14]:
# Apartado 1
def inicial(string,mayuscula):
    if not string:
        return
    inicial = string[0]
    inicial_cambiada = inicial.upper() if mayuscula else inicial.lower()
    temp = list(string)
    temp[0] = inicial_cambiada
    return ''.join(temp)

def addPunctuationBasic(string):
    inicial_mayus = inicial(string,mayuscula=True)
    last_char = inicial_mayus[-1]
    add_dot = '.' if last_char != '.' else ''
    return inicial_mayus + add_dot

In [15]:
addPunctuationBasic('esta es una frase de prueba')

'Esta es una frase de prueba.'

In [16]:
# Dadas dos listas, añade '' a la menor hasta que ambas tengan el mismo tamaño
def padding(list1, list2):
    len1, len2 = len(list1), len(list2)
    max_len = max(len1, len2)
    list1 = [*list1, *([''] * (max_len - len1))]
    list2 = [*list2, *([''] * (max_len - len2))]
    return list1, list2

In [17]:
list1 = ['s','a','']
list2 = ['1','2','3','4']
padding(list1,list2)

(['s', 'a', '', ''], ['1', '2', '3', '4'])

In [24]:
def tokenizator(text):
    # Añadimos un espacio delante de los caracteres especiales para poder separarlos
    text = re.sub(r' ?([.|,|;|:|?|!]+) ?', r' \1 ', text)
    return text.split()

def verifyPunctuation(check, test):
    # Tokenizamos los textos
    check = tokenizator(check)
    test = tokenizator(test)
    # Hacemos padding
    check, test = padding(check, test)
    l_check = len(check)
    modifications = []   
    
    for i in range(l_check):
        # Deletions:
        # Si test[i] no es un sdp pero check[i] si y las palabras anteriores coinciden salvo mayúsculas
        # añadimos la modificación ('D', i) e insertamos el correspondiente sdp faltante en test.
        if check[i] in punct_signs:
            if test[i] not in punct_signs and test[i-1].upper() == check[i - 1].upper():
                modifications.append(('D',i))
                test.insert(i,check[i])
                # Si se ha añadido un signo de puntuación que afecta a mayúsculas, hay que poner la siguiente
                # palabra en mayúsculas.
                if check[i] in mayus_signs and i < len(check)-1:
                    test[i+1] = inicial(test[i+1],mayuscula=True)
                
        # Reestablecemos el padding para mantener misma longitud
        check, test = padding(check, test)

        # Insertions:
        # Si test[i] es un sdp pero check[i] no y las palabras anteriores coinciden salvo mayúsculas
        # añadimos la modificación ('I', i) y eliminamos el correspondiente sdp en test.
        if check[i] not in punct_signs:
            if test[i] in punct_signs and test[i-1].upper() == check[i - 1].upper():
                modifications.append(('I',i))
                # Si se ha eliminado un signo de puntuación que afecta a mayúsculas, hay que poner la siguiente
                # palabra en minúscula.
                if test[i] in mayus_signs and i < len(test)-1:
                    test[i+1] = inicial(test[i+1],mayuscula=False)
                test.pop(i)
                
    # Reestablecemos el padding para mantener misma longitud
    check, test = padding(check, test)
    
    # Substitutions:
    # Tras haber transformado test para añadir los as sustituciones son aquellos elementos que no coinciden
    for i in range(l_check):
        if check[i] != test[i] and check[i] != '' and test[i] != '':
            modifications.append(('S',i))
    return set(modifications)

In [25]:
def evaluate(punctuationFunction, show_line = -1, add_punct_basic = False):
    test_file = 'PLN-MULCIA-Junio-2022-Dataset/PunctuationTask.test.en'
    check_file = 'PLN-MULCIA-Junio-2022-Dataset/PunctuationTask.check.en'
    # número de instancias correctamente puntuadas
    num_correctos = 0
    # número de cambios globales hechos por la función  
    hechos = 0
    # número de modificaciones correctas globales
    correctos = 0
    # número de modificaciones necesarias globales
    necesarios = 0
    
    predicted_list = []
    # precisión y recall por instancia para calcular las medias
    precision_, recall_ = [], []
    
    with open(test_file, 'r', encoding='utf-8-sig') as test, open(check_file, 'r', encoding='utf-8-sig') as check:
        test_lines = test.readlines()
        check_lines = check.readlines()
        
        # número de instancias
        N = len(test_lines)
        #testeo = True
        for i in range(N):
            c = check_lines[i].rstrip(' \n')
            t = test_lines[i].rstrip(' \n')
            punctuated = punctuationFunction(t,add_punct_basic) if add_punct_basic else punctuationFunction(t)
            predicted_list.append(punctuated)
            # Diferencia entre el check y el test original (cambios necesarios)
            vct = verifyPunctuation(t,c)
            # Diferencia entre el test original y el modificado (modificaciones hechas por la función)
            vtmt = verifyPunctuation(t,punctuated)
            # Diferencia entre el check y el modificado (modificaciones hechas por la función)
            vcmt = verifyPunctuation(punctuated,c)
            num_correctos += 1 if len(vcmt) == 0 else 0
            # número de cambios hechos por la función            
            hechos_ = len(vtmt)
            # número de cambios necesarios
            necesarios_ = len(vct)
            # número de cambios correctos hechos (intersección entre cambios hechos y necesarios)
            correctos_ = len(vtmt & vct) 
            
            # Esta definición de correctos_ es incompleta bajo el uso de verifyPunctuation ya que por ejemplo si
            # el modelo añade al final (token 23 por ejemplo) un '.' y debía añadir '?', en ambos casos recibiremos
            # ('I',23) y sin embargo es incorrecto. En resumen, verifyPunctuation no nos devuelve información sobre el 
            # token en si. Corregimos esto con un factor de error.
            error_ = 0
            l_t = len(tokenizator(t))
            l_c = len(tokenizator(c))
            cambios = list(vtmt)
            diferencias = list(vcmt)
            # Para cada token que aparece en la verificación de la predicción con el test (cambios), comprobamos si 
            # en la verificación de la predicción con el check (diferencias) aparecen operaciones distintas, esto es,
            # se ha insertado un signo incorrecto (I) ya que en la verificación aparece una sustitución de ese signo (S)
            for j in range(len(cambios)):
                token = cambios[j][1]
                operacion = cambios[j][0]
                for k in range(len(diferencias)):
                    error_ += 1 if token == diferencias[k][1] and token<l_t and diferencias[k][1]<l_c and operacion == 'I' and diferencias[k][0] == 'S' else 0
            # El token final lo tratamos por separado
            error_ += 1 if punctuated[-1] in punct_signs and c[-1] in punct_signs and punctuated[-1] != c[-1] else 0
            # Corregimos correctos_ en base al error
            correctos_ -= error_

            # métricas medias
            precision_.append(correctos_ / hechos_) if hechos_ != 0 else precision_.append(0)
            recall_.append(correctos_ / necesarios_) if necesarios_ != 0 else recall_.append(0)
            hechos += hechos_
            correctos += correctos_
            necesarios += necesarios_
            #testeo = vct == (vtmt | vcmt)
           
            # si show_line está en el rango de instancias se muestra información concreta de esa línea
            if i == show_line:
                print('TEST LINE: \n ',t)
                print('VALIDATION LINE: \n ',c)
                print('MODEL PUNCTUATED LINE: \n ',punctuated,'\n')
                print('Modificaciones necesarias: ', vct)
                print('Modificaciones hechas por el modelo: ',vtmt)
                print('Diferencias entre modelo y validación: ',vcmt, '\n')
                print('n_hechas (Núm. de modificaciones hechas por el modelo): ',hechos_)
                print('n_correctas (Núm. de modificaciones correctas: \n interseccion(hechas,necesarias) - error de sustitucion de signo): ',correctos_)
                print('n_necesarias (Núm. de modificaciones necesarias): ',necesarios_, '\n')
                print('precision (n_correctas/n_hechas): ',precision_[i])
                print('recall (n_correctas/n_necesarias): ',recall_[i],'\n')
        test.close()
        check.close()
        
    # Métricas globales
    precision = correctos / hechos
    recall = correctos / necesarios
    F1 = 2 * (precision * recall) / (precision + recall)
    # Métricas medias
    precision_media = sum(precision_)/len(precision_)
    recall_media = sum(recall_)/len(recall_)
    F1_media = 2 * (precision_media * recall_media) / (precision_media + recall_media)
    rendimiento = num_correctos/N
    print('='*40)
    print('MÉTRICAS')
    print('='*40)
    print ('precision global: ', precision)
    print ('recall global: ', recall)
    print ('F1 global: ', F1)
    print('-'*40)
    print ('precision media: ', precision_media)
    print ('recall medio: ', recall_media)
    print ('F1 medio: ', F1_media)
    print('-'*40)
    print ('rendimiento: ', rendimiento)
    print('-'*40)
    
    result_dict = {'precision_global':precision, 'recall_global':recall, 'F1_global':F1,'precision_mean':precision_media, 'recall_mean':recall_media, 'F1_mean':F1_media, 'score':rendimiento }
    return result_dict
    
    

In [26]:
evaluate(addPunctuationBasic,9560)

TEST LINE: 
  now we're using this chip and what are we using it for
VALIDATION LINE: 
  Now we're using this chip. And what are we using it for?
MODEL PUNCTUATED LINE: 
  Now we're using this chip and what are we using it for. 

Modificaciones necesarias:  {('I', 5), ('I', 12), ('S', 0)}
Modificaciones hechas por el modelo:  {('I', 12), ('S', 0)}
Diferencias entre modelo y validación:  {('I', 5), ('S', 12)} 

n_hechas (Núm. de modificaciones hechas por el modelo):  2
n_correctas (Núm. de modificaciones correctas: 
 interseccion(hechas,necesarias) - error de sustitucion de signo):  1
n_necesarias (Núm. de modificaciones necesarias):  3 

precision (n_correctas/n_hechas):  0.5
recall (n_correctas/n_necesarias):  0.3333333333333333 

MÉTRICAS
precision global:  0.9481749791028141
recall global:  0.4382979408497416
F1 global:  0.5994825213322323
----------------------------------------
precision media:  0.9474342928660826
recall medio:  0.5944736519400461
F1 medio:  0.7305555768754433
---

{'precision_global': 0.9481749791028141,
 'recall_global': 0.4382979408497416,
 'F1_global': 0.5994825213322323,
 'precision_mean': 0.9474342928660826,
 'recall_mean': 0.5944736519400461,
 'F1_mean': 0.7305555768754433,
 'score': 0.263384786538729}

Vemos que la precisión es alta, lo que indica que lo que tiene que hacer el modelo (poner la primera letra en mayúscula y un punto al final), lo hace bien. Sin embargo, el recall es bajo ya que esos cambios no son suficientes para puntuar correctamente las oraciones, cosa que también se deduce del bajo rendimiento.

In [27]:
def ngrams(text,N):
    text = tokenizator(text)
    return [tuple(text[i:i+N]) for i in range(len(text)-N+1)]

def get_voc_from_text(text):
    return set(tokenizator(train_lines))

In [28]:
import numpy as np
class model4gram():

    def __init__(self):
        self.punct_signs = ['.',',',';',':','?','!']
        self.mayus_signs = ['.','?','!']
        self.minus = '<minus>'
        self.mayus = '<mayus>'
        self.four_grams = dict()

                
    def entrena(self):
        train_file = 'PLN-MULCIA-Junio-2022-Dataset/PunctuationTask.train.en'

        self.four_grams[self.mayus]= {}
        self.four_grams[self.minus]={}
        for s in model.punct_signs:
            self.four_grams[s] = {}
        with open(train_file, 'r', encoding='utf-8') as train:
            train_lines = train.readlines()
            for line in train_lines:
                line = line.rstrip(' \n')
                ng = ngrams(line,4)
                for token in ng:
                    last = token[3]
                    op = last if last in self.punct_signs else self.mayus if last.isupper() else self.minus  
                    triplet = (token[0].lower(),token[1].lower(),token[2].lower())
                    self.four_grams[op][triplet]= self.four_grams[op].get(triplet,0) + 1
        train.close()
                
    def predice(self, terna,print_scores=False):
        v = 0
        prediction = 'NONE'
        for i in self.four_grams:
            value = self.four_grams[i].get(terna,0) 
            print((i,value)) if print_scores else True
            if value > v:
                prediction = i
                v = value
        grama =  (*terna, prediction)
        return grama

In [29]:
model = model4gram()
model.entrena()

In [38]:
len(model.four_grams)

8

In [37]:
terna = ('by','the','way')
for i in model.four_grams:
    print('Ocurrencias con el signo ',i,' para la terna ',terna, ':',model.four_grams[i].get(terna,0))

Ocurrencias con el signo  <mayus>  para la terna  ('by', 'the', 'way') : 0
Ocurrencias con el signo  <minus>  para la terna  ('by', 'the', 'way') : 25
Ocurrencias con el signo  .  para la terna  ('by', 'the', 'way') : 36
Ocurrencias con el signo  ,  para la terna  ('by', 'the', 'way') : 200
Ocurrencias con el signo  ;  para la terna  ('by', 'the', 'way') : 1
Ocurrencias con el signo  :  para la terna  ('by', 'the', 'way') : 0
Ocurrencias con el signo  ?  para la terna  ('by', 'the', 'way') : 1
Ocurrencias con el signo  !  para la terna  ('by', 'the', 'way') : 0


In [623]:
def addPunctuation4gram(example,add_basic_punct = False):
    # Trabajamos con los tokens
    example = tokenizator(example)
    num_tokens = len(example)
    # Generamos los 3-gramas del texto
    N = 3
    grams = [tuple(example[i:i+N]) for i in range(len(example)-N+1)]
    added_tokens = 0
    for i in range(len(grams)):
        # Calculamos el 4-grama predicho
        four_gram = model.predice(grams[i])
        operation = four_gram[-1]
        target_index = i+N+added_tokens
        # Transformamos los tokens del texto
        if operation == model.mayus and target_index < num_tokens:
            example[target_index] = inicial(example[target_index], mayuscula = True)
        if operation == model.minus and target_index < num_tokens:
            example[target_index] = inicial(example[target_index], mayuscula = False)
        if operation in model.punct_signs:
            added_tokens += 1
            num_tokens += 1
            example.insert(target_index, operation)
            if operation in model.mayus_signs and target_index < num_tokens -1:
                example[target_index+1] = inicial(example[target_index+1], mayuscula = True)

    # Añadimos los espacios excepto para los signos de puntuación
    result = [' ' + x if x not in model.punct_signs else x for x in example]
    result = ''.join(result)[1:]
    # Reconstruimos el texto predicho
    if add_basic_punct:
        dot = '' if result[-1] in model.punct_signs else '.'
        result = inicial(result + dot,mayuscula=True)
    return result 
    

In [624]:
text_example = "and we also are eating meat that comes from some of these same places"
addPunctuation4gram(text_example,False)

'and we also are eating meat, that comes from some of these same places'

In [692]:
evaluate(addPunctuation4gram,9560)

TEST LINE: 
  now we're using this chip and what are we using it for
VALIDATION LINE: 
  Now we're using this chip. And what are we using it for?
MODEL PUNCTUATED LINE: 
  now we're using this chip and what are we using it? For 

Modificaciones necesarias:  {('I', 12), ('I', 5), ('S', 0)}
Modificaciones hechas por el modelo:  {('I', 11)}
Diferencias entre modelo y validación:  {('S', 0), ('D', 11), ('I', 5), ('I', 13)} 

n_hechas (Núm. de modificaciones hechas por el modelo):  1
n_correctas (Núm. de modificaciones correctas: 
 interseccion(hechas,necesarias) - error de sustitucion de signo):  0
n_necesarias (Núm. de modificaciones necesarias):  3 

precision (n_correctas/n_hechas):  0.0
recall (n_correctas/n_necesarias):  0.0 

MÉTRICAS
precision global:  0.37399372356392413
recall global:  0.044129248305507705
F1 global:  0.07894357881397426
----------------------------------------
precision media:  0.14295304137294124
recall medio:  0.048266283900523246
F1 medio:  0.07216647239479738

In [702]:
lista = evaluate(addPunctuation4gram,192,True)

TEST LINE: 
  how is that possible
VALIDATION LINE: 
  How is that possible?
MODEL PUNCTUATED LINE: 
  How is that possible? 

Modificaciones necesarias:  {('S', 0), ('I', 4)}
Modificaciones hechas por el modelo:  {('S', 0), ('I', 4)}
Diferencias entre modelo y validación:  set() 

n_hechas (Núm. de modificaciones hechas por el modelo):  2
n_correctas (Núm. de modificaciones correctas: 
 interseccion(hechas,necesarias) - error de sustitucion de signo):  2
n_necesarias (Núm. de modificaciones necesarias):  2 

precision (n_correctas/n_hechas):  1.0
recall (n_correctas/n_necesarias):  1.0 

MÉTRICAS
precision global:  0.8273539317616049
recall global:  0.4548162220469145
F1 global:  0.5869642003781503
----------------------------------------
precision media:  0.8615137951308618
recall medio:  0.6044705677717082
F1 medio:  0.7104574183244832
----------------------------------------
rendimiento:  0.2369628702544848
----------------------------------------
