In [1]:
# Importamos re para expresiones regulares
import re 
import os

In [2]:
# Signos de puntuación (sdp)
punct_marks = ['.',',',';',':','?','!']
# Signos que afectan a las mayúscualas del entorno
mayus_marks = ['.','?','!']

# Ubicación de los archivos de corpus:
DATASET_PATH = 'PLN-MULCIA-Junio-2022-Dataset'
TEST_PATH = os.path.join(DATASET_PATH,'PunctuationTask.test.en')
CHECK_PATH = os.path.join(DATASET_PATH,'PunctuationTask.check.en')
TRAIN_PATH = os.path.join(DATASET_PATH,'PunctuationTask.train.en')

### APARTADO 1

Vamos a implementar un sistema que reciba una expresión como entrada (será una expresión formada solo por minúsculas y sin los signos de puntuación mencionados) y la salida será la misma expresión pero con los cambios correspondientes a la introducción de mayúsculas y signos de puntuación indicados.

Como primera versión de esta función addPunctuationBasic se implementará un modelo que
simplemente cambia la primera letra por mayúscula y añade al final del string de entrada un punto.

In [3]:
# Función que pone el primer caracter de un string en mayúscula o minúscula según el parámetro booleano 'uppercase'
def change_initial(string,uppercase):
    if not string:
        return
    init = string[0]
    new_initial = init.upper() if uppercase else init.lower()
    temp = list(string)
    temp[0] = new_initial
    return ''.join(temp)

# Función del apartado 1. Pone en maúscula la primera letra y añade un punto '.' al final si no lo tiene
def addPunctuationBasic(string):
    initial_upper = change_initial(string,uppercase=True)
    last_char = initial_upper[-1]
    add_dot = '.' if last_char not in punct_marks else ''
    return initial_upper + add_dot

Vemos que la función anterior realiza la operación correctamente con el siguiente ejemplo.

In [4]:
addPunctuationBasic('esta es una frase de prueba')

'Esta es una frase de prueba.'

### APARTADO 2 

Antes de definir la función verifyPuntuation vamos a definir dos funciones auxiliares que nos servirán.
* padding(list1,list2): Devuelve las los listas de entrada de forma que ambas tengan la misma longitud, añadiendo el elemento string vacío ('') a la lista de menor longitud.

* tokenizer(text): tokeniza el texto de entrada.

In [5]:
# Dadas dos listas, añade '' a la menor hasta que ambas tengan el mismo tamaño.
def padding(list1, list2):
    len1, len2 = len(list1), len(list2)
    max_len = max(len1, len2)
    list1 = [*list1, *([''] * (max_len - len1))]
    list2 = [*list2, *([''] * (max_len - len2))]
    return list1, list2

Veamos su funcionamiento con el siguiente ejemplo:

In [6]:
list1, list2 = ['s','a'], ['1','2','3','4']
l1, l2 = padding(list1,list2)
print('Lista 1 con padding: ',l1,'\t Lista 2 con padding: ', l2)
print('Las longitudes son iguales: ', len(l1) == len(l2))

Lista 1 con padding:  ['s', 'a', '', ''] 	 Lista 2 con padding:  ['1', '2', '3', '4']
Las longitudes son iguales:  True


In [7]:
# Función que tokeniza un texto
def tokenizer(text):
    # Generamos la expresión regular que añade espacios a los signos para poder separarlos con el método split()
    marks = ''.join([p + '|' for p in punct_marks])[:-1]
    regex1, regex2 = r' ?(['+ marks +']+) ?', r' \1 '
    text = re.sub(regex1, regex2, text)
    return text.split()

Veamos cómo funciona con el siguiente ejemplo:

In [8]:
text_example= "Sara said: Hello, what's your name?"
print(tokenizer(text_example))

['Sara', 'said', ':', 'Hello', ',', "what's", 'your', 'name', '?']


In [10]:
#Función veryfyPunctuation del apartado 2.
def verifyPunctuation(check, test):
    # Tokenizamos los textos
    check = tokenizer(check)
    test = tokenizer(test)
    # Hacemos padding
    check, test = padding(check, test)
    l_check = len(check)
    modifications = []   
    
    for i in range(l_check):
        # Deletions:
        # Si test[i] no es un sdp pero check[i] si y las palabras anteriores coinciden salvo mayúsculas
        # añadimos la modificación ('D', i) e insertamos el correspondiente sdp faltante en test.
        if check[i] in punct_marks:
            if test[i] not in punct_marks and test[i-1].upper() == check[i - 1].upper():
                modifications.append(('D',i))
                test.insert(i,check[i])
                
        # Reestablecemos el padding para mantener misma longitud
        check, test = padding(check, test)

        # Insertions:
        # Si test[i] es un sdp pero check[i] no y las palabras anteriores coinciden salvo mayúsculas
        # añadimos la modificación ('I', i) y eliminamos el correspondiente sdp en test.
        if check[i] not in punct_marks:
            if test[i] in punct_marks and test[i-1].upper() == check[i - 1].upper():
                modifications.append(('I',i))
                test.pop(i)
                
    # Reestablecemos el padding para mantener misma longitud
    check, test = padding(check, test)
    
    # Substitutions:
    # Tras haber transformado test para añadir los as sustituciones son aquellos elementos que no coinciden
    for i in range(l_check):
        if check[i] != test[i] and check[i] != '' and test[i] != '':
            modifications.append(('S',i))
    return set(modifications)

Utilicemos el ejemplo del documento para ver si funciona correctamente la función. Además verificamos que intercambiar check y test devuelve el mismo número de elementos.

In [658]:
check_example = "Hello. What's your name?"
test_example = "Hello what's your, name?"
print('check vs test: ', verifyPunctuation(check_example,test_example))
print('test vs check: ', verifyPunctuation(test_example,check_example))

check vs test:  {('I', 4), ('S', 2), ('D', 1)}
test vs check:  {('S', 1), ('I', 1), ('D', 3)}


### APARTADO 3

Implementaremos una herramienta que permita recorrer todo el corpus de test y verificación. Es decir, irá recorriendo una a una las líneas de cada fichero (que están alineadas), aplicaría sobre la frase de test el algoritmo básico de puntuación (apartado 1: addPunctuationBasic() ) y a continuación comprobaría si el resultado es o no correcto usando la función verifyPunctuation() del apartado 2.

En primer lugar vamos a definir una función evaluate_example que calcula las métricas precision y recall dado una instancia (check,test). 

In [659]:
def evaluate_example(punctuationFunction, check, test,model = None, add_punct_basic = False, print_info = True):
    if model is not None: punctuated = punctuationFunction(model,test,add_punct_basic)
    else: punctuated = punctuationFunction(test)
    # Diferencia entre el check y el test original (cambios necesarios)
    vct = verifyPunctuation(test,check)
    # Diferencia entre el test original y el modificado (modificaciones hechas por la función)
    vtmt = verifyPunctuation(test,punctuated)
    # Diferencia entre el check y el modificado (modificaciones hechas por la función)
    vcmt = verifyPunctuation(punctuated,check)
    es_correcto = 1 if len(vcmt) == 0 else 0
    # número de cambios hechos por la función            
    hechos_ = len(vtmt)
    # número de cambios necesarios
    necesarios_ = len(vct)
    # número de cambios correctos hechos (intersección entre cambios hechos y necesarios)
    correctos_ = len(vtmt & vct) 
    
    # CORRECCIÓN DE ERROR DE SUSTITUCIÓN DE SIGNO
    # Esta definición de correctos_ es incompleta bajo el uso de verifyPunctuation ya que por ejemplo si
    # el modelo añade al final (token 23 por ejemplo) un '.' y debía añadir '?', en ambos casos recibiremos
    # ('I',23) y sin embargo es incorrecto. En resumen, verifyPunctuation no nos devuelve información sobre el 
    # token en si. Corregimos esto con un factor de error.
    error_ = 0
    l_t = len(tokenizer(test))
    l_c = len(tokenizer(check))
    cambios = list(vtmt)
    diferencias = list(vcmt)
    # Para cada token que aparece en la verificación de la predicción con el test (cambios), comprobamos si 
    # en la verificación de la predicción con el check (diferencias) aparecen operaciones distintas, esto es,
    # se ha insertado un signo incorrecto (I) ya que en la verificación aparece una sustitución de ese signo (S)
    for j in range(len(cambios)):
        token = cambios[j][1]
        operacion = cambios[j][0]
        for k in range(len(diferencias)):
            error_ += 1 if token == diferencias[k][1] and token<l_t and diferencias[k][1]<l_c and operacion == 'I' and diferencias[k][0] == 'S' else 0
    # El token final lo tratamos por separado
    error_ += 1 if punctuated[-1] in punct_marks and check[-1] in punct_marks and punctuated[-1] != check[-1] else 0
    # Corregimos correctos_ en base al error
    correctos_ -= error_
    # métricas medias
    precision = (correctos_ / hechos_) if hechos_ != 0 else 0
    recall = (correctos_ / necesarios_) if necesarios_ != 0 else 0
    
    # Si print_info decuelve información sobre el proceso
    if print_info:
        print('TEST LINE: \n ',test)
        print('MODEL PUNCTUATED LINE: \n ',punctuated)
        print('VALIDATION LINE: \n ',check,'\n')
        print('Modificaciones necesarias: ', vct)
        print('Modificaciones hechas por el modelo: ',vtmt)
        print('Diferencias entre modelo y validación: ',vcmt, '\n')
        print('n_hechas (Núm. de modificaciones hechas por el modelo): ',hechos_)
        print('n_correctas (Núm. de modificaciones correctas: \n interseccion(hechas,necesarias) - error de sustitucion de signo): ',correctos_)
        print('n_necesarias (Núm. de modificaciones necesarias): ',necesarios_, '\n')
        print('precision (n_correctas/n_hechas): ',precision)
        print('recall (n_correctas/n_necesarias): ',recall,'\n')
    
    return es_correcto, precision, recall, hechos_, correctos_, necesarios_

Comprobamos el funcionamiento de la función con el siguiente ejemplo.

* check = "Hello. What's your name?"
* test = "hello what's your name"

In [660]:
check_example = "Hello. What's your name?"
test_example = "hello what's your name"
evaluate_example(addPunctuationBasic,check_example,test_example,add_punct_basic=False,print_info=True)

TEST LINE: 
  hello what's your name
MODEL PUNCTUATED LINE: 
  Hello what's your name.
VALIDATION LINE: 
  Hello. What's your name? 

Modificaciones necesarias:  {('S', 0), ('S', 1), ('I', 4), ('I', 1)}
Modificaciones hechas por el modelo:  {('S', 0), ('I', 4)}
Diferencias entre modelo y validación:  {('S', 1), ('S', 4), ('I', 1)} 

n_hechas (Núm. de modificaciones hechas por el modelo):  2
n_correctas (Núm. de modificaciones correctas: 
 interseccion(hechas,necesarias) - error de sustitucion de signo):  1
n_necesarias (Núm. de modificaciones necesarias):  4 

precision (n_correctas/n_hechas):  0.5
recall (n_correctas/n_necesarias):  0.25 



(0, 0.5, 0.25, 2, 1, 4)

Notemos que la oración puntuada es "Hello what's your name.", por lo que la función de validación va a considerar como correcto el haber insertado en el token 4, lo que se observa como ('I', 4) tanto en las modificaciones necesarias como las hechas por el modelo. Al no tener información sobre el caracter, esto podría dar lugar a un falso positivo, que es corregido correctamente con el error de sustitución de signo visto en la función.

Definamos ahora la función evaluate(...) que raliza el proceso anterior para distintos corpus y calcula métricas gobales, es decir, la que pide el propio apartado 3.

In [661]:
# Esta función calcula las métricas de una función de puntuación. los atributos son:
#   punctuationFunction: función a evaluar.
#   check_file_path y test_file_path: rutas a los archivos de check y test.
#   model: modelo de predicción usado (4gramas más adelante)
#   add_punct_basic se usa para la función addPunctuation4gram que definiremos más adelante
def evaluate(punctuationFunction, check_file_path = CHECK_PATH, test_file_path = TEST_PATH, model = None, add_punct_basic = False):
    # número de instancias correctamente puntuadas
    num_correctos = 0
    # número de cambios globales hechos por la función  
    hechos = 0
    # número de modificaciones correctas globales
    correctos = 0
    # número de modificaciones necesarias globales
    necesarios = 0
    
    # precisión y recall por instancia para calcular las medias
    precision_, recall_ = [], []
    
    with open(test_file_path, 'r', encoding='utf-8-sig') as test_file, open(check_file_path, 'r', encoding='utf-8-sig') as check_file:
        test_lines = test_file.readlines()
        check_lines = check_file.readlines()
        
        # número de instancias
        N = len(test_lines)
        #testeo = True
        for i in range(N):
            check = check_lines[i].rstrip(' \n')
            test = test_lines[i].rstrip(' \n')
            es_correcto, prec, rec, hechos_, correctos_, necesarios_ = evaluate_example(punctuationFunction,check,test,model=model,add_punct_basic = add_punct_basic,print_info=False)
            num_correctos += es_correcto
            # métricas medias
            precision_.append(prec)
            recall_.append(rec)
            hechos += hechos_
            correctos += correctos_
            necesarios += necesarios_
        test_file.close()
        check_file.close()
        
    # Métricas globales
    precision = correctos / hechos
    recall = correctos / necesarios
    F1 = 2 * (precision * recall) / (precision + recall)
    # Métricas medias
    precision_media = sum(precision_)/len(precision_)
    recall_media = sum(recall_)/len(recall_)
    F1_media = 2 * (precision_media * recall_media) / (precision_media + recall_media)
    rendimiento = num_correctos/N
    w = 45
    print('='*w)
    print('MÉTRICAS')
    print('='*w)
    print ('precision global: ', precision)
    print ('recall global: ', recall)
    print ('F1 global: ', F1)
    print('='*w)
    print ('precision media: ', precision_media)
    print ('recall medio: ', recall_media)
    print ('F1 medio: ', F1_media)
    print('='*w)
    print ('rendimiento: ', rendimiento)
    print('='*w)
    print('número de instancias en el corpus: ',N)
    print('='*w)
    
    result_dict = {'precision_global':precision, 'recall_global':recall, 'F1_global':F1,'precision_mean':precision_media, 'recall_mean':recall_media, 'F1_mean':F1_media, 'score':rendimiento }
    return result_dict
    
    

Evaluamos la función addPunctuationBasic:

In [662]:
evaluate(addPunctuationBasic)

MÉTRICAS
precision global:  0.9481749791028141
recall global:  0.4281984334203655
F1 global:  0.5899664102286271
precision media:  0.9474342928660826
recall medio:  0.5873733513179556
F1 medio:  0.7251692521379949
rendimiento:  0.263384786538729
número de instancias en el corpus:  14382


{'precision_global': 0.9481749791028141,
 'recall_global': 0.4281984334203655,
 'F1_global': 0.5899664102286271,
 'precision_mean': 0.9474342928660826,
 'recall_mean': 0.5873733513179556,
 'F1_mean': 0.7251692521379949,
 'score': 0.263384786538729}

Vemos que la precisión es alta, lo que indica que lo que tiene que hacer el modelo (poner la primera letra en mayúscula y un punto al final), lo hace bien. Sin embargo, el recall es relativamente bajo ya que esos cambios no son suficientes para puntuar correctamente las oraciones, cosa que también se deduce del bajo rendimiento.

Aunque no se pide, definimos la función evaluate_example_from_corpus que permite ver la información resultante de evaluate_example para un elemento en concreto del corpus dado el número de línea corpus_line. De esta forma podemos explorar y verificar el correcto funcionamiento de las funciones definidas.

In [663]:
def evaluate_example_from_corpus(punctuationFunction, corpus_line = 0, check_file_path = CHECK_PATH, test_file_path = TEST_PATH,model = None,add_punct_basic = False):
   
    with open(test_file_path, 'r', encoding='utf-8-sig') as test_file, open(check_file_path, 'r', encoding='utf-8-sig') as check_file:
        check = check_file.readlines()[corpus_line].rstrip(' \n')
        test = test_file.readlines()[corpus_line].rstrip(' \n')
        evaluate_example(punctuationFunction,check,test,model = model,add_punct_basic = add_punct_basic,print_info=True)
    test_file.close()
    check_file.close()

In [664]:
evaluate_example_from_corpus(addPunctuationBasic,corpus_line=50)

TEST LINE: 
  and what do i mean by that
MODEL PUNCTUATED LINE: 
  And what do i mean by that.
VALIDATION LINE: 
  And what do I mean by that? 

Modificaciones necesarias:  {('S', 0), ('S', 3), ('I', 7)}
Modificaciones hechas por el modelo:  {('S', 0), ('I', 7)}
Diferencias entre modelo y validación:  {('S', 7), ('S', 3)} 

n_hechas (Núm. de modificaciones hechas por el modelo):  2
n_correctas (Núm. de modificaciones correctas: 
 interseccion(hechas,necesarias) - error de sustitucion de signo):  1
n_necesarias (Núm. de modificaciones necesarias):  3 

precision (n_correctas/n_hechas):  0.5
recall (n_correctas/n_necesarias):  0.3333333333333333 



### APARTADO 4

Utilizando el corpus de entrenamiento contenido en PunctuationTask.train.en construimos un modelo de lenguaje inspirado en la idea de 4-gramas.

Definimos una función auxiliar ngrams(text,N) que dado el string text devuelve la lista de N-gramas.

In [665]:
def ngrams(text,N):
    text = tokenizer(text)
    return [tuple(text[i:i+N]) for i in range(len(text)-N+1)]

Veamos un ejemplo:

In [666]:
text_example = 'Sara said: Hello! nice to meet you!'
for n in range(2,5):
    print(str(n)+'-gramas de la oración: ', text_example)
    print('\t', ngrams(text_example,n))

2-gramas de la oración:  Sara said: Hello! nice to meet you!
	 [('Sara', 'said'), ('said', ':'), (':', 'Hello'), ('Hello', '!'), ('!', 'nice'), ('nice', 'to'), ('to', 'meet'), ('meet', 'you'), ('you', '!')]
3-gramas de la oración:  Sara said: Hello! nice to meet you!
	 [('Sara', 'said', ':'), ('said', ':', 'Hello'), (':', 'Hello', '!'), ('Hello', '!', 'nice'), ('!', 'nice', 'to'), ('nice', 'to', 'meet'), ('to', 'meet', 'you'), ('meet', 'you', '!')]
4-gramas de la oración:  Sara said: Hello! nice to meet you!
	 [('Sara', 'said', ':', 'Hello'), ('said', ':', 'Hello', '!'), (':', 'Hello', '!', 'nice'), ('Hello', '!', 'nice', 'to'), ('!', 'nice', 'to', 'meet'), ('nice', 'to', 'meet', 'you'), ('to', 'meet', 'you', '!')]


Creamos la clase modelNgram, que puede generalizarse fácilmente y que instanciaremos con N=4 para definir el modelo propuesto del apartado 4.

In [667]:
class modelNgram():
    # Definimos por defecto 4grams
    def __init__(self, N = 4):
        assert N > 1, 'N must be greater or equal 2' 
        self.N = N
        self.punct_marks = ['.',',',';',':','?','!']
        self.mayus_marks = ['.','?','!']
        self.minus = '<minus>'
        self.mayus = '<mayus>'
        # Diccionario con una clave para cada operación y valor un diccionario donde cada clave es una terna posible 
        # y su valor es el número de veces que aparece dicha terna seguida de la operación
        self.counts_dict = dict()
        # Diccionario donde cada clave es una terna y el valor es la operación predicha entrenada por el modelo
        # deducida del argumento del máximo en el diccionario counts_dict.
        self.trained_dict = dict()
        self.trained = False
                
    def entrena(self, train_file_path = TRAIN_PATH):
        
        # Conjunto de tuplas vistas
        tuplas = set()
        
        # Inicializamos los subdiccionarios de cada operación
        self.counts_dict[self.mayus]= {}
        self.counts_dict[self.minus]={}
        for s in model.punct_marks:
            self.counts_dict[s] = {}
        
        # Recorremos el archivo de entrenamiento
        with open(train_file_path, 'r', encoding='utf-8') as train:
            train_lines = train.readlines()
            for line in train_lines:
                # Eliminamos el espacio final y retorno de carro del final de las líneas
                line = line.rstrip(' \n')
                # Obtenemos los 4gramas de la línea
                ngs = ngrams(line,self.N)
                for ng in ngs:
                    # obtenemos la operación correspondiente a partir del último elemento del 4grama
                    last = ng[-1]
                    op = last if last in self.punct_marks else self.mayus if last.isupper() else self.minus 
                    # Construimos la N-1 tupla  
                    tupla =  tuple([x.lower() for x in list(ng)[:-1]]) if len(ng) > 2 else ng[0]
                    tuplas.add(tupla)
                    # Sumamos una ocurrencia a la entrada correspondiente del diccionario
                    self.counts_dict[op][tupla]= self.counts_dict[op].get(tupla,0) + 1
        train.close()
        # Construimos el diccionario trained_model a partir de counts_dict
        for tupla in tuplas:
            self.trained_dict[tupla] = self.operacion_mas_probable(tupla)
        self.trained = True
        
    # Predice la operación dada una tupla calculando el máximo de ocurrencias consultando counts_dict        
    def operacion_mas_probable(self, tupla):  
        v = 0
        prediction = 'NONE'
        for i in self.counts_dict:
            value = self.counts_dict[i].get(tupla,0) 
            if value > v:
                prediction = i
                v = value
        return prediction
    
    # Predice la operación dada una tupla consultando directamente el diccionario trained_model
    def predice(self,tupla):
        #Devolvemos excepción si modelo aún no entrenado
        self.check_entrenado()
        return self.trained_dict.get(tupla,'NONE')
    
    def check_entrenado(self):
         if not self.trained:
            raise NotTrainedModel(Exception("Model has not been trained yet"))
        
class NotTrainedModel(Exception): pass        

Intanciamos el modelo y lo entrenamos

In [668]:
model4gram = modelNgram(N=4)
model4gram.entrena()

Consultamos el diccionario de conteo para comprobar la distribución de signos dada la terna ('by','the','way')

In [669]:
terna = ('by','the','way')
for i in model4gram.counts_dict:
    print('Ocurrencias con el signo ',i,' para la terna ',terna, ':',model4gram.counts_dict[i].get(terna,0))

Ocurrencias con el signo  <mayus>  para la terna  ('by', 'the', 'way') : 0
Ocurrencias con el signo  <minus>  para la terna  ('by', 'the', 'way') : 25
Ocurrencias con el signo  .  para la terna  ('by', 'the', 'way') : 36
Ocurrencias con el signo  ,  para la terna  ('by', 'the', 'way') : 200
Ocurrencias con el signo  ;  para la terna  ('by', 'the', 'way') : 1
Ocurrencias con el signo  :  para la terna  ('by', 'the', 'way') : 0
Ocurrencias con el signo  ?  para la terna  ('by', 'the', 'way') : 1
Ocurrencias con el signo  !  para la terna  ('by', 'the', 'way') : 0


Se observa que la mayor ocurrencia se da para la coma ',' por lo que la función predice() del modelo debe devolver dicho caracter.

In [670]:
print('La operación más probable dada la terna ',terna, ' es ',model4gram.predice(terna))

La operación más probable dada la terna  ('by', 'the', 'way')  es  ,


Igual que definimos el modelo de forma genérica para Ngramas, vamos a definir la función genérica addPunctuationNgram donde la función requerida por el apartado addPunctuation4gram es addPunctuationNgram usando un modelo basado en 4 gramas.

In [671]:
def addPunctuationNgram(model,example,add_basic_punct = False):
    model.check_entrenado()
    # Trabajamos con los tokens
    tokens = tokenizer(example)
    num_tokens = len(tokens)
    # Generamos los (N-1)-gramas del texto
    N = model.N -1
    grams = ngrams(example,N)
    added_tokens = 0
    for i in range(len(grams)):
        # Calculamos el 4-grama predicho
        operation = model.predice(grams[i]) if N > 1 else model.predice(grams[i][0])
        target_index = i+N+added_tokens
        # Transformamos los tokens del texto
        if operation == model.mayus and target_index < num_tokens:
            tokens[target_index] = change_initial(tokens[target_index], uppercase = True)
        if operation == model.minus and target_index < num_tokens:
            tokens[target_index] = change_initial(tokens[target_index], uppercase = False)
        if operation in model.punct_marks:
            added_tokens += 1
            num_tokens += 1
            tokens.insert(target_index, operation)
            if operation in model.mayus_marks and target_index < num_tokens -1:
                tokens[target_index+1] = change_initial(tokens[target_index+1], uppercase = True)

    # Añadimos los espacios excepto para los signos de puntuación
    result = [' ' + x if x not in model.punct_marks else x for x in tokens]
    # Reconstruimos el texto predicho
    result = ''.join(result)[1:]
    
    
    # Puesto que el modelo de 4 gramas dificilmente va a poner la primera letra en mayúscula y es probable que
    # deje el final de la oración sin puntuar, añadimos la funcionalidad de addPunctuationBasic como
    # parámetro de la función.
    if add_basic_punct:
        dot = '' if result[-1] in model.punct_marks else '.'
        result = change_initial(result + dot,uppercase=True)
    return result 
    

Podemos definir ahora la función de puntuación addPunctuation4gram simplemente como la ejecución de addPunctuationNgram
verificando que el modelo usado usa 4gramas.

In [672]:
def addPunctuation4gram(model,example,add_basic_punct = False):
    N = model.N
    assert N == 4, 'The model is based in ' + str(N) +'-grams and it should be 4-grams.'
    return addPunctuationNgram(model,example,add_basic_punct = add_basic_punct)


In [673]:
text_example = "and we also are eating meat that comes from some of these same places"
print('Frase sin puntuar:\n \t',text_example)
print('Puntuación de la frase con modelo 4 gramas:\n \t',addPunctuation4gram(model4gram,text_example,add_basic_punct=False))
print('Puntuación de la frase con modelo 4 gramas + addPunctuationBasic:\n \t',addPunctuation4gram(model4gram,text_example,add_basic_punct=True))

Frase sin puntuar:
 	 and we also are eating meat that comes from some of these same places
Puntuación de la frase con modelo 4 gramas:
 	 and we also are eating meat, that comes from some of these same places
Puntuación de la frase con modelo 4 gramas + addPunctuationBasic:
 	 And we also are eating meat, that comes from some of these same places.


Exploremos algunos ejemplos usando puntuación básica o no en el modelo de 4gramas

In [674]:
# Instancia del corpus. Modificar para ver distintos ejemplos.
i = 0

l = 70
print('='*l)
print('MODELO 4GRAMS')
print('='*l)
evaluate_example_from_corpus(addPunctuation4gram, model = model4gram, add_punct_basic=False,corpus_line = i)
print('='*l)
print('='*l)
print('4GRAMS + PUNTUACION BÁSICA')
print('='*l)
evaluate_example_from_corpus(addPunctuation4gram, model = model4gram, add_punct_basic=True,corpus_line = i)
print('='*l)

MODELO 4GRAMS
TEST LINE: 
  it can be a very complicated thing the ocean
MODEL PUNCTUATED LINE: 
  it can be a very complicated thing, the ocean
VALIDATION LINE: 
  It can be a very complicated thing, the ocean. 

Modificaciones necesarias:  {('S', 0), ('I', 9), ('I', 7)}
Modificaciones hechas por el modelo:  {('I', 7)}
Diferencias entre modelo y validación:  {('S', 0), ('I', 10)} 

n_hechas (Núm. de modificaciones hechas por el modelo):  1
n_correctas (Núm. de modificaciones correctas: 
 interseccion(hechas,necesarias) - error de sustitucion de signo):  1
n_necesarias (Núm. de modificaciones necesarias):  3 

precision (n_correctas/n_hechas):  1.0
recall (n_correctas/n_necesarias):  0.3333333333333333 

4GRAMS + PUNTUACION BÁSICA
TEST LINE: 
  it can be a very complicated thing the ocean
MODEL PUNCTUATED LINE: 
  It can be a very complicated thing, the ocean.
VALIDATION LINE: 
  It can be a very complicated thing, the ocean. 

Modificaciones necesarias:  {('S', 0), ('I', 9), ('I', 7)}

### APARTADO 5

Evaluemos el modelo usando la misma función evaluate() anterior. Vamos a comparar el rendimiento usando también la puntuación básica y sin ella.

In [675]:
print('MODELO 4GRAMS')
evaluate(addPunctuation4gram,model=model4gram)
print()

MODELO 4GRAMS
MÉTRICAS
precision global:  0.3060887512899897
recall global:  0.04665135738777564
F1 global:  0.08096303979909374
precision media:  0.14062073775442538
recall medio:  0.049548668299233246
F1 medio:  0.07327751014820442
rendimiento:  0.0
número de instancias en el corpus:  14382



Podemos ver que este modelo tal cual es muy pobre. Usando la función evaluate_example_from_corpus(), podemos ver que nunca pone la mayúscula inicial como era de esperar y rara vez un punto al final. Además las predicciones parecen bastante pobres y esto se puede deber a la falta de variedad en en las tuplas del corpus de entrenamiento. El corpus debería ser más grande y variado. 

Veamos la evaluación añadiendo la puntuación básica y lo comparamos con lo obtenido en addPunctuationBasic.

In [676]:
print('4GRAMS + PUNTUACION BÁSICA')
evaluate(addPunctuation4gram,model=model4gram,add_punct_basic=True)
print()
print('PUNTUACIÓN BÁSICA')
evaluate(addPunctuationBasic)
print()

4GRAMS + PUNTUACION BÁSICA
MÉTRICAS
precision global:  0.7800087656823536
recall global:  0.4478750511183114
F1 global:  0.5690220215019384
precision media:  0.8431887161340575
recall medio:  0.5991128246565686
F1 medio:  0.700498694835623
rendimiento:  0.2369628702544848
número de instancias en el corpus:  14382

PUNTUACIÓN BÁSICA
MÉTRICAS
precision global:  0.9481749791028141
recall global:  0.4281984334203655
F1 global:  0.5899664102286271
precision media:  0.9474342928660826
recall medio:  0.5873733513179556
F1 medio:  0.7251692521379949
rendimiento:  0.263384786538729
número de instancias en el corpus:  14382



Podemos ver que en general la precisión es más baja en el modelo de 4gramas pero el recall ligeramente superior, pero no de forma sustancial. Además los F1 son menores en el modelo de puntuación básica que en el de 4 gramas así como el rendimiento.

En general podemos concluir que el modelo de puntuación básica es mejor que el basado en 4gramas por sorprendente que parezca.

Ya que hemos implementado un modelo genérico, vamos a comparar con modelos basados en 3gramas y 5gramas para ver si existe mejoría o no.

In [677]:
model3gram = modelNgram(N=3)
model5gram = modelNgram(N=5)
model3gram.entrena()
model5gram.entrena()

In [678]:
print('3GRAMAS')
evaluate(addPunctuationNgram, model = model3gram, add_punct_basic=True)
print()
print('5GRAMAS')
evaluate(addPunctuationNgram, model = model5gram, add_punct_basic=True)
print()

3GRAMAS
MÉTRICAS
precision global:  0.7267446209080256
recall global:  0.45847620245997045
F1 global:  0.5622498481005332
precision media:  0.8039312953739148
recall medio:  0.6054353508863484
F1 medio:  0.6907051861838088
rendimiento:  0.2259769155889306
número de instancias en el corpus:  14382

5GRAMAS
MÉTRICAS
precision global:  0.8714429298322759
recall global:  0.4363930919500456
F1 global:  0.5815586484447053
precision media:  0.9020709308151896
recall medio:  0.5925814372753306
F1 medio:  0.7152840354304869
rendimiento:  0.2533027395355305
número de instancias en el corpus:  14382



Observamos que en cuanto a precision, el modelo basado en 3gramas es ligeramente inferior al de 4gramas y este a su vez inferior al de 5 gramas, todos por debajo de la precisión del puntuador básico. En cuanto a recall el orden es inverso: el modelo basado en 3 gramas presenta mayor recall que el de 4 y este a su vez que el de 5.
En cuanto al F1, los mayores valores los encontramos para el modelo de 5gramas y de puntuación básica. Es obvio que cuanto mayor sea N, menos probable es la probabilidad de que se de una N-tupla concreta por lo que el modelo basado en N-gramas con N grande coincidirá eventualmente con el de puntuación básica si se considera el parámetro add_punct_basic.

Para acabar este apartado podemos explorar algunas predicciones de los modelos de 3 y 5 gramas:

In [679]:
# Instancia del corpus. Modificar para ver distintos ejemplos.
i= 0

l = 70 
print('='*l)
print('MODELO 3GRAMS')
print('='*l)
evaluate_example_from_corpus(addPunctuationNgram, model = model3gram, add_punct_basic=True,corpus_line = i)
print('='*l)
print('MODELO 5GRAMS')
print('='*l)
evaluate_example_from_corpus(addPunctuationNgram, model = model5gram, add_punct_basic=True,corpus_line = i)

MODELO 3GRAMS
TEST LINE: 
  it can be a very complicated thing the ocean
MODEL PUNCTUATED LINE: 
  It can be a very complicated thing. The ocean.
VALIDATION LINE: 
  It can be a very complicated thing, the ocean. 

Modificaciones necesarias:  {('S', 0), ('I', 9), ('I', 7)}
Modificaciones hechas por el modelo:  {('S', 0), ('I', 9), ('S', 7), ('I', 7)}
Diferencias entre modelo y validación:  {('S', 7), ('S', 8)} 

n_hechas (Núm. de modificaciones hechas por el modelo):  4
n_correctas (Núm. de modificaciones correctas: 
 interseccion(hechas,necesarias) - error de sustitucion de signo):  2
n_necesarias (Núm. de modificaciones necesarias):  3 

precision (n_correctas/n_hechas):  0.5
recall (n_correctas/n_necesarias):  0.6666666666666666 

MODELO 5GRAMS
TEST LINE: 
  it can be a very complicated thing the ocean
MODEL PUNCTUATED LINE: 
  It can be a very complicated thing, the ocean.
VALIDATION LINE: 
  It can be a very complicated thing, the ocean. 

Modificaciones necesarias:  {('S', 0), ('

### APARTADO 5