# Algoritmos para NLP 


## 1.- La siguiente palabra más probable
Construya una función que utilizando el archivo big.txt del tutorial de Norvig ([Tutorial](http://norvig.com/spell-correct.html)), estime la siguiente palabra más probable dada una anterior. Formalmente, dada una palabra $w_i$, la funcion debe calcular $w_{i+1}$ tal que: 

$$ w_{i+1} = \arg \max_{w_{i+1}} P(w_{i+1}|w_i) $$

Notas: 1) Podemos asumir que ambas palabras dadas siempre existen en la colección. 2) Se requiere una función P similar a la de Norvig, pero que también estime la probabilidad condicional de cada palabra.

In [22]:
def next_word(word):
    # your code here
    return ''

Explica tu estrategia, muestre que su propuesta funciona con diferentes ejemplos, y discuta el resultado.

## 2.- The hangman

Diseñe una funcion que sea capaz de encontrar los caracteres faltantes de una palabra. La función debe trabajar como sigue:

```
>>> hangman("pe_p_e")
'people'

>>> hangman("phi__sop_y")
'philosophy'

>>> hangman("si_nif_c_nc_")
'significance'

>>> hangman("kn__l_d_e")
'knowledge'

>>> hangman("inte_r_ga_i_n")
'interrogation'
```

### Tips y Consideraciones: 

1) De preferencia adapte o extienda las estrategias del tutorial de Norvig discutidas en clase: [Tutorial](http://norvig.com/spell-correct.html)

2) La función debe poder tratar con hasta 4 caracteres desconocidos en palabras de longitud arbitraria. Además la función debe trabajar en tiempo razonable (máximo 1 minuto en una laptop).

3) También puede utilizar cualquier otro algoritmo para obtener distancias de edición (e.g., [Levenshtein](https://es.wikipedia.org/wiki/Distancia_de_Levenshtein)) o bien para encontrar subcadenas (e.g., [Karp Rabin](https://es.wikipedia.org/wiki/Algoritmo_Karp-Rabin), [Aho-Corasick](https://es.wikipedia.org/wiki/Algoritmo_de_b%C3%BAsqueda_de_cadenas_Aho-Corasick)). 


In [23]:
def hangman(word):
    ### your code here
    return ''

Explica tu estrategia, muestre que su propuesta funciona con diferentes ejemplos, y discuta el resultado.

## 3) Corrección ortográfica simple

Funciones de ayuda para leer el texto en: i) un string y ii) una lista de palabras.

In [24]:
import os
import re

# simple extraction of words
def words(text): return re.findall(r'\w+', text.lower())

# siple loading of the documents
from keras.preprocessing.text import Tokenizer
def get_texts_from_catdir(cat_dir):
    texts = []
    TARGET_DIR = cat_dir # "./target"
    for f_name in sorted(os.listdir(TARGET_DIR)):
        f_path = os.path.join(TARGET_DIR, f_name)
        #print(f_name)
        #print(f_path)
        f = open(f_path, "r",  encoding="utf8")
        print(f_name)
        texts += [f.read()]                
        f.close()
    print("%d files loaded." % len(texts))
    return texts

# Load the RAW text 
target_txt = get_texts_from_catdir("./target")

# Print first 10 words in document0
print(words(target_txt[0])[:10])

1.txt
10.txt
2.txt
3.txt
4.txt
5.txt
6.txt
7.txt
8.txt
9.txt
10 files loaded.
['scientists', 'witness', 'huge', 'cosmic', 'crash', 'find', 'origins', 'of', 'gold', 'even']



### 3.1 Construya un corrector ortográfico simple y generador de candidatos.

Descargue los archivos de apoyo para esta pregunta de [aquí](https://github.com/fagonzalezo/dl-tau-2017-2/blob/master/assign2_q2_files.zip). 
Descomprima el archivo y ponga su contenido en la raíz de su notebook. En este archivo se le proporcionan 10 noticias en el directorio "target" en las cuales se han introducido algunos errores. Además, para evaluar a su corrector también tiene el directorio golden que contiene el texto correcto. Siéntete libre de adaptar y/o extender el código de Norvig para tener un corrector básico y completar esta parte de la tarea. 



### a) Mezclar WORDS[word] con DIC_WORDS_IN_NEWS

Genere un solo diccionario/vocabulario global mezclando los diccionarios DIC_WORDS_IN_NEWS y WORDS y sus frecuencias. Asegurese que si una palabra de un diccionario ya está en el otro, entonces el diccionario resultante contendrá las suma de las frecuencias. 


In [None]:
import json
with open('WORDS_IN_NEWS.txt', 'r') as infile:
    WORDS_IN_NEWS = json.load(infile)

In [None]:
def merge_dic(words_dic, words_in_news_dic):
    '''
    words_dic: for example WORDS
    words_in_news_dic: for example WORDS_IN_NEWS
    Returns: Merged dictionary merged_word_dic
    '''
    # Your code goes here
    return merged_word_dic

In [None]:
WORDS = merge_dic(WORDS, WORDS_IN_NEWS)

### b) Detecte las palabras mal escritas en las noticias

Instrucciones: Cree una funcion que dadas las palabras de un texto, regrese una lista conteniendo las tuplas de cada palabra que no está bien escrita y su lista de palabras candidatas para corregir. Se espera que la funcion trabaje con palabras fuera del vocabulario en el diccionario y sea capaz de generar posibles candidatos de reemplazo. Sientase libre de adaptar código del tutorial de Norvig. 

In [None]:
def misspelled_and_candidates(target_words):
    '''
    target_words: a text with possible misspellings represented as a list of words
    Returns: list of tuples of the form [("misspelled-word-1", ["candidate-word-1_1", "candidate-word-1_2"]), ...]
    '''
    # Your code goes here
    return misspelled_candidates

In [None]:
# Example call to print the output. Target_txt[0] is the raw data from file 0.
print(misspelled_and_candidates(words(target_txt[0])))

In [None]:
# Print misspelled words and candidates for each document in target_txt list
for text in target_txt:
    print(misspelled_and_candidates(words(text)))

### c) Corrección completa

Combine el uso de su función next_word (de la primera parte de esta tarea) con su generador de candidatos, para diseñar una estrategia que realice una corrección ortográfica completa.

In [None]:
def spell_correction(input_text):
    '''
    input_text: a text with possible misspellings represented as a list of words
    Returns: the text with corrected misspellings
    '''
    # Your code goes here
    return corrected_words

In [None]:
# Apply the correction to each target text
corrected_txt = []
for t_txt in target_txt:
    corrected_txt += [spell_correction(words(t_txt))]

# Explica tu estrategia, muestre que su propuesta funciona con diferentes ejemplos, y discuta el resultado.

In [25]:
# Tu explicación y discusión va aquí!

### d) Evalué a su corrector

In [20]:
def number_of_errors(corrected_text, reference_text):
    if len(corrected_text) != len(reference_text):
        print ("The length of the lists does not match!")
        return
    
    errors = 0
    for corrected_word, reference_word in zip(corrected_text, reference_text):
        if corrected_word != reference_word:
            errors += 1
            
    return errors

In [None]:
# Compare errors before and after correction
# Ideally errors after correction should be 0, but they depend on your strategy. We will evaluate this part 
# with a held out set of text. 

golden_txt = get_texts_from_catdir("./golden")
errors_before=0
errors_after=0
for t_txt, g_txt, c_txt in zip(target_txt, golden_txt, corrected_txt):
    errors_before += number_of_errors(words(t_txt), words(g_txt))
    errors_after += number_of_errors(words(c_txt), words(g_txt))
print("Total errors before correction:", errors_before)
print("Total errors after correction:", errors_after)