# Minería de textos

### Recomendación de Ortografía
Crear tres recomendadores de ortografía diferentes, que cada uno tome una lista de palabras mal escritas y recomiende una palabra correctamente deletreada para cada palabra de la lista. Para cada palabra mal escrita, el recomendador debe encontrar la palabra en palabras_correctas que tiene la distancia más corta, y comienza con la misma letra que la palabra mal escrita, y devolver esa palabra como una recomendación. Cada uno de los tres recomendadores diferentes utilizará una medida de distancia diferente. Cada uno de los recomendadores debería proporcionar recomendaciones para las tres palabras predeterminadas proporcionadas: ['cormulent', 'incendenece', 'validrate'].

Recomendador 1:
* El primer recomendador debe proporcionar recomendaciones para las tres palabras predeterminadas proporcionadas anteriormente usando la siguiente métrica de distancia:
* Distancia de Jaccard en los trigramas de las dos palabras:
* https://en.wikipedia.org/wiki/Jaccard_index
* Esta función debe devolver una lista de longitud tres: ['recomendacion_cormulent’, 'recomendacion_incendenece', 'recomendacion_validrate']

Recomendado 2:
* Para este recomendador, su función debe proporcionar recomendaciones para las tres palabras predeterminadas proporcionadas anteriormente usando la siguiente métrica de distancia:
* Distancia de Jaccard en los 4 gramas de las dos palabras:
* https://en.wikipedia.org/wiki/Jaccard_index
* Esta función debe devolver una lista de longitud tres: ['recomendacion_cormulent', 'recomendacion_incendenece', 'recomendacion_validrate']

Recomendador 3:
* Para este recomendador, su función debe proporcionar recomendaciones para las tres palabras predeterminadas proporcionadas anteriormente usando la siguiente métrica de distancia:
* Distancia de edicion en las dos palabras con transposiciones:
* https://en.wikipedia.org/wiki/Damerau%E2%80%93Levenshtein_distance
* Esta función debe devolver una lista de longitud tres: ['recomendacion_cormulent', 'recomendacion_incendenece', 'recomendacion_validrate']. 


In [1]:
from nltk.corpus import words
from nltk.metrics import edit_distance

#### Clase Word_Recommender( )

In [2]:
class Word_Recommender:
    """
    Se carga la lista de palabras correctas al inicializar el objeto
    """
    def __init__(self):
        self.correct_words = words.words()
    
    """
    Función que devuele los n-gramas de caracteres de una palabra
    """
    def get_char_ngrams(self, word, n):
        word_len = len(word)
        return [word[i:i+n] for i in range(word_len - n + 1)]
    
    """
    Función que devuelve las opciones de palabras correctas que comienzan
    con la letra de la palabra mal escrita
    """
    def get_word_options(self, char):
        return list(filter(lambda word: char == word[0], self.correct_words))
    
    """
    Función para obtener el coeficiente Jaccard
    """
    def jaccard_index(self, list1, list2):
        list1 = set(list1)
        list2 = set(list2)
        intersection = list1.intersection(list2)
        union = list1.union(list2)
        return len(intersection)/len(union)
    
    """
    Función que devuelve una recomendación con base en el coeficiente Jaccard
    """
    def get_jaccard_option(self, word, options, ngram):
        char_ngrams = self.get_char_ngrams(word, ngram)
        best_score = 0
        best_option = None
        for option in options:    
            ngrams_option = self.get_char_ngrams(option,ngram)
            score = self.jaccard_index(char_ngrams,ngrams_option)
            if score > best_score:
                best_score = score
                best_option = option
        return best_option

    """
    Función que devuelve una recomendación con base en la distancia de 
    edición de Levenshtein
    """
    def get_editDistance_option(self, word, options):
        best_score = 1000000
        best_option = None
        for option in options:
            score = edit_distance(word, option,transpositions=True)
            if score < best_score:
                best_score = score
                best_option = option
        return best_option
    
    """
    Función que devuelve la recomendación para la palabra o
    lista de palabras con base en la métrica de distancia ingresada y 
    los n-gramas a considerar
    """
    def get_recommendation(self, word, metric, ngram=1):
        metric = metric.lower()
        if isinstance(word, list) == False:
            options = self.get_word_options(word[0])
            best_option = None
            if metric == 'jaccard':
                best_option = self.get_jaccard_option(word,options,ngram)
            elif metric == 'levenshtein':
                best_option = self.get_editDistance_option(word, options)
        else:
            best_options =[] 
            if metric == 'jaccard':
                for w in word:
                    options = self.get_word_options(w[0])
                    best_options.append(self.get_jaccard_option(w,options,ngram))
            elif metric == 'levenshtein':
                for w in word:
                    options = self.get_word_options(w[0])
                    best_options.append(self.get_editDistance_option(w,options))
            return best_options

        return best_option

#### Lista de palabras

In [3]:
words_list = ['cormulent', 'incendenece', 'validrate']

#### Creación de objeto Word_Recommender( )

In [4]:
recommender = Word_Recommender()

##### Coeficiente Jaccard y 3-gramas

In [5]:
recommendations = recommender.get_recommendation(words_list, 'jaccard',3)

In [6]:
print(recommendations)

['corpulent', 'indecence', 'validate']


##### Coeficiente Jaccard y 4-gramas

In [7]:
recommendations = recommender.get_recommendation(words_list, 'jaccard',4)

In [8]:
print(recommendations)

['cormus', 'incendiary', 'valid']


##### Distancia de Levenshtein

In [9]:
recommendations = recommender.get_recommendation(words_list, 'levenshtein')

In [10]:
print(recommendations)

['corpulent', 'intendence', 'validate']
