# Clase 9
- **Alumna:** Enya Quetzalli Gómez Rodríguez *(Eduardo Gómez Rodríguez)*
- **Profesora:** Olga Kolesnikova
- **Escuela:** Escuela Superior de Cómputo del IPN
- **Grupo:** 3CV9
- **Semestre:** 2020/2

## Lematización
La implementación de similitud de palabras, puede ser un poco alejada de la realidad, ya que aunque nuestros tokens se encuentran limpios de caractéres innecesarios, palabras como *dije*, *dijiste*, *diremos* o *diré*, son tomadas como diferentes tokens en nuestra implementación de la Practica 1, y todas estas palabras pertencesn al **lema** (La raíz léxica de una palabra) *decir*, por lo que tener un contexto para una palabra como este:
```json
{
    "word":[
        "dije":1,
        "dijiste":1,
        "diremos":1,
        "diré":1
        ]
}
```

Debería verse de esta forma:
```json
{
    "word":[
        "decir",4
        ]
}
```
Esto es debido a que hablamos del mismo concepto. La **lematización** (O *lemmatization* en inglés) es el proceso *correcto* a realizar como parte de la normalización del texto, y está basado en vocabulario, mofología y raíces léxicas así como el avance evolutivo del lenguaje. Sin embargo es un proceso es muy complejo computacionalmente, y aún más si se requieres realizar la inferecia de los lemas. Por tanto, existen recursos que nos proveen de mapas de lemas con palabras flexadas (La modificaciones que se le hacen a los lemas para crear conjugaciones, etc..), esto nos ayudará en nuestro proceso de lematización.

In [1]:
import nltk

In [2]:
def clean_html(txt):
	from bs4 import BeautifulSoup
	return BeautifulSoup(txt,'lxml').get_text().lower()

In [3]:
def split_text(txt):
	return txt.replace('/', ' ').replace('.', ' ').replace('-', ' ')

In [4]:
def delete_trash(txt):
	import re
	good = {'\n'}
	for i in "abcdefghijklmnopqrstuvwxyz áéíóúñü":
		good.add(i)
	ans = ""
	for c in txt:
		if c in good:
			ans += c
	return ans

In [5]:
def delete_stopwords(txt):
	from nltk.corpus import stopwords
	ans = []
	stp = stopwords.words()
	for w in txt:
		if w not in stp:
			ans.append(w)
	return ans

In [6]:
def get_vocabulary(tokens):
	vocabulary = sorted(set(tokens))
	return vocabulary

In [7]:
def get_contexts(wordList, windowSize=4):
    contexts = dict()
    index = 0
    for index in range(len(wordList)):
        word = wordList[index]
        if word not in contexts:
            contexts[word] = []
        start = max(0, index - windowSize)
        end = min(index + windowSize, len(wordList) - 1)
        for i in range(start, end + 1):
            if i != index:
                contexts[word].append(wordList[i])
    return contexts

In [8]:
def dumpToJson(obj, name):
    import json
    with open("./c9_docs/"+name, 'w', encoding="utf8") as outfile:
        json.dump(obj, outfile, indent=4)

In [9]:
def load_lemmas_raw():
    with open("./c9_docs/lemmas.txt", 'r') as f:
        lines = [line.strip() for line in f.readlines()]
    
    lemmas = {}
    for line in lines:
        if line != "":
            words = [word.strip() for word in line.split()]
            wordform = words[0].replace("#", "")
            lemmas[wordform] = words[-1]
    return lemmas

In [10]:
def loadFromJson(name):
    import json
    with open("./c9_docs/"+name, 'r', encoding="utf8") as f:
        return json.load(f)

In [11]:
f = open("./c8_docs/e961024.htm", "r", encoding="utf8")
org_txt = f.read()
f.close()

text = delete_trash(split_text(clean_html(org_txt)))
normalized_tokens = delete_stopwords(nltk.word_tokenize(text))
print(normalized_tokens[:200])

['emod', 'htm', 'http', 'www', 'excelsior', 'mx', 'art', 'html', 'excelsior', 'editorial', 'jueves', 'octubre', 'epigrama', 'jorge', 'mansilla', 'torres', 'critica', 'miami', 'herald', 'presidente', 'ecuatoriano', 'autoproclamarse', 'loco', 'neoliberalismo', 'aplica', 'encomio', 'hace', 'mismo', 'país', 'manicomio', 'editorial', 'nota', 'siguiente', 'http', 'www', 'excelsior', 'mx', 'art', 'html', 'excelsior', 'editorial', 'jueves', 'octubre', 'hungría', 'rebelión', 'antiestalinista', 'oscar', 'gonzalez', 'lopez', 'curso', 'octubre', 'insurgencia', 'popular', 'comandada', 'estudiantes', 'intelectuales', 'obreros', 'partidarios', 'establecer', 'suelo', 'húngaro', 'régimen', 'socialista', 'libertad', 'creció', 'vertiginosamente', 'desembocar', 'auténtica', 'insurrección', 'armada', 'estructura', 'estalinista', 'surgido', 'consecuencia', 'resultados', 'primera', 'guerra', 'mundial', 'años', 'distancia', 'conviene', 'analizar', 'acontecimientos', 'otoño', 'magyar', 'dada', 'conducta', 'ado

### Diccionario de lemas
Tomaremos el archivo **lemmas.txt** que contiene un mapa de palabras comunes en una sintáxis que nos permitirá obtener los lemas. 
Imprimiremos algunos valores del diccionario. 

In [12]:
lemmas_dic = load_lemmas_raw()
for item in sorted(lemmas_dic.items())[:50]:
    print(F"[{item[0]}] = {item[1]}")

[!] = !
["] = "
[%] = %
['] = '
[(] = (
[)] = )
[,] = ,
[-] = -
[.] = .
[...] = ...
[/] = /
[:] = :
[;] = ;
[?] = ?
[[] = [
[]] = ]
[a] = a
[a-já] = a-já
[abad] = abad
[abades] = abad
[abadesa] = abadesa
[abadesas] = abadesa
[abajo] = abajo
[abalance] = abalanzar
[abalancemos] = abalanzar
[abalancen] = abalanzar
[abalances] = abalanzar
[abalancé] = abalanzar
[abalancéis] = abalanzar
[abalancémonos] = abalanzar
[abalancémonosla] = abalanzar
[abalancémonoslas] = abalanzar
[abalancémonosle] = abalanzar
[abalancémonosles] = abalanzar
[abalancémonoslo] = abalanzar
[abalancémonoslos] = abalanzar
[abalancémosla] = abalanzar
[abalancémoslas] = abalanzar
[abalancémosle] = abalanzar
[abalancémosles] = abalanzar
[abalancémoslo] = abalanzar
[abalancémoslos] = abalanzar
[abalancémosmela] = abalanzar
[abalancémosmelas] = abalanzar
[abalancémosmele] = abalanzar
[abalancémosmeles] = abalanzar
[abalancémosmelo] = abalanzar
[abalancémosmelos] = abalanzar
[abalancémossela] = abalanzar
[abalancémosselas] 

In [13]:
dumpToJson(lemmas_dic, "lemmas_dic.json")

Como podemos observar, este diccionario de lemas, nos permite obtener el lema de un conjunto de palabras, lo cual nos permitirá sustituir las palabras de nuestros tokens normalizados a tokens lematizados. 

### Reemplazo de Tokens por Lemas
Ahora, crearemos una función que nos permita sustituir los tokens que tenemos por unos lematizados.

In [14]:
def replace_with_lemmas(tokens):
    lemmas = loadFromJson("lemmas_dic.json")
    lemmatized_tokens = []
    for word in tokens:
        if word in lemmas.keys():
            lemmatized_tokens.append(lemmas[word])
        else:
            lemmatized_tokens.append(word)
    return lemmatized_tokens

In [15]:
lemmatized_tokens = replace_with_lemmas(normalized_tokens)
print(lemmatized_tokens[:100])

['emod', 'htm', 'http', 'www', 'excelsior', 'mx', 'art', 'html', 'excelsior', 'editorial', 'jueves', 'octubre', 'epigrama', 'jorge', 'mansilla', 'torre', 'criticar', 'miami', 'herald', 'presidente', 'ecuatoriano', 'autoproclamarse', 'loco', 'neoliberalismo', 'aplicar', 'encomio', 'hacer', 'mismo', 'país', 'manicomio', 'editorial', 'nota', 'siguiente', 'http', 'www', 'excelsior', 'mx', 'art', 'html', 'excelsior', 'editorial', 'jueves', 'octubre', 'hungría', 'rebelión', 'antiestalinista', 'oscar', 'gonzalez', 'lopez', 'curso', 'octubre', 'insurgencia', 'popular', 'comandada', 'estudiante', 'intelectual', 'obrero', 'partidario', 'establecer', 'soler', 'húngaro', 'régimen', 'socialista', 'libertad', 'crecer', 'vertiginosamente', 'desembocar', 'auténtica', 'insurrección', 'armada', 'estructura', 'estalinista', 'surgir', 'consecuencia', 'resultado', 'primero', 'guerra', 'mundial', 'año', 'distancia', 'convenir', 'analizar', 'acontecimiento', 'otoño', 'magyar', 'dado', 'conducta', 'adoptar', 

Como podemos ver, ahora tenemos nuestros tokens lematizados y listos para obtener un resultado mas certero en la búsqueda de similitudes.