# Preprocessing: Normalization and Lemmatization

On this notebook is developed the normalization and lemmatization for preprocessing part within the NLP process.

In [1]:
# Importamos las bibliotecas necesarias...
from nltk.corpus import PlaintextCorpusReader
from bs4 import BeautifulSoup
import re

In [2]:
def lemmatize(text):
    from pickle import dump
    lemmas = dict()
    
    with open('./generate.txt', encoding = 'latin1') as file:
        lines = file.readlines()
        for line in lines:
            line = line.strip()
            if line != '':
                words = line.split()
                token = words[0].strip()
                token = token.replace('#', '')
                lemma = words[-1].strip()
                lemmas[token] = lemma
                
    lemmatized_text = []
    for word in text:
        if word in lemmas.keys():
            lemmatized_text.append(lemmas[word])
        else:
            lemmatized_text.append(word)
    return lemmatized_text

In [3]:
def normalize(path = './../EXCELSIOR_100_files/'):
    # Obtenemos el corpus del directorio...
    corpus = PlaintextCorpusReader(path, '.*')
    file_list = corpus.fileids()
    # Se reune el contenido textual de todos los archivos
    all_text = ''
    for file in file_list:
        with open(path + file, encoding = 'utf-8') as rfile:
            text = rfile.read()
            all_text += text
    # Limpiamos las etiquetas HTML
    soup = BeautifulSoup(all_text, 'lxml')
    clean_text = soup.get_text()
    clean_text = clean_text.lower()
    # Realizamos tokenización
    words = clean_text.split()
    alphabetic_words = []
    for word in words:
        token = []
        for character in word:
            if re.match(r'^[a-záéíóúñü+$]', character):
                token.append(character)
        token = ''.join(token)
        if token != '':
            alphabetic_words.append(token)        
    
    # Quitamos 'Stop words'...
    with open('./stopwords_es.txt', encoding = 'utf-8') as f:
        stop_words = f.readlines()
        stop_words = [w.strip() for w in stop_words]
    final_words = [word for word in alphabetic_words if word not in stop_words]
    print('Fin de la normalización...')
    return final_words

In [4]:
try:
    words = normalize()
    print(f'Algunas palabras despues de la normalización: \n{words[:200]}')
except Exception as e:
    print('Ocurrió el siguiente error: ', e)

Fin de la normalización...
Algunas palabras despues de la normalización: 
['emodhtm', 'httpwwwexcelsiorcommxarthtml', 'excelsior', 'editorial', 'martes', 'abril', 'monstruosa', 'diferencia', 'colosistas', 'colosismo', 'luis', 'gutierrez', 'gonzalez', 'luis', 'gutiérrez', 'sotomayor', 'federico', 'arreola', 'colosistas', 'cabales', 'según', 'dijo', 'amigo', 'luis', 'donaldo', 'ciertamente', 'nombre', 'circunstancias', 'luis', 'donaldo', 'colosio', 'llenado', 'insistentemente', 'volúmenes', 'espacios', 'medios', 'comunicación', 'renovada', 'actualidad', 'padecido', 'frenético', 'vaivén', 'ficciones', 'judiciales', 'políticas', 'integran', 'disgregan', 'metafísicas', 'metafísicas', 'aún', 'luis', 'donaldo', 'desprende', 'envuelve', 'lado', 'espejo', 'dos', 'años', 'eternos', 'insolvencias', 'dale', 'dale', 'fantasía', 'magia', 'dónde', 'quedó', 'bolita', 'traído', 'pueblo', 'hastío', 'cansancio', 'inminencia', 'percibe', 'váyanse', 'diablo', 'quórum', 'nacional', 'veía', 'decidido', 'inst

In [5]:
try:
    words_lemmatized = lemmatize(words)
    print(f'Algunas palabras despues de la lematización: \n{words_lemmatized[:200]}')
except Exception as e:
    print('Ocurrió el siguiente error: ', e)

Algunas palabras despues de la lematización: 
['emodhtm', 'httpwwwexcelsiorcommxarthtml', 'excelsior', 'editorial', 'martes', 'abril', 'monstruoso', 'diferencia', 'colosistas', 'colosismo', 'luis', 'gutierrez', 'gonzalez', 'luis', 'gutiérrez', 'sotomayor', 'federico', 'arreola', 'colosistas', 'cabal', 'según', 'decir', 'amigo', 'luis', 'donaldo', 'ciertamente', 'nombre', 'circunstancia', 'luis', 'donaldo', 'colosio', 'llenar', 'insistentemente', 'volumen', 'espacio', 'medio', 'comunicación', 'renovar', 'actualidad', 'padecer', 'frenético', 'vaivén', 'ficción', 'judicial', 'política', 'integrar', 'disgregar', 'metafísicas', 'metafísicas', 'aún', 'luis', 'donaldo', 'desprender', 'envolver', 'lado', 'espejo', 'dos', 'año', 'eterno', 'insolvencias', 'dar', 'dar', 'fantasía', 'magia', 'dónde', 'quedar', 'bolita', 'traer', 'pueblo', 'hastío', 'cansancio', 'inminencia', 'percibir', 'ir', 'diablo', 'quórum', 'nacional', 'ver', 'decidido', 'instalar', 'sécula', 'seculórum', 'demanda', 'justicia

In [6]:
from collections import Counter

def make_vocabulary(words):
    vocabulary = sorted(list(set(words)))
    return vocabulary


def find_context(word, words, window_size = 4):
    context = list()
    for i in range(len(words)):
        if words[i] == word:
            context += words[i - window_size:i] + words[i + 1:i + window_size + 1]
    return context


def create_vector_space(words, vocabulary):
    vector_space = list()
    for word in vocabulary:
        context = find_context(word, words)
        counter = Counter(context)
        vector_space.append(counter)
    return vector_space

In [7]:
vocabulary = make_vocabulary(words_lemmatized)

In [8]:
vocabulary

['abandonar',
 'abandono',
 'abarcar',
 'abarrotar',
 'abascal',
 'abasto',
 'abatir',
 'abbasso',
 'abdicar',
 'aberrantes',
 'abierto',
 'abitia',
 'abono',
 'abordaje',
 'aborigen',
 'abraham',
 'abrego',
 'abril',
 'abrir',
 'absalón',
 'absoluto',
 'absuelto',
 'absurdamente',
 'absurdo',
 'abuelo',
 'abundante',
 'abundar',
 'aburto',
 'abusar',
 'abuso',
 'ac',
 'acabado',
 'acabar',
 'acaparar',
 'acapulco',
 'acarreo',
 'acaso',
 'accesible',
 'acceso',
 'accidente',
 'accionar',
 'accionista',
 'acción',
 'acelerar',
 'acento',
 'acentuado',
 'aceptabilidad',
 'aceptar',
 'acercar',
 'acero',
 'acertado',
 'acierto',
 'aclaración',
 'aclarar',
 'acompañado',
 'acompañamiento',
 'acompañar',
 'aconsejable',
 'aconsejar',
 'acontecimiento',
 'acopio',
 'acoplamiento',
 'acoplar',
 'acorde',
 'acotar',
 'acrecentar',
 'acreditar',
 'acreedor',
 'actitud',
 'activar',
 'actividad',
 'activo',
 'acto',
 'actor',
 'actriz',
 'actuación',
 'actual',
 'actualidad',
 'actualizar',
 'a

In [9]:
len(vocabulary)

5471

In [15]:
def similar_words(text, word, window=8, probability=True, tf_idf=False, dot_product=False, cosine=True):
    
    vocabulary = sorted(list(set(text)))
    contexts = {}
    for w in vocabulary:
        context = []
        for i in range(len(text)):
            if text[i] == w:
                for j in range(i - int(window/2), i): # Left context
                    if j >= 0:
                        context.append(text[j])
                    try:
                        for j in range(i + 1, i + int(window/2) + 1): # Right context
                            context.append(text[j])
                    except IndexError:
                        pass
        contexts[w] = context
        
    import numpy as np

    if probability:
        vectors = {}

        for v in vocabulary:
            context = contexts[v]
            vector = []
            for voc in vocabulary:
                vector.append(context.count(voc))
            vector = np.array(vector)
            s = np.sum(vector)
            vector = vector/s
            vectors[v] = vector

    if dot_product:
        similarities = {}
        v = vectors[word]
        for w in vectors.keys():
            similarities[w] = np.dot(vectors[w], v)
        similarities = (sorted(similarities.items(), key=lambda item: item[1], reverse=True))
        with open('similar_words_with_dot_product_of_prob_vectors_to_' + word + 'w', encoding = 'UTF-8') as f:
            for item in similarities:
                f.write(str(item) + '\n')

    if cosine:
        similarities = {}
        v1 = vectors[word]
        for w in vectors.keys():
            v2 = vectors[w]
            similarities[w] = np.dot(v1, v2) / (np.linalg.norm(v1) * np.linalg.norm(v2))
        similarities = (sorted(similarities.items(), key=lambda item: item[1], reverse=True))
        with open('similar_words_with_cosine_of_prob_vectors_to_' + word + 'w', encoding = 'UTF-8') as f:
            for item in similarities:
                f.write(str(item) + '\n')

In [16]:
similar_words(words_lemmatized, 'perro', window=8, probability=True, tf_idf=False, dot_product=False, cosine=True)

KeyError: 'perro'

In [17]:
v = {'perro':2}

In [20]:
import nltk
sent_tokenizer = nltk.data.load('nltk:tokenizers/punkt/english.pickle')sentences = sent_tokenizer.tokenize(t.lowercase())
sentences = sent_tokenizer.tokenize(t.lowercase())

# Tenemos que normalizar cada oración y aun así obtener resultados de las palabras con mejor relación.

