# Normalization
**Suárez Pérez Juan Pablo**

In [1]:
# Import the libraries needed
from nlp_functions import text_processing as tp

In [None]:
# Clean the corpus
tp.clean_corpus('./../EXCELSIOR_100_files/', './new_corpus/')

In [2]:
sents = tp.sentence_tokenize('./new_corpus/clean_corpus.txt')

In [3]:
sents

['emodhtm httpwwwexcelsiorcommxarthtml excelsior editorial martes de abril de monstruosa diferencia colosistas y colosismo luis gutierrez y gonzalez a luis gutiérrez sotomayor y a federico arreola colosistas cabales según me dijo su amigo luis donaldo',
 'ciertamente el nombre y las circunstancias de luis donaldo colosio han llenado insistentemente los volúmenes y los espacios de los medios de comunicación',
 'pero su renovada actualidad ha padecido un frenético vaivén de ficciones judiciales y políticas que integran y disgregan metafísicas más metafísicas aún que las que luis donaldo desprende o se envuelve con ellas al otro lado del espejo',
 'dos años eternos de insolvencias dale que dale a la fantasía a la magia de dónde quedó la bolita le han traído al pueblo hastío y cansancio',
 'en la inminencia se percibe el váyanse al diablo del quórum nacional que antes se veía decidido a instalar sécula seculórum sus demandas de justicia',
 'pero en el segundo aniversario del asesinato el c

In [4]:
words = tp.word_tokenize('./new_corpus/clean_corpus.txt')

In [5]:
words

['emodhtm',
 'httpwwwexcelsiorcommxarthtml',
 'excelsior',
 'editorial',
 'martes',
 'de',
 'abril',
 'de',
 'monstruosa',
 'diferencia',
 'colosistas',
 'y',
 'colosismo',
 'luis',
 'gutierrez',
 'y',
 'gonzalez',
 'a',
 'luis',
 'gutiérrez',
 'sotomayor',
 'y',
 'a',
 'federico',
 'arreola',
 'colosistas',
 'cabales',
 'según',
 'me',
 'dijo',
 'su',
 'amigo',
 'luis',
 'donaldo',
 'ciertamente',
 'el',
 'nombre',
 'y',
 'las',
 'circunstancias',
 'de',
 'luis',
 'donaldo',
 'colosio',
 'han',
 'llenado',
 'insistentemente',
 'los',
 'volúmenes',
 'y',
 'los',
 'espacios',
 'de',
 'los',
 'medios',
 'de',
 'comunicación',
 'pero',
 'su',
 'renovada',
 'actualidad',
 'ha',
 'padecido',
 'un',
 'frenético',
 'vaivén',
 'de',
 'ficciones',
 'judiciales',
 'y',
 'políticas',
 'que',
 'integran',
 'y',
 'disgregan',
 'metafísicas',
 'más',
 'metafísicas',
 'aún',
 'que',
 'las',
 'que',
 'luis',
 'donaldo',
 'desprende',
 'o',
 'se',
 'envuelve',
 'con',
 'ellas',
 'al',
 'otro',
 'lado',

In [None]:
# Importamos las bibliotecas necesarias...
from nltk.corpus import PlaintextCorpusReader
from bs4 import BeautifulSoup
import re

In [None]:
# Definimos nuestra función de normalización de texto...
def normalize(path = './../Text_Extraction/EXCELSIOR_100_files/'):
    # Obtenemos el corpus del directorio...
    corpus = PlaintextCorpusReader(path, '.*')
    # Obtenemos la lista de archivos que pertenecen a nuestro corpus y los añadimos a una lista...
    file_list = corpus.fileids()
    # Juntamos todo el texto de todos los archivos...
    all_text = ''
    # Obtenemos el texto de cada uno de nuestros archivos...
    for file in file_list:
        with open(path + file, encoding = 'utf-8') as rfile:
            text = rfile.read()
            all_text += text
    # Removemos las etiquetas html...
    soup = BeautifulSoup(all_text, 'lxml')
    clean_text = soup.get_text()
    # Convertimos todo el texto a minúsculas...
    clean_text = clean_text.lower()
    # Tokenizamos el texto...
    words = clean_text.split()
    # Obtenemos unicamente las palabras alfabéticas...
    alphabetic_words = []
    for word in words:
        token = []
        for character in word:
            if re.match(r'^[a-záéíóúñü+$]', character):
                token.append(character)
        token = ''.join(token)
        if token != '':
            alphabetic_words.append(token)
    # Quitamos las Stop words...
    with open('./stopwords_es.txt', encoding = 'utf-8') as f:
        stop_words = f.readlines()
        stop_words = [w.strip() for w in stop_words]
    # Obtenemos la lista de palabras despues de eliminar las stop_words...
    final_words = [word for word in alphabetic_words if word not in stop_words]
    print('Fin de la normalización...')
    return final_words

In [None]:
def lematize(text):
    lemmas = dict()
    with open('./generate.txt', encoding = 'latin-1') as file:
        lines = file.readlines()
        lines = [w.strip() for w in lines]
        for line in lines:
            line = line.strip()
            if line != '':
                words = line.split()
                token = words[0].strip()
                token = token.replace('#', '')
                lemma = words[-1].strip()
                lemmas[token] = lemma
    lemmatized_text = []
    for word in text:
        if word in lemmas.keys():
            lemmatized_text.append(lemmas[word])
        else:
            lemmatized_text.append(word)
    return lemmatized_text

In [None]:
try:
    words = normalize()
    print(f'Algunas palabras despues de la normalización: \n{words[:200]}')
except Exception as e:
    print('Ocurrió el siguiente error: ', e)

In [None]:
try:
    new_words = lematize(words)
    print(f'Algunas palabras despues de la normalización: \n{new_words[:200]}')
except Exception as e:
    print('Error:', e)

## Representación Númerica

In [None]:
from nlp_functions import word_association

In [None]:
vocabulary = word_association.make_vocabulary(new_words)

In [None]:
vocabulary

In [None]:
len(vocabulary)

In [None]:
vector_space = word_association.create_vector_space(new_words, vocabulary)

In [None]:
len(vector_space)

In [None]:
vector_space