# **Procesamiento de Lenguaje Natural**

## **Tarea 2 - Notebook 1**

## Integrantes

* ### Daniel Osorio Cárdenas
* ### Juan Diego Calixto Núñez

Este Notebook incluye los literales I, II, III, IV de la tarea. Estos corresponden a la construcción de los modelos de lenguaje que se usarán en el Notebook 2.

## **I. Creación de los archivos consolidados**

In [1]:
# Configurar los directorios donde se encuentran los archivos de datos
NEWS_FOLDER = '20news-18828'
BLOGS_FOLDER = 'blogs'

Empezamos cargando los archivos de 20news-18828 y creamos un único archivo consolidado llamado "20N_consolidated.txt".

In [2]:
import os

# Listar los folders de 20news-18828
news_folder = os.listdir(NEWS_FOLDER)

# Recorremos cada archivo de news
news_texts = []
for folder in news_folder:
    for file_name in os.listdir(NEWS_FOLDER + '/' + folder):
        extracted_text = ''
        with open(NEWS_FOLDER + '/' + folder + '/' + file_name, 'r', encoding='utf-8', errors='ignore') as f:
            for line in f:
                line = line.strip()
                # Agregamos solo las lineas del contenido del archivo
                if not line.startswith('From:') and not line.startswith('Subject:') and not line.startswith('Fax:') and not line.startswith('Phone:') and not line.startswith('Email:') and not line.startswith('INTERNET:'):
                    extracted_text += line + " "
            news_texts.append(extracted_text)

# Guardamos todos los textos en un unico .txt
with open('20N_consolidated.txt', 'w', encoding='utf-8') as file:
    for text in news_texts:
        file.write(text)

# Revisamos el tamaño del archivo .txt
print('Tamaño del archivo 20N_consolidated.txt: ', os.path.getsize('20N_consolidated.txt'), 'bytes = ', round(os.path.getsize('20N_consolidated.txt') / 1048576, 2), 'MB')

Tamaño del archivo 20N_consolidated.txt:  31568937 bytes =  30.11 MB


Para cargar los archivos de blogs se hizo primero un preprocesamiento de los archivos XML puesto que hubo muchos errores a la hora de leerlos. La estrategia fue la siguiente:
* Se eliminaron los tags de formato del XML
* Se eliminaron las fechas de los posts
* Se dejó unicamente el contenido de los posts

Esto para poder leer los archivos como texto plano. El archivo que hace esta modificación se llama "blogs_preprocessing.py".

Finalmente, se cargaron los archivos de blogs y se creó un único archivo consolidado llamado "BAC_consolidated.txt".

In [3]:
# Recorremos cada archivo de blogs
blogs_texts = []
for filename in os.listdir(BLOGS_FOLDER):
    extracted_text = ''
    with open(BLOGS_FOLDER + '/' + filename, 'r', encoding='utf-8', errors='ignore') as f:
        for line in f:
            line = line.strip()
            # Agregamos solo las lineas del contenido del archivo
            if not line.startswith('From:') and not line.startswith('Subject:') and not line.startswith('Fax:') and not line.startswith('Phone:') and not line.startswith('Email:') and not line.startswith('INTERNET:'):
                extracted_text += line + " "
        blogs_texts.append(extracted_text)

# Guardamos todos los textos en un unico .txt
with open('BAC_consolidated.txt', 'w', encoding='utf-8') as file:
    for text in blogs_texts:
        file.write(text)

# Revisamos el tamaño del archivo .txt
print('Tamaño del archivo BAC_consolidated.txt: ', os.path.getsize('BAC_consolidated.txt'), 'bytes = ', round(os.path.getsize('BAC_consolidated.txt') / 1048576, 2), 'MB')

Tamaño del archivo BAC_consolidated.txt:  757389894 bytes =  722.3 MB


## **II y III. Crear archivos de Training y Test y Tokenizar por sentencia**

Primero se crean los archivos de training y test. Para esto se separó cada archivo consolidado por oraciones. Suponemos que las oraciones están separadas por puntos. Se crearon dos archivos por cada corpus, uno de training y otro de test. Los archivos de training contienen el 80% de las oraciones y los de test el 20% restante.

In [4]:
import re

# Cargamos los textos de los archivos .txt
with open('20N_consolidated.txt', 'r', encoding='utf-8', errors='ignore') as file:
    news_texts = file.read()

with open('BAC_consolidated.txt', 'r', encoding='utf-8', errors='ignore') as file:
    blogs_texts = file.read()

# Separar cada archivo en oraciones
news_texts = news_texts.split('.')
blogs_texts = blogs_texts.split('.')

# Quitar los textos vacios
news_texts = [text for text in news_texts if text != '']
blogs_texts = [text for text in blogs_texts if text != '']

print('Cantidad de oraciones en 20news-18828: ', len(news_texts))
print('Cantidad de oraciones en BAC: ', len(blogs_texts))

# Dividir los textos en 80% train y 20% test
news_texts_train = news_texts[:int(len(news_texts) * 0.8)]
news_texts_test = news_texts[int(len(news_texts) * 0.8):]
blogs_texts_train = blogs_texts[:int(len(blogs_texts) * 0.8)]
blogs_texts_test = blogs_texts[int(len(blogs_texts) * 0.8):]

# Guardar los textos de train y test en archivos .txt
with open('20N_GROUP_training.txt', 'w', encoding='utf-8') as file:
    for text in news_texts_train:
        file.write(text.strip() + '. ')

with open('20N_GROUP_testing.txt', 'w', encoding='utf-8') as file:
    for text in news_texts_test:
        file.write(text.strip() + '. ')

with open('BAC_GROUP_training.txt', 'w', encoding='utf-8') as file:
    for text in blogs_texts_train:
        file.write(text.strip() + '. ')

with open('BAC_GROUP_testing.txt', 'w', encoding='utf-8') as file:
    for text in blogs_texts_test:
        file.write(text.strip() + '. ')

# Revisamos el tamaño de los archivos .txt
print('Tamaño del archivo .txt de 20N_GROUP_training: ', os.path.getsize('20N_GROUP_training.txt'), 'bytes = ', round(os.path.getsize('20N_GROUP_training.txt') / 1048576, 2), 'MB')
print('Tamaño del archivo .txt de 20N_GROUP_testing: ', os.path.getsize('20N_GROUP_testing.txt'), 'bytes = ', round(os.path.getsize('20N_GROUP_testing.txt') / 1048576, 2), 'MB')
print('Tamaño del archivo .txt de BAC_GROUP_training: ', os.path.getsize('BAC_GROUP_training.txt'), 'bytes = ', round(os.path.getsize('BAC_GROUP_training.txt') / 1048576, 2), 'MB')
print('Tamaño del archivo .txt de BAC_GROUP_testing: ', os.path.getsize('BAC_GROUP_testing.txt'), 'bytes = ', round(os.path.getsize('BAC_GROUP_testing.txt') / 1048576, 2), 'MB')


Cantidad de oraciones en 20news-18828:  425274
Cantidad de oraciones en BAC:  9425954
Tamaño del archivo .txt de 20N_GROUP_training:  25266186 bytes =  24.1 MB
Tamaño del archivo .txt de 20N_GROUP_testing:  6265196 bytes =  5.97 MB
Tamaño del archivo .txt de BAC_GROUP_training:  599507899 bytes =  571.74 MB
Tamaño del archivo .txt de BAC_GROUP_testing:  148491073 bytes =  141.61 MB


Ahora procedemos a iniciar la tokenización. Se van a modelar los inicios de sentencia como \<s> y los finales como \</s>. Los numeros se van a reemplazar por \<NUM>. Finalmente, se van a reemplazar los términos con frecuencia 1 por \<UNK>. Para este último paso se creó un diccionario que contiene la frecuencia de cada término en el corpus de training mediante el uso de la función Counter de la librería collections.

In [3]:
from collections import Counter

# Se cargan los archivos de training
with open('20N_GROUP_training.txt', 'r', encoding='utf-8', errors='ignore') as file:
    news_texts_train = file.read()

# Vamos a separar el corpus de train de 20N en sentencias
news_texts_train = news_texts_train.split('. ')
print('Cantidad de oraciones en 20N_GROUP_training: ', len(news_texts_train))

# Vamos a recorrer cada sentencia y separarla en palabras para agregarlas a un diccionario de frecuencias
news_word_counts_train = Counter()
for sentence in news_texts_train:
    # Se separa la sentencia en palabras
    sentence = sentence.split(' ')
    # Si el ultimo caracter de una palabra no es una letra, se quita
    for i in range(len(sentence)):
        if sentence[i] != "" and not sentence[i][-1].isalpha():
            sentence[i] = sentence[i][:-1]
    # Se agregan las palabras al diccionario de frecuencias
    news_word_counts_train.update(sentence)

print(news_word_counts_train.most_common()[:-10-1:-1])

Cantidad de oraciones en 20N_GROUP_training:  340220
[('Haywood', 1), ('sheffield-hallam', 1), ('uptodate', 1), ('termcap', 1), ('terminfo', 1), ('tilde', 1), ('per-user', 1), ('Xsetup_', 1), ('(~user', 1), ('~user', 1)]


In [5]:
with open('BAC_GROUP_training.txt', 'r', encoding='utf-8', errors='ignore') as file:
    blogs_texts_train = file.read()

# Vamos a separar el corpus de train de BAC en sentencias
blogs_texts_train = blogs_texts_train.split('. ')
print('Cantidad de oraciones en BAC_GROUP_training: ', len(blogs_texts_train))

# Vamos a recorrer cada sentencia y separarla en palabras para agregarlas a un diccionario de frecuencias
blogs_word_counts_train = Counter()
for sentence in blogs_texts_train:
    # Se separa la sentencia en palabras
    sentence = sentence.split(' ')
    # Si el ultimo caracter de una palabra no es una letra, se quita
    for i in range(len(sentence)):
        if sentence[i] != "" and not sentence[i][-1].isalpha():
            sentence[i] = sentence[i][:-1]
    # Se agregan las palabras al diccionario de frecuencias
    blogs_word_counts_train.update(sentence)

print(blogs_word_counts_train.most_common()[:-10-1:-1])

Cantidad de oraciones en BAC_GROUP_training:  7540764
[('working/learning/reading', 1), ('Shimrat', 1), ('Irit', 1), ('theme!&nbsp', 1), ('Maelene', 1), ('excitted', 1), ('chimms', 1), ('taurens', 1), ('ARUGH!!', 1), ('sb510', 1)]


In [6]:
print('Cantidad de palabras en 20N_GROUP_training: ', len(news_word_counts_train))
print('Cantidad de palabras en BAC_GROUP_training: ', len(blogs_word_counts_train))

print(blogs_word_counts_train['the'])

Cantidad de palabras en 20N_GROUP_training:  234086
Cantidad de palabras en BAC_GROUP_training:  1565579
3852491
