## Taller 2 Tokenización y segmentación PLN

*El proceso de tokenización es la tarea de segmentar en palabras el texto en ejecución.*

*Esta práctica trata sobre el preprocesamiento básico de texto, con las herramientas disponibles para el idioma español y vistas en clase. Para el desarrollo de esta práctica, se utilizó el conjunto de datos almacenados en el directorio DataSet, consta de 10 Archivos de texto de diferentes tamaños.*

### Paso 1: Se instala la librería nltk.
*La librería Natural language toolkit (NLTK) es una bilbioteca o librería muy popular para el procesamiento de lenguaje natural escrita en Python.*

In [1]:
#!pip install nltk

### Paso 2: Se importa la librería nltk para realizar el proceso de tokenización.
*Para iniciar a trabajar con nltk se descarga lo que se denomina el corpora NLTK. Se teclea lo siguiente: nltk.download() después de la librería, se obtiene un GUI desde el que se descarga los paquetes necesarios.*

In [2]:
import nltk
#nltk.download()

### Paso 3: Se importa la librería os y se usa el método listdir para listar los archivos del DataSet.
*La librería o biblioteca os, permite acceder a diferentes funcionalidades y dependencias del Sistema Operativo, sobre todo aquellas que corresponden al entorno y manipulación de estructura de directorios.*

*El método de Python listdir() devuelve una lista que contiene los nombres de las entradas en el directorio dado por la ruta.*

In [3]:
import os
contenido = os.listdir('DataSet/')
contenido

['text3',
 'text4',
 'text5',
 'text2',
 '.DS_Store',
 'text10',
 'text9',
 'text7',
 'text6',
 'text8']

### Paso 4: Se leen los archivos que se encuentran dentro del DataSet y se almacenan en vector, finalmente, el vector se pasa al DataFrame vectorpd.
*Se usa open para comenzar a leer un arhivo en Python, incluyendo el argumento 'r' que significa modo lectura. En este caso, se usa para leer los archivos listados anteriormente*
*Enseguida, se almacena todo el contenido de los archivos en un vector para preprocesar el contenido en un DataFrame.*

In [4]:
#Se importan las librerías numpy y pandas para cargar el vector a un DataFrame.
import numpy as np
import pandas as pd

#Se define el vector donde se va almacenar el contenido de los archivos raw.
vector=[]

#Se define el ciclo para recorrer cada uno de los archivos que se encuentran dentro de DataSet.
for archivo in contenido:
    #Se lee cada uno de los archivos de DataSet urilizando el encoding ISO-8859-1.
    with open('DataSet/'+archivo,'r',encoding='ISO-8859-1') as fname:
        #El contenido de cada archivo leído, se almacena en vector.
        vector = fname.readlines()
        #El vector se pasa a un DataFrame para hacer el tratamiento de los datos (Eliminar los \n, <doc, ENDOFARTICLE).
        vectorpd = pd.DataFrame(vector)
#Se imprimen las 10 primeras líneas del vector.
#print(vectorpd[:10])

### Paso 5: Se hace el preprocesamiento del DataFrame vectorpd.
*El preprocesamiento consiste en organizar y limpiar los datos que se encuentran almacenados en el DataFrame y que se usarán en el proceso de tokenización. Para este caso, se eliminaron los saltos de línea '\n', las etiquetas que inician con '<' y la palabra reservada 'ENDOFARTICLE', que se encuetran dentro de los archivos a procesar.*

In [5]:
#Se reemplaza el \n con NaN y se eliminan del DataFrame.
vectorpd = vectorpd.replace("\n", np.NaN).dropna()
#Se busca en el DataFrame las filas que contienen '<' y se eliminan.
vectorpd = vectorpd[~vectorpd.stack().str.contains('<').any(level=0)]
#Se busca en el DataFrame las filas que contienen 'ENDOFARTICLE.' y se eliminan.
vectorpd = vectorpd[~vectorpd.stack().str.contains('ENDOFARTICLE.').any(level=0)]
#Se imprime el vectorpd para verificar el contenido del DataFrame.
vectorpd

  vectorpd = vectorpd[~vectorpd.stack().str.contains('<').any(level=0)]
  vectorpd = vectorpd[~vectorpd.stack().str.contains('ENDOFARTICLE.').any(level=0)]


Unnamed: 0,0
1,"Pragmática Sanción de 1713, norma promulgada p..."
21,La Universidad Complutense de Madrid (UCM) es ...
23,Historia.\n
25,Los orígenes de la Universidad Complutense se ...
27,La nueva Universidad de Madrid pretendía ser u...
...,...
326618,Ciudades oficiales.\n
326619,Eisenstadt;\n
326620,Rust;\n
326622,Véase también.\n


### Paso 6: Se importa la librería nltk y el word_tokenize para tokenizar por palabras el DataFrame. Finalmente, las palabras que se tokenizaron se almacenan en el vectorpalabras.
*Para realizar el proceso de tokenización se utilizó el método word-tokenize de la librería nltk, que recibe como parámetro de entrada el DataFrame ya preprocesado y posteriormente, se covierte a un vector de palabras que contiene la tokenización de los archivos del DataSet.*

In [6]:
#Se importa la librería nltk para tokenizar las palabras.
import nltk
from nltk.tokenize import word_tokenize

#Se define el vector donde quedan almacenadas las palabras tokenizadas.
vectorpalabras = []

#Se hace el proceso de tokenizado para el DataFrame y se adiciona el contenido al vectorpalabras.
vectorpalabras.append(vectorpd.apply(lambda row: nltk.word_tokenize(row[0]), axis=1))
#Se convierte el DataFrame vectorpalabras a la lista vectorpalabras.
vectorpalabras=vectorpalabras[0].tolist()
#Se imprime la lista vectorpalabras.
#print(vectorpalabras)
print(vectorpalabras[:50])

[['Pragmática', 'Sanción', 'de', '1713', ',', 'norma', 'promulgada', 'por', 'el', 'emperador', 'Carlos', 'VI', ',', 'de', 'la', 'Casa', 'de', 'Austria', ',', 'en', '1713', 'que', 'facilitó', 'la', 'futura', 'entronización', 'de', 'su', 'hija', 'María', 'Teresa', 'I.', 'Ésta', 'fue', 'la', 'primera', 'ley', 'fundamental', 'común', 'para', 'todas', 'las', 'zonas', 'de', 'los', 'Habsburgo', ',', 'se', 'decreto', 'con', 'un', 'intento', 'del', 'emperador', 'por', 'lograr', 'la', 'integracion', 'de', 'los', 'territorios', 'del', 'sacro', 'imperio', ';', 'sin', 'embargo', ',', 'el', 'proyecto', 'unificador', 'no', 'pudo', 'alcanzarse', 'del', 'todo', ',', 'pues', 'Hungría', 'puso', 'como', 'condicon', 'para', 'aceptar', 'la', 'Pragmática', 'Sanción', 'que', 'fuera', 'ratificada', 'su', 'constitucion', 'y', 'autonomia', ',', 'lo', 'que', 'en', 'realidad', 'fortalecio', 'el', 'separatismo', 'Hungaro', '.'], ['La', 'Universidad', 'Complutense', 'de', 'Madrid', '(', 'UCM', ')', 'es', 'una', 'imp