## Taller 2 Tokenización y segmentación PLN

*El proceso de tokenización es la tarea de segmentar en palabras el texto en ejecución.*

*Esta práctica trata sobre el preprocesamiento básico de texto, con las herramientas disponibles para el idioma español y vistas en clase. Para el desarrollo de esta práctica, se utilizó el conjunto de datos almacenados en el directorio DataSet, consta de 10 Archivos de texto de diferentes tamaños.*

### Paso 1: Se instala la librería nltk.
*La librería Natural language toolkit (NLTK) es una bilbioteca o librería muy popular para el procesamiento de lenguaje natural escrita en Python.*

In [2]:
#!pip install nltk

### Paso 2: Se importa la librería nltk para realizar el proceso de tokenización.
*Para iniciar a trabajar con nltk se descarga lo que se denomina el corpora NLTK. Se teclea lo siguiente: nltk.download() después de la librería, se obtiene un GUI desde el que se descarga los paquetes necesarios.*

In [3]:
import nltk
#nltk.download()

### Paso 3: Se importa la librería os y se usa el método listdir para listar los archivos del DataSet.
*La librería o biblioteca os, permite acceder a diferentes funcionalidades y dependencias del Sistema Operativo, sobre todo aquellas que corresponden al entorno y manipulación de estructura de directorios.*

*El método de Python listdir() devuelve una lista que contiene los nombres de las entradas en el directorio dado por la ruta.*

In [4]:
import os
contenido = os.listdir('DataSet/')
contenido

['text10.txt',
 'text2.txt',
 'text3.txt',
 'text4.txt',
 'text5.txt',
 'text6.txt',
 'text7.txt',
 'text8.txt',
 'text9.txt']

### Paso 4: Se leen los archivos que se encuentran dentro del DataSet y se almacenan en vector, finalmente, el vector se pasa al DataFrame vectorpd.
*Se usa open para comenzar a leer un arhivo en Python, incluyendo el argumento 'r' que significa modo lectura. En este caso, se usa para leer los archivos listados anteriormente*
*Enseguida, se almacena todo el contenido de los archivos en un vector para preprocesar el contenido en un DataFrame.*

In [7]:
#Se importan las librerías numpy y pandas para cargar el vector a un DataFrame.
import numpy as np
import pandas as pd

#Se define el ciclo para recorrer cada uno de los archivos que se encuentran dentro de DataSet.
for archivo in contenido:
    #Se lee cada uno de los archivos de DataSet urilizando el encoding ISO-8859-1.
    with open('DataSet/'+archivo,'r',encoding='ISO-8859-1') as fname:
        #El contenido de cada archivo leído, se almacena en vector.
        vector_df = pd.DataFrame(fname.readlines())
#Se imprimen las 50 primeras líneas del vector.
print(vector_df[:50])

                                                    0
0   <doc id="2218136" title="Vedad Ibi¨evi?" nonfi...
1                                                  \n
2                                                  \n
3   Vedad Ibi¨evi , nacido el 6 de agosto de 1984 ...
4                                                  \n
5                                     Trayectoria .\n
6                                                  \n
7   Como consecuencia de la Guerra de Bosnia, su f...
8                                                  \n
9   Durante su estancia en Estados Unidos fue ojea...
10                                                 \n
11  En mayo de 2006, firmó por 3 años con el Alema...
12                                                 \n
13  Comenzó de forma fulgurante la campaña 2008-20...
14                                                 \n
15                                                 \n
16                                                 \n
17                          

### Paso 5: Se hace el preprocesamiento del DataFrame vectorpd.
*El preprocesamiento consiste en organizar y limpiar los datos que se encuentran almacenados en el DataFrame y que se usarán en el proceso de tokenización. Para este caso, se eliminaron los saltos de línea '\n', las etiquetas que inician con '<' y la palabra reservada 'ENDOFARTICLE', que se encuetran dentro de los archivos a procesar.*

In [13]:
#Se reemplaza el \n con NaN y se eliminan del DataFrame.
vector_df = vector_df.replace("\n", np.NaN).dropna()
#Se busca en el DataFrame las filas que contienen '<' y se eliminan.
#vector_df = vector_df[~vector_df.stack().str.contains('<').any(level=0)]
vector_df = vector_df[~vector_df.apply(lambda row: row.astype(str).str.contains('<')).any(axis=1)]
#Se busca en el DataFrame las filas que contienen 'ENDOFARTICLE.' y se eliminan.
#vector_df = vector_df[~vector_df.stack().str.contains('ENDOFARTICLE.').any(level=0)]
vector_df = vector_df[~vector_df.apply(lambda row: row.astype(str).str.contains('ENDOFARTICLE.')).any(axis=1)]
#Se imprime el vectorpd para verificar el contenido del DataFrame.
vector_df

Unnamed: 0,0
3,"Vedad Ibi¨evi , nacido el 6 de agosto de 1984 ..."
5,Trayectoria .\n
7,"Como consecuencia de la Guerra de Bosnia, su f..."
9,Durante su estancia en Estados Unidos fue ojea...
11,"En mayo de 2006, firmó por 3 años con el Alema..."
...,...
124069,Aranguren;\n
124070,Cuenca de Pamplona;\n
124071,Navarra;\n
124072,Enlaces externos.\n


### Paso 6: Se importa la librería nltk y el word_tokenize para tokenizar por palabras el DataFrame. Finalmente, las palabras que se tokenizaron se almacenan en el vectorpalabras.
*Para realizar el proceso de tokenización se utilizó el método word-tokenize de la librería nltk, que recibe como parámetro de entrada el DataFrame ya preprocesado y posteriormente, se covierte a un vector de palabras que contiene la tokenización de los archivos del DataSet.*

In [14]:
#Se importa la librería nltk para tokenizar las palabras.
import nltk
from nltk.tokenize import word_tokenize

#Se define el vector donde quedan almacenadas las palabras tokenizadas.
vectorpalabras = []

#Se hace el proceso de tokenizado para el DataFrame y se adiciona el contenido al vectorpalabras.
vectorpalabras.append(vector_df.apply(lambda row: nltk.word_tokenize(row[0]), axis=1))
#Se convierte el DataFrame vectorpalabras a la lista vectorpalabras.
vectorpalabras=vectorpalabras[0].tolist()
#Se imprime la lista vectorpalabras.
#print(vectorpalabras)
print(vectorpalabras[:50])

[['Vedad', 'Ibi¨evi', ',', 'nacido', 'el', '6', 'de', 'agosto', 'de', '1984', 'en', 'Vlasenica', ',', 'Yugoslavia', '(', 'actual', 'Bosnia', 'y', 'Herzegovina', ')', 'es', 'un', 'futbolista', 'bosnio', 'que', 'juega', 'como', 'delantero', 'en', 'el', 'TSG', '1899', 'Hoffenheim', 'de', 'la', 'Bundesliga', 'de', 'Alemania', '.'], ['Trayectoria', '.'], ['Como', 'consecuencia', 'de', 'la', 'Guerra', 'de', 'Bosnia', ',', 'su', 'familia', 'debió', 'abandonar', 'Vlasenica', ',', 'que', 'cayó', 'en', 'manos', 'serbias', ',', 'y', 'fue', 'desplazada', 'a', 'Tuzla', ',', 'donde', 'Vedad', 'comenzó', 'a', 'jugar', 'al', 'fútbol', '.', 'Ibi¨evi', 'y', 'su', 'familia', 'abandonaron', 'Bosnia', 'y', 'Herzegovina', 'en', '2000', ',', 'para', 'trasladarse', 'a', 'Suiza', ',', 'donde', 'jugó', 'como', 'juvenil', 'en', 'el', 'FC', 'Basilea', '1893', '.', 'Sin', 'embargo', ',', 'su', 'familia', 'abandonó', 'Suiza', 'después', 'de', 'sólo', 'diez', 'meses', ',', 'para', 'trasladarse', 'a', 'San', 'Luis', 