# **Procesamiento del Lenguaje Natural**
## *Práctica 2 - Preprocesamiento de un texto*


### Objetivos de esta práctica:


1.   Conocer la librería NLTK
2.   Aprender a preprocesar un texto.



### ¿Qué es **NLTK**? 

[NLTK](http://www.nltk.org/) es una librería muy potente para el lenguaje de programación Python que proporciona interfaces para utilizar fácilmente una gran cantidad de recursos léxicos, así como métodos para el procesamiento, análisis y clasificación de textos. 

Los creadores de esta herramienta escribieron un libro, en el que realizan una introducción práctica a la programación para el procesamiento del lenguaje, que puede seros de gran utilidad y que se encuentra en el siguiente enlace: http://www.nltk.org/book/.

#### 1. Instalando NLTK en notebook

Este notebook tiene algunas dependencias, la mayoría de las cuales se pueden instalar a través del gestor de paquetes de python `pip`.


In [None]:
pip install nltk

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


### Preprocesamiento de un texto

En esta práctica vamos a ver los principales pasos a realizar para preprocesar la información de un texto empleando la librería NLTK.

Para ello lo primero que debemos hacer es importar la librería que queremos utilizar:

In [None]:
import nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

#### 1. División del texto en oraciones

El primer paso consiste en separar el texto en oraciones. Para ello, la librería NLTK proporciona la función: 

```
sent_tokenize(text, language='english')
```

Esta función, divide en oraciones el texto pasado como argumento utilizando el  idioma que queremos analizar. Esta función utiliza un modelo de lenguaje incluyendo caracteres que marcan el inicio y el fin de una oración, y están disponibles para 17 lenguas europeas (español, inglés, holandés, francés...). 
Por defecto, si no se especifica ningún idioma, se utiliza el modelo en inglés. 

Veamos un ejemplo. En primer lugar, importamos la función *sent_tokenize* y después la llamamos pasándole como argumento el texto que queremos dividir. El tipo de dato que devuelve es una lista con las oraciones del texto.

In [None]:
from nltk.tokenize import sent_tokenize

In [None]:
text = "Esto es una sentencia de prueba, ¿ésta sería la segunda sentencia? Y la tercera. ¡Me encanta la 4!"
sent_tokenize(text, language="spanish")

['Esto es una sentencia de prueba, ¿ésta sería la segunda sentencia?',
 'Y la tercera.',
 '¡Me encanta la 4!']

Existen distintas formas de separar las sentencias, por ejemplo, usando la función *sent_tokenize* la coma está incluida dentro de la sentencia inicial.

#### 2. División de las oraciones en palabras (tokenization)

Una vez separado el texto en oraciones vamos a ver cómo dividir una oración en palabras, concretamente en tokens. La forma básica de tokenización consiste en separar el texto en tokens por medio de espacios y signos de puntuación. Para ello, nosotros vamos a utilizar el tokenizador *TreebankWordTokenizer* ([aunque hay muchos más](https://www.nltk.org/api/nltk.tokenize.html)).

Lo primero que debemos hacer será importar el tokenizador y posteriomente instanciar la clase.

In [None]:
from nltk.tokenize import TreebankWordTokenizer

In [None]:
tokenizer = TreebankWordTokenizer()

In [None]:
text = "Esto es una sentencia de prueba, ¿ésta sería la segunda sentencia? Y la tercera. ¡Me encanta la 4!"
tokenizer.tokenize(text)

['Esto',
 'es',
 'una',
 'sentencia',
 'de',
 'prueba',
 ',',
 '¿ésta',
 'sería',
 'la',
 'segunda',
 'sentencia',
 '?',
 'Y',
 'la',
 'tercera.',
 '¡Me',
 'encanta',
 'la',
 '4',
 '!']

NLTK proporciona otros tokenizadores como *RegexpTokenizer*, *WhitespaceTokenizer*, *SpaceTokenizer*, *WordPunctTokenizer*, etc, que deberéis probar para completar los ejercicios de esta práctica.

#### 3. Eliminación de palabras vacías (stop words)

Las palabras vacías (stop words) son palabras que carecen de significado por sí solas. Suelen ser artículos, pronombres, preposiciones... 

En algunas tareas del Procesamiento del Lenguaje Natural resulta útil eliminar dichas palabras, por lo que a continuación vamos a ver cómo podríamos eliminar las palabras vacías que forman parte de un conjunto de tokens. 

NLTK cuenta con una lista de palabras vacías para diferentes idiomas. Veamos cómo se utiliza:

In [None]:
from nltk.corpus import stopwords

In [None]:
spanish_stops = stopwords.words('spanish')

Como podemos ver, Python nos arroja un error indicando que no encuentra el paquete *stopwords*. Por lo tanto debemos descargarlo en NLTK:

In [None]:
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


True

Ahora si podemos hacer uso de este paquete y ver las *stopwords* incluidas para el español:

In [None]:
spanish_stops = stopwords.words('spanish')
print(spanish_stops)

['de', 'la', 'que', 'el', 'en', 'y', 'a', 'los', 'del', 'se', 'las', 'por', 'un', 'para', 'con', 'no', 'una', 'su', 'al', 'lo', 'como', 'más', 'pero', 'sus', 'le', 'ya', 'o', 'este', 'sí', 'porque', 'esta', 'entre', 'cuando', 'muy', 'sin', 'sobre', 'también', 'me', 'hasta', 'hay', 'donde', 'quien', 'desde', 'todo', 'nos', 'durante', 'todos', 'uno', 'les', 'ni', 'contra', 'otros', 'ese', 'eso', 'ante', 'ellos', 'e', 'esto', 'mí', 'antes', 'algunos', 'qué', 'unos', 'yo', 'otro', 'otras', 'otra', 'él', 'tanto', 'esa', 'estos', 'mucho', 'quienes', 'nada', 'muchos', 'cual', 'poco', 'ella', 'estar', 'estas', 'algunas', 'algo', 'nosotros', 'mi', 'mis', 'tú', 'te', 'ti', 'tu', 'tus', 'ellas', 'nosotras', 'vosotros', 'vosotras', 'os', 'mío', 'mía', 'míos', 'mías', 'tuyo', 'tuya', 'tuyos', 'tuyas', 'suyo', 'suya', 'suyos', 'suyas', 'nuestro', 'nuestra', 'nuestros', 'nuestras', 'vuestro', 'vuestra', 'vuestros', 'vuestras', 'esos', 'esas', 'estoy', 'estás', 'está', 'estamos', 'estáis', 'están', 'e

A continuación, dada una lista de palabras o tokens, vamos a filtrarlos para quitar aquellas palabras que son consideradas *stopwords*:

In [None]:
words = ['Esto', 'es', 'una', 'sentencia', 'de', 'prueba', ',', '¿ésta', 'sería', 'la', 'segunda', 'sentencia', '?', 'Y', 'la', 'tercera.', '¡Me', 'encanta', 'la', '4', '!']
filtered = [word for word in words if word not in spanish_stops]
print(filtered)

['Esto', 'sentencia', 'prueba', ',', '¿ésta', 'segunda', 'sentencia', '?', 'Y', 'tercera.', '¡Me', 'encanta', '4', '!']


#### 4. Reducción de las palabras a su raíz (stemming)

Stemming es la técnica utilizada para eliminar los afijos de una palabra con el objetivo de obtener su raíz. Por ejemplo, la raíz de “biblioteca” es “bibliotec”. 

Este método se suele utilizar en los sistemas de recuperación de información para la indexación de palabras ya que, en lugar de almacenar todas las formas de una palabra, permite almacenar sólo las raíces, reduciendo el tamaño del índice y mejorando el resultado. 

Existen diferentes algoritmos de stemming: Porter Stemmer, Lancaster Stemmer, Snowball Stemmer... 

NLTK cuenta con una implementación de algunos de estos algoritmos que son muy fáciles de utilizar. Simplemente hay que instanciar la clase, por ejemplo, *PorterStemmer* y llamar al método *stem()* con la palabra para la cual deseamos obtener su raíz. 

A continuación, vamos a ver un ejemplo sobre cómo obtener las raíces de una lista de tokens utilizando el algoritmo *Snowball*:

In [None]:
from nltk.stem.snowball import SnowballStemmer

In [None]:
stemmer = SnowballStemmer("spanish")

In [None]:
print(stemmer.stem("corriendo"))
print(stemmer.stem("biblioteca"))
print(stemmer.stem("aburridos"))

corr
bibliotec
aburr


## Ejercicios

El resultado de esta primera práctica deberá entregarse en PLATEA. Se entregará este mismo notebook de extensión *.ipynb* y se renombrará de la siguiente forma: pr2_usuario.ipynb. Sustituye "usuario" por el alias de vuestro correo.


Para el desarrollo de estos ejercicios, debeis hacer uso de la colección de documentos de [SciELO](https://scielo.org/es/) disponible en PLATEA en la carpeta "Material Complementario" llamado "colección_SciELO_PLN".

Esta colección está compuesta por 25 ficheros en formato XML. Debéis realizar el tratamiento de cada fichero y tener en cuenta el texto incluido en la etiqueta  **<dc:description xml:lang="es">**

**Realizado por:** Juan Bautista Muñoz Ruiz jbmr0001@red.ujaen.es

### Ejercicio 1

Crear un método que divida en oraciones los textos, haciendo uso de la función
*sent_tokenize*. La función mostrará el número medio de oraciones por cada fichero analizado, el nombre del fichero que contiene menos sentencias y el nombre del fichero que contiene más sentencias.

In [12]:
from google.colab import drive  #Montamos el drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [13]:
import os #Abrimos la carpeta
path = os.chdir("/content/drive/MyDrive/PLN/colección_SciELO_PLN")
os.getcwd()

'/content/drive/MyDrive/PLN/colección_SciELO_PLN'

In [14]:
import glob   #Lectura y procesado de los archivos
import xml.dom.minidom
archivosProcesados=[]
nombresArchivos=[]
for filename in glob.glob('*.xml'):  #Lectura de todos los archivos de la carpeta con la libreria glob
   with open(os.path.join(os.getcwd(), filename), 'r') as f:
     nombresArchivos.append(filename)
     doc = xml.dom.minidom.parseString(f.read())
     texto=doc.getElementsByTagName('dc:description')  #Extraemos el contenido de las etiquetas description con la libreria xml.dom.minidom
     
     for element in texto:  
          if element.getAttribute("xml:lang") == "es": #Nos quedamos con las estiquetas con el atributo de idioma en español
            archivosProcesados.append(element.firstChild.nodeValue); 
j=0
for i in archivosProcesados: #Mostramos el nombre del archivo y el contenido leído
  print(nombresArchivos[j],end=" ")
  print(i)
  j=j+1


S0211-69952009000500011.xml Introducción: Los resultados de los trasplantes efectuados con donantes con criterios expandidos (DCE) son inferiores a los obtenidos con donantes con criterios estándar (DCS). Para optimizar su evolución, se podría reducir su tiempo de isquemia fría (TIF) reduciendo su daño de preservación. Comparamos los resultados obtenidos al aplicar TIF < 15 horas tanto a DCE como a DCS. Material y métodos: Realizamos un estudio unicéntrico, de cohortes, prospectivo, de casos incidentes de trasplante renal de cadáver entre junio de 2003 y diciembre de 2007. El tiempo mínimo de seguimiento fue de 12 meses. Comparamos los datos de los donantes, de los receptores y de la evolución de los trasplantes efectuados con DCE frente a los de los DCS. Resultados: El TIF para los DCE (N = 24) y para los DCS (N = 50) fue, respectivamente, de 9,3 ± 2,5 y 8,3 ± 3,3 horas (p = 0,18). No encontramos diferencias significativas entre los receptores de DCE y DCS en cuanto a: no función prim

In [15]:
pip install nltk

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


In [16]:
import nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [17]:
# función para calcular la media 
def media(): 
  i=0
  suma=0
  media=0
  while i<len(numOraciones):  #
    suma=suma+numOraciones[i]
    i=i+1
  
  media=suma/len(numOraciones)
  return media


from nltk.tokenize import sent_tokenize
oraciones=[] #Vector auxiliar para almacenar las oraciones de cada archivo tras tokenizar
menor=2000
mayor=-10
indiceMayor=0
indiceMenor=0
i=0
numOraciones=[] #Vector para almacenar el numero de oraciones de cada archivo
for archivo in archivosProcesados:
  oraciones=sent_tokenize(archivo, language="spanish")
  numOraciones.append(len(oraciones))  #Calculamos el número de oraciones de cada archivo con el tokenizer y lo almacenamos 
  print("Número de oraciones del archivo",end=" ")
  print(nombresArchivos[i],end=" ")
  print(len(oraciones),end=" ")

  #Calculamos el menor y el mayor y vamos guardando el índice para mostrar la información al final
  if len(oraciones)<menor:  
    menor=len(oraciones)
    indiceMenor=i
  
  if len(oraciones)>mayor:
    mayor=len(oraciones)
    indiceMayor=i
  print("Media de oraciones actual:",end=" ")  #Mostramos la media con cada archivo leído
  print(media())
  i=i+1


print("El archivo con menos oraciones es: ",end="")
print(nombresArchivos[indiceMenor],end="")
print(" con",end=" ")
print(menor)

print("El archivo con más oraciones es: ",end="")
print(nombresArchivos[indiceMayor],end="")
print("con",end=" ")
print(mayor,end=" ")




Número de oraciones del archivo S0211-69952009000500011.xml 15 Media de oraciones actual: 15.0
Número de oraciones del archivo S0211-69952009000600003.xml 10 Media de oraciones actual: 12.5
Número de oraciones del archivo S0211-69952009000600011.xml 10 Media de oraciones actual: 11.666666666666666
Número de oraciones del archivo S0211-69952010000100007.xml 19 Media de oraciones actual: 13.5
Número de oraciones del archivo S0211-69952009000600010.xml 12 Media de oraciones actual: 13.2
Número de oraciones del archivo S0211-69952009000500014.xml 6 Media de oraciones actual: 12.0
Número de oraciones del archivo S0211-69952009000500007.xml 11 Media de oraciones actual: 11.857142857142858
Número de oraciones del archivo S0211-69952009000500008.xml 26 Media de oraciones actual: 13.625
Número de oraciones del archivo S0211-69952009000600012.xml 13 Media de oraciones actual: 13.555555555555555
Número de oraciones del archivo S0211-69952009000500009.xml 11 Media de oraciones actual: 13.3
Número 

### Ejercicio 2

Crear un programa que divida en oraciones los textos presentes en él. Posteriormente, realize una tokenización de las palabras haciendo uso de la clase *WordPunctTokenizer*. Finalmente, la función debe mostrar el número medio de palabras por fichero, el fichero que contiene menos palabras y el fichero que contiene más palabras.

In [18]:
from nltk.tokenize import sent_tokenize
from nltk.tokenize import wordpunct_tokenize
oraciones=[]   #Vector auxiliar para almacenar las oraciones de cada archivo tras tokenizar
numPalabras=[] #Vector para guardar el número de palabras de cada archivo
i=0
menor=2000
mayor=-10
indiceMayor=0
indiceMenor=0
numOraciones=[]  #Vector para guardar el número de oraciones de cada archivo
media=0
for archivo in archivosProcesados:
  oraciones=sent_tokenize(archivo, language="spanish") #Tokenizamos en oraciones y la guardamos en el vector auxiliar de oraciones del archivo
  sumaPalabras=0
  j=0
  for oracion in oraciones: #Tokenizamos todas las oraciones de este archivo en palabras y contamos mediante una suma el número de palabras
    sumaPalabras=sumaPalabras+len(wordpunct_tokenize(oracion))
    j=j+1
  numPalabras.append(sumaPalabras)
  media=sumaPalabras/j  #Media de palabras por oracion de cada archivo
  print("Número de palabras del archivo",end=" ")
  print(nombresArchivos[i],end=" ")
  print(sumaPalabras,end=" ")
  print("Media del archivo:",end=" ")
  print(media)
  if sumaPalabras<menor: #Calculamos el archivo con más o menos palabras y almacenamos sus índices
    menor=sumaPalabras
    indiceMenor=i
  
  if sumaPalabras>mayor:
    mayor=sumaPalabras
    indiceMayor=i

  i=i+1

print("El archivo con menos palabras es: ",end="")
print(nombresArchivos[indiceMenor],end="")
print(" con",end=" ")
print(menor)

print("El archivo con más palabras es: ",end="")
print(nombresArchivos[indiceMayor],end="")
print("con",end=" ")
print(mayor,end=" ")

Número de palabras del archivo S0211-69952009000500011.xml 346 Media del archivo: 23.066666666666666
Número de palabras del archivo S0211-69952009000600003.xml 255 Media del archivo: 25.5
Número de palabras del archivo S0211-69952009000600011.xml 328 Media del archivo: 32.8
Número de palabras del archivo S0211-69952010000100007.xml 614 Media del archivo: 32.31578947368421
Número de palabras del archivo S0211-69952009000600010.xml 302 Media del archivo: 25.166666666666668
Número de palabras del archivo S0211-69952009000500014.xml 148 Media del archivo: 24.666666666666668
Número de palabras del archivo S0211-69952009000500007.xml 415 Media del archivo: 37.72727272727273
Número de palabras del archivo S0211-69952009000500008.xml 705 Media del archivo: 27.115384615384617
Número de palabras del archivo S0211-69952009000600012.xml 516 Media del archivo: 39.69230769230769
Número de palabras del archivo S0211-69952009000500009.xml 278 Media del archivo: 25.272727272727273
Número de palabras de

### Ejercicio 3

Dividir en tokens la oración que se muestra a continuación empleando los siguientes tokenizadores: “TreebankWordTokenizer”, "WhitespaceTokenizer”, “SpaceTokenizer” y "WordPunctTokenizer”. 

¿Qué diferencias se observan en la salida producida por cada uno de
ellos?


In [19]:
sentence = "Sorry, I can't go to the meeting.\n"

from nltk.tokenize import TreebankWordTokenizer

print(TreebankWordTokenizer().tokenize(sentence))

from nltk.tokenize import WhitespaceTokenizer

print(WhitespaceTokenizer().tokenize(sentence))

from nltk.tokenize import SpaceTokenizer

print(SpaceTokenizer().tokenize(sentence))

from nltk.tokenize import WordPunctTokenizer

print(WordPunctTokenizer().tokenize(sentence))

['Sorry', ',', 'I', 'ca', "n't", 'go', 'to', 'the', 'meeting', '.']
['Sorry,', 'I', "can't", 'go', 'to', 'the', 'meeting.']
['Sorry,', 'I', "can't", 'go', 'to', 'the', 'meeting.\n']
['Sorry', ',', 'I', 'can', "'", 't', 'go', 'to', 'the', 'meeting', '.']


**Diferencias:**
- El TreebankWordTokenizer tokeniza los signos de puntuación y además separa la raiz (ca) y la contracción de la negación del verbo can (n't).
- El WhitespaceTokenizer tokeniza los signos de puntuación y no separa el verbo can't.
- El SpaceTokenizer no tokeniza los signos de puntuación pero los comandos de carácteres los trata como parte de la palabra.
- El WordPunctTokenizer tokeniza los signos de puntuación y el verbo can't lo separa en can, ' y t.


### Ejercicio 4

Crear un tokenizador basado en expresiones regulares usando la clase *RegexpTokenizer* de NLTK que extraiga sólo las palabras presentes en el texto, es decir, que no devuelva como salida los signos de puntuación ni los tabuladores/saltos de línea, etc.

Además, el tokenizador no deberá separar las contracciones del texto.

¿Cuáles son los tokens extraídos si le pasamos la siguiente oración?


In [20]:
sentence = "Sorry, I can't, go to the meeting.\n"

from nltk.tokenize import RegexpTokenizer

print(RegexpTokenizer(r'\w+').tokenize(sentence))

['Sorry', 'I', 'can', 't', 'go', 'to', 'the', 'meeting']


**Tokens extraidos:** Sorry, I, can, t, go, to, the y meeting