# Preprocesamiento de textos

Como hemos visto existen una serie de técnicas que mejoran los resultados de la distintas tareas de Procesamiento del Lenguaje Natural.

En esta práctica y apoyándonos en el módulo `nltk` veremos cómo preparar un texto para su posterior análisis llevando a cabo las siguientes tareas:

1. Tokenización
2. Eliminación de mayúsculas
3. Eliminación de caracteres alfabéticos
4. Eliminación de palabras vacías
5. Stemming



Comenzamos importando los módulos que vamos a utilizar:


In [1]:
import nltk

El módulo `nltk` incluye además de muchas funciones destinadas al PLN un conjunto de datos compuestos por distintos libros que podemos utilizar para nuestras primeras pruebas de PLN.

Veámos de que libros dispone:

In [2]:
nltk.download()


NLTK Downloader
---------------------------------------------------------------------------
    d) Download   l) List    u) Update   c) Config   h) Help   q) Quit
---------------------------------------------------------------------------
Downloader> l

Packages:
  [ ] abc................. Australian Broadcasting Commission 2006
  [ ] alpino.............. Alpino Dutch Treebank
  [ ] averaged_perceptron_tagger Averaged Perceptron Tagger
  [ ] averaged_perceptron_tagger_ru Averaged Perceptron Tagger (Russian)
  [ ] basque_grammars..... Grammars for Basque
  [ ] bcp47............... BCP-47 Language Tags
  [ ] biocreative_ppi..... BioCreAtIvE (Critical Assessment of Information
                           Extraction Systems in Biology)
  [ ] bllip_wsj_no_aux.... BLLIP Parser: WSJ Model
  [ ] book_grammars....... Grammars from NLTK Book
  [ ] brown............... Brown Corpus
  [ ] brown_tei........... Brown Corpus (TEI XML Version)
  [ ] cess_cat............ CESS-CAT Treebank
  [ ] cess_esp

True

In [5]:
nltk.corpus.gutenberg.fileids()

['austen-emma.txt',
 'austen-persuasion.txt',
 'austen-sense.txt',
 'bible-kjv.txt',
 'blake-poems.txt',
 'bryant-stories.txt',
 'burgess-busterbrown.txt',
 'carroll-alice.txt',
 'chesterton-ball.txt',
 'chesterton-brown.txt',
 'chesterton-thursday.txt',
 'edgeworth-parents.txt',
 'melville-moby_dick.txt',
 'milton-paradise.txt',
 'shakespeare-caesar.txt',
 'shakespeare-hamlet.txt',
 'shakespeare-macbeth.txt',
 'whitman-leaves.txt']

In [4]:
nltk.download('gutenberg')

[nltk_data] Downloading package gutenberg to /root/nltk_data...
[nltk_data]   Unzipping corpora/gutenberg.zip.


True

Estos son solo algunos ejemplos de textos de fácil acceso para probar temas de PLN. En nuestro caso y para que el ejemplo pueda ser seguido por todos buscaremos un fragmento de un libro en español.

In [6]:
don_quijote = """
Capítulo primero. Que trata de la condición y ejercicio del famoso hidalgo
don Quijote de la Mancha

En un lugar de la Mancha, de cuyo nombre no quiero acordarme, no ha mucho
tiempo que vivía un hidalgo de los de lanza en astillero, adarga antigua,
rocín flaco y galgo corredor. Una olla de algo más vaca que carnero,
salpicón las más noches, duelos y quebrantos los sábados, lantejas los
viernes, algún palomino de añadidura los domingos, consumían las tres
partes de su hacienda. El resto della concluían sayo de velarte, calzas de
velludo para las fiestas, con sus pantuflos de lo mesmo, y los días de
entresemana se honraba con su vellorí de lo más fino. Tenía en su casa una
ama que pasaba de los cuarenta, y una sobrina que no llegaba a los veinte,
y un mozo de campo y plaza, que así ensillaba el rocín como tomaba la
podadera. Frisaba la edad de nuestro hidalgo con los cincuenta años; era de
complexión recia, seco de carnes, enjuto de rostro, gran madrugador y amigo
de la caza. Quieren decir que tenía el sobrenombre de Quijada, o Quesada,
que en esto hay alguna diferencia en los autores que deste caso escriben;
aunque, por conjeturas verosímiles, se deja entender que se llamaba
Quejana. Pero esto importa poco a nuestro cuento; basta que en la narración
dél no se salga un punto de la verdad.

Es, pues, de saber que este sobredicho hidalgo, los ratos que estaba
ocioso, que eran los más del año, se daba a leer libros de caballerías, con
tanta afición y gusto, que olvidó casi de todo punto el ejercicio de la
caza, y aun la administración de su hacienda. Y llegó a tanto su curiosidad
y desatino en esto, que vendió muchas hanegas de tierra de sembradura para
comprar libros de caballerías en que leer, y así, llevó a su casa todos
cuantos pudo haber dellos; y de todos, ningunos le parecían tan bien como
los que compuso el famoso Feliciano de Silva, porque la claridad de su
prosa y aquellas entricadas razones suyas le parecían de perlas, y más
cuando llegaba a leer aquellos requiebros y cartas de desafíos, donde en
muchas partes hallaba escrito: La razón de la sinrazón que a mi razón se
hace, de tal manera mi razón enflaquece, que con razón me quejo de la
vuestra fermosura. Y también cuando leía: ...los altos cielos que de
vuestra divinidad divinamente con las estrellas os fortifican, y os hacen
merecedora del merecimiento que merece la vuestra grandeza.

Con estas razones perdía el pobre caballero el juicio, y desvelábase por
entenderlas y desentrañarles el sentido, que no se lo sacara ni las
entendiera el mesmo Aristóteles, si resucitara para sólo ello. No estaba
muy bien con las heridas que don Belianís daba y recebía, porque se
imaginaba que, por grandes maestros que le hubiesen curado, no dejaría de
tener el rostro y todo el cuerpo lleno de cicatrices y señales. Pero, con
todo, alababa en su autor aquel acabar su libro con la promesa de aquella
inacabable aventura, y muchas veces le vino deseo de tomar la pluma y dalle
fin al pie de la letra, como allí se promete; y sin duda alguna lo hiciera,
y aun saliera con ello, si otros mayores y continuos pensamientos no se lo
estorbaran. Tuvo muchas veces competencia con el cura de su lugar —que era
hombre docto, graduado en Sigüenza—, sobre cuál había sido mejor caballero:
Palmerín de Ingalaterra o Amadís de Gaula; mas maese Nicolás, barbero del
mesmo pueblo, decía que ninguno llegaba al Caballero del Febo, y que si
alguno se le podía comparar, era don Galaor, hermano de Amadís de Gaula,
porque tenía muy acomodada condición para todo; que no era caballero
melindroso, ni tan llorón como su hermano, y que en lo de la valentía no le
iba en zaga.
"""

Al visualizar el texto observamos que tenemos signos de espaciado y salto de página, puntuación, tildes...

Veámos cómo podemos preprocesar este texto:

In [7]:
don_quijote

'\nCapítulo primero. Que trata de la condición y ejercicio del famoso hidalgo\ndon Quijote de la Mancha\n\nEn un lugar de la Mancha, de cuyo nombre no quiero acordarme, no ha mucho\ntiempo que vivía un hidalgo de los de lanza en astillero, adarga antigua,\nrocín flaco y galgo corredor. Una olla de algo más vaca que carnero,\nsalpicón las más noches, duelos y quebrantos los sábados, lantejas los\nviernes, algún palomino de añadidura los domingos, consumían las tres\npartes de su hacienda. El resto della concluían sayo de velarte, calzas de\nvelludo para las fiestas, con sus pantuflos de lo mesmo, y los días de\nentresemana se honraba con su vellorí de lo más fino. Tenía en su casa una\nama que pasaba de los cuarenta, y una sobrina que no llegaba a los veinte,\ny un mozo de campo y plaza, que así ensillaba el rocín como tomaba la\npodadera. Frisaba la edad de nuestro hidalgo con los cincuenta años; era de\ncomplexión recia, seco de carnes, enjuto de rostro, gran madrugador y amigo\nde la

#### Tokenización

Empezamos convirtiendo el texto en una lista de palabras.
Para ello debemos descargar el módulo `punkt` dentro de NLTK que incluye las funciones de tokenización:

In [8]:
nltk.download('punkt')
from nltk.tokenize import word_tokenize
palabras = word_tokenize(don_quijote)
print(type(palabras))

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


<class 'list'>


Observamos que `palabras` es una lista. Véamos sus 20 primeros elementos:

In [9]:
palabras[0 : 20]

['Capítulo',
 'primero',
 '.',
 'Que',
 'trata',
 'de',
 'la',
 'condición',
 'y',
 'ejercicio',
 'del',
 'famoso',
 'hidalgo',
 'don',
 'Quijote',
 'de',
 'la',
 'Mancha',
 'En',
 'un']

Observamos que los signos de espacio como el del salto de página ya han sido eliminados y que cada palabra ocupa una posición de la lista. Además podemos ver cómo hay palabras repetidas como "de" o "la" y que los signos de puntuación se tranta como palabras (tenemos un signo de puntuación en la tercera posición).

#### Convertimos todas las grafías a minúsculas

Así dejaremos de considerar "Que" y "que" como palabras distintas:

In [10]:
palabras_minusculas = [palabra.lower() for palabra in palabras]
palabras_minusculas[0:20]

['capítulo',
 'primero',
 '.',
 'que',
 'trata',
 'de',
 'la',
 'condición',
 'y',
 'ejercicio',
 'del',
 'famoso',
 'hidalgo',
 'don',
 'quijote',
 'de',
 'la',
 'mancha',
 'en',
 'un']

#### Eliminamos signos de puntuación y caracteres no alfabéticos

Elementos como los puntos o las comas no aportan información por lo que serán eliminados:

In [11]:
palabras_reales = [palabra for palabra in palabras_minusculas if palabra.isalpha()]
palabras_reales[0:20]

['capítulo',
 'primero',
 'que',
 'trata',
 'de',
 'la',
 'condición',
 'y',
 'ejercicio',
 'del',
 'famoso',
 'hidalgo',
 'don',
 'quijote',
 'de',
 'la',
 'mancha',
 'en',
 'un',
 'lugar']

Observamos que caracteres como los puntos han desaparecido.

#### Eliminamos palabras vacías

No tiene sentido conservar palabras como los artículos o preposiciones que aparecen a lo largo del texto infinidad de veces sin aportar mucha información. Eliminamos estas palabras empleando un módulo preentrenenado de NLTK:

In [12]:
nltk.download('stopwords')
from nltk.corpus import stopwords
palabras_vacias = set(stopwords.words('spanish'))
list(palabras_vacias)[0:10]

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


['hubierais',
 'fueran',
 'estuvieron',
 'vosotros',
 'algo',
 'estoy',
 'hubieras',
 'esas',
 'a',
 'ante']

In [13]:
len(palabras_vacias)

313

In [14]:
palabras_significativas = [palabra for palabra in palabras_reales if palabra not in palabras_vacias]
palabras_significativas[0:20]

['capítulo',
 'primero',
 'trata',
 'condición',
 'ejercicio',
 'famoso',
 'hidalgo',
 'don',
 'quijote',
 'mancha',
 'lugar',
 'mancha',
 'cuyo',
 'nombre',
 'quiero',
 'acordarme',
 'tiempo',
 'vivía',
 'hidalgo',
 'lanza']

### Stemming de las palabras

Con este paso del preprocesamiento vamos a hacer que, por ejemplo, todas las formas verbales "vivir", "vivía" y "vivirán" converjan a una única palabra:

In [15]:
from nltk.stem import SnowballStemmer
stemmer = SnowballStemmer('spanish')
palabras_raiz = [stemmer.stem(palabra) for palabra in palabras_significativas]
palabras_raiz[0:20]

['capitul',
 'primer',
 'trat',
 'condicion',
 'ejercici',
 'famos',
 'hidalg',
 'don',
 'quijot',
 'manch',
 'lug',
 'manch',
 'cuy',
 'nombr',
 'quier',
 'acord',
 'tiemp',
 'viv',
 'hidalg',
 'lanz']

Observamos como, por ejemplo, la palabra "Mancha" pasa tras el preprocesamiento a ser "manch" que amalgamaría no solmanete "Mancha" y "mancha" si no también todas las formas verbales del verbo manchar.

## Spacy

Veámos un breve ejemplo de las posibilidades de Spacy.

Comenzamos cargando el modelo pre-entrenado para español:

In [16]:
! python -m spacy download es_core_news_sm

Collecting es-core-news-sm==3.7.0
  Downloading https://github.com/explosion/spacy-models/releases/download/es_core_news_sm-3.7.0/es_core_news_sm-3.7.0-py3-none-any.whl (12.9 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m12.9/12.9 MB[0m [31m29.5 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: es-core-news-sm
Successfully installed es-core-news-sm-3.7.0
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('es_core_news_sm')
[38;5;3m⚠ Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.


In [17]:
import spacy
modelo_sp = spacy.load("es_core_news_sm")

In [18]:
don_quijote_sp = modelo_sp(don_quijote)

Con estos sencillos pasos ya podemos hacer un análisis morfológico del texto:

In [19]:
contador = 0
for token in don_quijote_sp:
    print(token.text, token.pos_)
    contador = contador + 1
    if contador > 30:
      break


 SPACE
Capítulo VERB
primero ADV
. PUNCT
Que SCONJ
trata VERB
de ADP
la DET
condición NOUN
y CCONJ
ejercicio NOUN
del ADP
famoso ADJ
hidalgo NOUN

 SPACE
don NOUN
Quijote PROPN
de ADP
la DET
Mancha PROPN


 SPACE
En ADP
un DET
lugar NOUN
de ADP
la DET
Mancha PROPN
, PUNCT
de ADP
cuyo PRON
nombre NOUN


También es posible realizar una extracción de entidades:

In [20]:
for ent in don_quijote_sp.ents:
    print(ent.text, ent.label_)

Capítulo PER
hidalgo
don Quijote de la Mancha LOC
la Mancha LOC
Una olla de algo más vaca MISC
El resto della concluían sayo de velarte MISC
Tenía PER
Frisaba LOC
Quieren decir MISC
Quijada LOC
Quesada LOC
Quejana PER
Pero esto importa MISC
año MISC
llegó PER
Feliciano de Silva PER
La razón de la sinrazón MISC
Aristóteles PER
No MISC
Pero PER
allí PER
Sigüenza LOC
Palmerín de Ingalaterra LOC
Amadís de Gaula ORG
Nicolás LOC
Caballero del Febo LOC
Galaor PER
Amadís PER
Gaula PER
tenía PER
zaga LOC


Observamos que el modelo acierta en muchas ocasiones pero en muchos casos no acaba de afinar. Es importante entender también la dificultad del texto por su antigüedad. Los modelos tienden a funcionar mejor cuando el lenguaje es más popular:

In [21]:
frase_ejemplo = modelo_sp("Donald Trump y Joe Biden se batirán en los próximos comicios en la ciudad de Washington por el gobierno de Estados Unidos")
for ent in frase_ejemplo.ents:
    print(ent.text, ent.label_)

Donald Trump PER
Joe Biden PER
Washington LOC
Estados Unidos LOC


## Conclusiones

En este cuaderno hemos explorado brevemente los módulos `NLTK` y `Spacy`  y hemos visto cómo apoyándonos en ellos es sencillo realizar el preprocesamiento de un texto.