![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)
(https://colab.research.google.com/github/ricardokleinklein/NLP_GenMods/blob/main/Fundamentals_NLP.ipynb)


# Procesamiento de Lenguaje Natural (PLN)

## Fundamentos de PLN

Creado por *Ricardo Kleinlein* para [Saturdays.AI](https://saturdays.ai/).

Disponible bajo una licencia [Creative Commons](https://creativecommons.org/licenses/by/4.0/).

---

## Sobre el uso de Jupyter Notebooks

Este notebook ha sido implementado en Python, pero para su ejecución no es
necesario conocer el lenguaje en profundidad. Solamente se debe ejecutar cada
una de las celdas, teniendo en cuenta que hay que ejecutar una celda a la vez
y secuencialmente, tal y como figuran en orden de aparición.

Para ejecutar cada celda pulse en el botón ▶ en la esquina superior izquierda
de cada celda. Mientras se esté ejecutando ese fragmento de código,
el botón estará girando. En caso de querer detener dicha ejecución, pulse
nuevamente sobre este botón mientras gira y la ejecución se detendrá. En caso
de que la celda tenga alguna salida (texto, gráficos, etc) será mostrada
justo después de esta y antes de mostrar la siguiente celda. El notebook
estará guiado con todas las explicaciones necesarias, además irá acompañado
por comentarios en el código para facilitar su lectura.

En caso de tener alguna duda, anótela. Dedicaremos un tiempo a plantear y
resolver la mayoría delas dudas que puedan aparecer.


## Objetivo del notebook

El objetivo de este notebook es mostrar las herramientas fundamentales
usadas dentro del campo del NLP. En particular, aquellas centradas en la
**limpieza y preparación de los datos** para usos posteriores.

## ¿Por qué interesarnos en NLP?

¿Por qué nos interesa tanto saber cómo analizar textos? En realidad, es una
de las características que nos definen como especie. Si bien existe
comunicación en otras especies animales, la nuestra es la única que
conozcamos (¡al menos por el momento!) que es capaz de estructurar y
compartir su pensamiento con otros individuos mediante una serie de reglas,
que llamamos gramática, y una serie de abstracciones asociadas a ciertos
sonidos llamadas palabras (Bottéro,2004).

![escritura cuneiforme](./assets/cuneiform.jpg)

Sin embargo, en cierto momento de la historia evolutiva de la Humanidad,
nuestros antepasados pensaron que sería una buena idea desarrollar alguna
manera de almacenar esos mensajes para que no se perdieran nada más ser
expresados. Este proceso, que determina el comienzo de la Historia, dió luz
a la escritura. Si bien al inicio sirvió mayoritariamente para llevar
registros catastrales y financieros, no mucho después prácticamente la
totalidad de las sociedades en el planeta habrían de adoptar uno u otro
sistema de escritura elaborada (Cassin, 1971). Además, los registros dieron
paso a épicas
epopeyas, dramas románticos y muchos otros tipos de ficción.

De alguna manera, mediante el lenguaje las personas tenemos acceso a
información y conocimiento sobre la forma de pensar, actuar, las intenciones
y deseos de otra(s) persona(s). En particular, el lenguaje escrito ha
cobrado especial relevancia en las últimas décadas (no digamos ya en la
última) por el auge de las tecnologías digitales.

¿Quién no ha mirado ha leído un e-mail hoy?

¿Cómo se llamaba la última canción que escuchaste?

¿Cuáles son los titulares del periódico de hoy?

¿Qué están diciendo mis clientes de mi último producto en las redes sociales?

...

La lista de preguntas cuya respuesta se basa de una manera u otra en
interpretar y entender lo que otros dicen es infinita. No sorprende que las
empresas de todo el mundo quieran hacer un mejor uso de esta información
para ser más eficientes y desarrollar su actividad de manera más eficiente.


## Importamos las librerías necesarias

Para no tener que preocuparnos más tarde, vamos a cargar en este momento
todas las librerías necesarias.

Recuerde, **una librería es tan sólo un conjunto de herramientas ya
programadas** de tal forma que podemos centrarnos en otros aspectos del
trabajo sin tener que escribir todo el código de cero cada vez.

In [47]:
import string   # Operaciones sobre texto
import nltk     # Natural Language Toolkit

from nltk import tokenize
from nltk import corpus
from nltk import stem
from nltk import book



*** Introductory Examples for the NLTK Book ***
Loading text1, ..., text9 and sent1, ..., sent9
Type the name of the text or sentence to view it.
Type: 'texts()' or 'sents()' to list the materials.


LookupError: 
**********************************************************************
  Resource [93mgutenberg[0m not found.
  Please use the NLTK Downloader to obtain the resource:

  [31m>>> import nltk
  >>> nltk.download('gutenberg')
  [0m
  For more information see: https://www.nltk.org/data.html

  Attempted to load [93mcorpora/gutenberg[0m

  Searched in:
    - '/Users/ricardokleinlein/nltk_data'
    - '/Users/ricardokleinlein/Desktop/Personal/saturdays_ai/PYTHON/nltk_data'
    - '/Users/ricardokleinlein/Desktop/Personal/saturdays_ai/PYTHON/share/nltk_data'
    - '/Users/ricardokleinlein/Desktop/Personal/saturdays_ai/PYTHON/lib/nltk_data'
    - '/usr/share/nltk_data'
    - '/usr/local/share/nltk_data'
    - '/usr/lib/nltk_data'
    - '/usr/local/lib/nltk_data'
**********************************************************************


NLTK no es la única librería de NLP que existe. [spaCy](https://spacy.io/),
[TextBlob](https://textblob.readthedocs.io/en/dev/),
[Gensim](https://radimrehurek.com/gensim/) o
[CoreNLP](https://stanfordnlp.github.io/CoreNLP/) son otras librerías
comúnmente usadas. Sin embargo, NLTK se ha impuesto como el estándar "de
facto". Es por ello que vamos a centrarnos en ella, si bien no es raro
mezclar herramientas en una misma aplicación.

In [48]:
# Puede tardar unos minutos

nltk.download(["names", "stopwords", "state_union", "twitter_samples",
              "movie_reviews", "averaged_perceptron_tagger",
              "vader_lexicon", "punkt", "wordnet", "book", "gutenberg"])

[nltk_data] Downloading package names to
[nltk_data]     /Users/ricardokleinlein/nltk_data...
[nltk_data]   Package names is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     /Users/ricardokleinlein/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package state_union to
[nltk_data]     /Users/ricardokleinlein/nltk_data...
[nltk_data]   Package state_union is already up-to-date!
[nltk_data] Downloading package twitter_samples to
[nltk_data]     /Users/ricardokleinlein/nltk_data...
[nltk_data]   Package twitter_samples is already up-to-date!
[nltk_data] Downloading package movie_reviews to
[nltk_data]     /Users/ricardokleinlein/nltk_data...
[nltk_data]   Package movie_reviews is already up-to-date!
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /Users/ricardokleinlein/nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!
[nltk_data] D

True

## Tokenización de palabras o frases

Un sistema computacional no entiende de manera natural qué es una palabra y
qué no. A efectos reales, todo lo que el ordenador interpreta es una
secuencia de caracteres alfanuméricos (los espacios en blanco no dejan de
serlo).

Así, en NLP se trabaja con una unidad mínima de significado denominada
grama (gram en inglés). Se dice que un unigrama (**1-gram**) equivale a una
palabra, un bigrama (**2-gram**) a 2 palabras juntas, como San Francisco,
Nueva York o Papa Francisco, y de manera similar para órdenes mayores
(3-gram, 4-gram...).

In [49]:
example = "The crew of the USS Discovery discovered many discoveries, some " \
          "of them still undiscovered. Discovering is what explorers do."

# De hecho es habitual trabajar con todo minúsculas:
example = example.lower()

sentences = tokenize.sent_tokenize(example)    # Tokeniza a nivel frase
print(f'Primera frase:\n{sentences[0]}')
words = tokenize.word_tokenize(example) # Tokeniza a nivel de palabra
print(f'Primera palabra:\n{words[0]}')

Primera frase:
the crew of the uss discovery discovered many discoveries, some of them still undiscovered.
Primera palabra:
the


Pero fijémonos en qué ocurre cuando le pedimos mostrar todas las palabras
detectadas por este proceso de tokenización:

In [50]:
print(words)

['the', 'crew', 'of', 'the', 'uss', 'discovery', 'discovered', 'many', 'discoveries', ',', 'some', 'of', 'them', 'still', 'undiscovered', '.', 'discovering', 'is', 'what', 'explorers', 'do', '.']


Observamos que si bien reconoce correctamente todas las palabras, la coma
presente en la primera frase (y lo mismo ocurre con puntos, apóstrofes y
otros signos de puntuación) también ha sido incorrectamente reconocida como
una palabra. Este es un problema común, para el cual la solución es simple:

In [51]:
def remove_punctuation(sentence):
  return sentence.translate(str.maketrans('', '', string.punctuation))

clean_example = remove_punctuation(example)
words = tokenize.word_tokenize(clean_example)
print(words)

['the', 'crew', 'of', 'the', 'uss', 'discovery', 'discovered', 'many', 'discoveries', 'some', 'of', 'them', 'still', 'undiscovered', 'discovering', 'is', 'what', 'explorers', 'do']


Mediante esta función, podemos eliminar los signos de puntuación más comunes
que se encuentran en textos escritos. Dependiendo del idioma y de ciertos
detalles técnicos, se pueden requerir métodos más complejos de filtrado de
caracteres (regex).


## Eliminación de palabras comunes

No todas las palabras de una oración tienen la misma relevancia para
nosotros a la hora de analizar un texto. Piense en determinantes,
proposiciones... Si bien contribuyen a dotar al texto de significado, no
soportan el peso de la narración.

A estas palabras se les denomina en inglés *stopwords*, y podemos
eliminarlas fácilmente:

In [52]:
stop_words = list(set(corpus.stopwords.words('english')))
print(f'Lista de stopwords en inglés:\n{stop_words}\n')

words = [word for word in words if word not in stop_words]
print('Frases sin puntuación ni stopwords:\n' + ' '.join(words))

Lista de stopwords en inglés:
['through', 'mustn', 'an', 'o', 'll', 'some', 'was', 'are', 'should', 'that', 'up', 'just', 'hadn', 'to', 'won', 'is', 'this', 'other', 'd', "doesn't", 'so', 'themselves', 'isn', "you've", 'once', 'the', 'under', 'all', "won't", 't', 'yourselves', 'your', 'into', 's', 'same', 'hasn', 'mightn', "should've", 'while', 'having', 'me', 'off', 'such', "wasn't", 'do', "isn't", 'have', "she's", 'y', 'does', 'ma', 'below', 'but', "wouldn't", "hadn't", 'after', 'from', 'no', 'out', 'above', 'needn', 'doing', 'at', 'between', 'wouldn', 'against', "mustn't", 'he', 'being', 'nor', 'further', 'more', "you'd", 'what', 'yourself', 'any', "hasn't", 'shan', 'its', 'yours', 'if', 'weren', 'by', 'don', 'only', 'will', 'before', 'of', 'there', 'those', 'each', 'herself', 'where', 'm', "that'll", 'during', "it's", 'wasn', 'for', 'haven', 'couldn', "couldn't", 'shouldn', 'here', 'ourselves', 'were', "you'll", 'they', 'we', 'it', 'been', 'and', 'as', "aren't", "needn't", 'down', 

Como podemos observar, si bien la diferencia que percibimos con respecto al
texto original es enorme, uno puede convencerse de que la información
esencial permanece. Tenemos nombres propios, objetos, lugares... Podríamos
decir que conserva en esencia el mensaje, con un número menor de palabras:

In [53]:
nb_original = len(tokenize.word_tokenize(clean_example))
print(f'Número de palabras en el original: {nb_original}')
print(f'Sin stopwords: {len(words)}')

Número de palabras en el original: 19
Sin stopwords: 10


¡Menos de la mitad de las palabras!

Aquí hemos utilizado un conjunto de palabras "default" proporcionadas dentro
de la librería NLTK, pero éste puede modificarse a voluntad, tanto como
para extender dicha lista como para acortarla.


## Extracción de la raíz de palabras

Existen dos procedimientos muy comúnmente usados:

### Stemming

Las palabras, al menos en el lenguaje actual, no están limitadas a una única
forma exclusiva. Por ejemplo, el concepto de "ayuda", da pie a muchas otras
similares: "ayudante", "ayudas", "ayudo", "ayudamos", y un largo etcétera.

En muchas tareas nos interesará trabajar únicamente con la forma más corta
que, de alguna manera, encapsule el concepto fundamental contenido en todas
las anteriores palabras. Dentro de la librería NLTK hay varias herramientas
que sirven para realizar este proceso, pero nosotros vamos a ver el caso
particular del algoritmo de Porter, basado en eliminar de manera iterativa
sufijos dentro de una palabra (Porter, M.F. (1980)).

In [44]:
stemmer = stem.PorterStemmer()
stem_example = [stemmer.stem(word) for word in words]
print(' '.join(stem_example))

crew uss discoveri discov mani discoveri still undiscov discov explor


El resultado dista de ser perfecto.

- Understemming: Ocurre cuando dos palabras relacionadas deberían ser
reducidas a una misma raíz, pero no lo son.
- Overstemming: Al contrario, cuando dos palabras no relacionadas se reducen
 a una misma raíz incorrectamente.

Este es sólo un ejemplo, y la propia librería NLTK tiene procesadores de
Stemming más recientes, o en otros idiomas:

In [45]:
german_stemmer = stem.SnowballStemmer('german')
print(german_stemmer.stem('Autobahnen'))

autobahn


### Lemmatization

De manera análoga al stema, el procedimiento de lemmatization permite
reducir la complejidad del vocabulario de un texto. La diferencia es que el
lemma consiste en una palabra con significado propio (el **lexema**).

In [46]:
lemmatizer = stem.WordNetLemmatizer()
lemma_example = [lemmatizer.lemmatize(word) for word in words]
print(' '.join(lemma_example))

crew us discovery discovered many discovery still undiscovered discovering explorer


## Concordancia

El concepto de concordancia nos permite ver las veces que una palabra es
usada, junto con su contexto inmediato. Si bien es cierto que este
procedimiento no es estrictamente un proceso de filtrado o de limpieza de
datos, entra dentro del rango de tareas a realizar de modo preliminar para
comprender cómo son los datos que trabajamos.

Para el resto del notebook, vamos a trabajar con un texto de muestra más
largo, contenido dentro de NLTK. En particular, vamos a trabajar con la
versión original en inglés de Moby Dick.

Veamos en qué contextos aparece la palabra marinero...

In [None]:
moby_dick = book.text1
moby_dick.concordance('sailor')

## Collocation

Muy relacionado se encuentra la idea de "collocations", o conjuntos de
palabras que aparecen con frecuencia juntas (bigramas).

In [None]:
moby_dick.collocations()

Como era de esperar, las palabras relativas a los protagonistas principales,
 así como a la ballena, conforman binomios de palabras que aparecen si no
 siempre, casi siempre juntas.

Asímismo, observamos bigramas repetidos donde la diferencia consiste en el
uso de mayúsculas.



## Referencias

Bottéro, J. (2004) Mesopotamia: La Escritura, La Razón y Los Dioses. Cátedra,
Grupo Anaya S.A. ISBN: 84-376-2119-4.

Cassin, E., Bottéro, J. and Vercoutter, J. (1971). Los imperios del Antiguo
Oriente. I. Del paleolítico a la mitad del segundo milenio. Siglo Veintiuno
ISBN: 978-84-323-0039-4

Porter, M.F. (1980), "An algorithm for suffix stripping", Program:
electronic library and information systems, Vol. 14 No. 3, pp. 130-137.
https://doi.org/10.1108/eb046814