# INTRODUCCIÓN AL NLP (NATURAL LANGUAGE PROCESSING - PROCESAMIENTO DE LENGUAJE NATURAL)

## Conceptos básicos.

### TOKENIZACIÓN

En un proceso de NLP una de las primeras tareas a realizar va a ser eliminar las palabras que tienen poco interés para nuestro análisis.   
El primer paso es delimitar las palabras del texto, y convertir esas palabras en elementos de una lista. Este procedimiento es conocido como **tokenización**. 

Procedemos a implementar esto en Python: (Usaremos la librería ***SPACY***-> **pip install spacy**)

Nota:    
Ejecutar en terminal: 
     
***python -m spacy download es***   

para descargar el modelo de idioma español-castellano

In [1]:
# A instalar desde la terminal:
# pip install spacy
# python -m spacy download es_core_news_sm
import spacy
nlp = spacy.load('es_core_news_sm')
text = """Soy un texto. Normalmente soy más largo y más grande. Que no te engañe mi tamaño."""
doc = nlp(text) # Crea un objeto de spacy tipo nlp
tokens = [t.orth_ for t in doc] # Crea una lista con las palabras del texto

En este punto, ya tenemos nuestro texto convertido en una lista de **tokens**.    

Lamentablemente, están todas las palabras. Se puede comprobar que también se incluyen como **tokens** los signos de puntuación.    

Por nuestra parte, lo que nos interesa es quedarnos solo con aquellas que sean más o menos representativas del texto. Para ello, vamos a eliminar de esa lista las palabras muy comunes o poco informativas.

A continuación, vamos a pedirle a esta librería que construya la lista de tokens pero que no incluya palabras muy comunes y poco informativas desde el punto de vista léxico, tales como conjunciones (y, o, ni, que), preposiciones (a, en, para, por, entre otras) y verbos muy comunes (ser, ir, y otros más).    

Para realizarlo, se va a utilizar una condición que diga “todos los tokens del texto, siempre y cuando no se incluyan la puntuación ni las palabras poco representativas (stopwords)”.

In [2]:
import spacy
nlp = spacy.load('es_core_news_sm')
text = """Soy un texto. Normalmente soy más largo y más grande. Que no te engañe mi tamaño."""
doc = nlp(text)
lexical_tokens = [t.orth_ for t in doc if not t.is_punct | t.is_stop]

Ahora ya disponemos de una lista de palabra que nos pueden dar una idea sobre la temática tratada en el texto o bien, que nos permita una clasificación más certera.

## NORMALIZACIÓN

El siguiente paso en este flujo de trabajo consiste en **normalizar el texto**.      

La **normalización de un texto** en el ámbito del procesamiento de lenguaje natural (NLP) es el proceso mediante el cual se transforma y estandariza el contenido textual para que los algoritmos y sistemas informáticos puedan procesarlo, analizarlo y entenderlo de manera eficaz y coherente.


La normalización incluye varias tareas que garantizan que el texto se encuentre en un formato homogéneo. Los pasos más habituales son:

- *Conversión a minúsculas*: Para evitar diferencias entre palabras como "Casa" y "casa", todo el texto se transforma a minúsculas.​
- *Eliminación de caracteres especiales y signos de puntuación*: Se retiran aquellos símbolos que no aportan significado relevante, como “?” o “#”, para simplificar el análisis.​
- *Eliminación de números*: Según el caso, los números pueden retirarse si no añaden valor al análisis del texto.​
- *Eliminación de palabras vacías ("stop words")*: Son palabras muy comunes (como “de”, “en”, “a”) que, por lo general, no aportan información significativa para el análisis semántico y suelen eliminarse.​
- *Tokenización*: Es el proceso de dividir el texto en unidades mínimas llamadas tokens (palabras, frases, símbolos).​
- *Limpieza de formatos*: Eliminar saltos de línea, tabulaciones y otros elementos que puedan dificultar el análisis.   


La normalización mejora la consistencia y eficiencia del procesamiento de texto porque:

1. Permite que los sistemas informáticos interpreten el lenguaje humano con mayor facilidad, asegurando que iguales palabras sean reconocidas correctamente.​
2. Es fundamental para tareas como la búsqueda eficiente, la extracción de información, la clasificación textual y la traducción automática.​
3. Reduce las ambigüedades que puede tener el texto, facilitando el análisis estadístico, sintáctico y semántico.

En definitiva, la **normalización** es uno de los primeros pasos en cualquier proyecto de NLP y constituye la base sobre la que se desarrollan algoritmos capaces de entender el lenguaje humano en aplicaciones como chatbots, traductores automáticos y sistemas de análisis de sentimiento.   


En este caso, empezamos con el *tokenizador*, que reconoce formas como *caminar, Caminar y CAMINAR* como formas distintas. Además, el documento puede tener números y palabras compuestas por caracteres alfanuméricos y otros símbolos tales como #Ar1anaG. Si no nos interesan estas palabras, y queremos que en la lista aparezcan solamente las formas convencionales (por ejemplo, caminar, sólo en minúsculas) debemos normalizar nuestro texto.    

Aprovecharemos también para descartar palabras muy cortas (menores a 4 caracteres) para filtrar aún más nuestros tokens.


In [3]:
words = [t.lower() for t in lexical_tokens if len(t) > 3 and t.isalpha()]

Si lo agrupamos todo en una única función:

In [4]:
import spacy
nlp = spacy.load('es_core_news_sm')
def normalize(text):
    doc = nlp(text)
    words = [t.orth_ for t in doc if not t.is_punct | t.is_stop]
    lexical_tokens = [t.lower() for t in words if len(t) > 3 and     
    t.isalpha()]
    return lexical_tokens

word_list = normalize("Soy un texto de prueba. ¿Cuántos tokens me quedarán después de la normalización?")
print(word_list)

['texto', 'prueba', 'tokens', 'quedarán', 'normalización']


Revisando todos los pasos de un vistazo:

In [5]:
text = """Soy un texto de prueba. ¿Cuántos tokens me quedarán después de la normalización?"""
doc = nlp(text)
tokens = [t.orth_ for t in doc]
lexical_tokens = [t.orth_ for t in doc if not t.is_punct | t.is_stop]   
words = [t.lower() for t in lexical_tokens if len(t) > 3 and t.isalpha()]
print("Resultados de la normalización:")
print("Texto original:")
print(text)
print("Palabras filtradas:")
print(words)
print("Tokens:")
print(tokens)
print("Tokens léxicos (sin puntuación ni stopwords):")
print(lexical_tokens)

Resultados de la normalización:
Texto original:
Soy un texto de prueba. ¿Cuántos tokens me quedarán después de la normalización?
Palabras filtradas:
['texto', 'prueba', 'tokens', 'quedarán', 'normalización']
Tokens:
['Soy', 'un', 'texto', 'de', 'prueba', '.', '¿', 'Cuántos', 'tokens', 'me', 'quedarán', 'después', 'de', 'la', 'normalización', '?']
Tokens léxicos (sin puntuación ni stopwords):
['texto', 'prueba', 'tokens', 'quedarán', 'normalización']


## LEMATIZACIÓN

En español, por ejemplo, sabemos que canto, cantas, canta, cantamos, cantáis, cantan son distintas formas (conjugaciones) de un mismo verbo (*cantar*). Y que niña, niño, niñita, niños, niñotes, y otras más, son distintas formas del vocablo *niño*. Así que sería genial poder obviar las diferencias y juntar todas estas variantes en un mismo término.    
   
   
Y eso es precisamente lo que hace la **lematización**: relaciona una palabra flexionada o derivada con su forma canónica o lema. Y un lema no es otra cosa que la forma que tienen las palabras cuando las buscas en el diccionario. 

In [6]:
import spacy
nlp = spacy.load('es_core_news_sm')
text = """Soy un texto que pide a gritos que lo procesen. Por eso yo canto, tú cantas, ella canta, nosotros cantamos, cantáis, cantan…"""
doc = nlp(text)
lemmas = [tok.lemma_.lower() for tok in doc]
print(lemmas)

['ser', 'uno', 'texto', 'que', 'pedir', 'a', 'grito', 'que', 'él', 'procesen', '.', 'por', 'ese', 'yo', 'cantar', ',', 'tú', 'canta', ',', 'él', 'cantar', ',', 'yo', 'cantar', ',', 'cantáis', ',', 'cantar', '…']


Como el proceso de lematización toma en consideración la probable clase de palabra (adjetivo, verbo, sustantivo…) — también llamados POS — es posible usar dicha información para filtrar la lista de lemas.   
La siguiente línea excluye los pronombres de nuestra lista de lemas:

In [7]:
lemmas_no_pron = [tok.lemma_.lower() for tok in doc if tok.pos_ != 'PRON']
print(lemmas_no_pron)

['ser', 'uno', 'texto', 'pedir', 'a', 'grito', 'procesen', '.', 'por', 'cantar', ',', 'canta', ',', 'cantar', ',', 'cantar', ',', 'cantáis', ',', 'cantar', '…']


En la línea siguiente, descartamos los verbos:

In [8]:
lemmas_no_verb = [tok.lemma_.lower() for tok in doc if tok.pos_ != 'VERB']
print(lemmas_no_verb)

['ser', 'uno', 'texto', 'que', 'a', 'grito', 'que', 'él', '.', 'por', 'ese', 'yo', ',', 'tú', 'canta', ',', 'él', ',', 'yo', ',', 'cantáis', ',', '…']


Y ahora, combinamos ambas:

In [9]:
lemas_no_pron_no_verb = [tok.lemma_.lower() for tok in doc if tok.pos_ != 'PRON' and tok.pos_ != 'VERB']
print(lemas_no_pron_no_verb)

['ser', 'uno', 'texto', 'a', 'grito', '.', 'por', ',', 'canta', ',', ',', ',', 'cantáis', ',', '…']


El motivo por el que en la lista siguen apareciendo algunas formas verbales como "canta" y "cantáis" a pesar de la condición impuesta (tok.pos_ != 'VERB') es porque spaCy clasifica esos tokens con una etiqueta PosTag diferente, específicamente como auxiliares ('AUX') y no como verbos ('VERB').

En español y otros idiomas, spaCy distingue entre verbos principales ('VERB') y verbos auxiliares ('AUX'). Por ejemplo, en el texto, algunas formas verbales son marcadas como auxiliares o tienen etiquetas específicas que no coinciden con 'VERB'. Por eso, el filtro que excluye solo los tokens con pos_ == 'VERB' no elimina los tokens con etiqueta AUX.   

En el caso específico de "cantáis", spaCy lo 'cataloga' como 'PROPN', nombre propio y, para "canta", en esta ocasión se clasifica como "NOUN", dado que el contexto no es suficiente o puede ser ambiguo. Esto sucede porque el modelo *es_core_news_sm* es limitado y en ocasiones asigna etiquetas POS incorrectas a ciertas palabras, especialmente en formas verbales conjugadas que tienen pocas apariciones o ambigüedad en los datos de entrenamiento

Para ello es necesario ampliar la condición y eliminar también las formas auxiliares, de la siguiente forma:

In [10]:
#lemas_no_pron_no_verb_no_aux = [tok.lemma_.lower() for tok in doc if tok.pos_ != 'PRON' and tok.pos_ != 'VERB' and tok.pos_ != 'AUX' and tok.pos_ != 'PROPN']
lemas_no_pron_no_verb_no_aux = [tok.lemma_.lower() for tok in doc if tok.pos_ not in ['PRON', 'VERB', 'AUX', 'PROPN']]

print(lemas_no_pron_no_verb_no_aux)

['uno', 'texto', 'a', 'grito', '.', 'por', ',', 'canta', ',', ',', ',', ',', '…']


Por último, echemos un vistazo a cúal es la clasificación POS (Part-Of-Speech) que realiza spaCy con el modelo actual sobre cada uno de los lemas de nuestro texto de ejemplo:

In [11]:
print("Clasificación POS de spaCy para cada token:")
for tok in doc:
    print(tok.text,' - ', tok.lemma_,' - ', tok.pos_)


Clasificación POS de spaCy para cada token:
Soy  -  ser  -  AUX
un  -  uno  -  DET
texto  -  texto  -  NOUN
que  -  que  -  PRON
pide  -  pedir  -  VERB
a  -  a  -  ADP
gritos  -  grito  -  NOUN
que  -  que  -  PRON
lo  -  él  -  PRON
procesen  -  procesen  -  VERB
.  -  .  -  PUNCT
Por  -  por  -  ADP
eso  -  ese  -  PRON
yo  -  yo  -  PRON
canto  -  cantar  -  VERB
,  -  ,  -  PUNCT
tú  -  tú  -  PRON
cantas  -  canta  -  NOUN
,  -  ,  -  PUNCT
ella  -  él  -  PRON
canta  -  cantar  -  VERB
,  -  ,  -  PUNCT
nosotros  -  yo  -  PRON
cantamos  -  cantar  -  VERB
,  -  ,  -  PUNCT
cantáis  -  cantáis  -  PROPN
,  -  ,  -  PUNCT
cantan  -  cantar  -  VERB
…  -  …  -  PUNCT


- ADP - Adposicion - Preposición.   
- DET - Determinante.
- NOUN - Nombre, sustantivo.
- VERB - Verbo, forma verbal.
- PUNCT - Signo de puntuación.
- PROPN - Nombre propio.
- AUX - Auxiliar.

La lematización es un proceso clave en muchas tareas prácticas de PLN, pero tiene ***dos costos***:   
- Primero, es un proceso que consume recursos (sobre todo tiempo). 
- Segundo, suele ser probabilística, así que en algunos casos se suelen obtener resultados inesperados.

## STEMMING

Es el procedimiento de convertir palabras en raíces. Estas raíces son la parte invariable de palabras relacionadas sobre todo por su forma.    

En cierta manera se parece a la lematización, pero los resultados (las raíces) no tienen por qué ser palabras de un idioma.  

In [12]:
# Stemming con NLTK (instalar NLTK si no lo tienes: pip install nltk)
import nltk
from nltk import SnowballStemmer
spanishstemmer=SnowballStemmer('spanish')
text = """Soy un texto que pide a gritos que lo procesen. Por eso yo canto, tú cantas, ella canta, nosotros cantamos, cantáis, cantan…"""
tokens = normalize(text) # crear una lista de tokens
stems = [spanishstemmer.stem(token) for token in tokens]
print(stems)

['text', 'pid', 'grit', 'proces', 'cant', 'cant', 'cant', 'cant', 'cant', 'cant']


Como se puede observar, para encontrar las raíces en español nos hemos valido de otra librería de Python llamada **nltk**. Es otra librería fundamental para el procesamiento de lenguaje natural.    

En **nltk** hay muchas funciones para tareas de este tipo, en varios idiomas. En el ejemplo se ha utilizado el ***Snowball Stemmer*** porque funciona no sólo en inglés, sino en otras lenguas como el español.

El *stemming* es mucho más rápido desde el punto de vista del procesamiento que la *lematización*. También tiene como ventaja que *reconoce relaciones entre palabras de distinta clase*. Podría reconocer, por ejemplo, que picante y picar tienen como raíz pic-. En otras palabras, el stemming puede reducir el número de elementos que forman nuestros textos. Y eso, en muchos casos, es lo se suele tener como objetivo.

Por otra parte, una desventaja del stemming es que sus algoritmos son más simples que los de lematización. Pueden “recortar” demasiado la raíz y encontrar relaciones entre palabras que realmente no existen (overstemming).    
También puede suceder que deje raíces demasiado extensas o específicas, y que tengamos más bien un déficit de raíces (understemming), en cuyo caso palabras que deberían convertirse en una misma raíz no lo hacen. No hay mucho que hacer con eso, pero el stemming es una muy buena solución de compromiso en la mayoría de los casos.

## Conclusión   

La **tokenización**, **normalización**, **lematización** y **“radicalización”(stemming)** de un texto suelen ser procedimientos fundamentales para muchas tareas relacionadas con la extracción automática de características y de datos de los textos.    
Estos procedimientos están en la base de los grandes y pequeños buscadores de información.    

El **stemming** suele ser una buena solución cuando no importa demasiado la precisión y se requiere de un procesamiento eficiente.    
La **lematización** suele funcionar mejor cuando se necesita procesar palabras de manera similar a como lo hace un ser humano.