# Análisis morfológico

Es un proceso mediante el cual se examinan las partes que constituyen a las palabras. Implica realizar una disección de los elementos que integran la estructura de una palabra, buscando sus elementos más pequeños. Mediante este proceso se separan los lexemas de los morfemas, se indica entonces la raíz y los modificadores que le acompañan respectivamente.  Apunta mucho a la estructura, una suerte de disección del lenguaje para encontrar la relación y sentido de sus componentes esenciales.

## Lematización

Consiste en la identificación y asignación de la raíz de una palabra a un lema -una forma canónica de la misma- en forma de etiqueta:

> «Lema: forma de citación de una palabra (p. ej., el lema de reía es reir).



Tenemos diversas herramientas en Python para lemmatizar textos:

### WordNet




In [12]:
 import nltk
#nltk.download('averaged_perceptron_tagger')
#nltk.download('wordnet')
#nltk.download('omw-1.4')
nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

In [13]:
import nltk #es muy bueno en ingles
from nltk.stem import WordNetLemmatizer 

# Inicialización del lematizador de WordNet
lemmatizer = WordNetLemmatizer()


print(lemmatizer.lemmatize("someones"))
print(lemmatizer.lemmatize("thinks"))
print(lemmatizer.lemmatize("in"))
print(lemmatizer.lemmatize("plurals"))


someone
think
in
plural


In [14]:
sentence = "I had no idea that such individuals exist outside of stories!"

word_list = nltk.word_tokenize(sentence)
print(word_list)

#se toma el texto anterior y le corre el lematizador
lemmatized_output = ' '.join([lemmatizer.lemmatize(w) for w in word_list])
print(lemmatized_output) #las puso en singular las palabras


['I', 'had', 'no', 'idea', 'that', 'such', 'individuals', 'exist', 'outside', 'of', 'stories', '!']
I had no idea that such individual exist outside of story !


Que ocurre aquí:

In [18]:
#verbo = v
#sustanttivo= n
#advervio = r
#adjetivo = a

#print(lemmatizer.lemmatize("lost", 'v'))  
print(lemmatizer.lemmatize("had", 'v'))  
print(lemmatizer.lemmatize("had", 'a'))  
print(lemmatizer.lemmatize("my",'n')) 
print(lemmatizer.lemmatize("religions",'n')) 

have
had
my
religion


In [None]:
print(lemmatizer.lemmatize("lost",'a'))  
print(lemmatizer.lemmatize("my",'n')) 
print(lemmatizer.lemmatize("religions",'n')) 

lost
my
religion


In [None]:
print(lemmatizer.lemmatize())

Evidentemente debemos usar un tagged para hacer una buena lematización:

In [19]:
from nltk.corpus import wordnet

def get_wordnet_pos(word):
    tag = nltk.pos_tag([word])[0][1][0].upper()
    tag_dict = {"J": wordnet.ADJ,
                "N": wordnet.NOUN,
                "V": wordnet.VERB,
                "R": wordnet.ADV}

    return tag_dict.get(tag, wordnet.NOUN)

In [21]:
#la funcion permite identificar si es un verbo, adjetivo, etc
get_wordnet_pos('lost')

'v'

In [None]:
lemmatizer = WordNetLemmatizer()
word = 'feet'
print(lemmatizer.lemmatize(word, get_wordnet_pos(word)))

foot


In [22]:
sentence = "I had no idea that such individuals exist outside of stories"


print([ [lemmatizer.lemmatize(w, get_wordnet_pos(w)),get_wordnet_pos(w)]  for w in nltk.word_tokenize(sentence)])

[['I', 'n'], ['have', 'v'], ['no', 'n'], ['idea', 'n'], ['that', 'n'], ['such', 'a'], ['individual', 'n'], ['exist', 'n'], ['outside', 'n'], ['of', 'n'], ['story', 'n']]


### SpaCy
La biblioteca spaCy es una de las bibliotecas de PNL más populares junto con NLTK. La diferencia básica entre las dos bibliotecas es el hecho de que NLTK contiene una amplia variedad de algoritmos para resolver un problema, mientras que spaCy contiene solo uno, pero el mejor algoritmo para resolver un problema.
NLTK se lanzó en 2001, mientras que spaCy es relativamente nuevo y se desarrolló en 2015. 

In [23]:
!pip install spacy
!python -m spacy download es_core_news_sm

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
2022-08-20 00:18:15.696523: E tensorflow/stream_executor/cuda/cuda_driver.cc:271] failed call to cuInit: CUDA_ERROR_NO_DEVICE: no CUDA-capable device is detected
Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting es-core-news-sm==3.4.0
  Downloading https://github.com/explosion/spacy-models/releases/download/es_core_news_sm-3.4.0/es_core_news_sm-3.4.0-py3-none-any.whl (12.9 MB)
[K     |████████████████████████████████| 12.9 MB 5.3 MB/s 
Installing collected packages: es-core-news-sm
Successfully installed es-core-news-sm-3.4.0
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('es_core_news_sm')


In [24]:
#los modelos pueden ser multilenguaje

import spacy
nlp = spacy.load('es_core_news_sm')#paquete de español

In [43]:
text='''En el monte de la china una china se perdió y un ruso la encontró.
El ruso la llamó y le dijo: !Hola¡
'''

In [44]:
doc=nlp(text)

In [45]:
doc.text

'En el monte de la china una china se perdió y un ruso la encontró.\nEl ruso la llamó y le dijo: !Hola¡\n'

In [46]:
for i in doc.sents:
  print(i)

En el monte de la china una china se perdió y un ruso la encontró.

El ruso la llamó y le dijo: !Hola¡



In [47]:
for i in doc:
  print(i)

En
el
monte
de
la
china
una
china
se
perdió
y
un
ruso
la
encontró
.


El
ruso
la
llamó
y
le
dijo
:
!
Hola
¡




In [48]:
text[18:23]


'china'

In [49]:
text[28:33]

'china'

In [50]:
doc.to_json()

{'text': 'En el monte de la china una china se perdió y un ruso la encontró.\nEl ruso la llamó y le dijo: !Hola¡\n',
 'ents': [],
 'sents': [{'start': 0, 'end': 67}, {'start': 67, 'end': 102}],
 'tokens': [{'id': 0,
   'start': 0,
   'end': 2,
   'tag': 'ADP',
   'pos': 'ADP',
   'morph': '',
   'lemma': 'en',
   'dep': 'case',
   'head': 2},
  {'id': 1,
   'start': 3,
   'end': 5,
   'tag': 'DET',
   'pos': 'DET',
   'morph': 'Definite=Def|Gender=Masc|Number=Sing|PronType=Art',
   'lemma': 'el',
   'dep': 'det',
   'head': 2},
  {'id': 2,
   'start': 6,
   'end': 11,
   'tag': 'NOUN',
   'pos': 'NOUN',
   'morph': 'Gender=Masc|Number=Sing',
   'lemma': 'monte',
   'dep': 'obl',
   'head': 9},
  {'id': 3,
   'start': 12,
   'end': 14,
   'tag': 'ADP',
   'pos': 'ADP',
   'morph': '',
   'lemma': 'de',
   'dep': 'case',
   'head': 5},
  {'id': 4,
   'start': 15,
   'end': 17,
   'tag': 'DET',
   'pos': 'DET',
   'morph': 'Definite=Def|Gender=Fem|Number=Sing|PronType=Art',
   'lemma': 'e

In [51]:
doc.text

'En el monte de la china una china se perdió y un ruso la encontró.\nEl ruso la llamó y le dijo: !Hola¡\n'

In [52]:
for i in doc:
  print(i,i.pos_,i.lemma_,i.morph)

En ADP en 
el DET el Definite=Def|Gender=Masc|Number=Sing|PronType=Art
monte NOUN monte Gender=Masc|Number=Sing
de ADP de 
la DET el Definite=Def|Gender=Fem|Number=Sing|PronType=Art
china NOUN china Gender=Fem|Number=Sing
una DET uno Definite=Ind|Gender=Fem|Number=Sing|PronType=Art
china NOUN china Gender=Fem|Number=Sing
se PRON él Case=Acc|Person=3|PrepCase=Npr|PronType=Prs|Reflex=Yes
perdió VERB perder Mood=Ind|Number=Sing|Person=3|Tense=Past|VerbForm=Fin
y CCONJ y 
un DET uno Definite=Ind|Gender=Masc|Number=Sing|PronType=Art
ruso NOUN ruso Gender=Masc|Number=Sing
la PRON él Case=Acc|Gender=Fem|Number=Sing|Person=3|PrepCase=Npr|PronType=Prs
encontró VERB encontrar Mood=Ind|Number=Sing|Person=3|Tense=Past|VerbForm=Fin
. PUNCT . PunctType=Peri

 SPACE 
 
El DET el Definite=Def|Gender=Masc|Number=Sing|PronType=Art
ruso NOUN ruso Gender=Masc|Number=Sing
la PRON él Case=Acc|Gender=Fem|Number=Sing|Person=3|PrepCase=Npr|PronType=Prs
llamó VERB llamar Mood=Ind|Number=Sing|Person=3|Tense=Past

In [53]:
for i in doc:
    print(i.lemma_, i.is_stop,i.pos_)

en True ADP
el True DET
monte False NOUN
de True ADP
el True DET
china False NOUN
uno True DET
china False NOUN
él True PRON
perder False VERB
y True CCONJ
uno True DET
ruso False NOUN
él True PRON
encontrar False VERB
. False PUNCT

 False SPACE
el True DET
ruso False NOUN
él True PRON
llamar False VERB
y True CCONJ
él True PRON
decir True VERB
: False PUNCT
! False PUNCT
Hola False PROPN
¡ False PUNCT

 False SPACE


In [54]:
#quita las palabras vacias y los signos de puntuación 

def normalize(text):
    doc = nlp(text)
    words = [t.orth_ for t in doc if not t.is_punct | t.is_stop]
    lexical_tokens = [t.lower() for t in words if len(t) > 3 and     
    t.isalpha()]
    return lexical_tokens
word_list = normalize('Soy un texto de prueba. ¿Cuántos tokens me quedarán después de la normalización?')
print(word_list)

['texto', 'prueba', 'tokens', 'quedarán', 'normalización']


In [55]:
#no se recomienda utilzar letras capitalizadas, o mayusculas y o minusculas

text = "Soy un texto. Normalmente soy más largo y más grande. Que no te engañe mi tamaño."
doc = nlp(text)
lexical_tokens = [t.orth_.lower() for t in doc if not t.is_punct | t.is_stop]
print(lexical_tokens)
print(normalize(text))

['texto', 'normalmente', 'engañe', 'tamaño']
['texto', 'normalmente', 'engañe', 'tamaño']


In [56]:
text = "Soy un texto que pide a gritos que lo procesen. Por eso yo canto, tú cantas, ella canta, nosotros cantamos, cantáis, cantan…"
doc = nlp(text)
lemmas = [tok.lemma_.lower() for tok in doc]
lemmas

['ser',
 'uno',
 'texto',
 'que',
 'pedir',
 'a',
 'grito',
 'que',
 'él',
 'procesen',
 '.',
 'por',
 'ese',
 'yo',
 'canto',
 ',',
 'tú',
 'canta',
 ',',
 'él',
 'cantar',
 ',',
 'yo',
 'cantar',
 ',',
 'cantái',
 ',',
 'cantar',
 '…']

## Raices, truncamiento - *stemming*
Se llama stemming al procedimiento de convertir palabras en raíces. Estas raíces son la parte invariable de palabras relacionadas sobre todo por su forma. De cierta manera se parece a la lematización, pero los resultados (las raíces) no tienen por qué ser palabras de un idioma. Por ejemplo, el algoritmo de stemming puede decidir que la raíz de amamos no es am- (la raíz que ) sino amam- (cosa que desconcertaría a mas de uno). Aquí va un ejemplo de stemming:


In [57]:
import nltk
from nltk import SnowballStemmer
spanishstemmer=SnowballStemmer("spanish")
text = "Soy un texto que pide a gritos que lo procesen. Por eso yo canto, tú cantas, ella canta, nosotros cantamos, cantáis, cantan… de las cantidades"
tokens = normalize(text) # crear una lista de tokens
stems = [spanishstemmer.stem(token) for token in tokens]
stems

['text',
 'pid',
 'grit',
 'proces',
 'cant',
 'cant',
 'cant',
 'cant',
 'cant',
 'cant',
 'cantidad']

In [None]:
print(SnowballStemmer.languages)

('arabic', 'danish', 'dutch', 'english', 'finnish', 'french', 'german', 'hungarian', 'italian', 'norwegian', 'porter', 'portuguese', 'romanian', 'russian', 'spanish', 'swedish')


## Diferencias

In [None]:
from nltk.stem import WordNetLemmatizer 
from nltk.stem import PorterStemmer 
stemmer = PorterStemmer() 
lemmatizer = WordNetLemmatizer() 
print(stemmer.stem('stones')) 
print(stemmer.stem('speaking')) 
print(stemmer.stem('bedroom')) 
print(stemmer.stem('jokes')) 
print(stemmer.stem('lisa')) 
print(stemmer.stem('purple')) 
print('----------------------') 
print(lemmatizer.lemmatize('stones')) 
print(lemmatizer.lemmatize('speaking')) 
print(lemmatizer.lemmatize('bedroom')) 
print(lemmatizer.lemmatize('jokes')) 
print(lemmatizer.lemmatize('lisa')) 
print(lemmatizer.lemmatize('purple'))

stone
speak
bedroom
joke
lisa
purpl
----------------------
stone
speaking
bedroom
joke
lisa
purple
