# Análisis morfológico

Es un proceso mediante el cual se examinan las partes que constituyen a las palabras. Implica realizar una disección de los elementos que integran la estructura de una palabra, buscando sus elementos más pequeños. Mediante este proceso se separan los lexemas de los morfemas, se indica entonces la raíz y los modificadores que le acompañan respectivamente.  Apunta mucho a la estructura, una suerte de disección del lenguaje para encontrar la relación y sentido de sus componentes esenciales.

## Lematización

Consiste en la identificación y asignación de la raíz de una palabra a un lema -una forma canónica de la misma- en forma de etiqueta:

> «Lema: forma de citación de una palabra (p. ej., el lema de reía es reir).



Tenemos diversas herramientas en Python para lemmatizar textos:

### WordNet




In [None]:
 import nltk
nltk.download('averaged_perceptron_tagger')

[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     C:\Users\cizai\AppData\Roaming\nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!


True

In [None]:
import nltk
from nltk.stem import WordNetLemmatizer 

# Inicialización del lematizador de WordNet
lemmatizer = WordNetLemmatizer()


print(lemmatizer.lemmatize("someones"))
print(lemmatizer.lemmatize("thinks"))
print(lemmatizer.lemmatize("in"))
print(lemmatizer.lemmatize("plurals"))


someone
think
in
plural


In [None]:
sentence = "I had no idea that such individuals exist outside of stories"

word_list = nltk.word_tokenize(sentence)
print(word_list)


lemmatized_output = ' '.join([lemmatizer.lemmatize(w) for w in word_list])
print(lemmatized_output)


['I', 'had', 'no', 'idea', 'that', 'such', 'individuals', 'exist', 'outside', 'of', 'stories']
I had no idea that such individual exist outside of story


Que ocurre aquí:

In [None]:
print(lemmatizer.lemmatize("lost", 'v'))  
print(lemmatizer.lemmatize("my",'n')) 
print(lemmatizer.lemmatize("religions",'n')) 

lose
my
religion


In [None]:
print(lemmatizer.lemmatize("lost",'a'))  
print(lemmatizer.lemmatize("my",'n')) 
print(lemmatizer.lemmatize("religions",'n')) 

lost
my
religion


In [None]:
print(lemmatizer.lemmatize())

Evidentemente debemos usar un tagged para hacer una buena lematización:

In [None]:
from nltk.corpus import wordnet

def get_wordnet_pos(word):
    tag = nltk.pos_tag([word])[0][1][0].upper()
    tag_dict = {"J": wordnet.ADJ,
                "N": wordnet.NOUN,
                "V": wordnet.VERB,
                "R": wordnet.ADV}

    return tag_dict.get(tag, wordnet.NOUN)

In [None]:
get_wordnet_pos('lost')

'v'

In [None]:
lemmatizer = WordNetLemmatizer()
word = 'feet'
print(lemmatizer.lemmatize(word, get_wordnet_pos(word)))

foot


In [None]:
sentence = "I had no idea that such individuals exist outside of stories"


print([ [lemmatizer.lemmatize(w, get_wordnet_pos(w)),get_wordnet_pos(w)]  for w in nltk.word_tokenize(sentence)])

[['I', 'n'], ['have', 'v'], ['no', 'n'], ['idea', 'n'], ['that', 'n'], ['such', 'a'], ['individual', 'n'], ['exist', 'n'], ['outside', 'n'], ['of', 'n'], ['story', 'n']]


### SpaCy
La biblioteca spaCy es una de las bibliotecas de PNL más populares junto con NLTK. La diferencia básica entre las dos bibliotecas es el hecho de que NLTK contiene una amplia variedad de algoritmos para resolver un problema, mientras que spaCy contiene solo uno, pero el mejor algoritmo para resolver un problema.
NLTK se lanzó en 2001, mientras que spaCy es relativamente nuevo y se desarrolló en 2015. 

In [None]:
!pip install spacy
!python -m spacy download es_core_news_sm

Collecting spacy
  Downloading spacy-3.3.0-cp39-cp39-win_amd64.whl (11.6 MB)
Collecting thinc<8.1.0,>=8.0.14
  Downloading thinc-8.0.15-cp39-cp39-win_amd64.whl (1.0 MB)
Collecting catalogue<2.1.0,>=2.0.6
  Downloading catalogue-2.0.7-py3-none-any.whl (17 kB)
Collecting blis<0.8.0,>=0.4.0
  Downloading blis-0.7.7-cp39-cp39-win_amd64.whl (6.6 MB)
Collecting cymem<2.1.0,>=2.0.2
  Downloading cymem-2.0.6-cp39-cp39-win_amd64.whl (36 kB)
Collecting langcodes<4.0.0,>=3.2.0
  Downloading langcodes-3.3.0-py3-none-any.whl (181 kB)
Collecting typer<0.5.0,>=0.3.0
  Downloading typer-0.4.1-py3-none-any.whl (27 kB)
Collecting spacy-loggers<2.0.0,>=1.0.0
  Downloading spacy_loggers-1.0.2-py3-none-any.whl (7.2 kB)
Collecting murmurhash<1.1.0,>=0.28.0
  Downloading murmurhash-1.0.7-cp39-cp39-win_amd64.whl (18 kB)
Collecting wasabi<1.1.0,>=0.9.1
  Downloading wasabi-0.9.1-py3-none-any.whl (26 kB)
Collecting spacy-legacy<3.1.0,>=3.0.9
  Downloading spacy_legacy-3.0.9-py2.py3-none-any.whl (20 kB)
Collecti

In [None]:
import spacy
nlp = spacy.load('es_core_news_sm')

In [None]:
text='En el monte de la China una china se perdió y un ruso la encontró'

In [None]:
doc=nlp(text)

In [None]:
text[54:65]

'la encontró'

In [None]:
doc.to_json()

{'text': 'En el monte de la China una china se perdió y un ruso la encontró',
 'ents': [{'start': 6, 'end': 17, 'label': 'LOC'},
  {'start': 18, 'end': 23, 'label': 'LOC'}],
 'sents': [{'start': 0, 'end': 53}, {'start': 54, 'end': 65}],
 'tokens': [{'id': 0,
   'start': 0,
   'end': 2,
   'tag': 'ADP',
   'pos': 'ADP',
   'morph': '',
   'lemma': 'en',
   'dep': 'case',
   'head': 2},
  {'id': 1,
   'start': 3,
   'end': 5,
   'tag': 'DET',
   'pos': 'DET',
   'morph': 'Definite=Def|Gender=Masc|Number=Sing|PronType=Art',
   'lemma': 'el',
   'dep': 'det',
   'head': 2},
  {'id': 2,
   'start': 6,
   'end': 11,
   'tag': 'NOUN',
   'pos': 'NOUN',
   'morph': 'Gender=Masc|Number=Sing',
   'lemma': 'monte',
   'dep': 'obl',
   'head': 9},
  {'id': 3,
   'start': 12,
   'end': 14,
   'tag': 'ADP',
   'pos': 'ADP',
   'morph': '',
   'lemma': 'de',
   'dep': 'case',
   'head': 5},
  {'id': 4,
   'start': 15,
   'end': 17,
   'tag': 'DET',
   'pos': 'DET',
   'morph': 'Definite=Def|Gender=Fe

In [None]:
doc.text

'En el monte de la China una china se perdió y un ruso la encontró'

In [None]:
for i in doc:
    print(i.lemma_, i.is_stop,i.pos_)

en True ADP
el True DET
monte False NOUN
de True ADP
el True DET
China False PROPN
uno True DET
china False NOUN
él True PRON
perder False VERB
y True CCONJ
uno True DET
ruso False NOUN
él True PRON
encontrar False VERB


In [None]:
def normalize(text):
    doc = nlp(text)
    words = [t.orth_ for t in doc if not t.is_punct | t.is_stop]
    lexical_tokens = [t.lower() for t in words if len(t) > 3 and     
    t.isalpha()]
    return lexical_tokens
word_list = normalize('Soy un texto de prueba. ¿Cuántos tokens me quedarán después de la normalización?')
print(word_list)

['texto', 'prueba', 'tokens', 'quedarán', 'normalización']


In [None]:
text = "Soy un texto. Normalmente soy más largo y más grande. Que no te engañe mi tamaño."
doc = nlp(text)
lexical_tokens = [t.orth_.lower() for t in doc if not t.is_punct | t.is_stop]
print(lexical_tokens)
print(normalize(text))

['texto', 'normalmente', 'y', 'grande', 'engañe', 'tamaño']
['texto', 'normalmente', 'grande', 'engañe', 'tamaño']


In [None]:
text = "Soy un texto que pide a gritos que lo procesen. Por eso yo canto, tú cantas, ella canta, nosotros cantamos, cantáis, cantan…"
doc = nlp(text)
lemmas = [tok.lemma_.lower() for tok in doc]
lemmas

['soy',
 'uno',
 'texto',
 'que',
 'pedir',
 'a',
 'grito',
 'que',
 'el',
 'procesar',
 '.',
 'por',
 'ese',
 'yo',
 'cantar',
 ',',
 'tú',
 'cantar',
 ',',
 'él',
 'cantar',
 ',',
 'nosotros',
 'cantar',
 ',',
 'cantar',
 ',',
 'cantar',
 '…']

## Raices, truncamiento - *stemming*
Se llama stemming al procedimiento de convertir palabras en raíces. Estas raíces son la parte invariable de palabras relacionadas sobre todo por su forma. De cierta manera se parece a la lematización, pero los resultados (las raíces) no tienen por qué ser palabras de un idioma. Por ejemplo, el algoritmo de stemming puede decidir que la raíz de amamos no es am- (la raíz que ) sino amam- (cosa que desconcertaría a mas de uno). Aquí va un ejemplo de stemming:


In [None]:
import nltk
from nltk import SnowballStemmer
spanishstemmer=SnowballStemmer("spanish")
text = "Soy un texto que pide a gritos que lo procesen. Por eso yo canto, tú cantas, ella canta, nosotros cantamos, cantáis, cantan…"
tokens = normalize(text) # crear una lista de tokens
stems = [spanishstemmer.stem(token) for token in tokens]
stems

['text',
 'pid',
 'grit',
 'proces',
 'cant',
 'cant',
 'cant',
 'cant',
 'cant',
 'cant']

In [None]:
print(SnowballStemmer.languages)

('arabic', 'danish', 'dutch', 'english', 'finnish', 'french', 'german', 'hungarian', 'italian', 'norwegian', 'porter', 'portuguese', 'romanian', 'russian', 'spanish', 'swedish')


## Diferencias

In [None]:
from nltk.stem import WordNetLemmatizer 
from nltk.stem import PorterStemmer 
stemmer = PorterStemmer() 
lemmatizer = WordNetLemmatizer() 
print(stemmer.stem('stones')) 
print(stemmer.stem('speaking')) 
print(stemmer.stem('bedroom')) 
print(stemmer.stem('jokes')) 
print(stemmer.stem('lisa')) 
print(stemmer.stem('purple')) 
print('----------------------') 
print(lemmatizer.lemmatize('stones')) 
print(lemmatizer.lemmatize('speaking')) 
print(lemmatizer.lemmatize('bedroom')) 
print(lemmatizer.lemmatize('jokes')) 
print(lemmatizer.lemmatize('lisa')) 
print(lemmatizer.lemmatize('purple'))

stone
speak
bedroom
joke
lisa
purpl
----------------------
stone
speaking
bedroom
joke
lisa
purple
