### No estudo das técnicas de Processamento de Linguagem Natural, passamos pelos conceitos sobre Linguística. Entre esses está o conceito de Morfologia que estuda a estrutura das palavras, como sçao formadas e classificadas.

Além de identificar as classes morfológicas das palavras para verificar as regras de linguagem, também são utilizadas para 2 tarefas importantes:

* Lematização (lemmatization): Reduzir a palavra à raiz (elemento mórfico mais simples) retirando as inflexões e chegando ao lema.
* Stemização (stemming): Reduzir a palavra ao seu radical (elemento mórfico que fornece a significação da palavra). Sem o compromisso de que esse radical seja gramaticalmente correto.

Este notebook apresentará a implementação dessas duas tarefas utilizando as bibliotecas NLTK e Spacy, classicamente utilizadas em aplicações NLP.


In [1]:
import pandas as pd

In [2]:
palavras = pd.DataFrame(['amigo', 'amigos', 'amigona', 'amizade', 'gato', 'gatões', 'gatonas', 'propõem', 'propuseram', 'propondo'], columns=['Originais'])
palavras

Unnamed: 0,Originais
0,amigo
1,amigos
2,amigona
3,amizade
4,gato
5,gatões
6,gatonas
7,propõem
8,propuseram
9,propondo


# Lematização

Será utilizada a biblioteca "Spacy".

In [8]:
!python -m spacy download pt -q
!python3 -m spacy download en_core_web_sm

⚠ As of spaCy v3.0, shortcuts like 'pt' are deprecated. Please use the full
pipeline package name 'pt_core_news_sm' instead.
✔ Download and installation successful
You can now load the package via spacy.load('pt_core_news_sm')



[notice] A new release of pip available: 22.2.1 -> 22.2.2
[notice] To update, run: C:\Users\tassi\AppData\Local\Microsoft\WindowsApps\PythonSoftwareFoundation.Python.3.10_qbz5n2kfra8p0\python.exe -m pip install --upgrade pip


Collecting en-core-web-sm==3.4.0
  Downloading https://github.com/explosion/spacy-models/releases/download/en_core_web_sm-3.4.0/en_core_web_sm-3.4.0-py3-none-any.whl (12.8 MB)
     ---------------------------------------- 12.8/12.8 MB 2.9 MB/s eta 0:00:00
Installing collected packages: en-core-web-sm
Successfully installed en-core-web-sm-3.4.0
✔ Download and installation successful
You can now load the package via spacy.load('en_core_web_sm')



[notice] A new release of pip available: 22.2.1 -> 22.2.2
[notice] To update, run: C:\Users\tassi\AppData\Local\Microsoft\WindowsApps\PythonSoftwareFoundation.Python.3.10_qbz5n2kfra8p0\python.exe -m pip install --upgrade pip


In [9]:
import spacy

nlp = spacy.load('pt_core_news_sm')

In [10]:
teste = nlp('receberão')

In [11]:
teste.doc[0].lemma_

'receber'

In [12]:
palavras['Lematizadas'] =  palavras.apply(lambda row: nlp(row['Originais']).doc[0].lemma_ , axis = 1) 
palavras

Unnamed: 0,Originais,Lematizadas
0,amigo,amigo
1,amigos,amigo
2,amigona,amigonar
3,amizade,amizade
4,gato,gato
5,gatões,gatão
6,gatonas,gatono
7,propõem,propor
8,propuseram,propuser
9,propondo,propor


# Stemização

In [15]:
import nltk
nltk.download('rslp')

[nltk_data] Downloading package rslp to
[nltk_data]     C:\Users\tassi\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping stemmers\rslp.zip.


True

In [16]:
stemmer = nltk.stem.RSLPStemmer()

In [17]:
palavras['Stemizadas'] =  palavras.apply(lambda row: stemmer.stem(row['Originais']), axis = 1) 
palavras

Unnamed: 0,Originais,Lematizadas,Stemizadas
0,amigo,amigo,amig
1,amigos,amigo,amig
2,amigona,amigonar,amig
3,amizade,amizade,amizad
4,gato,gato,gat
5,gatões,gatão,gat
6,gatonas,gatono,gat
7,propõem,propor,propõ
8,propuseram,propuser,propus
9,propondo,propor,prop


In [18]:
doc = nlp('O rato roeu a roupa do rei de Roma.')

In [19]:
doc.is_tagged

  doc.is_tagged


True

In [20]:
from spacy import displacy

In [21]:
for token in doc:
    print('{:15} | {:15} | {:8} | {:8} | {:11} | {:8} | {:8} | {:8} |'.format(
          token.text, token.lemma_, token.pos_, token.tag_, token.dep_
        , token.shape_, token.is_alpha, token.is_stop))

O               | o               | DET      | DET      | det         | X        |        1 |        1 |
rato            | rato            | NOUN     | NOUN     | nsubj       | xxxx     |        1 |        0 |
roeu            | roeu            | VERB     | VERB     | ROOT        | xxxx     |        1 |        0 |
a               | o               | DET      | DET      | det         | x        |        1 |        1 |
roupa           | roupa           | NOUN     | NOUN     | obj         | xxxx     |        1 |        0 |
do              | de o            | ADP      | ADP      | case        | xx       |        1 |        1 |
rei             | rei             | NOUN     | NOUN     | nmod        | xxx      |        1 |        0 |
de              | de              | ADP      | ADP      | case        | xx       |        1 |        1 |
Roma            | Roma            | PROPN    | PROPN    | nmod        | Xxxx     |        1 |        0 |
.               | .               | PUNCT    | PUNCT   

In [22]:
displacy.render(docs=doc, style='dep', jupyter=True)