In [None]:
# BeautifulSoup - WebScrapping
import bs4 as bs 
import urllib.request 

# Natural Language Processing
import nltk

import spacy

## Marcação POS

- POS (part-of-speech) atribui para as palavras partes da fala: `substantivos, adjetivos, verbos`

- Lista de tokens: https://spacy.io/api/annotation#pos-tagging
- Português: https://www.sketchengine.eu/portuguese-freeling-part-of-speech-tagset/

In [5]:
nlp = spacy.load('pt_core_news_sm')
type(nlp)

spacy.lang.pt.Portuguese

In [7]:
# Processar o texto : a str dentro do objeto nlp
string_teste = "Estou aprendendo NLP, curso em Belo Horizonte"

documento = nlp(text=string_teste)
type(documento)

spacy.tokens.doc.Doc

In [8]:
for token in documento:
    print(token.text, token.pos_)

Estou AUX
aprendendo VERB
NLP PROPN
, PUNCT
curso NOUN
em ADP
Belo PROPN
Horizonte PROPN


## Lematização  

A __lematização__ consiste em transformar uma palavra na sua forma de __lemma__, ou seja, a forma básica que aparece em dicionários. Essa técnica leva em conta o contexto e a gramática da palavra, como sua classe gramatical (substantivo, verbo, adjetivo, etc.). É mais sofisticada que a stemização e frequentemente utiliza bases de dados linguísticos para garantir precisão.

In [12]:
doc_lematizacao = nlp(text='encontrei encontraram encontrarão cursam cursando cursei cursado')

print([token.lemma_ for token in doc_lematizacao])

['encontrar', 'encontrar', 'encontrar', 'cursar', 'cursar', 'cursar', 'cursar']


## Stematização (Raiz)  

A __stemização__ (ou stemming) reduz uma palavra à sua __raiz__ (stem), que pode ou não ser uma palavra válida em um idioma. É uma abordagem mais direta e geralmente baseada em regras simples, como cortar prefixos ou sufixos. Apesar de ser mais rápida e menos dependente de contexto, a stemização pode gerar resultados que não fazem sentido linguístico.

In [13]:
# Download de pacote para stemização com o nltk
nltk.download('rslp')

[nltk_data] Downloading package rslp to
[nltk_data]     /home/victorcampos/nltk_data...
[nltk_data]   Package rslp is already up-to-date!


True

In [14]:
from nltk.stem import RSLPStemmer

stemmer: RSLPStemmer = RSLPStemmer()
stemmer.stem('Aprender')

'aprend'

In [16]:
for token in doc_lematizacao:
    print(f"palavra = {token.text}  Lema = {token.lemma_} Stem = {stemmer.stem(token.text)} ")

palavra = encontrei  Lema = encontrar Stem = encontr 
palavra = encontraram  Lema = encontrar Stem = encontr 
palavra = encontrarão  Lema = encontrar Stem = encontr 
palavra = cursam  Lema = cursar Stem = curs 
palavra = cursando  Lema = cursar Stem = curs 
palavra = cursei  Lema = cursar Stem = curs 
palavra = cursado  Lema = cursar Stem = curs 
