# **Processamento de Linguagem Natural Com Python**

### Bibliotecas

In [1]:
# Libs
import bs4 as bs
import urllib.request
import nltk
import spacy

### Marcação POS
POS (part-of-speech) atribui para as palavras partes da fala, como substantivos, adjetivos, verbos
Importante para a detecção de entidades no texto, pois primeiro é necessário saber o que o texto contém
Lista de tokens: https://spacy.io/api/annotation#pos-tagging
Português: https://www.sketchengine.eu/portuguese-freeling-part-of-speech-tagset/

In [2]:
# Carregando o spacy
spacy.prefer_gpu()
pln = spacy.load("pt_core_news_sm")
pln

<spacy.lang.pt.Portuguese at 0x289206fe510>

In [3]:
# Verificando o funcionamento
doc = pln(
        'Estou aprendendo processamento de linguagem natural, no curso Inteligência Artificial e Machine Learning: O Guia Completo'
)
type(doc)

spacy.tokens.doc.Doc

In [4]:
# Iterando os tipos 
for token in doc:
    print(token.text, token.pos_)

Estou AUX
aprendendo VERB
processamento NOUN
de ADP
linguagem NOUN
natural ADJ
, PUNCT
no ADP
curso NOUN
Inteligência PROPN
Artificial PROPN
e CCONJ
Machine PROPN
Learning PROPN
: PUNCT
O DET
Guia PROPN
Completo PROPN


### Lematização e stemização

In [5]:
# texto e lema
for token in doc:
    print(token.text, token.lemma_)

Estou estar
aprendendo aprender
processamento processamento
de de
linguagem linguagem
natural natural
, ,
no em o
curso curso
Inteligência Inteligência
Artificial Artificial
e e
Machine Machine
Learning Learning
: :
O o
Guia Guia
Completo Completo


In [6]:
# Baixando o arquivo necessário para a stemização
nltk.download('rslp')

[nltk_data] Downloading package rslp to
[nltk_data]     C:\Users\joaoi\AppData\Roaming\nltk_data...
[nltk_data]   Package rslp is already up-to-date!


True

In [7]:
# Extraído o radical de uma palavra
stemmer = nltk.stem.RSLPStemmer()
stemmer.stem('aprendendo')

'aprend'

In [8]:
# Verificando a diferença 
for token in doc:
    print(token.text, token.lemma_, stemmer.stem(token.text))

Estou estar est
aprendendo aprender aprend
processamento processamento process
de de de
linguagem linguagem lingu
natural natural natur
, , ,
no em o no
curso curso curs
Inteligência Inteligência intelig
Artificial Artificial artific
e e e
Machine Machine machin
Learning Learning learning
: : :
O o o
Guia Guia gui
Completo Completo complet
