In [1]:
!pip install spacy

Collecting smart-open<6.0.0,>=5.2.1
  Using cached smart_open-5.2.1-py3-none-any.whl (58 kB)
Installing collected packages: smart-open
  Attempting uninstall: smart-open
    Found existing installation: smart-open 6.1.0
    Uninstalling smart-open-6.1.0:
      Successfully uninstalled smart-open-6.1.0
Successfully installed smart-open-5.2.1


In [2]:
import spacy
spacy.__version__

'3.4.1'

In [3]:
!python -m spacy download pt_core_news_sm'


[x] No compatible package found for 'pt_core_news_sm'' (spaCy v3.4.1)



In [4]:
dados = spacy.load('pt_core_news_sm')

In [5]:
dados

<spacy.lang.pt.Portuguese at 0x1a0cd682c40>

In [6]:
from spacy.lang.pt.examples import sentences 

In [7]:
doc = dados(sentences[2])

In [8]:
doc

Londres é a maior cidade do Reino Unido

# Marcação POS

In [9]:
documento = dados('Aprendendo processamento de linguagem natural na Treinaweb')

In [10]:
documento

Aprendendo processamento de linguagem natural na Treinaweb

In [11]:
for token in documento:
    print(token.text, token.pos_)

Aprendendo VERB
processamento NOUN
de ADP
linguagem NOUN
natural ADJ
na ADP
Treinaweb PROPN


# Legenda
- Pos: parte da fala
- Lemma: palavra raiz
- Is_Stop: Se é stopword

In [12]:
for token in documento:
    print(token.text, token.pos_, token.lemma_, token.is_stop)

Aprendendo VERB aprender False
processamento NOUN processamento False
de ADP de True
linguagem NOUN linguagem False
natural ADJ natural False
na ADP em o True
Treinaweb PROPN Treinaweb False


In [13]:
# Detecta entidades
for token in documento:
    if token.pos_ == 'PROPN':
        print(token.text)

Treinaweb


# Lemmatization x Stemmização

In [14]:
for token in documento:
    print(token.text, token.lemma_)

Aprendendo aprender
processamento processamento
de de
linguagem linguagem
natural natural
na em o
Treinaweb Treinaweb


In [15]:
palavras = dados('encontrei encontraram encontrarão encontrariam')

In [16]:
for token in palavras:
    print(token.lemma_)

encontrar
encontrar
encontrar
encontrar


In [17]:
import nltk 
nltk.download('rslp')

[nltk_data] Downloading package rslp to
[nltk_data]     C:\Users\rodri\AppData\Roaming\nltk_data...
[nltk_data]   Package rslp is already up-to-date!


True

In [18]:
stemizacao = nltk.stem.RSLPStemmer()
stemizacao.stem('aprendendo')

'aprend'

In [19]:
for token in documento:
    print(token.text, token.lemma_, stemizacao.stem(token.text))

Aprendendo aprender aprend
processamento processamento process
de de de
linguagem linguagem lingu
natural natural natur
na em o na
Treinaweb Treinaweb treinaweb


# Entidades Nomeadas

In [20]:
frase2 = dados(sentences[1])
frase2

Carros autônomos empurram a responsabilidade do seguro para os fabricantes.São Francisco considera banir os robôs de entrega que andam pelas calçadas

In [21]:
documento1 = dados(frase2)

In [22]:
for entidade in documento1.ents:
    print(entidade.text, entidade.label_)

Carros MISC
São Francisco LOC


In [23]:
frase = dados(sentences[2])
frase

Londres é a maior cidade do Reino Unido

In [24]:
documento2 = dados(frase)

In [25]:
for entidade in documento2.ents:
    print(entidade.text, entidade.label_)

Londres LOC
Reino Unido LOC


In [26]:
from spacy import displacy
displacy.render(documento1, style='ent')

In [27]:
displacy.render(documento2, style='ent')

# StopWords

In [28]:
from spacy.lang.pt.stop_words import STOP_WORDS

In [29]:
print(STOP_WORDS)

{'bom', 'inclusive', 'saber', 'naquele', 'onze', 'pode', 'vais', 'exemplo', 'estado', 'sabe', 'és', 'apoia', 'uns', 'aquelas', 'coisa', 'aos', 'me', 'numa', 'poder', 'somente', 'pelos', 'daquela', 'tuas', 'novo', 'cá', 'sei', 'usa', 'sim', 'vens', 'no', 'alguns', 'aqui', 'depois', 'novos', 'quais', 'vós', 'catorze', 'caminho', 'fará', 'nuns', 'a', 'cento', 'tanta', 'ter', 'desde', 'vezes', 'sexta', 'aí', 'minha', 'suas', 'longe', 'um', 'fazia', 'dá', 'deverá', 'povo', 'dez', 'tentar', 'iniciar', 'dezoito', 'pelo', 'fazer', 'segundo', 'pela', 'sob', 'tive', 'estivestes', 'vários', 'eles', 'com', 'ela', 'embora', 'fora', 'uma', 'contudo', 'sem', 'tu', 'outros', 'valor', 'nesta', 'esse', 'enquanto', 'doze', 'às', 'teus', 'neste', 'aquilo', 'máximo', 'cuja', 'tens', 'ora', 'até', 'segunda', 'tiveram', 'assim', 'vossos', 'próprio', 'sobre', 'ademais', 'parece', 'sou', 'pois', 'foste', 'apoio', 'primeira', 'nenhuma', 'têm', 'ali', 'quero', 'elas', 'muito', 'tipo', 'essas', 'que', 'estou', 's

In [30]:
print(len(STOP_WORDS))

416


In [31]:
dados.vocab['ir'].is_stop

True

In [32]:
dados.vocab['caminhar'].is_stop

False

In [33]:
documento

Aprendendo processamento de linguagem natural na Treinaweb

In [34]:
for token in documento:
    if not dados.vocab[token.text].is_stop:
        print(token.text)

Aprendendo
processamento
linguagem
natural
Treinaweb


# Relação entre Palavras

In [35]:
documento = dados('Reserve minha passagem saindo de Belém e chegando em Salvador')

In [36]:
origem = documento[5]
destino = documento[9]
origem, destino

(Belém, Salvador)

In [37]:
list(origem.ancestors)

[saindo, Reserve]

In [38]:
list(destino.ancestors)

[chegando, saindo, Reserve]

In [39]:
displacy.render(documento, style='dep', options={'distance':90})