# Processamento de linguagem natural com spaCy e NLTK

In [1]:
#!pip install spacy

In [2]:
import bs4 as bs
import urllib.request
import nltk
import spacy

## Marcação POS

- POS (part-of-speech) atribui para as palavras partes da fala, como substantivos, adjetivos e verbos.
- Importante para a detecção de entidades no texto, pois primeiro é necessário saber o que o texto contém

In [3]:
#!python -m spacy download pt_core_news_sm

In [4]:
pln = spacy.load('pt_core_news_sm')
pln

<spacy.lang.pt.Portuguese at 0x1fb76c9c310>

In [5]:
documento = pln('Estou aprendendo processamento de linguagem natural.')
type(documento)

spacy.tokens.doc.Doc

In [6]:
for token in documento:
    print(token.text, token.pos_)  # tipo de palavra

Estou AUX
aprendendo VERB
processamento NOUN
de ADP
linguagem NOUN
natural ADJ
. PUNCT


## Lematização e stemização

In [7]:
for token in documento:
    print(token.text, token.lemma_)  # raiz da palavra

Estou Estou
aprendendo aprender
processamento processamento
de de
linguagem linguagem
natural natural
. .


In [8]:
doc = pln('encontrei encontraram encontrarão encontrariam cursando curso cursei')
[token.lemma_ for token in doc]

['encontrar',
 'encontrar',
 'encontrar',
 'encontrar',
 'cursar',
 'cursar',
 'cursar']

In [9]:
nltk.download('rslp')  # para stemização

[nltk_data] Downloading package rslp to
[nltk_data]     C:\Users\mjuli\AppData\Roaming\nltk_data...
[nltk_data]   Package rslp is already up-to-date!


True

In [10]:
stemmer = nltk.stem.RSLPStemmer()
stemmer.stem('aprender')   # radical

'aprend'

In [11]:
for token in documento:
    print(f'Palavra: {token.text},\n Lema: {token.lemma_}, \n Stem; {stemmer.stem(token.text)} \n')

Palavra: Estou,
 Lema: Estou, 
 Stem; est 

Palavra: aprendendo,
 Lema: aprender, 
 Stem; aprend 

Palavra: processamento,
 Lema: processamento, 
 Stem; process 

Palavra: de,
 Lema: de, 
 Stem; de 

Palavra: linguagem,
 Lema: linguagem, 
 Stem; lingu 

Palavra: natural,
 Lema: natural, 
 Stem; natur 

Palavra: .,
 Lema: ., 
 Stem; . 



## Carregamento da base de dados

In [15]:
import os, ssl
if (not os.environ.get('PYTHONHTTPSVERIFY', '') and getattr(ssl, '_create_unverified_context', None)):
    ssl._create_default_https_context = ssl._create_unverified_context

In [18]:
dados = urllib.request.urlopen('https://pt.wikipedia.org/wiki/Intelig%C3%AAncia_artificial')

In [19]:
dados = dados.read()
dados # códígo html da página

