In [1]:
!pip install spacy
!python -m spacy download pt_core_news_sm


Collecting spacy
  Downloading spacy-3.8.4-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (27 kB)
Collecting spacy-legacy<3.1.0,>=3.0.11 (from spacy)
  Using cached spacy_legacy-3.0.12-py2.py3-none-any.whl.metadata (2.8 kB)
Collecting spacy-loggers<2.0.0,>=1.0.0 (from spacy)
  Using cached spacy_loggers-1.0.5-py3-none-any.whl.metadata (23 kB)
Collecting murmurhash<1.1.0,>=0.28.0 (from spacy)
  Downloading murmurhash-1.0.12-cp311-cp311-manylinux_2_5_x86_64.manylinux1_x86_64.manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (2.1 kB)
Collecting cymem<2.1.0,>=2.0.2 (from spacy)
  Downloading cymem-2.0.11-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (8.5 kB)
Collecting preshed<3.1.0,>=3.0.2 (from spacy)
  Downloading preshed-3.0.9-cp311-cp311-manylinux_2_5_x86_64.manylinux1_x86_64.manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (2.2 kB)
Collecting thinc<8.4.0,>=8.3.4 (from spacy)
  Downloading thinc-8.3.4-cp311-cp311-man

# Tokenização
* Objetivo: Separar um texto em palavras e sentenças.

In [2]:
import spacy

# Carregar modelo de português
nlp = spacy.load("pt_core_news_sm")

# Texto de exemplo
texto = "Olá! Bem-vindo ao curso de PLN. Hoje vamos aprender sobre tokenização."

# Processar o texto com spaCy
doc = nlp(texto)

# Tokenização por palavras
tokens_palavras = [token.text for token in doc]
print("Tokens por palavras:", tokens_palavras)

# Tokenização por sentenças
tokens_sentencas = [sent.text for sent in doc.sents]
print("Tokens por sentenças:", tokens_sentencas)


Tokens por palavras: ['Olá', '!', 'Bem-vindo', 'ao', 'curso', 'de', 'PLN', '.', 'Hoje', 'vamos', 'aprender', 'sobre', 'tokenização', '.']
Tokens por sentenças: ['Olá!', 'Bem-vindo ao curso de PLN.', 'Hoje vamos aprender sobre tokenização.']


# Remoção de Stopwords
* Objetivo: Filtrar palavras irrelevantes para análise.


In [3]:
# Lista de palavras sem stopwords
tokens_filtrados = [token.text for token in doc if not token.is_stop]

print("Texto sem stopwords:", tokens_filtrados)


Texto sem stopwords: ['Olá', '!', 'Bem-vindo', 'curso', 'PLN', '.', 'Hoje', 'vamos', 'aprender', 'tokenização', '.']


# Stemming
* Objetivo: Reduzir palavras às suas raízes. 
* O spaCy não tem um stemmer embutido como o NLTK. Em vez disso, utilizamos a lematização, que é mais precisa.

In [4]:
from nltk.stem.snowball import SnowballStemmer

stemmer = SnowballStemmer("portuguese")
stems = [stemmer.stem(token.text) for token in doc]

print("Stemming:", stems)


Stemming: ['olá', '!', 'bem-v', 'ao', 'curs', 'de', 'pln', '.', 'hoj', 'vam', 'aprend', 'sobr', 'tokeniz', '.']


# Lematização
* Objetivo: Reduzir palavras à sua forma base considerando o contexto.

In [5]:
# Aplicar lematização
lematizados = [token.lemma_ for token in doc]

print("Lematização:", lematizados)


Lematização: ['Olá', '!', 'bem-vindo', 'a o', 'curso', 'de', 'PLN', '.', 'hoje', 'ir', 'aprender', 'sobre', 'tokenização', '.']


# POS-Tagging (Etiquetagem Gramatical)
* Objetivo: Extrair nomes de pessoas, locais e organizações de um texto.

In [6]:
# Exemplo de frase com entidades nomeadas
texto = "A Amazon é uma das maiores empresas do mundo e Jeff Bezos foi seu fundador."

# Processar texto com spaCy
doc = nlp(texto)

# Reconhecimento de Entidades Nomeadas (NER)
entidades = [(ent.text, ent.label_) for ent in doc.ents]

print("Entidades Nomeadas (NER):", entidades)


Entidades Nomeadas (NER): [('Amazon', 'ORG'), ('Jeff Bezos', 'PER')]


# Conclusão
* spaCy é muito mais rápido e eficiente que NLTK.
* Tokenização, lematização e NER funcionam de forma muito mais precisa.
* Se precisar de stemming, pode integrar com NLTK.
* Ideal para aplicações reais de PLN!