In [13]:
import spacy

nlp = spacy.load("pt_core_news_md")

texto = "A SpaCy torna o Processamento de Linguagem Natural mais fácil. E isso é incrível"
doc = nlp(texto)

In [14]:
# Iterar sobre os tokens
for token in doc:
    print(token.text)

A
SpaCy
torna
o
Processamento
de
Linguagem
Natural
mais
fácil
.
E
isso
é
incrível


In [15]:
# Análise morfológica
for token in doc:
    print(token.lemma_, token.pos_, token.tag_, token.morph)

o DET DET Definite=Def|Gender=Fem|Number=Sing|PronType=Art
SpaCy PROPN PROPN Gender=Fem|Number=Sing
tornar VERB VERB Mood=Ind|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin
o DET DET Definite=Def|Gender=Masc|Number=Sing|PronType=Art
Processamento PROPN PROPN Gender=Masc|Number=Sing
de ADP ADP 
Linguagem PROPN PROPN Number=Sing
Natural ADJ ADJ Gender=Masc|Number=Sing
mais ADV ADV 
fácil ADJ ADJ Gender=Masc|Number=Sing
. PUNCT PUNCT 
e CCONJ CCONJ 
isso PRON PRON Gender=Masc|Number=Sing|PronType=Dem
ser AUX AUX Mood=Ind|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin
incrível ADJ ADJ Gender=Masc|Number=Sing


In [16]:
print(doc[0].lemma_, doc[0].pos_, doc[0].tag_, doc[0].morph)

o DET DET Definite=Def|Gender=Fem|Number=Sing|PronType=Art


In [17]:
# Análise de dependência
for token in doc:
    print(token.text, token.dep_, token.head.text)

A det SpaCy
SpaCy nsubj torna
torna ROOT torna
o det Processamento
Processamento obj torna
de case Linguagem
Linguagem nmod Processamento
Natural flat:name Linguagem
mais advmod fácil
fácil amod Processamento
. punct torna
E cc incrível
isso nsubj incrível
é cop incrível
incrível ROOT incrível


In [18]:
# Visualizar a análise de dependência
from spacy import displacy
displacy.serve(doc, style="dep", auto_select_port=True)




Using the 'dep' visualizer
Serving on http://0.0.0.0:5001 ...

Shutting down server on port 5001.


In [19]:
# Reconhecer entidades
for entidade in doc.ents:
    print(entidade.text, entidade.label_)


SpaCy LOC
Processamento de Linguagem Natural MISC


In [20]:
# Visualizar as entidades nomeadas
displacy.render(doc, style="ent", jupyter=True)

In [21]:
# Iterar sobre as frases
for sent in doc.sents:
    print(sent.text)

A SpaCy torna o Processamento de Linguagem Natural mais fácil.
E isso é incrível


In [22]:
# Imprimir vetores de palavras
for token in doc:
    print(token.text, token.vector)

A [-4.7082e+00 -4.4419e+00 -5.8756e+00 -9.1890e+00 -2.6283e+00 -1.1886e+01
  1.0166e+01  2.3654e+00  1.3431e-01 -4.7341e+00  7.7838e-01 -3.6276e+00
 -3.3745e-01  6.4947e+00  2.6076e+00  4.7965e+00 -1.0027e+00  7.3518e-01
 -3.0223e+00  1.6116e+01 -6.8464e+00 -3.9658e+00  4.6153e+00 -1.0130e+01
  2.5360e+00  8.1557e+00 -8.0321e+00  2.6690e-01  7.9725e-01 -3.5064e-01
 -3.3809e+00 -1.1478e+01 -9.2600e-01  1.0166e+01  3.7264e+00  4.2183e-01
  6.1539e+00  2.6067e+00 -2.9198e+00 -9.0327e-01  4.0940e+00  4.7139e+00
  3.5257e+00  3.3253e-01  2.5863e+00  4.6248e+00 -1.3035e+01  3.1521e+00
 -2.4424e+00  6.9654e+00 -3.3222e+00  4.1675e+00  6.4903e+00  4.5184e-02
  4.5927e+00  1.9777e+00 -2.2904e+00  3.8118e+00  9.1685e+00 -9.5388e+00
 -7.2751e+00  1.3622e+01  9.9062e-01  7.8100e-01 -6.2457e+00  6.1488e+00
  2.0379e+00  2.7678e+00  2.3732e-01  6.0332e+00 -8.3026e+00  1.5848e+00
 -1.3206e+01  4.2279e-01 -4.9856e+00 -4.5188e+00  7.0425e+00 -3.3658e+00
  7.4375e+00 -2.4853e+00  5.7059e+00 -4.3071e+00 

In [23]:
# Textos para comparação
texto1 = "gato"
texto2 = "cachorro"

# Processar os textos
doc1 = nlp(texto1)
doc2 = nlp(texto2)

# Calcular a similaridade semântica
similaridade = doc1[0].similarity(doc2[0])

# Imprimir similaridade
print("Similaridade:", similaridade)

Similaridade: 0.8368197083473206


In [24]:
# Criar um span para a parte do texto "Processamento de Linguagem Natural"
span = doc[4:8]

# Imprimir o texto do span
print("Span:", span.text)

Span: Processamento de Linguagem Natural


In [27]:
import spacy

# Importar o Comparador (Matcher)
from spacy.matcher import Matcher

# Carregar o fluxo (pipeline) de processamento e criar um objeto nlp
nlp = spacy.load("pt_core_news_md")

# Inicializar o comparador com o vocabulário 
matcher = Matcher(nlp.vocab)

# Adicionar a expressão ao comparador
pattern = [{"TEXT": "iPhone"}, {"TEXT": "X"}]
matcher.add("IPHONE_PATTERN", [pattern])

# Processar um texto
doc = nlp("Upcoming iPhone X release date leaked")

# Chamar o matcher no doc
matches = matcher(doc)


In [28]:
# Chamar o comparador e passar o texto
doc = nlp("Upcoming iPhone X release date leaked")
matches = matcher(doc)

# Iterar nas correspondências
for match_id, start, end in matches:
    # Selecionar a partição que houve correspondência
    matched_span = doc[start:end]
    print(matched_span.text)

iPhone X


In [3]:
import spacy
from sklearn.feature_extraction.text import TfidfVectorizer
from collections import Counter

# Carregar o modelo spaCy para português
nlp = spacy.load('pt_core_news_md')

def extract_keywords_spacy(text, num_keywords=10):
    # Processar o texto com spaCy
    doc = nlp(text)
    
    # Extrair tokens relevantes: substantivos, adjetivos, verbos e advérbios
    tokens = [token.text for token in doc if token.pos_ in ['NOUN', 'ADJ', 'VERB', 'ADV'] and not token.is_stop]
    
    # Usar TfidfVectorizer para encontrar os termos mais importantes
    vectorizer = TfidfVectorizer(max_features=num_keywords)
    tfidf_matrix = vectorizer.fit_transform([" ".join(tokens)])
    
    # Obter os nomes das características (palavras)
    feature_names = vectorizer.get_feature_names_out()
    
    # Obter as pontuações TF-IDF para cada termo
    tfidf_scores = tfidf_matrix.toarray().flatten()
    
    # Criar um dicionário de termos e suas pontuações
    keywords_scores = dict(zip(feature_names, tfidf_scores))
    
    # Classificar os termos pelo valor TF-IDF e selecionar os mais importantes
    sorted_keywords = Counter(keywords_scores).most_common(num_keywords)
    
    # Extrair apenas as palavras-chave (ignorando as pontuações)
    keywords = [keyword for keyword, score in sorted_keywords]
    
    return keywords

# Exemplo de uso
texto = """
    Assisti um filme ótimo ontem à noite. O filme tinha uma história incrível e uma direção excelente.
    Os atores desempenharam seus papéis de maneira brilhante. Recomendo a todos que assistam.
    """
num_of_keywords = 10  # Especifique o número de palavras-chave que deseja extrair
keywords = extract_keywords_spacy(texto, num_keywords=num_of_keywords)
print(keywords)


['filme', 'assistam', 'assisti', 'atores', 'brilhante', 'desempenharam', 'direção', 'excelente', 'história', 'incrível']
