In [7]:
#https://www.kaggle.com/code/italomarcelo/nlp-spacy-portuguese

import spacy.cli
from pathlib import Path

#modelos de linguagem para o portugues: https://spacy.io/models/pt
#spacy.cli.download("pt_core_news_sm")
#spacy.cli.download("pt_core_news_md")
#spacy.cli.download("pt_core_news_lg")

#Carregando o modelo e o texto
nlp = spacy.load("pt_core_news_lg")
texto = "PUCRS é a melhor universidade privada da região sul.\nCarlos estuda na Politécnica."
doc = nlp(texto)
print(doc.text)

PUCRS é a melhor universidade privada da região sul.
Carlos estuda na Politécnica.


In [8]:
#Tokenização, Lematização e POS para Portugues.
#https://spacy.io/api/token#attributes
print("\n(TOKEN, LEMA)")
for token in doc:
    print((token.text, token.lemma_))


(TOKEN, LEMA)
('PUCRS', 'PUCRS')
('é', 'ser')
('a', 'o')
('melhor', 'bom')
('universidade', 'universidade')
('privada', 'privado')
('da', 'de o')
('região', 'região')
('sul', 'sul')
('.', '.')
('\n', '\n')
('Carlos', 'Carlos')
('estuda', 'estudar')
('na', 'em o')
('Politécnica', 'Politécnica')
('.', '.')


In [9]:
print("\n(TOKEN, LEMA,POS)")
for token in doc:
    print((token.text, token.lemma_, token.pos_))


(TOKEN, LEMA,POS)
('PUCRS', 'PUCRS', 'PROPN')
('é', 'ser', 'AUX')
('a', 'o', 'DET')
('melhor', 'bom', 'ADJ')
('universidade', 'universidade', 'NOUN')
('privada', 'privado', 'ADJ')
('da', 'de o', 'ADP')
('região', 'região', 'NOUN')
('sul', 'sul', 'ADJ')
('.', '.', 'PUNCT')
('\n', '\n', 'SPACE')
('Carlos', 'Carlos', 'PROPN')
('estuda', 'estudar', 'VERB')
('na', 'em o', 'ADP')
('Politécnica', 'Politécnica', 'PROPN')
('.', '.', 'PUNCT')


In [10]:
print("\n(TOKEN, CARACTERISTICAS MORFOLOGICAS)")
for token in doc:
    print((token.text, token.morph))


(TOKEN, CARACTERISTICAS MORFOLOGICAS)
('PUCRS', Gender=Fem|Number=Sing)
('é', Mood=Ind|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin)
('a', Definite=Def|Gender=Fem|Number=Sing|PronType=Art)
('melhor', Gender=Fem|Number=Sing)
('universidade', Gender=Fem|Number=Sing)
('privada', Gender=Fem|Number=Sing)
('da', Definite=Def|Gender=Fem|Number=Sing|PronType=Art)
('região', Gender=Fem|Number=Sing)
('sul', Gender=Fem|Number=Sing)
('.', )
('\n', )
('Carlos', Gender=Masc|Number=Sing)
('estuda', Mood=Ind|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin)
('na', Definite=Def|Gender=Fem|Number=Sing|PronType=Art)
('Politécnica', Gender=Fem|Number=Sing)
('.', )


In [11]:
#https://emorynlp.github.io/nlp4j/components/dependency-parsing.html
print(doc)
print("\n(TOKEN, DEPENDENCIAS, HEAD)")
for token in doc:
    print((token.text, token.dep_, token.head ))

saida = spacy.displacy.render(doc,style="dep")
arquivo = Path("exemplo.svg")
arquivo.open("w", encoding="utf-8").write(saida)

PUCRS é a melhor universidade privada da região sul.
Carlos estuda na Politécnica.

(TOKEN, DEPENDENCIAS, HEAD)
('PUCRS', 'nsubj', universidade)
('é', 'cop', universidade)
('a', 'det', universidade)
('melhor', 'amod', universidade)
('universidade', 'ROOT', universidade)
('privada', 'amod', universidade)
('da', 'case', região)
('região', 'nmod', universidade)
('sul', 'amod', região)
('.', 'punct', universidade)
('\n', 'dep', .)
('Carlos', 'nsubj', estuda)
('estuda', 'ROOT', estuda)
('na', 'case', Politécnica)
('Politécnica', 'obl', estuda)
('.', 'punct', estuda)


TypeError: write() argument must be str, not None

In [None]:
print("\n(TOKEN, NER)")
for token in doc:
    print((token.text,  token.ent_type_ ))

In [None]:
print("\n(TOKEN, PALAVRA, OOV, DIGITO)")
for token in doc:
    print((token.text, token.is_alpha, token.is_oov, token.is_digit))

In [None]:
print("\n(TOKEN, TERMINACOES)")
for token in doc:
    print((token.text,token.suffix_))

In [None]:
#https://machinelearningknowledge.ai/tutorial-for-stopwords-in-spacy/
#Lista de Stopwords
stopwords = nlp.Defaults.stop_words
print(len(stopwords))
print(stopwords)
#for token in stopwords:
#  print(token)
print(doc)
print("\n(TOKEN, STOPWORD)")
for token in doc:
    print((token.text, token.is_stop ))

print("finalizado")