<a href="https://colab.research.google.com/github/ilexistools/ebralc2021/blob/main/spacy_intro.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# spaCy

O spaCy é uma biblioteca gratuita para o Processamento de Língua Natural de alta produção em Python. Diferente do NLTK, a prioridade é o desempenho em projetos e necessidades do mundo real, e não o estado da arte de abordagens e técnicas acadêmicas.

O spaCy possui recursos para uma série de tarefas para o processamento linguístico: tokenização, lematização, etiquetagem morfossintática, dependências, reconhecimento de entidades nomeadas entre outros recursos.

In [None]:
# para versão atualizada
#!pip install --upgrade spacy

## Baixar modelos de idioma

In [6]:
import spacy 
import spacy.cli
spacy.cli.download("pt_core_news_sm")


[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('pt_core_news_sm')


## Carregar modelos e processar textos
Usamos a função ‘load()’ para carregar modelos:

In [7]:
import spacy
nlp = spacy.load('pt_core_news_sm')

Após carregar o modelo, podemos realizar o processamento de textos:

In [8]:
texto = """Barack Obama foi o primeiro negro a ser eleito presidente dos Estados Unidos. Em 2008, ele derrotou o candidato do Partido Republicano, John McCain, e foi eleito o 44° presidente do país. Em 2012, Obama foi eleito para um segundo mandato."""
doc = nlp(texto)

## Itemização de sentenças

In [9]:
for sent in doc.sents:
  print(sent.text)

Barack Obama foi o primeiro negro a ser eleito presidente dos Estados Unidos.
Em 2008, ele derrotou o candidato do Partido Republicano, John McCain, e foi eleito o 44° presidente do país.
Em 2012, Obama foi eleito para um segundo mandato.


Para retornar sentenças com palavras itemizadas:

In [10]:
for sent in doc.sents:
  print(sent.lemma_)

Barack Obama ser o primeiro negro o ser eleito presidente dos Estados Unidos.
Em 2008, ele derrotar o candidatar do Partido Republicano, John McCain, e ser eleito o 44° presidente do país.
Em 2012, Obama ser eleito parir um segundar mandatar.


## Itemização de palavras
Para retornar as sentenças itemizadas:

In [11]:
for sent in doc.sents:
  print([token.text for token in sent])

['Barack', 'Obama', 'foi', 'o', 'primeiro', 'negro', 'a', 'ser', 'eleito', 'presidente', 'dos', 'Estados', 'Unidos', '.']
['Em', '2008', ',', 'ele', 'derrotou', 'o', 'candidato', 'do', 'Partido', 'Republicano', ',', 'John', 'McCain', ',', 'e', 'foi', 'eleito', 'o', '44', '°', 'presidente', 'do', 'país', '.']
['Em', '2012', ',', 'Obama', 'foi', 'eleito', 'para', 'um', 'segundo', 'mandato', '.']


## Etiquetagem de palavras
Para retornar as sentenças etiquetadas:

In [12]:
for sent in doc.sents:
  print([(token.text,token.pos_) for token in sent])

[('Barack', 'PROPN'), ('Obama', 'PROPN'), ('foi', 'AUX'), ('o', 'DET'), ('primeiro', 'ADJ'), ('negro', 'ADJ'), ('a', 'SCONJ'), ('ser', 'AUX'), ('eleito', 'VERB'), ('presidente', 'NOUN'), ('dos', 'ADP'), ('Estados', 'PROPN'), ('Unidos', 'PROPN'), ('.', 'PUNCT')]
[('Em', 'ADP'), ('2008', 'NUM'), (',', 'PUNCT'), ('ele', 'PRON'), ('derrotou', 'VERB'), ('o', 'DET'), ('candidato', 'NOUN'), ('do', 'ADP'), ('Partido', 'PROPN'), ('Republicano', 'PROPN'), (',', 'PUNCT'), ('John', 'PROPN'), ('McCain', 'PROPN'), (',', 'PUNCT'), ('e', 'CCONJ'), ('foi', 'AUX'), ('eleito', 'VERB'), ('o', 'DET'), ('44', 'NUM'), ('°', 'SYM'), ('presidente', 'NOUN'), ('do', 'ADP'), ('país', 'NOUN'), ('.', 'PUNCT')]
[('Em', 'ADP'), ('2012', 'NUM'), (',', 'PUNCT'), ('Obama', 'PROPN'), ('foi', 'AUX'), ('eleito', 'VERB'), ('para', 'ADP'), ('um', 'NUM'), ('segundo', 'ADJ'), ('mandato', 'NOUN'), ('.', 'PUNCT')]


Outra forma de retornar as sentenças etiquetadas é utilizar ‘tag_’:

In [13]:
for sent in doc.sents:
  print([(token.text,token.tag_) for token in sent])

[('Barack', 'PROPN'), ('Obama', 'PROPN'), ('foi', 'AUX'), ('o', 'DET'), ('primeiro', 'ADJ'), ('negro', 'ADJ'), ('a', 'SCONJ'), ('ser', 'AUX'), ('eleito', 'VERB'), ('presidente', 'NOUN'), ('dos', 'ADP'), ('Estados', 'PROPN'), ('Unidos', 'PROPN'), ('.', 'PUNCT')]
[('Em', 'ADP'), ('2008', 'NUM'), (',', 'PUNCT'), ('ele', 'PRON'), ('derrotou', 'VERB'), ('o', 'DET'), ('candidato', 'NOUN'), ('do', 'ADP'), ('Partido', 'PROPN'), ('Republicano', 'PROPN'), (',', 'PUNCT'), ('John', 'PROPN'), ('McCain', 'PROPN'), (',', 'PUNCT'), ('e', 'CCONJ'), ('foi', 'AUX'), ('eleito', 'VERB'), ('o', 'DET'), ('44', 'NUM'), ('°', 'SYM'), ('presidente', 'NOUN'), ('do', 'ADP'), ('país', 'NOUN'), ('.', 'PUNCT')]
[('Em', 'ADP'), ('2012', 'NUM'), (',', 'PUNCT'), ('Obama', 'PROPN'), ('foi', 'AUX'), ('eleito', 'VERB'), ('para', 'ADP'), ('um', 'NUM'), ('segundo', 'ADJ'), ('mandato', 'NOUN'), ('.', 'PUNCT')]


Conforme os exemplos, ‘pos_’ retorna as etiquetas simples e ‘tag_’ as etiquetas complexas ou com maior grau de informação.

## Dependências
Para acessar dependências:

In [14]:
for sent in doc.sents:
  print([(token.text,token.dep_) for token in sent])

[('Barack', 'nsubj'), ('Obama', 'flat:name'), ('foi', 'cop'), ('o', 'det'), ('primeiro', 'amod'), ('negro', 'ROOT'), ('a', 'mark'), ('ser', 'aux:pass'), ('eleito', 'acl'), ('presidente', 'nmod'), ('dos', 'case'), ('Estados', 'nmod'), ('Unidos', 'flat:name'), ('.', 'punct')]
[('Em', 'case'), ('2008', 'obl'), (',', 'punct'), ('ele', 'nsubj'), ('derrotou', 'ROOT'), ('o', 'det'), ('candidato', 'obj'), ('do', 'case'), ('Partido', 'nmod'), ('Republicano', 'flat:name'), (',', 'punct'), ('John', 'appos'), ('McCain', 'flat:name'), (',', 'punct'), ('e', 'cc'), ('foi', 'aux:pass'), ('eleito', 'conj'), ('o', 'det'), ('44', 'nummod'), ('°', 'flat'), ('presidente', 'nsubj:pass'), ('do', 'case'), ('país', 'nmod'), ('.', 'punct')]
[('Em', 'case'), ('2012', 'obl'), (',', 'punct'), ('Obama', 'nsubj:pass'), ('foi', 'aux:pass'), ('eleito', 'ROOT'), ('para', 'case'), ('um', 'det'), ('segundo', 'amod'), ('mandato', 'obl'), ('.', 'punct')]


## Entidades nomeadas
Para retornar as entidades nomeadas do texto, usamos a propriedade ‘ents’:

In [15]:
for ent in doc.ents:
  print([ent.text, ent.label_])

['Barack Obama', 'PER']
['Estados Unidos', 'LOC']
['Partido Republicano', 'ORG']
['John McCain', 'PER']
['Obama', 'LOC']


## Stopwords
Para retorna uma lista de stopwords do texto:

In [16]:
stopwords = [token.text for token in doc if token.is_stop==True]
print(stopwords)

['foi', 'o', 'primeiro', 'a', 'ser', 'dos', 'Em', 'ele', 'o', 'do', 'e', 'foi', 'o', 'do', 'Em', 'foi', 'para', 'um', 'segundo']


Para complementar a lista e filtrar as palavras de conteúdo:

In [17]:
from spacy.lang.pt.stop_words import STOP_WORDS as stop

for w in ['o','a','e','Em','2008','2012','44','°',","]:
  stop.add(w)

conteudo = [token.text for token in doc if token.text not in stop]

print(conteudo)

['Barack', 'Obama', 'negro', 'eleito', 'presidente', 'Estados', 'Unidos', '.', 'derrotou', 'candidato', 'Partido', 'Republicano', 'John', 'McCain', 'eleito', 'presidente', 'país', '.', 'Obama', 'eleito', 'mandato', '.']
