<a href="https://colab.research.google.com/github/heitorviana-dev/cursoNLP/blob/main/iniciandoSpacy.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## Preparando o Ambiente:

### Fazendo a instalação do spacy:

In [None]:
## Fazendo a instalação do spacy
!pip install -U spacy

### Fazendo o download do modelo grande:

In [None]:
## Fazendo o download do modelo grande
!python -m spacy download 'pt_core_news_lg'

### Importando a biblioteca spacy:

In [None]:
## Carregando a biblioteca
import spacy

### Carregando modelo instalado acima:

In [None]:
## Carregando o modelo
nlp = spacy.load('pt_core_news_lg')

### Exibindo as técnicas de pré-processamento padrão do método nlp:

In [None]:
print(nlp.pipe_names)
## A pipeline do nlp é composto pelas seguintes técnicas

['tok2vec', 'morphologizer', 'parser', 'lemmatizer', 'attribute_ruler', 'ner']


### Aplicando o método nlp a um texto e gerando um doc:

In [None]:
## Criando o doc
document = nlp('A resistência do bitcoin está na casa dos 93000 a 91000. E seu suporte está nos 85000.')

### Exibindo o tamanho do vocabulário:

In [None]:
## Tamanho do vocabulário
len(document.vocab)

370

### Exibindo o tipo da variável document:

In [None]:
## A variável doc é do tipo class
print(type(document))

<class 'spacy.tokens.doc.Doc'>


## Trabalhando com Tokens:

### Exibindo os tokens gerados pelo método nlp:

In [None]:
for token in document:
  print(token.text)

### Gerando um span:

In [None]:
print(document[8:11]) ## Retorna os tokens 8 a 10, gerando um span

### Analisando os atributos de um token:

In [None]:
## Vamos agora analisar os atributos de um token

stopWords = []
alfaNumerico = []
maiusculo = []
pontuacao = []
numero = []
sentencaInicial = []

for token in document:
  if token.is_stop: stopWords.append(token.text)
  if token.is_alpha: alfaNumerico.append(token.text)
  if token.is_upper: maiusculo.append(token.text)
  if token.is_punct: pontuacao.append(token.text)
  if token.like_num: numero.append(token.text)
  if token.is_sent_start: sentencaInicial.append(token.text)

print('Tokens: ', [token.text for token in document ])
print('Stop Words: ', stopWords)
print('Alfa Numérico: ', alfaNumerico)
print('Maiúsculo: ', maiusculo)
print('Pontuação: ', pontuacao)
print('Números: ', numero)
print('Sentença Inicial: ', sentencaInicial)

### Analisando o formato de um token:

In [None]:
print('Tokens: ', [token.text for token in document ])
print('Formato: ', [token.shape_ for token in document ])

## POS-Tagging e Dependências:

### Exibindo informações dos tokens:

In [None]:
for token in document:
  print(token.text, ' - ', token.pos_, ' - ', token.dep_, ' - ', token.lemma_, ' - ', token.shape_)

A  -  DET  -  det  -  o  -  X
resistência  -  NOUN  -  nsubj  -  resistência  -  xxxx
do  -  ADP  -  case  -  de o  -  xx
bitcoin  -  PROPN  -  nmod  -  Bitcoin  -  xxxx
está  -  AUX  -  cop  -  estar  -  xxxx
na  -  ADP  -  case  -  em o  -  xx
casa  -  NOUN  -  ROOT  -  casa  -  xxxx
dos  -  ADP  -  case  -  de o  -  xxx
93000  -  NUM  -  nmod  -  93000  -  dddd
a  -  ADP  -  case  -  a  -  x
91000  -  NUM  -  nmod  -  91000  -  dddd
.  -  PUNCT  -  punct  -  .  -  .
E  -  CCONJ  -  cc  -  e  -  X
seu  -  DET  -  det  -  seu  -  xxx
suporte  -  NOUN  -  nsubj  -  suporte  -  xxxx
está  -  AUX  -  cop  -  estar  -  xxxx
nos  -  ADP  -  case  -  em o  -  xxx
85000  -  NUM  -  ROOT  -  85000  -  dddd
.  -  PUNCT  -  punct  -  .  -  .


### Exibindo a morfologia do token:

- A morfologia nos mostra mais informações sobre a palavra armazenada no token como a flexão, gênero, se está no singular ou no plural.

In [44]:
for token in document:
  print(token.text, ' - ', token.morph)

A  -  Definite=Def|Gender=Fem|Number=Sing|PronType=Art
resistência  -  Gender=Fem|Number=Sing
do  -  Definite=Def|Gender=Masc|Number=Sing|PronType=Art
bitcoin  -  Gender=Masc|Number=Sing
está  -  Mood=Ind|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin
na  -  Definite=Def|Gender=Fem|Number=Sing|PronType=Art
casa  -  Gender=Fem|Number=Sing
dos  -  Definite=Def|Gender=Masc|Number=Plur|PronType=Art
93000  -  NumType=Card
a  -  
91000  -  NumType=Card
.  -  
E  -  
seu  -  Gender=Masc|Number=Sing|PronType=Prs
suporte  -  Gender=Masc|Number=Sing
está  -  Mood=Ind|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin
nos  -  Definite=Def|Gender=Masc|Number=Plur|PronType=Art
85000  -  NumType=Card
.  -  


### Exibindo a tag do token:

- A tag seria uma forma mais refinada do pos-tagging.
- Ela fornece a etiqueta morfosintática detalhada da palavra, e não apenas a classe gramatical como no pos-tagging.

In [45]:
for token in document:
  print(token.text, ' - ', token.tag_)

A  -  DET
resistência  -  NOUN
do  -  ADP
bitcoin  -  PROPN
está  -  AUX
na  -  ADP
casa  -  NOUN
dos  -  ADP
93000  -  NUM
a  -  ADP
91000  -  NUM
.  -  PUNCT
E  -  CCONJ
seu  -  DET
suporte  -  NOUN
está  -  AUX
nos  -  ADP
85000  -  NUM
.  -  PUNCT
