<a href="https://colab.research.google.com/github/Guimol/NLP-Projects/blob/main/Spacy/Aula_6_spaCy_Python_para_PLN.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Instalação do Spacy

Primeiro precisamos atualizar o spacy que já está instalado no colab.

A versão que está disponível não dá suporte ao modelo de dados em portugues.

https://spacy.io/usage

In [None]:
pip install -U spacy

**Depois de instalar precisamos baixar os pacotes complementares**

In [None]:
pip install -U spacy-lookups-data

**E finalmente instalamos o modelo de língua disponibilizado pelo spaCy**

In [None]:
!python -m spacy download pt_core_news_lg
#!python -m spacy download pt_core_news_md
#!python -m spacy download pt_core_news_sm

**Agora, o uso efetivo da biblioteca**

In [None]:
import spacy

# Um texto de exemplo
texto = "Para políticos e infectologistas, a opção de Michelle de se 10 vacinar nos EUA, não no Brasil, 2021 é um absurdo e um desprezo ao SUS (Sistema Único de Saúde) e ao PNI (Programa Nacional de Imunizações)."

# Carregamos o modelo de língua que baixamos
nlp = spacy.load("pt_core_news_lg")

# Usamos o modelo para analisar o nosso texto :)
doc = nlp(texto)

**Usando a variável "doc" podemos acessar os tokens e as diversas análises feitas pelo spaCy**

In [None]:
# geração da lista de tokens (tokenização)

# Observe que essa estrutura pode ser convertida para a seguinte:
# tokens = []
# for token in tokens:
#   tokens.append(token)

tokens = [token for token in doc]
tokens

**Salvando na lista o texto dos tokens:** ***.orth_***

In [None]:
tokens = [token.orth_ for token in doc]
tokens

**Demais atributos**


*   .is_alpha
*   .is_digit
*   .is_punct

https://spacy.io/api/token#attributes



In [None]:
alpha_tokens = [token.orth_ for token in doc if token.is_alpha]
print("Alpha Tokens: %s " % (alpha_tokens))

digit_tokens = [token.orth_ for token in doc if token.is_digit]
print("Digit Tokens: %s " % (digit_tokens))

punct_tokens = [token.orth_ for token in doc if token.is_punct]
print("Punct Tokens: %s " % (punct_tokens))

**Vamos trabalhar com nosso corpus de teste :)**

In [None]:
corpus = open('/content/drive/MyDrive/Codigos/BootcampPythonPLN/nltk/corpus_teste.txt').read()
corpus

In [None]:
import spacy

nlp = spacy.load("pt_core_news_lg")
doc = nlp(corpus)

tokens = [token.orth_ for token in doc]
tokens

In [None]:
alpha_tokens = [token.orth_ for token in doc if token.is_alpha]
print("Alpha Tokens: %s " % (alpha_tokens))

digit_tokens = [token.orth_ for token in doc if token.is_digit]
print("Digit Tokens: %s " % (digit_tokens))

punct_tokens = [token.orth_ for token in doc if token.is_punct]
print("Punct Tokens: %s " % (punct_tokens))

**Lemmatização: *.lemma_***

In [None]:
lemmas = [token.lemma_ for token in doc if token.pos_ == 'VERB']
lemmas

**Etiquetas morfosintáticas: *.pos_***

In [None]:
pos = [(token.orth_, token.pos_) for token in doc]
pos

**Análise morfosintática: *.morph***

In [None]:
morfologicas = [(token.orth_, token.morph) for token in doc]
morfologicas

**Reconhecimento de Entidades Nomeadas**

In [None]:
entidades_nomeadas = list(doc.ents)
print(entidades_nomeadas)

detalhes_entidades = [(entidade, entidade.label_) for entidade in doc.ents]
detalhes_entidades

**Vamos visualizar as entidades!**

In [None]:
html = spacy.displacy.render(doc, style="ent")
output_path = open('entidades_nomadas.html', 'w', encoding="utf-8")
output_path.write(html)
output_path.close()

**Análise sintática de dependências**

In [None]:
sintaxe = [(token.orth_, token.dep_) for token in doc]
print(sintaxe)

**Vamos visualizar a árvore de dependências**

In [None]:
visualizar_sintaxe = spacy.displacy.render(doc, style='dep')
output_path = open('analise_dependencia.svg', 'w', encoding="utf-8")
output_path.write(visualizar_sintaxe)
output_path.close()