<h1 align=center>Capítulo 1 - Introdução ao spaCy</h1>
<p align=center><img src=https://files.realpython.com/media/How-to-Use-SpaCy-for-Natural-Language-Processing-in-Python_Watermarked_1.b363fc084a80.jpg width=500></p>


A PNL é um subcampo da IA que analisa texto, fala e outras formas de dados de linguagem gerados por humanos. A linguagem humana é complicada – mesmo um parágrafo curto contém referências às palavras anteriores, apontamentos para objetos do mundo real, referências culturais e experiências pessoais do escritor ou falante.

## Obtendo uma visão geral de alto nível da biblioteca spaCy

spaCy é uma biblioteca Python de código aberto para NLP moderno. Os criadores do spaCy descrevem seu trabalho como PNL de força industrial e, como colaborador, posso garantir que é verdade. spaCy é fornecido com modelos de linguagem pré-treinados e vetores de palavras para mais de 60 idiomas.

O foco principal do NLTK era fornecer a estudantes e pesquisadores uma ideia de processamento de linguagem. Ele nunca reivindicou eficiência, precisão do modelo ou ser uma biblioteca de força industrial. spaCy focado em fornecer código pronto para produção desde o primeiro dia.

In [1]:
import os.path

import spacy

print(f"A versão do spaCy é {spacy.__version__}")

A versão do spaCy é 3.3.1


In [2]:
print(dir(spacy))



Modelos grandes podem exigir muito espaço em disco, por exemplo, **en_core_web_lg** ocupa 746 MB, enquanto **en_core_web_md** precisa de 48 MB e **en_core_web_sm** ocupa apenas 11 MB. Modelos de tamanho médio funcionam bem para muitos propósitos de desenvolvimento, então usaremos o modelo **md** em inglês.

In [3]:
# Carregando o Modelo em inglês Médio
#!python -m spacy  download en_core_web_md --user

In [4]:
import spacy

# Carrengo o Modelo
nlp = spacy.load('en_core_web_md')

doc = nlp('I have a ginger cat') 

In [5]:
import en_core_web_md
nlp = en_core_web_md.load()
doc = nlp('I have a ginger cat')

## Visualização com displaCy

A visualização é uma ferramenta importante que deve estar na caixa de ferramentas de todo cientista de dados. A visualização é a maneira mais fácil de explicar alguns conceitos para seus colegas, seu chefe e qualquer público técnico ou não técnico. A visualização de dados de idioma é especificamente útil e permite identificar padrões em seus dados rapidamente.

Existem muitas bibliotecas e plugins *Python*, como *Matplotlib*, *seaborn*, *TensorBoard* e assim por diante. Sendo uma biblioteca industrial, **spaCy** vem com seu próprio visualizador – **displaCy**.

## Visualizando dentro do *Python*

Com a introdução da versão mais recente do *spaCy*, os visualizadores de *displaCy* são integrados à biblioteca principal. Isso significa que você pode começar a usar o *displaCy* imediatamente após instalar o *spaCy* em sua máquina! Vamos a alguns exemplos

In [6]:
# Forma mais fácil de importar o displaCy na máquina local

import spacy
from spacy import displacy
nlp = spacy.load('en_core_web_md')
doc = nlp("I own a ginger cat.")
displacy.serve(doc, style='dep')




Using the 'dep' visualizer
Serving on http://0.0.0.0:5000 ...

Shutting down server on port 5000.


Isso significa que displaCy gerou uma visualização de resultado de análise de dependência e a renderizou em seu *localhost*. Depois de terminar de exibir o visual e quiser desligar o servidor, você pode pressionar *Ctrl + C* para desligar o servidor *displaCy* e voltar para o *shell* do *Python*.

Após o encerramento, você não poderá visualizar mais exemplos, mas continuará vendo os resultados já gerados.

Se você deseja usar outra porta ou recebe um erro porque a porta **5000** já está em uso, você pode usar o parâmetro **port** de *displaCy* com outro número de porta. Substituir a última linha do bloco de código anterior pela seguinte linha será suficiente:

`displacy.serve(doc, style='dep', port='5001')`

Aqui, fornecemos o número da porta **5001** explicitamente. Nesse caso, o *displaCy* renderizará os gráficos em http://0.0.0.0:5001.

A geração de um reconhecedor de entidade é feita de forma semelhante. Passamos **ent** para o parâmetro **style** em vez de **dep**:

In [7]:
import spacy
nlp = spacy.load('en_core_web_md')
doc = nlp('Bill Gates is the CEO of Microsoft')
displacy.serve(doc,style='ent')


Using the 'ent' visualizer
Serving on http://0.0.0.0:5000 ...

Shutting down server on port 5000.


## Usando displaCy em notebooks Jupyter

O notebook *Jupyter* é uma parte importante do trabalho diário de ciência de dados.

Felizmente, *displaCy* pode identificar se você está atualmente codificando em um ambiente de notebook *Jupyter* e retorna marcação que pode ser exibida diretamente em uma célula.

Se você não possui o notebook Jupyter instalado em seu sistema, mas deseja usá-lo, siga as instruções em https://test-jupyter.readthedocs.io/en/latest/install.html.
Desta vez vamos chamar *render()* em vez de *serve()*. O resto do código é o mesmo. Você pode digitar/colar o seguinte código em seu notebook Jupyter:

In [8]:
import spacy
from spacy import displacy
nlp = spacy.load('en_core_web_md')
doc= nlp('Bill Gates is the CEO of Microsoft.')
displacy.render(doc, style='dep')

In [9]:
displacy.render(doc, style='ent')

## Exportando gráficos de exibição como um arquivo de imagem
Muitas vezes, precisamos exportar os gráficos que geramos com **displaCy** como arquivos de imagem para colocá-los em apresentações, artigos ou documentos. Podemos chamar **displaCy** neste caso também:

In [39]:
import spacy
from spacy import displacy
from pathlib import Path


nlp = spacy.load('en_core_web_md')

doc = nlp("I'm Butterfly")
svg = displacy.render(doc, style='dep', jupyter=False)
filename = 'butterfly.svg'
output_path = Path ("images/" + filename)
output_path.open('w', encoding='utf-8').write(svg)

2193

Importamos **spaCy** e **displaCy**. Carregamos o modelo de idioma inglês e criamos um objeto **Doc** como de costume. Então chamamos `displacy.render()` e capturamos a saída para a variável **svg**. O resto é escrever a variável **svg** em um arquivo chamado **butterfly.svg**.

Criamos visuais de boa aparência e aprendemos os detalhes da criação de visuais com **displaCy**. Se você deseja descobrir como usar diferentes imagens de fundo, cores de fundo e fontes, você pode visitar a documentação do displaCy em
`https://space.io/usage/visualizers`. Muitas vezes, precisamos criar visuais com cores e estilos diferentes, e a documentação do **displaCy** contém informações detalhadas sobre estilos. A documentação também inclui como incorporar **displaCy** em seus aplicativos da web. **spaCy** está bem documentado como um projeto e a documentação contém tudo o que precisamos!