# Processamento de Linguagem Natural com spaCy

Este notebook cobre os tópicos básicos de Processamento de Linguagem Natural (PLN) utilizando a biblioteca spaCy. Incluímos exemplos para:
- Tokenização
- Stopwords
- Stemming (substituído por Lematização no spaCy)
- Lematização
- POS-Tagging
- Reconhecimento de Entidades Nomeadas (NER)


## 1. Instalação do spaCy e modelo em português

Antes de começar, certifique-se de que o spaCy e o modelo em português estão instalados. Execute o seguinte comando no terminal:

```bash
!pip install spacy
!python -m spacy download pt_core_news_sm
```

Isso instalará o spaCy e o modelo de linguagem em português.

## 2. Carregar o modelo de português

In [1]:
import spacy
nlp = spacy.load('pt_core_news_sm')  # Carregar o modelo de português

## 3. Tokenização

Tokenização é o processo de dividir o texto em unidades menores chamadas *tokens*. Esses tokens podem ser palavras ou frases.

In [2]:
# Texto de exemplo
texto = "O gato está dormindo no sofá. Ele é muito preguiçoso."
doc = nlp(texto)

# Tokenização por palavras
tokens_palavras = [token.text for token in doc]
print("Tokenização por palavras:", tokens_palavras)

# Tokenização por sentenças
tokens_sentenças = [sent.text for sent in doc.sents]
print("Tokenização por sentenças:", tokens_sentenças)

## 4. Stopwords

Stopwords são palavras comuns que são geralmente removidas em análises de texto, pois não contribuem para o significado principal (ex: "o", "e", "de").

In [3]:
# Remover stopwords
tokens_sem_stopwords = [token.text for token in doc if not token.is_stop]
print("Texto sem stopwords:", tokens_sem_stopwords)

## 5. Lematização

A lematização é o processo de transformar uma palavra em sua forma base (lema). O spaCy usa lematização por padrão, pois oferece melhores resultados do que o stemming em muitos casos.

In [4]:
# Lematização das palavras no texto
lematizadas = [token.lemma_ for token in doc]
print("Palavras lematizadas:", lematizadas)

## 6. POS-Tagging (Part-of-Speech Tagging)

POS-Tagging é o processo de etiquetar cada palavra em uma sentença com sua respectiva categoria gramatical, como substantivo, verbo, adjetivo, etc.

In [5]:
# Aplicar POS-Tagging nas palavras
tags = [(token.text, token.pos_) for token in doc]
print("POS-Tagging:", tags)

## 7. NER (Reconhecimento de Entidades Nomeadas)

O NER é o processo de identificar entidades nomeadas, como pessoas, locais, organizações, datas, etc., dentro de um texto.

In [6]:
# Aplicar NER no texto
entidades = [(ent.text, ent.label_) for ent in doc.ents]
print("Entidades reconhecidas:", entidades)