**1. Tokenização de Texto com NLTK**

A tokenização é o processo de dividir um texto em palavras, frases ou outros elementos linguístico

In [2]:
import nltk
from nltk.tokenize import word_tokenize, sent_tokenize

nltk.download('punkt')

# Exemplo de texto
texto = "Olá, seja bem-vindo ao curso de PLN! Vamos aprender muito."

# Tokenizando em palavras
tokens_palavras = word_tokenize(texto)
print("Tokenização de palavras:", tokens_palavras)

# Tokenizando em sentenças
tokens_sentencas = sent_tokenize(texto)
print("Tokenização de sentenças:", tokens_sentencas)


[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


Tokenização de palavras: ['Olá', ',', 'seja', 'bem-vindo', 'ao', 'curso', 'de', 'PLN', '!', 'Vamos', 'aprender', 'muito', '.']
Tokenização de sentenças: ['Olá, seja bem-vindo ao curso de PLN!', 'Vamos aprender muito.']


**2. Análise de Sentimentos com NLTK e TextBlob**

A análise de sentimentos pode classificar o sentimento de um texto como positivo, negativo ou neutro.

In [3]:
from textblob import TextBlob

# Exemplo de texto
texto = "Eu adoro estudar processamento de linguagem natural!"

# Criando um objeto TextBlob
blob = TextBlob(texto)

# Classificação do sentimento
sentimento = blob.sentiment
print("Análise de Sentimento:", sentimento)


Análise de Sentimento: Sentiment(polarity=0.125, subjectivity=0.4)


O resultado inclui a polaridade (que varia de -1 a 1, sendo -1 negativo e 1 positivo) e a subjectividade (que varia de 0 a 1, sendo 1 uma opinião pessoal).

**3. Reconhecimento de Entidades Nomeadas com SpaCy**

A identificação de entidades nomeadas (NER, Named Entity Recognition) é uma tarefa importante em PLN, que reconhece nomes de pessoas, organizações, datas, etc.

In [5]:
!python -m spacy download pt_core_news_sm

Collecting pt-core-news-sm==3.7.0
  Downloading https://github.com/explosion/spacy-models/releases/download/pt_core_news_sm-3.7.0/pt_core_news_sm-3.7.0-py3-none-any.whl (13.0 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m13.0/13.0 MB[0m [31m69.4 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: pt-core-news-sm
Successfully installed pt-core-news-sm-3.7.0
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('pt_core_news_sm')
[38;5;3m⚠ Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.


In [6]:
import spacy

# Carregando o modelo em português
nlp = spacy.load("pt_core_news_sm")

# Exemplo de texto
texto = "Barack Obama nasceu em Honolulu no dia 4 de agosto de 1961."

# Processando o texto com o modelo
doc = nlp(texto)

# Identificando as entidades nomeadas
for entidade in doc.ents:
    print(entidade.text, entidade.label_)


Barack Obama PER
Honolulu LOC


O modelo retorna as entidades nomeadas no texto (como "Barack Obama", "Honolulu" e "4 de agosto de 1961"), classificando-as em categorias como pessoas, locais e datas.

**4. Classificação de Texto com Modelos Pré-Treinados (Transformers - Hugging Face)**

A Hugging Face fornece acesso a uma ampla variedade de modelos pré-treinados, como o BERT e o GPT-2. Vamos ver um exemplo usando o pipeline para análise de sentimentos.

In [8]:
from transformers import pipeline

# Carregando o pipeline de análise de sentimento
analisador_sentimento = pipeline("sentiment-analysis")

# Exemplo de texto
texto = "Eu adoro aprender sobre inteligência artificial e PLN!"

# Analisando o sentimento
resultado = analisador_sentimento(texto)
print("Análise de sentimento:", resultado)


No model was supplied, defaulted to distilbert/distilbert-base-uncased-finetuned-sst-2-english and revision af0f99b (https://huggingface.co/distilbert/distilbert-base-uncased-finetuned-sst-2-english).
Using a pipeline without specifying a model name and revision in production is not recommended.
The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


config.json:   0%|          | 0.00/629 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/268M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/48.0 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/232k [00:00<?, ?B/s]



Análise de sentimento: [{'label': 'NEGATIVE', 'score': 0.9808175563812256}]


Este código carrega um modelo pré-treinado e retorna se o texto é positivo ou negativo.

**5. Geração de Texto com GPT-2 (Transformers - Hugging Face)**

Aqui está um exemplo de geração de texto usando o modelo GPT-2 da Hugging Face.

In [13]:
from transformers import GPT2LMHeadModel, GPT2Tokenizer

# Carregando o modelo e o tokenizer GPT-2
modelo = GPT2LMHeadModel.from_pretrained("gpt2")
tokenizer = GPT2Tokenizer.from_pretrained("gpt2")

# Texto de entrada para gerar a continuação
texto_inicial = "O processamento de linguagem natural é uma área fascinante!"

# Tokenizando o texto
inputs = tokenizer.encode(texto_inicial, return_tensors='pt')

# Gerando o texto
saida = modelo.generate(inputs, max_length=50, num_return_sequences=1)

# Decodificando a saída gerada
texto_gerado = tokenizer.decode(saida[0], skip_special_tokens=True)
print("----------------------------")
print("Texto gerado:", texto_gerado)
print("----------------------------")

The attention mask and the pad token id were not set. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.
Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


----------------------------
Texto gerado: O processamento de linguagem natural é uma área fascinante!

The first time I saw the film, I was so excited. I was so excited to see the film. I was so excited to see the
----------------------------


Esse exemplo utiliza o modelo GPT-2 para gerar uma continuação do texto dado, produzindo uma saída plausível baseada na entrada.

**Conclusão**

Esses exemplos cobrem várias aplicações práticas de PLN, desde tokenização e análise de sentimentos até reconhecimento de entidades nomeadas e geração de texto. As bibliotecas Python como NLTK, spaCy e Transformers da Hugging Face tornam relativamente simples a implementação de tarefas complexas de PLN.