# PLN
Processamento de Linguagem Natural (PLN) é uma área da inteligência artificial e da linguística computacional que tem como objetivo capacitar os computadores a compreender, interpretar e interagir com a linguagem humana de maneira natural. O PLN combina conhecimentos de linguística, ciência da computação e inteligência artificial para desenvolver algoritmos e técnicas que permitem que os computadores processem, analisem e gerem textos e linguagem de forma semelhante aos seres humanos.

As principais tarefas do Processamento de Linguagem Natural incluem:

1. **Reconhecimento e Geração de Fala:** Compreensão e síntese da fala humana, permitindo a interação por meio de voz.

2. **Reconhecimento de Fala:** Transformação de fala em texto escrito.

3. **Processamento de Texto:** Análise, extração de informações e interpretação de documentos e textos escritos.

4. **Análise Morfológica:** Identificação da estrutura gramatical das palavras e suas flexões.

5. **Análise Sintática:** Análise da estrutura gramatical das sentenças.

6. **Análise Semântica:** Compreensão do significado das palavras, frases e textos em contexto.

7. **Análise de Sentimento:** Identificação e classificação das emoções ou opiniões expressas em um texto.

8. **Tradução Automática:** Conversão de texto em um idioma para outro.

9. **Respostas a Perguntas:** Capacidade de responder perguntas em linguagem natural com base em um conjunto de documentos.

10. **Sumarização de Textos:** Geração de resumos automáticos de documentos.

O PLN é uma área em constante evolução, impulsionada pelo avanço da inteligência artificial, aprendizado de máquina e grandes quantidades de dados disponíveis. O desenvolvimento de modelos de linguagem e algoritmos mais sofisticados, combinado com o aumento do poder de processamento computacional, tem possibilitado avanços significativos no processamento de linguagem natural, tornando-o cada vez mais útil em diversas aplicações, como assistentes virtuais, chatbots, análise de sentimentos em redes sociais, tradução automática, entre outros.

Vamos criar um exemplo simples de Processamento de Linguagem Natural em Python usando a biblioteca NLTK (Natural Language Toolkit). Neste exemplo, iremos realizar a análise de sentimento em uma frase, classificando-a como positiva, neutra ou negativa.

Antes de executar o código, certifique-se de ter a biblioteca **flair** instalada. Caso não a tenha instalada, você pode instalar usando o seguinte comando:

In [None]:
pip install flair

Collecting flair
  Downloading flair-0.12.2-py3-none-any.whl (373 kB)
[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/373.1 kB[0m [31m?[0m eta [36m-:--:--[0m[2K     [91m━━━━━━━━━━━━━━━━━━[0m[90m╺[0m[90m━━━━━━━━━━━━━━━━━━━━[0m [32m174.1/373.1 kB[0m [31m5.0 MB/s[0m eta [36m0:00:01[0m[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m373.1/373.1 kB[0m [31m6.0 MB/s[0m eta [36m0:00:00[0m
Collecting segtok>=1.5.7 (from flair)
  Downloading segtok-1.5.11-py3-none-any.whl (24 kB)
Collecting mpld3==0.3 (from flair)
  Downloading mpld3-0.3.tar.gz (788 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m788.5/788.5 kB[0m [31m12.8 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
Collecting sqlitedict>=1.6.0 (from flair)
  Downloading sqlitedict-2.1.0.tar.gz (21 kB)
  Preparing metadata (setup.py) ... [?25l[?25hdone
Collecting deprecated>=1.2.4 (from flair)
  Downloading Deprecated-1

In [None]:
from flair.models import TextClassifier
from flair.data import Sentence

# Inicializar o classificador de sentimentos pré-treinado em inglês
classifier = TextClassifier.load('en-sentiment')

# Frase de exemplo com sentimento positivo
frase_positiva = "This book is incredible! I loved every page."

# Frase de exemplo com sentimento negativo
frase_negativa = "I am very disappointed with this product. It did not meet expectations."

# Criar objetos do tipo Sentence para as frases
sentence_positiva = Sentence(frase_positiva)
sentence_negativa = Sentence(frase_negativa)

# Executar a classificação de sentimento para as frases
classifier.predict(sentence_positiva)
classifier.predict(sentence_negativa)

# Obter o rótulo de sentimento das frases
sentimento_positivo = sentence_positiva.labels[0].value
sentimento_negativo = sentence_negativa.labels[0].value

# Exibir o resultado
print("Frase (positiva):", frase_positiva)
print("Sentimento (positivo):", sentimento_positivo)

print("Frase (negativa):", frase_negativa)
print("Sentimento (negativo):", sentimento_negativo)


2023-07-25 02:24:45,416 https://nlp.informatik.hu-berlin.de/resources/models/sentiment-curated-distilbert/sentiment-en-mix-distillbert_4.pt not found in cache, downloading to /tmp/tmpbp6f9qod


100%|██████████| 253M/253M [00:34<00:00, 7.59MB/s]

2023-07-25 02:25:20,933 copying /tmp/tmpbp6f9qod to cache at /root/.flair/models/sentiment-en-mix-distillbert_4.pt





2023-07-25 02:25:21,483 removing temp file /tmp/tmpbp6f9qod


Downloading (…)okenizer_config.json:   0%|          | 0.00/28.0 [00:00<?, ?B/s]

Downloading (…)lve/main/config.json:   0%|          | 0.00/483 [00:00<?, ?B/s]

Downloading (…)solve/main/vocab.txt:   0%|          | 0.00/232k [00:00<?, ?B/s]

Downloading (…)/main/tokenizer.json:   0%|          | 0.00/466k [00:00<?, ?B/s]

Frase (positiva): This book is incredible! I loved every page.
Sentimento (positivo): POSITIVE
Frase (negativa): I am very disappointed with this product. It did not meet expectations.
Sentimento (negativo): NEGATIVE


Neste exemplo, utilizamos o modelo pré-treinado em português para análise de sentimentos da biblioteca Flair. O modelo já foi treinado em uma grande quantidade de dados em português e pode apresentar resultados mais precisos para análise de sentimentos em língua portuguesa.

Com o uso do Flair, o código deve ser capaz de classificar corretamente as frases como "positivo" ou "negativo", dependendo do sentimento presente. Experimente com outras frases e verifique como o Flair se comporta em diferentes cenários. Lembrando que a análise de sentimento é uma tarefa complexa, e os resultados podem variar dependendo do contexto e da natureza da frase.

In [None]:
import nltk
from nltk.tokenize import sent_tokenize, word_tokenize

# Baixe os recursos necessários para tokenização
nltk.download('punkt')

# Texto de exemplo
texto = """O Processamento de Linguagem Natural (PLN) é uma área da inteligência artificial e da
           linguística computacional que tem como objetivo capacitar os computadores a compreender,
           interpretar e interagir com a linguagem humana de maneira natural."""

# Tokenização em frases
frases = sent_tokenize(texto)

# Tokenização em palavras
palavras = word_tokenize(texto)

# Exibindo os resultados
print("Texto original:")
print(texto)
print("\nFrases:")
for frase in frases:
    print("-", frase)
print("\nPalavras:")
for palavra in palavras:
    print("-", palavra)


Texto original:
O Processamento de Linguagem Natural (PLN) é uma área da inteligência artificial e da 
           linguística computacional que tem como objetivo capacitar os computadores a compreender, 
           interpretar e interagir com a linguagem humana de maneira natural.

Frases:
- O Processamento de Linguagem Natural (PLN) é uma área da inteligência artificial e da 
           linguística computacional que tem como objetivo capacitar os computadores a compreender, 
           interpretar e interagir com a linguagem humana de maneira natural.

Palavras:
- O
- Processamento
- de
- Linguagem
- Natural
- (
- PLN
- )
- é
- uma
- área
- da
- inteligência
- artificial
- e
- da
- linguística
- computacional
- que
- tem
- como
- objetivo
- capacitar
- os
- computadores
- a
- compreender
- ,
- interpretar
- e
- interagir
- com
- a
- linguagem
- humana
- de
- maneira
- natural
- .


[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


Neste exemplo, utilizamos a função sent_tokenize do NLTK para realizar a tokenização do texto em frases e a função word_tokenize para realizar a tokenização em palavras.

O texto de exemplo é um breve parágrafo sobre Processamento de Linguagem Natural (PLN). O código irá exibir o texto original e, em seguida, as frases e as palavras obtidas através da tokenização.

Experimente modificar o texto de exemplo para verificar como a tokenização funciona em diferentes casos, incluindo textos mais longos e complexos.

Vamos criar outro exemplo de Processamento de Linguagem Natural em Python usando a biblioteca NLTK. Neste exemplo, iremos realizar a remoção de stopwords (palavras comuns que não trazem muita informação) de uma frase.

Antes de executar o código, certifique-se de ter a biblioteca NLTK instalada. Caso não a tenha instalada, você pode instalar usando o seguinte comando:

In [None]:
import nltk
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize

# Baixe os recursos necessários para stopwords e tokenização
nltk.download('stopwords')
nltk.download('punkt')

# Definindo um texto de exemplo
texto = "O Processamento de Linguagem Natural (PLN) é uma área da inteligência artificial e da linguística computacional."

# Tokenização das palavras
palavras = word_tokenize(texto)

# Obtenção das stopwords para o idioma português
stopwords_pt = set(stopwords.words('portuguese'))

# Remoção das stopwords do texto
palavras_sem_stopwords = [palavra for palavra in palavras if palavra.lower() not in stopwords_pt]

# Exibindo os resultados
print("Texto original:")
print(texto)
print("\nPalavras:")
print(palavras)
print("\nPalavras sem stopwords:")
print(palavras_sem_stopwords)


Texto original:
O Processamento de Linguagem Natural (PLN) é uma área da inteligência artificial e da linguística computacional.

Palavras:
['O', 'Processamento', 'de', 'Linguagem', 'Natural', '(', 'PLN', ')', 'é', 'uma', 'área', 'da', 'inteligência', 'artificial', 'e', 'da', 'linguística', 'computacional', '.']

Palavras sem stopwords:
['Processamento', 'Linguagem', 'Natural', '(', 'PLN', ')', 'área', 'inteligência', 'artificial', 'linguística', 'computacional', '.']


[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


Neste exemplo, utilizamos a biblioteca NLTK para obter uma lista de stopwords no idioma português. Em seguida, tokenizamos as palavras do texto de exemplo e removemos as stopwords dessa lista.

O código irá exibir o texto original, as palavras do texto após a tokenização e, por fim, as palavras do texto sem as stopwords.

Experimente modificar o texto de exemplo ou o idioma das stopwords (caso queira utilizar outro idioma) para verificar como a remoção de stopwords pode ajudar a filtrar palavras menos relevantes em uma análise de texto.