<a href="https://colab.research.google.com/github/karinefonseca/NLP/blob/main/Exemplos_NLP.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [18]:
pip install nltk



In [4]:
pip install transformers



##Tokenização

###Descrição: Dividir o texto em unidades menores, como palavras ou frases.


In [2]:
import nltk
nltk.download('punkt')
from nltk.tokenize import word_tokenize

texto = "Olá, bem-vindo ao mundo do NLP!"
tokens = word_tokenize(texto)
print(tokens)

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


['Olá', ',', 'bem-vindo', 'ao', 'mundo', 'do', 'NLP', '!']


## Remoção de Stop Words

###Descrição: Remover palavras comuns que não adicionam muito significado ao texto, como "e", "o", "a".

In [6]:
from nltk.corpus import stopwords
nltk.download('stopwords')

stop_words = set(stopwords.words('portuguese'))
filtered_tokens = [w for w in tokens if not w in stop_words]
print(filtered_tokens)

['Olá', ',', 'bem-vindo', 'mundo', 'NLP', '!']


[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


##Stemming e Lematização

###Descrição: Reduzir as palavras às suas raízes (stemming) ou às suas formas base (lematização)

In [22]:
from nltk.stem import RSLPStemmer
nltk.download('rslp')

stemmer = RSLPStemmer()
stems = [stemmer.stem(w) for w in filtered_tokens]
print(stems)

['olá', ',', 'bem-v', 'mund', 'nlp', '!']


[nltk_data] Downloading package rslp to /root/nltk_data...
[nltk_data]   Package rslp is already up-to-date!


##Análise de Sentimentos

###Descrição: Identificar a emoção ou opinião expressa no texto.

In [24]:
from transformers import pipeline

sentiment_pipeline = pipeline("sentiment-analysis", model="nlptown/bert-base-multilingual-uncased-sentiment")
texto = "I love NLP"
resultado = sentiment_pipeline(texto)
print(f"Sentimento: {resultado[0]['label']}, Score: {resultado[0]['score']:.2f}")

Sentimento: 5 stars, Score: 0.73


##Código Completo com Pipeline para Análise de Sentimentos

In [34]:
import nltk
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
from nltk.stem import RSLPStemmer
from transformers import pipeline

# Download dos recursos necessários
nltk.download('punkt')
nltk.download('stopwords')
nltk.download('rslp')

# Carregar o pipeline de análise de sentimento
sentiment_pipeline = pipeline("sentiment-analysis", model="nlptown/bert-base-multilingual-uncased-sentiment")

class NLPPipeline:
    def __init__(self, text):
        self.text = text
        self.tokens = None
        self.filtered_tokens = None
        self.stems = None
        self.sentiment = None

    def tokenize(self):
        self.tokens = word_tokenize(self.text)
        return self

    def remove_stopwords(self):
        stop_words = set(stopwords.words('english'))
        self.filtered_tokens = [w for w in self.tokens if not w in stop_words]
        return self

    def stem(self):
        stemmer = RSLPStemmer()
        self.stems = [stemmer.stem(w) for w in self.filtered_tokens]
        return self

    def analyze_sentiment(self):
        resultado = sentiment_pipeline(self.text)
        self.sentiment = f"Sentimento: {resultado[0]['label']}, Score: {resultado[0]['score']:.2f}"
        return self

    def run(self):
        return self.tokenize().remove_stopwords().stem().analyze_sentiment()

# Exemplo de uso do pipeline
texto = "Hello, welcome to the world of NLP! Here, you will learn about natural language processing."

pipeline = NLPPipeline(texto)
result = pipeline.run()

print("Tokens:", pipeline.tokens)
print("Tokens sem stop words:", pipeline.filtered_tokens)
print("Stems:", pipeline.stems)
print("Sentimento:", pipeline.sentiment)

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package rslp to /root/nltk_data...
[nltk_data]   Package rslp is already up-to-date!


Tokens: ['Hello', ',', 'welcome', 'to', 'the', 'world', 'of', 'NLP', '!', 'Here', ',', 'you', 'will', 'learn', 'about', 'natural', 'language', 'processing', '.']
Tokens sem stop words: ['Hello', ',', 'welcome', 'world', 'NLP', '!', 'Here', ',', 'learn', 'natural', 'language', 'processing', '.']
Stems: ['hell', ',', 'welcom', 'world', 'nlp', '!', 'her', ',', 'learn', 'natur', 'languag', 'processing', '.']
Sentimento: Sentimento: 5 stars, Score: 0.80
