1. **Carregar o dataset**:
    - O dataset data.csv é carregado usando a biblioteca pandas, e exibimos as primeiras linhas para verificar se os dados foram importados corretamente.
2. **Preprocessamento**:
    - Tokenização: Utilizamos a função word_tokenize do NLTK para dividir cada sentença em palavras (tokens).
    - Remoção de stopwords: Stopwords são removidas usando a lista de stopwords em português disponibilizada pelo NLTK.
    - Stemming: Usamos o RSLPStemmer, que é um stemmer específico para o português, para reduzir as palavras à sua raiz.
A função preprocessamento é aplicada a cada sentença da coluna Sentence do dataset, e o resultado é armazenado em uma nova coluna chamada processed.

3.  **Matriz TF-IDF**:
    - Utilizamos o TfidfVectorizer da biblioteca scikit-learn para transformar o texto pré-processado em uma matriz BoW com TF-IDF.
    - Exibimos o shape da matriz (número de sentenças x número de termos) e a matriz como um array.
    - Exibimos também o vocabulário gerado pelo vectorizador.

In [None]:
# Instalar as dependências necessárias
# !pip install nltk pandas scikit-learn

import pandas as pd
import nltk
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
from nltk.stem import RSLPStemmer
from sklearn.feature_extraction.text import TfidfVectorizer

# Baixar recursos necessários do NLTK
nltk.download('punkt')
nltk.download('stopwords')
nltk.download('rslp')  # Stemmer específico para português

# Carregar o dataset
data = pd.read_csv('../DATA/data.csv')

# Exibir as primeiras linhas do dataset
print(data.head())

# Inicializar o stemmer (RSLP é um stemmer específico para português) e carregar as stopwords
stemmer = RSLPStemmer()
stopwords_pt = set(stopwords.words('portuguese'))

# Função de preprocessamento (tokenização, remoção de stopwords, stemming)
def preprocessamento(texto):
    # Tokenizar o texto
    tokens = word_tokenize(texto, language='portuguese')
    
    # Remover stopwords e aplicar stemming
    tokens_limpos = [stemmer.stem(token) for token in tokens if token.lower() not in stopwords_pt and token.isalpha()]
    
    return ' '.join(tokens_limpos)

# Aplicar o preprocessamento a cada sentença no dataset
data['processed'] = data['Sentence'].apply(preprocessamento)

# Exibir o dataset após o preprocessamento
print(data[['Sentence', 'processed']].head())

# Criar a matriz TF-IDF usando o texto processado
vectorizer = TfidfVectorizer()

# Ajustar o vectorizer ao texto pré-processado e transformar
X_tfidf = vectorizer.fit_transform(data['processed'])

# Exibir a matriz TF-IDF
print("Matriz TF-IDF (shape):", X_tfidf.shape)
print(X_tfidf.toarray())  # Exibir a matriz BoW TF-IDF como array

# Exibir os termos do vocabulário (opcional)
print("Vocabulário:", vectorizer.get_feature_names_out())


**Considerações**:
1. **Lematização com NLTK em português**: O NLTK não oferece suporte nativo para lematização em português. Por isso, usamos o stemming com o RSLPStemmer, que é a alternativa mais próxima. Se precisar de lematização completa em português, o spaCy é uma opção mais adequada.
2. **Tokenização e Stemming**: Certifique-se de que o texto está bem formatado e de que os tokens são alfabéticos (removemos tokens que não são palavras com isalpha()).
