# Estrutura do pipeline:
- Carregar o dataset: Usar pandas para carregar o dataset data.csv.
- Preprocessamento:
- Tokenização
- Remoção de stopwords
- Lematização
- Construção da Matriz TF-IDF: Utilizar o TfidfVectorizer da biblioteca scikit-learn para criar a matriz BoW com TF-IDF.

In [2]:
# Instalar as dependências necessárias
# !pip install spacy pandas scikit-learn

# Baixar o modelo de português
# !python -m spacy download pt_core_news_sm

import pandas as pd
import spacy
from sklearn.feature_extraction.text import TfidfVectorizer

# Carregar o modelo do spaCy para português
nlp = spacy.load('pt_core_news_sm')

# Carregar o dataset
data = pd.read_csv('../DATA/data.csv')

# Exibir as primeiras linhas do dataset
print(data.head())

# Função de preprocessamento (tokenização, remoção de stopwords, lematização)
def preprocessamento(texto):
    doc = nlp(texto)  # Processar o texto com spaCy
    tokens_limpos = []
    
    for token in doc:
        # Remover stopwords, pontuações e deixar apenas tokens alfabéticos
        if not token.is_stop and not token.is_punct and token.is_alpha:
            tokens_limpos.append(token.lemma_)  # Lematização
    
    return ' '.join(tokens_limpos)

# Aplicar o preprocessamento a cada sentença no dataset
data['processed'] = data['Sentence'].apply(preprocessamento)

# Exibir o dataset após o preprocessamento
print(data[['Sentence', 'processed']].head())

# Criar a matriz TF-IDF usando o texto processado
vectorizer = TfidfVectorizer()

# Ajustar o vectorizer ao texto pré-processado e transformar
X_tfidf = vectorizer.fit_transform(data['processed'])

# Exibir a matriz TF-IDF
print("Matriz TF-IDF (shape):", X_tfidf.shape)
print(X_tfidf.toarray())  # Exibir a matriz BoW TF-IDF como array

# Exibir os termos do vocabulário (opcional)
print("Vocabulário:", vectorizer.get_feature_names_out())


                                            Sentence Sentiment
0  The GeoSolutions technology will leverage Bene...  positive
1  $ESI on lows, down $1.50 to $2.50 BK a real po...  negative
2  For the last quarter of 2010 , Componenta 's n...  positive
3  According to the Finnish-Russian Chamber of Co...   neutral
4  The Swedish buyout firm has sold its remaining...   neutral
                                            Sentence  \
0  The GeoSolutions technology will leverage Bene...   
1  $ESI on lows, down $1.50 to $2.50 BK a real po...   
2  For the last quarter of 2010 , Componenta 's n...   
3  According to the Finnish-Russian Chamber of Co...   
4  The Swedish buyout firm has sold its remaining...   

                                           processed  
0  The GeoSolutions technology Will leverage Bene...  
1             ESI on low down to BK real possibility  
2  the last quarter of Componenta s net sale doub...  
3  According to the Chamber of Commerce All the M...  
4  The Swe

## Explicação do pipeline:
# Carregar o dataset:

1. Utilizamos o pandas para carregar o arquivo CSV chamado data.csv com as colunas Sentence (contendo o texto) e Sentiment (contendo o sentimento associado).
2. O código imprime as primeiras linhas do dataset para verificar o conteúdo carregado.
3. Função de preprocessamento:
        - A função preprocessamento realiza várias tarefas de limpeza e pré-processamento:
            - **Tokenização**: Utilizamos o modelo nlp do spaCy para tokenizar o texto.
            - **Remoção de Stopwords**: Remove as stopwords usando o atributo is_stop do spaCy.
            - **Remoção de pontuações**: Filtra tokens que são apenas pontuações com is_punct.
            - **Lematização**: Usa a lematização para reduzir as palavras à sua forma base.
        - Retorna o texto processado como uma string contendo apenas os tokens lematizados e limpos.
4. Aplicar preprocessamento:
Usamos a função apply do pandas para aplicar o preprocessamento a cada sentença da coluna Sentence, armazenando o resultado em uma nova coluna processed.

5. 5.Matriz TF-IDF:
Usamos o TfidfVectorizer da biblioteca scikit-learn para criar a matriz TF-IDF a partir dos textos pré-processados.
O resultado é uma matriz esparsa onde cada linha representa uma sentença do dataset e cada coluna representa um termo do vocabulário, ponderado pelo TF-IDF.

6. 6.Exibir a Matriz TF-IDF:

Exibimos o shape da matriz TF-IDF para verificar suas dimensões (número de sentenças x número de termos).
Também podemos visualizar a matriz TF-IDF como um array e exibir o vocabulário gerado pelo vectorizador.