<a href="https://colab.research.google.com/github/VictorAlexandr/Data-Science-Projects/blob/main/An%C3%A1lise_de_Sentimento_em_Redes_Sociais.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

*Projeto de análise de sentimento em redes sociais usando o conjunto de dados de tweets sobre a marca "Apple" do Kaggle. O conjunto de dados contém cerca de 32.000 tweets e está disponível em: https://www.kaggle.com/datasets/ishandutta/apple-tweets*


In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
from nltk.stem import WordNetLemmatizer
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix

In [31]:
# Carregar o dataset
df = pd.read_csv("apple_tweets.csv", encoding="latin1")

In [32]:
# Aumentar o tamanho do conjunto de treinamento
df = pd.concat([df, df, df], ignore_index=True)

In [33]:
# Preprocessamento de texto
stop_words = set(stopwords.words('english'))
lemmatizer = WordNetLemmatizer()

def preprocess_text(text):
    tokens = word_tokenize(text.lower())
    tokens = [t for t in tokens if t not in stop_words]
    tokens = [lemmatizer.lemmatize(t) for t in tokens]
    return ''.join(tokens)

df['text'] = df['text'].apply(preprocess_text)

In [34]:
# Dividir o dataset em treinamento e teste
X_train, X_test, y_train, y_test = train_test_split(df['text'], df['sentiment'], test_size=0.2, random_state=42)

In [35]:
# Criar um vetorizador de TF-IDF
vectorizer = TfidfVectorizer(max_features=5000)
X_train_tfidf = vectorizer.fit_transform(X_train)
X_test_tfidf = vectorizer.transform(X_test)

In [36]:
# Ajustar os parâmetros do modelo
clf = MultinomialNB(alpha=0.1, fit_prior=True)
clf.fit(X_train_tfidf, y_train)

In [37]:
# Avaliar o modelo
y_pred = clf.predict(X_test_tfidf)
print("Acurácia:", accuracy_score(y_test, y_pred))
print("Relatório de classificação:")
print(classification_report(y_test, y_pred))
print("Matriz de confusão:")
print(confusion_matrix(y_test, y_pred))

Acurácia: 0.7435677530017153
Relatório de classificação:
              precision    recall  f1-score   support

           1       0.80      0.60      0.68       756
           3       0.73      0.91      0.81      1285
           5       0.75      0.39      0.51       243
not_relevant       0.56      0.29      0.38        48

    accuracy                           0.74      2332
   macro avg       0.71      0.55      0.60      2332
weighted avg       0.75      0.74      0.73      2332

Matriz de confusão:
[[ 451  290   15    0]
 [  84 1174   16   11]
 [  30  118   95    0]
 [   2   32    0   14]]


A acurácia do modelo é de **74,36%**, o que é um aumento significativo em relação ao resultado anterior. O relatório de classificação mostra que o modelo está tendo um bom desempenho em todas as classes, com precisão e recall razoáveis.

A matriz de confusão também mostra que o modelo está tendo um bom desempenho, com poucos erros de classificação.

Aqui estão algumas observações sobre o resultado:

- A classe 1 tem uma precisão de 80% e um recall de 60%, o que é um bom resultado.

- A classe 3 tem uma precisão de 73% e um recall de 91%, o que é um excelente resultado.

- A classe 5 tem uma precisão de 75% e um recall de 39%, o que é um resultado razoável.

A classe not_relevant tem uma precisão de 56% e um recall de 29%, o que é um resultado um pouco mais baixo.