In [2]:
import requests
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.model_selection import train_test_split
from sklearn.svm import LinearSVC
from sklearn.pipeline import Pipeline
from sklearn.metrics import classification_report
import re
import nltk
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from nltk.stem import WordNetLemmatizer

# Baixar recursos adicionais do NLTK
nltk.download('omw-1.4')
nltk.download('punkt')
nltk.download('stopwords')
nltk.download('wordnet')

# Carregar os dados
data = pd.read_excel('Dataset_Tweets.xlsx')

# Pré-processamento do texto
def preprocess_text(text):
    text = text.lower()
    text = re.sub(r'[^a-zA-Z\s]', '', text)
    tokens = word_tokenize(text)
    stop_words = set(stopwords.words('portuguese'))
    tokens = [word for word in tokens if word not in stop_words]
    lemmatizer = WordNetLemmatizer()
    tokens = [lemmatizer.lemmatize(word) for word in tokens]
    processed_text = ' '.join(tokens)
    return processed_text

data['processed_tweets'] = data['tweets'].apply(preprocess_text)

# Dividir os dados em treinamento e teste
X_train, X_test, y_train, y_test = train_test_split(data['processed_tweets'], data['classificador'], test_size=0.45, random_state=42)

# Criar o pipeline de classificação
pipeline = Pipeline([
    ('tfidf', TfidfVectorizer()),
    ('clf', LinearSVC())
])

# Treinar o modelo
pipeline.fit(X_train, y_train)

# Avaliar o modelo
predictions = pipeline.predict(X_test)
print(classification_report(y_test, predictions))

# URL da sua API
login_url = 'http://localhost:3000/auth/login'
# Credenciais do usuário
credentials = {
    'usuario': 'admin',
    'senha': 'admin'
}

# Fazendo uma solicitação POST para obter o token JWT
login_response = requests.post(login_url, json=credentials)
token = login_response.json()['login']
# Incluindo o token JWT no cabeçalho Authorization
headers = {
    'Authorization': "Bearer "+token
}

# Função para classificar tweets e atualizar no banco de dados
def classify_and_update_tweets(api_url):
    # Obter tweets da API
    response = requests.get(f"{api_url}/tweets", headers=headers)
    
    if response.status_code == 200:
        try:
            tweets = response.json()
        except ValueError:
            print("Erro ao decodificar JSON. Resposta não está no formato JSON.")
            return
        
        for tweet in tweets:
            tweet_text = tweet['texto']  # Ajuste este campo conforme a estrutura do seu JSON
            processed_text = preprocess_text(tweet_text)
            is_suicida = pipeline.predict([processed_text])[0] == 'Post  com Potencial Suicida'
            
            # Atualizar o campo isSuicida no tweet
            tweet_id = tweet['_id']  # Ajuste este campo conforme a estrutura do seu JSON
            update_url = f"{api_url}/tweets/{tweet_id}"
            update_data = {'isSuicida': is_suicida}
            update_response = requests.put(update_url, json=update_data, headers=headers)
            
            if update_response.status_code == 200:
                print(f"Tweet {tweet_id} atualizado com sucesso.")
            else:
                print(f"Erro ao atualizar o tweet {tweet_id}. Código de status:", update_response.status_code)
    else:
        print("Erro ao acessar a API. Código de status:", response.status_code)

# Definir URL da API
api_url = "http://localhost:3000"

# Classificar e atualizar tweets
classify_and_update_tweets(api_url)


[nltk_data] Downloading package omw-1.4 to
[nltk_data]     C:\Users\lucas\AppData\Roaming\nltk_data...
[nltk_data]   Package omw-1.4 is already up-to-date!
[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\lucas\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\lucas\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\lucas\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


                             precision    recall  f1-score   support

Post  com Potencial Suicida       0.91      0.93      0.92       182
           Post Não Suicida       0.94      0.92      0.93       211

                   accuracy                           0.93       393
                  macro avg       0.93      0.93      0.93       393
               weighted avg       0.93      0.93      0.93       393

Tweet 663d79faa978d3f9816d889f atualizado com sucesso.
Tweet 6640df8b3cfbb49b44d413a9 atualizado com sucesso.
Tweet 66417f5b3cfbb49b44d41413 atualizado com sucesso.
Tweet 66417f5b3cfbb49b44d41414 atualizado com sucesso.
Tweet 66417f613cfbb49b44d41418 atualizado com sucesso.
Tweet 66417f613cfbb49b44d41417 atualizado com sucesso.
Tweet 664180103cfbb49b44d4141b atualizado com sucesso.
Tweet 664180173cfbb49b44d4141d atualizado com sucesso.
Tweet 664182133cfbb49b44d41433 atualizado com sucesso.
Tweet 664182193cfbb49b44d41435 atualizado com sucesso.
Tweet 664183093cfbb49b44d41437 at