In [10]:
import requests
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.svm import LinearSVC
from sklearn.pipeline import Pipeline
from sklearn.metrics import classification_report
import re
import nltk
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from nltk.stem import WordNetLemmatizer

# Baixar recursos adicionais do NLTK
nltk.download('omw-1.4')
nltk.download('punkt')
nltk.download('stopwords')
nltk.download('wordnet')

# Carregar os dados
data = pd.read_excel('Expanded_Dataset_Tweets.xlsx')

# Pré-processamento do texto
def preprocess_text(text):
    text = text.lower()
    text = re.sub(r'[^a-zA-Z\s]', '', text)
    tokens = word_tokenize(text)
    stop_words = set(stopwords.words('portuguese'))
    tokens = [word for word in tokens if word not in stop_words]
    lemmatizer = WordNetLemmatizer()
    tokens = [lemmatizer.lemmatize(word) for word in tokens]
    processed_text = ' '.join(tokens)
    return processed_text

data['processed_tweets'] = data['tweets'].apply(preprocess_text)

# Dividir os dados em treinamento e teste
X_train, X_test, y_train, y_test = train_test_split(data['processed_tweets'], data['classificador'], test_size=0.55, random_state=42)

# Criar o pipeline de classificação
pipeline = Pipeline([
    ('tfidf', TfidfVectorizer()),
    ('clf', LinearSVC())
])

# Definir os hiperparâmetros para o GridSearch
param_grid = {
    'tfidf__max_df': [0.8, 0.9, 1.0],
    'tfidf__ngram_range': [(1,1), (1,2)],
    'clf__C': [0.1, 1, 10]
}

# Realizar o GridSearch com validação cruzada
grid_search = GridSearchCV(pipeline, param_grid, cv=5, scoring='accuracy')
grid_search.fit(X_train, y_train)

# Imprimir os melhores hiperparâmetros
print(f"Melhores hiperparâmetros: {grid_search.best_params_}")

# Avaliar o modelo com os melhores hiperparâmetros
best_pipeline = grid_search.best_estimator_
predictions = best_pipeline.predict(X_test)
print(classification_report(y_test, predictions))


# URL da sua API
login_url = 'http://localhost:3000/auth/login'
# Credenciais do usuário
credentials = {
    'usuario': 'admin',
    'senha': 'admin'
}

# Fazendo uma solicitação POST para obter o token JWT
login_response = requests.post(login_url, json=credentials)
token = login_response.json()['token']
# Incluindo o token JWT no cabeçalho Authorization
headers = {
    'Authorization': "Bearer "+token
}

# Função para classificar tweets e atualizar no banco de dados
def classify_and_update_tweets(api_url):
    # Obter tweets da API
    response = requests.get(f"{api_url}/tweets", headers=headers)
    
    if response.status_code == 200:
        try:
            tweets = response.json()
        except ValueError:
            print("Erro ao decodificar JSON. Resposta não está no formato JSON.")
            return
        
        for tweet in tweets:
            tweet_text = tweet['texto']  # Ajuste este campo conforme a estrutura do seu JSON
            processed_text = preprocess_text(tweet_text)
            is_suicida = best_pipeline.predict([processed_text])[0] == 'Post  com Potencial Suicida'
            
            # Atualizar o campo isSuicida no tweet
            tweet_id = tweet['_id']  # Ajuste este campo conforme a estrutura do seu JSON
            update_url = f"{api_url}/tweets/{tweet_id}"
            update_data = {'isSuicida': is_suicida}
            update_response = requests.put(update_url, json=update_data, headers=headers)
            
            if update_response.status_code == 200:
                print(f"Tweet {tweet_id} atualizado com sucesso.")
            else:
                print(f"Erro ao atualizar o tweet {tweet_id}. Código de status:", update_response.status_code)
    else:
        print("Erro ao acessar a API. Código de status:", response.status_code)

# Definir URL da API
api_url = "http://localhost:3000"

# Classificar e atualizar tweets
classify_and_update_tweets(api_url)


[nltk_data] Downloading package omw-1.4 to
[nltk_data]     C:\Users\lucas\AppData\Roaming\nltk_data...
[nltk_data]   Package omw-1.4 is already up-to-date!
[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\lucas\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\lucas\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\lucas\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


Melhores hiperparâmetros: {'clf__C': 1, 'tfidf__max_df': 0.8, 'tfidf__ngram_range': (1, 1)}
                             precision    recall  f1-score   support

Post  com Potencial Suicida       0.94      0.92      0.93       264
           Post Não Suicida       0.92      0.94      0.93       270

                   accuracy                           0.93       534
                  macro avg       0.93      0.93      0.93       534
               weighted avg       0.93      0.93      0.93       534

Tweet 663d79faa978d3f9816d889f atualizado com sucesso.
Tweet 6640df8b3cfbb49b44d413a9 atualizado com sucesso.
Tweet 66417f5b3cfbb49b44d41413 atualizado com sucesso.
Tweet 66417f5b3cfbb49b44d41414 atualizado com sucesso.
Tweet 66417f613cfbb49b44d41418 atualizado com sucesso.
Tweet 66417f613cfbb49b44d41417 atualizado com sucesso.
Tweet 664180103cfbb49b44d4141b atualizado com sucesso.
Tweet 664180173cfbb49b44d4141d atualizado com sucesso.
Tweet 664182133cfbb49b44d41433 atualizado com suces

Tweet 6674b6f7fc131f48b577a3d0 atualizado com sucesso.
Tweet 6674b6f7fc131f48b577a3d5 atualizado com sucesso.
Tweet 6674b6f8fc131f48b577a3da atualizado com sucesso.
Tweet 6674b6f9fc131f48b577a3df atualizado com sucesso.
Tweet 6674b6f9fc131f48b577a3e4 atualizado com sucesso.
Tweet 6674b6fafc131f48b577a3e9 atualizado com sucesso.
Tweet 6674b6fbfc131f48b577a3ee atualizado com sucesso.
Tweet 6674b6fbfc131f48b577a3f3 atualizado com sucesso.
Tweet 6674b6fcfc131f48b577a3f8 atualizado com sucesso.
Tweet 6674b6fdfc131f48b577a3fd atualizado com sucesso.
Tweet 6674b6fdfc131f48b577a402 atualizado com sucesso.
Tweet 6674b6fefc131f48b577a407 atualizado com sucesso.
Tweet 6674b6fefc131f48b577a40c atualizado com sucesso.
Tweet 6674b6fffc131f48b577a411 atualizado com sucesso.
Tweet 6674b6fffc131f48b577a416 atualizado com sucesso.
Tweet 6674b700fc131f48b577a41b atualizado com sucesso.
Tweet 6674b701fc131f48b577a420 atualizado com sucesso.
Tweet 6674b701fc131f48b577a425 atualizado com sucesso.
Tweet 6674

Tweet 6674b78bfc131f48b577a6be atualizado com sucesso.
Tweet 6674b78bfc131f48b577a6c3 atualizado com sucesso.
Tweet 6674b78cfc131f48b577a6c8 atualizado com sucesso.
Tweet 6674b78dfc131f48b577a6cd atualizado com sucesso.
Tweet 6674b78dfc131f48b577a6d2 atualizado com sucesso.
Tweet 6674b78efc131f48b577a6d7 atualizado com sucesso.
Tweet 6674b78efc131f48b577a6dc atualizado com sucesso.
Tweet 6674b78ffc131f48b577a6e1 atualizado com sucesso.
Tweet 6674b790fc131f48b577a6e6 atualizado com sucesso.
Tweet 6674b790fc131f48b577a6eb atualizado com sucesso.
Tweet 6674b791fc131f48b577a6f0 atualizado com sucesso.
Tweet 6674b791fc131f48b577a6f5 atualizado com sucesso.
Tweet 6674b792fc131f48b577a6fa atualizado com sucesso.
Tweet 6674b793fc131f48b577a6ff atualizado com sucesso.
Tweet 6674b793fc131f48b577a704 atualizado com sucesso.
Tweet 6674b794fc131f48b577a709 atualizado com sucesso.
Tweet 6674b794fc131f48b577a70e atualizado com sucesso.
Tweet 6674b795fc131f48b577a713 atualizado com sucesso.
Tweet 6674