In [10]:
# Instala todas as bibliotecas necessárias, incluindo a do Google AI
!pip install praw pandas numpy scipy scikit-learn vadersentiment nltk google-generativeai -q

# Importações gerais
import pandas as pd
import numpy as np
from datetime import datetime
from collections import Counter
import re
import praw
import json

# Importações para Análise de Texto (PLN)
import nltk
from scipy.stats import entropy
from vaderSentiment.vaderSentiment import SentimentIntensityAnalyzer
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

# Importações do Google AI
import google.generativeai as genai

# Baixa diretamente os pacotes de dados necessários para o NLTK.
nltk.download('punkt', quiet=True)
nltk.download('vader_lexicon', quiet=True)
nltk.download('stopwords', quiet=True)

# --- FUNÇÃO DE CONFIGURAÇÃO DA GOOGLE AI API KEY ---
# Esta função recebe a chave da API como um parâmetro e configura a biblioteca.
def configure_google_ai(api_key):
    """
    Configura a API do Google AI com a chave fornecida.

    Args:
        api_key (str): Sua chave de API do Google AI.
    """
    if not api_key:
        print("⚠️ Chave de API não fornecida. A funcionalidade do Google AI estará desativada.")
        return
    try:
        genai.configure(api_key=api_key)
        print("✅ API do Google AI configurada com sucesso.")
    except Exception as e:
        print(f"❌ Ocorreu um erro ao configurar a API do Google AI: {e}")

# --- COMO USAR ---
# 1. Substitua "SUA_CHAVE_DE_API_AQUI" pela sua chave de API real.
# 2. Execute a célula.

# Exemplo de uso:
# Coloque sua chave de API diretamente na variável abaixo.
YOUR_GOOGLE_API_KEY = "AIzaSyDV6VITxV5WwCgoKAh3nSlXhk1r4ZWZhSU" 

# Chama a função para configurar a API
configure_google_ai(YOUR_GOOGLE_API_KEY)

print("✅ Todas as bibliotecas foram importadas e a configuração foi concluída.")

✅ API do Google AI configurada com sucesso.
✅ Todas as bibliotecas foram importadas e a configuração foi concluída.


In [None]:
# --- Replace these placeholders with your credentials ---
reddit = praw.Reddit(
    client_id="a9IG6BCyE9K5Il_1fbqszA",
        client_secret="NZtv0dtUDP6mLZJJ8xQteyFvzfBdvw",
    user_agent="SubredditAnalyzer/1.0 by u/YourUsername"
)

# Check if the authentication is read-only or successful
if reddit.read_only:
    print("⚠  Warning: Authenticated in read-only mode. Check your credentials.")
else:
    print(f"✅ Authenticated successfully as u/{reddit.user.me()}")

In [12]:
DATABASE_FILE = 'user_database.csv'

def load_database():
    """Carrega o banco de dados de características do usuário ou o cria."""
    try:
        db = pd.read_csv(DATABASE_FILE)
    except FileNotFoundError:
        db = pd.DataFrame(columns=[
            'account_age_days', 'karma_ratio', 'avg_time_between_posts_sec',
            'subreddit_entropy', 'username_is_pattern', 'comment_length_variance',
            'submission_comment_ratio', 'link_in_comment_ratio',
            'sentiment_avg', 'sentiment_variance', 'comment_similarity_avg',
            'exact_duplicate_ratio', 'is_bot'
        ])
    return db

def analyze_user_live(username, reddit_instance):
    """Analisa um usuário com um conjunto completo de métricas numéricas."""
    # ... esta função permanece exatamente a mesma da versão anterior ...
    try:
        user = reddit_instance.redditor(username)
        _ = user.id
    except Exception as e:
        return {"error": f"Não foi possível encontrar ou acessar o usuário '{username}'. Erro: {e}"}
    comments = list(user.comments.new(limit=100))
    submissions = list(user.submissions.new(limit=50))
    activities = sorted(comments + submissions, key=lambda x: x.created_utc, reverse=True)
    if len(comments) < 5:
        # Este retorno de erro é para a análise de métricas; a análise do LLM tem sua própria lógica.
        # Mantemos isso para garantir que as métricas sejam baseadas em dados suficientes.
        # No entanto, se o objetivo é analisar mesmo sem comentários, podemos ajustar aqui também.
        # Por enquanto, a lógica principal tratará um usuário sem comentários.
        pass # Permite a continuação para que o LLM possa analisar apenas as métricas de perfil.

    created_date = datetime.fromtimestamp(user.created_utc)
    account_age_days = (datetime.now() - created_date).days
    karma_ratio = user.comment_karma / (user.link_karma + 1) if user.link_karma > 0 else user.comment_karma
    timestamps = [act.created_utc for act in activities]
    time_deltas = np.diff(timestamps)
    avg_time_between_posts_sec = -np.mean(time_deltas) if len(time_deltas) > 0 else 0
    subreddits = [act.subreddit.display_name for act in activities if hasattr(act, 'subreddit')]
    counts = pd.Series(subreddits).value_counts()
    subreddit_entropy = entropy(counts) if not counts.empty else 0
    pattern = r"[a-zA-Z]+[-_][a-zA-Z]+[0-9]{2,}"
    username_is_pattern = 1 if re.search(pattern, username) else 0
    comment_lengths = [len(c.body) for c in comments]
    comment_length_variance = np.var(comment_lengths) if comment_lengths else 0
    submission_comment_ratio = len(submissions) / (len(comments) + 1)
    link_count = sum(1 for c in comments if 'http' in c.body.lower())
    link_in_comment_ratio = link_count / len(comments) if comments else 0
    comment_bodies = [c.body for c in comments]
    analyzer = SentimentIntensityAnalyzer()
    sentiment_scores = [analyzer.polarity_scores(comment)['compound'] for comment in comment_bodies]
    sentiment_avg = np.mean(sentiment_scores) if sentiment_scores else 0
    sentiment_variance = np.var(sentiment_scores) if sentiment_scores else 0
    comment_similarity_avg = 0.0
    if len(comment_bodies) > 1:
        try:
            vectorizer = TfidfVectorizer(stop_words='english').fit_transform(comment_bodies)
            cosine_matrix = cosine_similarity(vectorizer)
            upper_triangle_indices = np.triu_indices_from(cosine_matrix, k=1)
            if upper_triangle_indices[0].size > 0:
                comment_similarity_avg = np.mean(cosine_matrix[upper_triangle_indices])
        except ValueError:
            comment_similarity_avg = 0.0
    exact_duplicate_ratio = 0.0
    if len(comment_bodies) > 0:
        num_unique_comments = len(set(comment_bodies))
        exact_duplicate_ratio = (len(comment_bodies) - num_unique_comments) / len(comment_bodies)
    features = {
        'account_age_days': account_age_days, 'karma_ratio': karma_ratio,
        'avg_time_between_posts_sec': avg_time_between_posts_sec, 'subreddit_entropy': subreddit_entropy,
        'username_is_pattern': username_is_pattern, 'comment_length_variance': comment_length_variance,
        'submission_comment_ratio': submission_comment_ratio, 'link_in_comment_ratio': link_in_comment_ratio,
        'sentiment_avg': sentiment_avg, 'sentiment_variance': sentiment_variance,
        'comment_similarity_avg': comment_similarity_avg, 'exact_duplicate_ratio': exact_duplicate_ratio,
    }
    return features


# --- FUNÇÃO ATUALIZADA ---
def analyze_with_llm(username, reddit_instance, metrics_data, model_name="gemini-1.5-flash"):
    """
    Usa um LLM (Gemini) para analisar os dados de um usuário.
    Se o usuário tiver comentários, a análise é híbrida (métricas + texto).
    Se não tiver comentários, a análise usa apenas as métricas numéricas.
    """
    try:
        user = reddit_instance.redditor(username)
        # Tenta buscar os comentários, mas não gera erro imediato se não houver
        comments = list(user.comments.new(limit=25))
    except Exception as e:
        return {"error": f"Não foi possível buscar os dados do usuário: {e}"}

    # --- LÓGICA MODIFICADA ---
    # Decide qual prompt usar com base na existência de comentários.

    if len(comments) < 5:
        # --- PROMPT 1: APENAS MÉTRICAS (QUANDO NÃO HÁ COMENTÁRIOS) ---
        # Adicionei mais algumas métricas para dar mais contexto ao LLM
        prompt = f"""
        Você é um analista especialista em detecção de bots na plataforma Reddit. Sua tarefa é fazer uma
        análise do usuário u/{username} baseada APENAS nos seus dados quantitativos, pois
        ele não possui comentários recentes suficientes para uma análise de texto.

        --- DADOS QUANTITATIVOS ---
        * Idade da Conta (dias): {metrics_data.get('account_age_days', 'N/A')} (Contas muito novas são suspeitas)
        * Proporção de Karma (comentário/link): {metrics_data.get('karma_ratio', 0.0):.2f} (Valores extremos podem ser suspeitos)
        * Taxa de Duplicação Exata de Comentários: {metrics_data.get('exact_duplicate_ratio', 0.0):.2f} (Uma taxa > 0.25 é forte sinal de bot)
        * Tempo Médio entre Atividades (segundos): {metrics_data.get('avg_time_between_posts_sec', 0.0):.2f} (Valores muito baixos podem indicar automação)
        * Entropia de Subreddits: {metrics_data.get('subreddit_entropy', 0.0):.2f} (Valores muito baixos indicam atividade concentrada)
        * Variância do Tamanho dos Comentários: {metrics_data.get('comment_length_variance', 0.0):.2f} (Próximo de zero indica comentários de tamanho similar)
        ---

        Com base APENAS nos dados quantitativos acima, faça sua avaliação final.

        Responda estritamente no formato JSON a seguir, sem texto adicional:
        {{
          "veredicto": "bot" | "humano",
          "confianca": <um número de 0.0 a 1.0>,
          "justificativa": "<uma análise concisa de 2-3 frases explicando sua decisão com base APENAS nos dados numéricos. Mencione a ausência de comentários.>"
        }}
        """
    else:
        # --- PROMPT 2: ANÁLISE HÍBRIDA (O SEU PROMPT ORIGINAL) ---
        comment_list_for_prompt = "\\n".join([f"{i+1}. {c.body.strip()}" for i, c in enumerate(comments)])
        prompt = f"""
        Você é um analista especialista em detecção de bots na plataforma Reddit. Sua tarefa é fazer uma
        análise híbrida, considerando tanto os dados quantitativos quanto o conteúdo dos comentários
        recentes do usuário u/{username}.

        --- DADOS QUANTITATIVOS ---\n
        * Idade da Conta (dias): {metrics_data.get('account_age_days', 'N/A')} (Contas muito novas são mais suspeitas)\n
        * Proporção de Karma (comentário/link): {metrics_data.get('karma_ratio', 0.0):.2f} (Valores extremos podem ser suspeitos)\n
        * Taxa de Duplicação Exata de Comentários: {metrics_data.get('exact_duplicate_ratio', 0.0):.2f} (Uma taxa acima de 0.25 é um forte sinal de bot)

        --- COMENTÁRIOS RECENTES ({len(comments)}) ---\n
        {comment_list_for_prompt}\n
        ---

        Com base em TODOS os dados acima (quantitativos e textuais), faça sua avaliação final.
        Considere como os dados numéricos reforçam ou contradizem a análise do texto.

        Responda estritamente no formato JSON a seguir, sem texto adicional:
        {{
          "veredicto": "bot" | "humano",
          "confianca": <um número de 0.0 a 1.0>,
          "justificativa": "<uma análise concisa de 2-3 frases explicando sua decisão com base nos dados e nos comentários>"
        }}
        """

    # O restante da função permanece igual
    try:
        model = genai.GenerativeModel(model_name)
        response = model.generate_content(prompt)
        cleaned_response = response.text.strip().replace("```json", "").replace("```", "")
        return json.loads(cleaned_response)
    except Exception as e:
        return {"error": f"Erro ao analisar com o LLM: {e}", "raw_response": response.text if 'response' in locals() else ""}

In [13]:
user_db = load_database()
print(f"💾 Banco de dados carregado com {len(user_db)} entradas.")

while True:
    url = input("Digite a URL do perfil do usuário para analisar (ou 'quit' para sair): ")
    if url.lower() == 'quit':
        break

    match = re.search(r"/user/([A-Za-z0-9_-]+)", url)
    if not match:
        print("❌ Formato de URL inválido. Use o formato: https://www.reddit.com/user/username/")
        continue
    username = match.group(1)

    # --- Etapa 1: Análise de Métricas ---
    print(f"\n📡 1/2: Calculando métricas numéricas para u/{username}...")
    features = analyze_user_live(username, reddit)
    if "error" in features:
        print(f"❌ Erro na análise de métricas: {features['error']}")
        continue
    print("\n--- Resultados da Análise de Métricas ---")
    for key, value in features.items():
        print(f"  - {key}: {value:.4f}")

    # --- Etapa 2: Análise com LLM (usando as métricas da Etapa 1) ---
    print(f"\n🧠 2/2: Solicitando análise do LLM para u/{username}...")
    # Passa o dicionário 'features' para a função do LLM
    llm_analysis = analyze_with_llm(username, reddit, features)
    print("\n--- Veredito do LLM (Análise Híbrida) ---")
    if "error" in llm_analysis:
        print(f"❌ Erro na análise do LLM: {llm_analysis['error']}")
        if 'raw_response' in llm_analysis:
            print(f"   Resposta Bruta: {llm_analysis['raw_response']}")
    else:
        print(f"  - Veredito: {llm_analysis.get('veredicto', 'N/A').upper()}")
        print(f"  - Confiança: {llm_analysis.get('confianca', 0.0):.2f}")
        print(f"  - Justificativa: {llm_analysis.get('justificativa', 'N/A')}")

    # --- Etapa 3: Coleta do seu rótulo final ---
    label = ''
    while label not in ['b', 'h']:
        label = input("\n--> Com base em TUDO, qual é o seu veredito final: bot (b) ou humano (h)? ").lower()

    features['is_bot'] = 1 if label == 'b' else 0
    new_entry = pd.DataFrame([features])
    user_db = pd.concat([user_db, new_entry], ignore_index=True)
    print(f"✅ Entrada adicionada! O banco de dados agora tem {len(user_db)} entradas.\n")

# Salva o banco de dados final no arquivo CSV
user_db.to_csv(DATABASE_FILE, index=False)
print(f"\n💾 Banco de dados salvo com sucesso em '{DATABASE_FILE}'.")

💾 Banco de dados carregado com 26 entradas.


Digite a URL do perfil do usuário para analisar (ou 'quit' para sair):  https://www.reddit.com/user/twitch_and_shock/



📡 1/2: Calculando métricas numéricas para u/twitch_and_shock...

--- Resultados da Análise de Métricas ---
  - account_age_days: 1522.0000
  - karma_ratio: 2.6310
  - avg_time_between_posts_sec: 775919.1132
  - subreddit_entropy: 2.3666
  - username_is_pattern: 0.0000
  - comment_length_variance: 83629.1379
  - submission_comment_ratio: 0.0693
  - link_in_comment_ratio: 0.0300
  - sentiment_avg: 0.2016
  - sentiment_variance: 0.1817
  - comment_similarity_avg: 0.0152
  - exact_duplicate_ratio: 0.0000

🧠 2/2: Solicitando análise do LLM para u/twitch_and_shock...

--- Veredito do LLM (Análise Híbrida) ---
  - Veredito: HUMANO
  - Confiança: 0.80
  - Justificativa: Apesar da idade da conta ser relativamente alta e a proporção de karma estar acima da média, a ausência de duplicação de comentários e o conteúdo consistente e técnico dos comentários sugerem um usuário humano.  Os comentários demonstram conhecimento específico de programação e ferramentas de desenvolvimento, inconsistente com


--> Com base em TUDO, qual é o seu veredito final: bot (b) ou humano (h)?  h


✅ Entrada adicionada! O banco de dados agora tem 27 entradas.



Digite a URL do perfil do usuário para analisar (ou 'quit' para sair):  quit



💾 Banco de dados salvo com sucesso em 'user_database.csv'.


In [6]:
try:
    my_database = pd.read_csv(DATABASE_FILE)
    print(f"--- Visualização do Banco de Dados ({len(my_database)} entradas) ---")
    
    # Exibe o DataFrame inteiro se não for muito grande, ou apenas o início e o fim.
    if len(my_database) < 20:
        display(my_database)
    else:
        print("\n--- Primeiras 5 Entradas ---")
        display(my_database.head())
        print("\n--- Últimas 5 Entradas ---")
        display(my_database.tail())
    
except FileNotFoundError:
    print(f"O arquivo de banco de dados '{DATABASE_FILE}' ainda não foi criado.")
    print("Execute a célula de coleta de dados pelo menos uma vez para criá-lo.")

--- Visualização do Banco de Dados (26 entradas) ---

--- Primeiras 5 Entradas ---


Unnamed: 0,account_age_days,karma_ratio,avg_time_between_posts_sec,subreddit_entropy,username_is_pattern,comment_length_variance,submission_comment_ratio,link_in_comment_ratio,is_bot,sentiment_avg,sentiment_variance,comment_similarity_avg,exact_duplicate_ratio
0,188,0.002024,27598.55,1.860609,0,4.6516,0.980392,0.0,1,,,,
1,166,0.045242,13946.41,2.997718,0,2549.25,0.980392,0.06,1,,,,
2,1850,0.291667,2147339.0,2.557894,1,3154.016529,0.173913,0.0,0,,,,
3,405,0.004955,300738.3,1.578693,0,796.372449,3.333333,0.142857,0,,,,
4,405,0.004955,300738.3,1.578693,0,796.372449,3.333333,0.142857,0,0.266357,0.239542,0.035965,



--- Últimas 5 Entradas ---


Unnamed: 0,account_age_days,karma_ratio,avg_time_between_posts_sec,subreddit_entropy,username_is_pattern,comment_length_variance,submission_comment_ratio,link_in_comment_ratio,is_bot,sentiment_avg,sentiment_variance,comment_similarity_avg,exact_duplicate_ratio
21,188,0.002024,46695.42953,2.066065,0,3.5075,0.49505,0.0,1,0.0,0.0,0.3,0.92
22,1833,42.130999,0.0,0.0,0,0.0,0.0,0.0,1,0.0,0.0,0.0,0.0
23,166,0.04464,11772.966443,2.83856,0,3952.4224,0.49505,0.14,1,0.334498,0.139122,0.016795,0.17
24,188,0.002024,46695.42953,2.066065,0,3.5075,0.49505,0.0,1,0.0,0.0,0.3,0.92
25,188,0.002024,46695.42953,2.066065,0,3.5075,0.49505,0.0,1,0.0,0.0,0.3,0.92


In [None]:
# --- 1. SETUP: INSTALL LIBRARIES ---
# This cell installs all necessary packages, including Gradio for the UI.
!pip install praw pandas numpy scipy scikit-learn vadersentiment nltk google-generativeai "gradio<4.0" -q

# --- 2. IMPORTS AND CORE LOGIC ---
# This cell contains all your original backend functions without modification.

# Importações gerais
import pandas as pd
import numpy as np
from datetime import datetime
from collections import Counter
import re
import praw
import json
import gradio as gr

# Importações para Análise de Texto (PLN)
import nltk
from scipy.stats import entropy
from vaderSentiment.vaderSentiment import SentimentIntensityAnalyzer
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

# Importações do Google AI
import google.generativeai as genai

# Baixa pacotes de dados do NLTK.
nltk.download('punkt', quiet=True)
nltk.download('vader_lexicon', quiet=True)
nltk.download('stopwords', quiet=True)

# Variáveis globais para instâncias e banco de dados
reddit_instance = None
user_db = None
DATABASE_FILE = 'user_database.csv'
is_configured = False

# --- Funções de Análise (Seu código original) ---

def load_database():
    """Carrega o banco de dados de características do usuário ou o cria."""
    try:
        db = pd.read_csv(DATABASE_FILE)
    except FileNotFoundError:
        db = pd.DataFrame(columns=[
            'account_age_days', 'karma_ratio', 'avg_time_between_posts_sec',
            'subreddit_entropy', 'username_is_pattern', 'comment_length_variance',
            'submission_comment_ratio', 'link_in_comment_ratio',
            'sentiment_avg', 'sentiment_variance', 'comment_similarity_avg',
            'exact_duplicate_ratio', 'is_bot'
        ])
    return db

def analyze_user_live(username, reddit_instance):
    """Analisa um usuário com um conjunto completo de métricas numéricas."""
    try:
        user = reddit_instance.redditor(username)
        _ = user.id
    except Exception as e:
        return {"error": f"Não foi possível encontrar ou acessar o usuário '{username}'. Erro: {e}"}
    comments = list(user.comments.new(limit=100))
    submissions = list(user.submissions.new(limit=50))
    activities = sorted(comments + submissions, key=lambda x: x.created_utc, reverse=True)
    
    created_date = datetime.fromtimestamp(user.created_utc)
    account_age_days = (datetime.now() - created_date).days
    karma_ratio = user.comment_karma / (user.link_karma + 1) if user.link_karma > 0 else user.comment_karma
    timestamps = [act.created_utc for act in activities]
    time_deltas = np.diff(timestamps)
    avg_time_between_posts_sec = -np.mean(time_deltas) if len(time_deltas) > 0 else 0
    subreddits = [act.subreddit.display_name for act in activities if hasattr(act, 'subreddit')]
    counts = pd.Series(subreddits).value_counts()
    subreddit_entropy = entropy(counts) if not counts.empty else 0
    pattern = r"[a-zA-Z]+[-_][a-zA-Z]+[0-9]{2,}"
    username_is_pattern = 1 if re.search(pattern, username) else 0
    comment_lengths = [len(c.body) for c in comments]
    comment_length_variance = np.var(comment_lengths) if comment_lengths else 0
    submission_comment_ratio = len(submissions) / (len(comments) + 1)
    link_count = sum(1 for c in comments if 'http' in c.body.lower())
    link_in_comment_ratio = link_count / len(comments) if comments else 0
    comment_bodies = [c.body for c in comments]
    analyzer = SentimentIntensityAnalyzer()
    sentiment_scores = [analyzer.polarity_scores(comment)['compound'] for comment in comment_bodies]
    sentiment_avg = np.mean(sentiment_scores) if sentiment_scores else 0
    sentiment_variance = np.var(sentiment_scores) if sentiment_scores else 0
    comment_similarity_avg = 0.0
    if len(comment_bodies) > 1:
        try:
            vectorizer = TfidfVectorizer(stop_words='english').fit_transform(comment_bodies)
            cosine_matrix = cosine_similarity(vectorizer)
            upper_triangle_indices = np.triu_indices_from(cosine_matrix, k=1)
            if upper_triangle_indices[0].size > 0:
                comment_similarity_avg = np.mean(cosine_matrix[upper_triangle_indices])
        except ValueError:
            comment_similarity_avg = 0.0
    exact_duplicate_ratio = 0.0
    if len(comment_bodies) > 0:
        num_unique_comments = len(set(comment_bodies))
        exact_duplicate_ratio = (len(comment_bodies) - num_unique_comments) / len(comment_bodies)
    features = {
        'account_age_days': account_age_days, 'karma_ratio': karma_ratio,
        'avg_time_between_posts_sec': avg_time_between_posts_sec, 'subreddit_entropy': subreddit_entropy,
        'username_is_pattern': username_is_pattern, 'comment_length_variance': comment_length_variance,
        'submission_comment_ratio': submission_comment_ratio, 'link_in_comment_ratio': link_in_comment_ratio,
        'sentiment_avg': sentiment_avg, 'sentiment_variance': sentiment_variance,
        'comment_similarity_avg': comment_similarity_avg, 'exact_duplicate_ratio': exact_duplicate_ratio,
    }
    return features

def analyze_with_llm(username, reddit_instance, metrics_data, model_name="gemini-1.5-flash"):
    """Usa um LLM (Gemini) para analisar os dados de um usuário."""
    try:
        user = reddit_instance.redditor(username)
        comments = list(user.comments.new(limit=25))
    except Exception as e:
        return {"error": f"Não foi possível buscar os dados do usuário: {e}"}

    if len(comments) < 5:
        prompt = f"""
        Você é um analista especialista em detecção de bots na plataforma Reddit. Sua tarefa é fazer uma
        análise do usuário u/{username} baseada APENAS nos seus dados quantitativos, pois
        ele não possui comentários recentes suficientes para uma análise de texto.

        --- DADOS QUANTITATIVOS ---
        * Idade da Conta (dias): {metrics_data.get('account_age_days', 'N/A')} (Contas muito novas são suspeitas)
        * Proporção de Karma (comentário/link): {metrics_data.get('karma_ratio', 0.0):.2f} (Valores extremos podem ser suspeitos)
        * Taxa de Duplicação Exata de Comentários: {metrics_data.get('exact_duplicate_ratio', 0.0):.2f} (Uma taxa > 0.25 é forte sinal de bot)
        * Tempo Médio entre Atividades (segundos): {metrics_data.get('avg_time_between_posts_sec', 0.0):.2f} (Valores muito baixos podem indicar automação)
        * Entropia de Subreddits: {metrics_data.get('subreddit_entropy', 0.0):.2f} (Valores muito baixos indicam atividade concentrada)
        * Variância do Tamanho dos Comentários: {metrics_data.get('comment_length_variance', 0.0):.2f} (Próximo de zero indica comentários de tamanho similar)
        ---

        Com base APENAS nos dados quantitativos acima, faça sua avaliação final.

        Responda estritamente no formato JSON a seguir, sem texto adicional:
        {{
          "veredicto": "bot" | "humano",
          "confianca": <um número de 0.0 a 1.0>,
          "justificativa": "<uma análise concisa de 2-3 frases explicando sua decisão com base APENAS nos dados numéricos. Mencione a ausência de comentários.>"
        }}
        """
    else:
        comment_list_for_prompt = "\\n".join([f"{i+1}. {c.body.strip()}" for i, c in enumerate(comments)])
        prompt = f"""
        Você é um analista especialista em detecção de bots na plataforma Reddit. Sua tarefa é fazer uma
        análise híbrida, considerando tanto os dados quantitativos quanto o conteúdo dos comentários
        recentes do usuário u/{username}.

        --- DADOS QUANTITATIVOS ---\n
        * Idade da Conta (dias): {metrics_data.get('account_age_days', 'N/A')} (Contas muito novas são mais suspeitas)\n
        * Proporção de Karma (comentário/link): {metrics_data.get('karma_ratio', 0.0):.2f} (Valores extremos podem ser suspeitos)\n
        * Taxa de Duplicação Exata de Comentários: {metrics_data.get('exact_duplicate_ratio', 0.0):.2f} (Uma taxa acima de 0.25 é um forte sinal de bot)

        --- COMENTÁRIOS RECENTES ({len(comments)}) ---\n
        {comment_list_for_prompt}\n
        ---

        Com base em TODOS os dados acima (quantitativos e textuais), faça sua avaliação final.
        Considere como os dados numéricos reforçam ou contradizem a análise do texto.

        Responda estritamente no formato JSON a seguir, sem texto adicional:
        {{
          "veredicto": "bot" | "humano",
          "confianca": <um número de 0.0 a 1.0>,
          "justificativa": "<uma análise concisa de 2-3 frases explicando sua decisão com base nos dados e nos comentários>"
        }}
        """
    try:
        model = genai.GenerativeModel(model_name)
        response = model.generate_content(prompt)
        cleaned_response = response.text.strip().replace("```json", "").replace("```", "")
        return json.loads(cleaned_response)
    except Exception as e:
        return {"error": f"Erro ao analisar com o LLM: {e}", "raw_response": response.text if 'response' in locals() else ""}


# --- 3. GRADIO INTERFACE LOGIC ---
# This cell contains the functions that will power the Gradio interface.

def setup_apis(google_key, reddit_id, reddit_secret, reddit_agent):
    """Configura as APIs com as chaves fornecidas pela interface."""
    global reddit_instance, user_db, is_configured
    
    # Configurar Google AI
    try:
        genai.configure(api_key=google_key)
    except Exception as e:
        return f"❌ Erro na configuração do Google AI: {e}", gr.update(visible=False), gr.update(visible=False)

    # Configurar Reddit PRAW
    try:
        reddit_instance = praw.Reddit(
            client_id=reddit_id,
            client_secret=reddit_secret,
            user_agent=reddit_agent
        )
        if reddit_instance.read_only:
            status_msg = "✅ APIs configuradas (Reddit em modo somente leitura)."
        else:
            status_msg = f"✅ APIs configuradas (Reddit autenticado como u/{reddit_instance.user.me()})."
    except Exception as e:
        return f"❌ Erro na configuração do Reddit PRAW: {e}", gr.update(visible=False), gr.update(visible=False)

    # Carregar banco de dados
    user_db = load_database()
    status_msg += f"\n💾 Banco de dados carregado com {len(user_db)} entradas."
    is_configured = True
    
    # Retorna a mensagem de status e mostra os próximos elementos da UI
    return status_msg, gr.update(visible=True), gr.update(visible=True)


def run_full_analysis(url):
    """Função principal que é acionada pelo botão 'Analisar'."""
    if not is_configured or not reddit_instance:
        return "Erro: As APIs não foram configuradas. Por favor, preencha e salve suas credenciais primeiro.", "", "", gr.update(visible=False), None

    match = re.search(r"/user/([A-Za-z0-9_-]+)", url)
    if not match:
        return "❌ URL inválida. Use o formato: https://www.reddit.com/user/username/", "", "", gr.update(visible=False), None
    
    username = match.group(1)
    
    # 1. Análise de Métricas
    status_log = f"📡 1/2: Calculando métricas para u/{username}..."
    yield status_log, "", "", gr.update(visible=False), None
    
    features = analyze_user_live(username, reddit_instance)
    if "error" in features:
        error_msg = f"❌ Erro na análise de métricas: {features['error']}"
        yield error_msg, "", "", gr.update(visible=False), None
        return

    metrics_md = "### 📈 Métricas Quantitativas\n---\n"
    for key, value in features.items():
        metrics_md += f"- **{key.replace('_', ' ').title()}**: {value:.4f}\n"
    
    # 2. Análise com LLM
    status_log += f"\n🧠 2/2: Solicitando análise do Gemini para u/{username}..."
    yield status_log, metrics_md, "", gr.update(visible=False), None
    
    llm_analysis = analyze_with_llm(username, reddit_instance, features)
    
    if "error" in llm_analysis:
        error_msg = f"❌ Erro na análise do LLM: {llm_analysis['error']}"
        ai_verdict_md = f"### 🤖 Veredito da IA\n---\n{error_msg}"
        status_log += "\n❌ Análise falhou."
        yield status_log, metrics_md, ai_verdict_md, gr.update(visible=False), None
        return

    verdict = llm_analysis.get('veredicto', 'N/A').upper()
    confidence = llm_analysis.get('confianca', 0.0)
    justification = llm_analysis.get('justificativa', 'N/A')

    emoji = "🤖" if verdict == "BOT" else "🧑"
    ai_verdict_md = f"### {emoji} Veredito da IA\n---\n"
    ai_verdict_md += f"**Veredito:** `{verdict}`\n\n"
    ai_verdict_md += f"**Confiança:** `{confidence:.2%}`\n\n"
    ai_verdict_md += f"**Justificativa:** *{justification}*"

    status_log += f"\n✅ Análise concluída! Veredito: {verdict}. Por favor, salve seu veredito final."

    # Retorna todos os resultados e mostra os botões de salvar
    yield status_log, metrics_md, ai_verdict_md, gr.update(visible=True), features


def save_final_verdict(features, label):
    """Salva a entrada no banco de dados com o rótulo final do usuário."""
    global user_db
    if features is None:
        return "Nada para salvar.", f"💾 Banco de dados: {len(user_db)} entradas."

    is_bot_label = 1 if label == 'bot' else 0
    features['is_bot'] = is_bot_label
    
    new_entry = pd.DataFrame([features])
    user_db = pd.concat([user_db, new_entry], ignore_index=True)
    user_db.to_csv(DATABASE_FILE, index=False)
    
    confirmation_msg = f"✅ Veredito '{label.upper()}' salvo! O banco de dados agora tem {len(user_db)} entradas."
    db_status_msg = f"💾 Banco de dados: {len(user_db)} entradas. Salvo em '{DATABASE_FILE}'."
    
    return confirmation_msg, db_status_msg

# --- 4. GRADIO UI DEFINITION ---
# Esta célula constrói e executa a interface web.

with gr.Blocks(theme=gr.themes.Soft(), title="Reddit Bot Detector") as demo:
    gr.Markdown("# 🤖 Reddit Bot Detector com IA Híbrida")
    gr.Markdown("Uma ferramenta para analisar perfis de usuários do Reddit usando métricas quantitativas e análise da IA do Google (Gemini).")

    # Estado para armazenar os 'features' entre a análise e o salvamento
    analysis_features = gr.State(value=None)
    
    with gr.Accordion("🔑 Configuração de APIs (Obrigatório)", open=True) as setup_accordion:
        with gr.Row():
            google_key_input = gr.Textbox(label="Google AI API Key", type="password")
        with gr.Row():
            reddit_id_input = gr.Textbox(label="Reddit Client ID", type="password")
            reddit_secret_input = gr.Textbox(label="Reddit Client Secret", type="password")
            reddit_agent_input = gr.Textbox(label="Reddit User Agent", value="SubredditAnalyzer/1.0 by YourUsername")
        setup_button = gr.Button("Salvar Credenciais e Iniciar")
    
    status_log_box = gr.Textbox(label="Status", interactive=False, lines=2)
    
    # ❗️ CORREÇÃO: Trocado gr.Box por gr.Group
    with gr.Group(visible=False) as analysis_box:
        with gr.Row():
            url_input = gr.Textbox(label="URL do Perfil do Usuário Reddit", placeholder="https://www.reddit.com/user/SomeUser")
            analyze_button = gr.Button("🔍 Analisar", variant="primary")
        
        with gr.Row():
            metrics_output = gr.Markdown(label="Métricas Quantitativas")
            ai_verdict_output = gr.Markdown(label="Veredito da IA")
    
    # ❗️ CORREÇÃO: Trocado gr.Box por gr.Group
    with gr.Group(visible=False) as verdict_box:
        gr.Markdown("--- \n### 👉 Qual é o seu veredito final?")
        gr.Markdown("Com base nos dados acima, classifique o usuário. Sua resposta treinará o modelo futuro.")
        with gr.Row():
            save_bot_button = gr.Button("CONFIRMAR COMO BOT 🤖")
            save_human_button = gr.Button("CONFIRMAR COMO HUMANO 🧑")
        db_status_box = gr.Textbox(label="Status do Banco de Dados", interactive=False)

    # Lógica dos Eventos da UI
    setup_button.click(
        fn=setup_apis,
        inputs=[google_key_input, reddit_id_input, reddit_secret_input, reddit_agent_input],
        outputs=[status_log_box, analysis_box, verdict_box]
    )
    
    analyze_button.click(
        fn=run_full_analysis,
        inputs=[url_input],
        outputs=[status_log_box, metrics_output, ai_verdict_output, verdict_box, analysis_features]
    )
    
    save_bot_button.click(
        fn=lambda features: save_final_verdict(features, 'bot'),
        inputs=[analysis_features],
        outputs=[status_log_box, db_status_box]
    )
    
    save_human_button.click(
        fn=lambda features: save_final_verdict(features, 'human'),
        inputs=[analysis_features],
        outputs=[status_log_box, db_status_box]
    )

# Inicia a interface
demo.launch(debug=True, share=True)

  error: subprocess-exited-with-error
  
  Preparing metadata (pyproject.toml) did not run successfully.
  exit code: 1
  
  [21 lines of output]
  + C:\Users\rrdki\Documents\Anaconda\doc\python.exe C:\Users\rrdki\AppData\Local\Temp\pip-install-19r5zf5u\numpy_2efa80043511440baf3844482a3b211a\vendored-meson\meson\meson.py setup C:\Users\rrdki\AppData\Local\Temp\pip-install-19r5zf5u\numpy_2efa80043511440baf3844482a3b211a C:\Users\rrdki\AppData\Local\Temp\pip-install-19r5zf5u\numpy_2efa80043511440baf3844482a3b211a\.mesonpy-md7m7zul -Dbuildtype=release -Db_ndebug=if-release -Db_vscrt=md --native-file=C:\Users\rrdki\AppData\Local\Temp\pip-install-19r5zf5u\numpy_2efa80043511440baf3844482a3b211a\.mesonpy-md7m7zul\meson-python-native-file.ini
  The Meson build system
  Version: 1.2.99
  Source dir: C:\Users\rrdki\AppData\Local\Temp\pip-install-19r5zf5u\numpy_2efa80043511440baf3844482a3b211a
  Build dir: C:\Users\rrdki\AppData\Local\Temp\pip-install-19r5zf5u\numpy_2efa80043511440baf3844482a3b21

* Running on local URL:  http://127.0.0.1:7860
* Running on public URL: https://ce689b1746565ccbfe.gradio.live

This share link expires in 1 week. For free permanent hosting and GPU upgrades, run `gradio deploy` from the terminal in the working directory to deploy to Hugging Face Spaces (https://huggingface.co/spaces)
