In [5]:
import os
import pandas as pd

# Fun√ß√£o para juntar todos os arquivos CSV de uma pasta em um √∫nico DataFrame
def juntar_csvs(pasta, arquivo_saida):
    arquivos = [os.path.join(pasta, f) for f in os.listdir(pasta) if f.endswith('.csv')]
    dfs = [pd.read_csv(f) for f in arquivos]
    df_final = pd.concat(dfs, ignore_index=True)
    df_final.to_csv(arquivo_saida, index=False)
    print(f"Arquivo salvo: {arquivo_saida}")

# Juntar arquivos de comments
juntar_csvs('dataset/comments', 'dataset/comments.csv')

# Juntar arquivos de subreddits
juntar_csvs('dataset/subreddits', 'dataset/subreddits.csv')

Arquivo salvo: dataset/comments.csv
Arquivo salvo: dataset/subreddits.csv


In [7]:
import pandas as pd
import re
import os

print("Carregando os datasets...")

# Defina os nomes dos seus arquivos aqui
posts_file = 'dataset/subreddits.csv'
comments_file = 'dataset/comments.csv'

# Carrega os arquivos CSV para DataFrames do pandas
try:
    df_posts = pd.read_csv(posts_file)
    df_comments = pd.read_csv(comments_file)
    print(f"Carregados com sucesso!")
    print(f"Posts: {len(df_posts)} linhas")
    print(f"Coment√°rios: {len(df_comments)} linhas")
except FileNotFoundError:
    print(f"Erro: Arquivos n√£o encontrados. Verifique se os nomes '{posts_file}' e '{comments_file}' est√£o corretos e na pasta 'data'.")

Carregando os datasets...
Carregados com sucesso!
Posts: 6687 linhas
Coment√°rios: 61472 linhas


In [8]:
# 1. Removendo posts duplicados
posts_originais = len(df_posts)
df_posts.drop_duplicates(subset=['id'], inplace=True)
print(f"Removidos {posts_originais - len(df_posts)} posts duplicados.")

# 2. Fun√ß√£o para remover emojis
def remove_emojis(text):
    if not isinstance(text, str):
        return text
    # Regex que encontra a maioria dos emojis e outros s√≠mbolos
    emoji_pattern = re.compile(
        "["
        "\U0001F600-\U0001F64F"  # emoticons
        "\U0001F300-\U0001F5FF"  # symbols & pictographs
        "\U0001F680-\U0001F6FF"  # transport & map symbols
        "\U0001F1E0-\U0001F1FF"  # flags (iOS)
        "\U00002702-\U000027B0"
        "\U000024C2-\U0001F251"
        "]+",
        flags=re.UNICODE,
    )
    return emoji_pattern.sub(r'', text)

print("\nLimpando emojis dos t√≠tulos e corpos dos posts e coment√°rios...")
df_posts['title'] = df_posts['title'].apply(remove_emojis)
df_posts['body'] = df_posts['body'].apply(remove_emojis)
df_comments['body'] = df_comments['body'].apply(remove_emojis)

print("Limpeza de emojis conclu√≠da.")
df_posts.head()

Removidos 0 posts duplicados.

Limpando emojis dos t√≠tulos e corpos dos posts e coment√°rios...
Limpeza de emojis conclu√≠da.


Unnamed: 0,id,title,body,author,score,upvote_ratio,num_comments,created_utc,subreddit,keyword,method,time_filter,year,month
0,11a27vu,eu_nvr,,umapessoaonline,7948,1.0,79,1677171000.0,eu_nvr,GPT,praw_search_all,all,2023,2
1,14uyust,Eu_nvr,,Priffos,2693,0.99,98,1688910000.0,eu_nvr,Algoritmos de IA,praw_search_all,all,2023,7
2,1hmq4rw,Euü§ñnvr,,Murilo_Br23,2278,0.99,47,1735226000.0,eu_nvr,GPT,praw_search_all,all,2024,12
3,1glbrnm,eu_nvr,,RevolutionaryWhale,2216,1.0,15,1730934000.0,eu_nvr,Transformers,praw_search_all,all,2024,11
4,1087c0v,Eu_nvr,,LordTaw,2065,0.98,48,1673349000.0,eu_nvr,Algoritmos de IA,praw_search_all,all,2023,1


In [9]:
print("Iniciando a filtragem de posts com corpo vazio e sem coment√°rios...")

# Primeiro, contamos quantos coment√°rios cada post tem
comment_counts = df_comments['post_id'].value_counts().reset_index()
comment_counts.columns = ['post_id', 'comment_count']

# Agora, juntamos essa contagem de volta ao DataFrame de posts
# Usamos 'left' para manter todos os posts, mesmo os que n√£o t√™m coment√°rios (eles ficar√£o com NaN)
df_posts = pd.merge(df_posts, comment_counts, left_on='id', right_on='post_id', how='left')

# Preenchemos os posts sem coment√°rios com 0
df_posts['comment_count'].fillna(0, inplace=True)
df_posts['comment_count'] = df_posts['comment_count'].astype(int)

# Preenchemos corpos vazios (NaN) com uma string vazia para a verifica√ß√£o
df_posts['body'].fillna('', inplace=True)

# Armazenamos o n√∫mero de posts antes de filtrar
total_antes_filtro = len(df_posts)

# Aplicamos o filtro: selecionamos os posts que N√ÉO atendem √† condi√ß√£o de remo√ß√£o
# Condi√ß√£o para manter: (corpo N√ÉO √© vazio) OU (contagem de coment√°rios > 0)
filtro_manter = (df_posts['body'].str.strip() != '') | (df_posts['comment_count'] > 0)
df_posts_filtrado = df_posts[filtro_manter].copy()

# Remove as colunas auxiliares que n√£o precisamos mais
df_posts_filtrado.drop(columns=['post_id', 'comment_count'], inplace=True)

print(f"\nFiltro conclu√≠do!")
print(f"N√∫mero de posts antes da filtragem: {total_antes_filtro}")
print(f"N√∫mero de posts ap√≥s a filtragem: {len(df_posts_filtrado)}")
print(f"Total de {total_antes_filtro - len(df_posts_filtrado)} posts removidos (corpo vazio e sem coment√°rios).")

Iniciando a filtragem de posts com corpo vazio e sem coment√°rios...

Filtro conclu√≠do!
N√∫mero de posts antes da filtragem: 6687
N√∫mero de posts ap√≥s a filtragem: 6657
Total de 30 posts removidos (corpo vazio e sem coment√°rios).


In [11]:
# Criar o diret√≥rio de sa√≠da se n√£o existir
output_dir = 'dataset/limpos'
os.makedirs(output_dir, exist_ok=True)

# Nomes dos novos arquivos
posts_limpos_file = os.path.join(output_dir, 'posts_limpos.csv')
comments_limpos_file = os.path.join(output_dir, 'comments_limpos.csv')

print(f"Salvando arquivos limpos em '{output_dir}'...")

# Salva os dataframes
df_posts_filtrado.to_csv(posts_limpos_file, index=False, encoding='utf-8-sig')
df_comments.to_csv(comments_limpos_file, index=False, encoding='utf-8-sig')

print(f"Posts limpos salvos em: '{posts_limpos_file}'")
print(f"Coment√°rios (com emojis removidos) salvos em: '{comments_limpos_file}'")

Salvando arquivos limpos em 'dataset/limpos'...
Posts limpos salvos em: 'dataset/limpos/posts_limpos.csv'
Coment√°rios (com emojis removidos) salvos em: 'dataset/limpos/comments_limpos.csv'


In [13]:
import pandas as pd
import os
from tqdm.auto import tqdm

# Configura o pandas para n√£o truncar a exibi√ß√£o das colunas de texto
pd.set_option('display.max_colwidth', None)
# Registra o tqdm para poder usar o .progress_apply()
tqdm.pandas()

print("Carregando os datasets limpos...")

# Caminhos para os arquivos gerados no passo anterior
posts_file = 'dataset/limpos/posts_limpos.csv'
comments_file = 'dataset/limpos/comments_limpos.csv'

try:
    df_posts = pd.read_csv(posts_file)
    df_comments = pd.read_csv(comments_file)
    print("Arquivos carregados com sucesso!")
    print(f"Posts para an√°lise: {len(df_posts)}")
    print(f"Coment√°rios para an√°lise: {len(df_comments)}")
except FileNotFoundError:
    print(f"Erro: Arquivos n√£o encontrados. Verifique se os arquivos '{posts_file}' e '{comments_file}' existem.")

Carregando os datasets limpos...
Arquivos carregados com sucesso!
Posts para an√°lise: 6657
Coment√°rios para an√°lise: 61472


In [14]:
print("Otimizando a estrutura de coment√°rios para busca r√°pida...")

# Garante que n√£o h√° valores nulos no corpo dos coment√°rios
df_comments['body'].fillna('', inplace=True)

# Agrupa os coment√°rios por post_id e junta todos os corpos em uma √∫nica string
# Usamos .lower() aqui para j√° deixar o texto pronto para a busca case-insensitive
comments_grouped = df_comments.groupby('post_id')['body'].apply(lambda x: ' '.join(x).lower())

# Converte a S√©rie agrupada para um dicion√°rio para acesso O(1) (muito r√°pido)
comments_dict = comments_grouped.to_dict()

print("Estrutura de coment√°rios pronta para verifica√ß√£o.")

Otimizando a estrutura de coment√°rios para busca r√°pida...
Estrutura de coment√°rios pronta para verifica√ß√£o.


In [16]:
def verificar_relevancia(row):
    """
    Verifica se um post √© relevante.
    Retorna True se a keyword exata est√° no post ou em seus coment√°rios.
    """
    # Pega os dados da linha (do post)
    post_id = row['id']
    keyword = str(row['keyword']).lower() # Keyword do post em min√∫sculo
    
    # Concatena t√≠tulo e corpo do post, tratando valores nulos e convertendo para min√∫sculo
    titulo = str(row['title']).lower() if pd.notna(row['title']) else ''
    corpo_post = str(row['body']).lower() if pd.notna(row['body']) else ''
    texto_post = titulo + ' ' + corpo_post
    
    # 1. Verifica se a keyword exata est√° no pr√≥prio post
    if keyword in texto_post:
        return True
    
    # 2. Se n√£o estiver, busca a keyword em todos os coment√°rios associados ao post
    if post_id in comments_dict:
        texto_comentarios = comments_dict[post_id]
        if keyword in texto_comentarios:
            return True
            
    # 3. Se n√£o encontrou em nenhum lugar, o post n√£o √© relevante
    return False

In [17]:
print("Aplicando o filtro de relev√¢ncia em todos os posts. Isso pode levar alguns minutos...")

# Aplica a fun√ß√£o para criar uma nova coluna booleana ('relevante')
df_posts['relevante'] = df_posts.progress_apply(verificar_relevancia, axis=1)

# Filtra o DataFrame de posts para manter apenas as linhas marcadas como relevantes
df_posts_final = df_posts[df_posts['relevante'] == True].copy()

# Remove a coluna auxiliar 'relevante'
df_posts_final.drop(columns=['relevante'], inplace=True)

print("\n--- Resultados da Filtragem ---")
total_antes = len(df_posts)
total_depois = len(df_posts_final)
print(f"N√∫mero de posts antes da filtragem final: {total_antes}")
print(f"N√∫mero de posts ap√≥s a filtragem final (super filtrado): {total_depois}")
print(f"Total de {total_antes - total_depois} posts removidos por falta de relev√¢ncia.")

Aplicando o filtro de relev√¢ncia em todos os posts. Isso pode levar alguns minutos...


100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 6657/6657 [00:00<00:00, 20552.50it/s]


--- Resultados da Filtragem ---
N√∫mero de posts antes da filtragem final: 6657
N√∫mero de posts ap√≥s a filtragem final (super filtrado): 1202
Total de 5455 posts removidos por falta de relev√¢ncia.





In [18]:
# Pega a lista de IDs dos posts que foram mantidos
ids_relevantes = df_posts_final['id'].unique()

# Filtra o DataFrame de coment√°rios original para manter apenas os relevantes
df_comments_final = df_comments[df_comments['post_id'].isin(ids_relevantes)].copy()

# --- Salvar os arquivos finais ---
output_dir = 'data/super_filtrado'
os.makedirs(output_dir, exist_ok=True)

posts_final_file = os.path.join(output_dir, 'posts_super_filtrado.csv')
comments_final_file = os.path.join(output_dir, 'comments_super_filtrado.csv')

print(f"\nSalvando datasets super filtrados em '{output_dir}'...")

df_posts_final.to_csv(posts_final_file, index=False, encoding='utf-8-sig')
df_comments_final.to_csv(comments_final_file, index=False, encoding='utf-8-sig')

print(f"Posts finais salvos em: '{posts_final_file}' ({len(df_posts_final)} linhas)")
print(f"Coment√°rios finais salvos em: '{comments_final_file}' ({len(df_comments_final)} linhas)")


Salvando datasets super filtrados em 'data/super_filtrado'...
Posts finais salvos em: 'data/super_filtrado/posts_super_filtrado.csv' (1202 linhas)
Coment√°rios finais salvos em: 'data/super_filtrado/comments_super_filtrado.csv' (8202 linhas)


In [19]:
import pandas as pd
import re
import os
import logging

# Configura√ß√£o do logging
logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')

# Caminhos para os arquivos gerados na √∫ltima etapa de filtragem
POSTS_FILE = 'data/super_filtrado/posts_super_filtrado.csv'
COMMENTS_FILE = 'data/super_filtrado/comments_super_filtrado.csv'
OUTPUT_FILE = 'data/dataset_unificado_para_analise.csv'

print("Carregando datasets super filtrados...")
try:
    df_posts = pd.read_csv(POSTS_FILE, dtype={'id': str})
    df_comments = pd.read_csv(COMMENTS_FILE, dtype={'id': str, 'post_id': str})
    print(f"Carregados {len(df_posts)} posts e {len(df_comments)} coment√°rios.")
except FileNotFoundError as e:
    logging.error(f"Erro: Arquivo n√£o encontrado. {e}. Verifique o caminho dos arquivos.")

Carregando datasets super filtrados...
Carregados 1202 posts e 8202 coment√°rios.


In [20]:
logging.info("Iniciando a unifica√ß√£o...")

# --- 1. PREPARA√á√ÉO DOS POSTS ---
# Cria a coluna de texto principal juntando t√≠tulo e corpo
df_posts['text'] = df_posts['title'].fillna('') + ' ' + df_posts['body'].fillna('')
# Renomeia 'id' para 'doc_id' (ID do Documento) para padronizar
df_posts.rename(columns={'id': 'doc_id'}, inplace=True)
# Cria uma coluna para identificar o tipo de documento
df_posts['doc_type'] = 'post'
# Seleciona as colunas que queremos manter para a an√°lise final
posts_final = df_posts[['doc_id', 'doc_type', 'text', 'created_utc', 'score', 'num_comments', 'subreddit', 'category', 'keyword']]


# --- 2. PREPARA√á√ÉO DOS COMENT√ÅRIOS ---
# Renomeia 'id' para 'doc_id' e 'body' para 'text' para compatibilidade
df_comments.rename(columns={'id': 'doc_id', 'body': 'text'}, inplace=True)
# Adiciona a coluna de tipo de documento
df_comments['doc_type'] = 'comment'
# Coment√°rios n√£o t√™m "num_comments", ent√£o preenchemos com 0 para manter a estrutura
df_comments['num_comments'] = 0
# Seleciona as colunas finais, mantendo 'post_id' para rastrear a origem
comments_final = df_comments[['doc_id', 'doc_type', 'text', 'created_utc', 'score', 'num_comments', 'subreddit', 'post_id', 'keyword']]
# Adiciona a coluna 'category' que pode estar faltando nos coment√°rios
# (Se precisar, podemos buscar a categoria do post original)
if 'category' not in comments_final.columns:
    # Mapeia a categoria do post pai para cada coment√°rio
    category_map = df_posts.set_index('doc_id')['category']
    comments_final['category'] = comments_final['post_id'].map(category_map)


# --- 3. CONCATENA√á√ÉO ---
df_unificado = pd.concat([posts_final, comments_final], ignore_index=True)
logging.info(f"Unifica√ß√£o completa. O dataset final tem {len(df_unificado)} documentos.")

# --- 4. LIMPEZA LEVE FINAL ---
# Aplica a mesma limpeza leve para remover URLs, etc., garantindo consist√™ncia
def light_clean(text):
    if not isinstance(text, str):
        return ""
    text = re.sub(r'http\S+|www\S+|https\S+', '', text, flags=re.MULTILINE)
    text = re.sub(r'\[\s*(removido|deletado)\s*\]', '', text, flags=re.IGNORECASE)
    text = re.sub(r'\s+', ' ', text).strip()
    return text

df_unificado['text_cleaned'] = df_unificado['text'].apply(light_clean)
df_unificado = df_unificado[df_unificado['text_cleaned'].str.strip() != ''].copy()

# --- 5. SALVAR ---
os.makedirs('data', exist_ok=True)
df_unificado.to_csv(OUTPUT_FILE, index=False, encoding='utf-8-sig')

logging.info(f"Dataset unificado salvo com sucesso em '{OUTPUT_FILE}'. Total de {len(df_unificado)} linhas prontas para a classifica√ß√£o com LLM.")

df_unificado.head()

2025-08-06 18:31:08,460 - INFO - Iniciando a unifica√ß√£o...


KeyError: "['category'] not in index"

In [21]:
import pandas as pd
import re
import os
import logging

# Configura√ß√£o do logging
logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')

# Caminhos para os arquivos gerados na √∫ltima etapa de filtragem
POSTS_FILE = 'data/super_filtrado/posts_super_filtrado.csv'
COMMENTS_FILE = 'data/super_filtrado/comments_super_filtrado.csv'
OUTPUT_FILE = 'data/dataset_unificado_para_analise.csv'

print("Carregando datasets super filtrados...")
try:
    df_posts = pd.read_csv(POSTS_FILE, dtype={'id': str})
    df_comments = pd.read_csv(COMMENTS_FILE, dtype={'id': str, 'post_id': str})
    print(f"Carregados {len(df_posts)} posts e {len(df_comments)} coment√°rios.")
except FileNotFoundError as e:
    logging.error(f"Erro: Arquivo n√£o encontrado. {e}. Verifique o caminho dos arquivos.")
# ==============================================================================
#                             IN√çCIO DA CORRE√á√ÉO
# ==============================================================================
logging.info("Iniciando a unifica√ß√£o...")

# --- 1.5 RECRIAR A COLUNA 'category' ---
# Definimos aqui o mapeamento original de subreddits para categorias
category_mapping = {
    'geral': ['brasil', 'brasil2', 'conversas', 'PergunteReddit', 'r/BrasilOnReddit'],
    'tecnologia': ['brdev', 'datasciencebr', 'chatgpt_brasil', 'computadores',
                   'WindowsBrasil', 'Aplicativo', 'AssistenciaTecnica',
                   'Programadores_Alados', 'hardwarebrasil', 'Linuxbrasil', 'programacao']
}

# Invertemos o dicion√°rio para mapear cada subreddit √† sua categoria
subreddit_to_category = {sub: cat for cat, subs in category_mapping.items() for sub in subs}

# Criamos a coluna 'category' no DataFrame de posts
df_posts['category'] = df_posts['subreddit'].map(subreddit_to_category)
# Preenchemos qualquer valor n√£o mapeado como 'outro' para seguran√ßa
df_posts['category'].fillna('outro', inplace=True)

logging.info("Coluna 'category' recriada com sucesso nos posts.")
# ==============================================================================
#                              FIM DA CORRE√á√ÉO
# ==============================================================================

# --- 2. PREPARA√á√ÉO DOS POSTS ---
df_posts['text'] = df_posts['title'].fillna('') + ' ' + df_posts['body'].fillna('')
df_posts.rename(columns={'id': 'doc_id'}, inplace=True)
df_posts['doc_type'] = 'post'
posts_final = df_posts[['doc_id', 'doc_type', 'text', 'created_utc', 'score', 'num_comments', 'subreddit', 'category', 'keyword']]


# --- 3. PREPARA√á√ÉO DOS COMENT√ÅRIOS ---
df_comments.rename(columns={'id': 'doc_id', 'body': 'text'}, inplace=True)
df_comments['doc_type'] = 'comment'
df_comments['num_comments'] = 0

# CORRE√á√ÉO ADICIONAL: Mapeia a categoria do post pai para cada coment√°rio
category_map = df_posts.set_index('doc_id')['category']
df_comments['category'] = df_comments['post_id'].map(category_map)
# Remove coment√°rios cujo post pai n√£o existe mais no df_posts (foram filtrados)
df_comments.dropna(subset=['category'], inplace=True)

comments_final = df_comments[['doc_id', 'doc_type', 'text', 'created_utc', 'score', 'num_comments', 'subreddit', 'post_id', 'keyword', 'category']]


# --- 4. CONCATENA√á√ÉO ---
df_unificado = pd.concat([posts_final, comments_final], ignore_index=True)
logging.info(f"Unifica√ß√£o completa. O dataset final tem {len(df_unificado)} documentos.")

# --- 5. LIMPEZA LEVE FINAL ---
def light_clean(text):
    if not isinstance(text, str):
        return ""
    text = re.sub(r'http\S+|www\S+|https\S+', '', text, flags=re.MULTILINE)
    text = re.sub(r'\[\s*(removido|deletado)\s*\]', '', text, flags=re.IGNORECASE)
    text = re.sub(r'\s+', ' ', text).strip()
    return text

df_unificado['text_cleaned'] = df_unificado['text'].apply(light_clean)
df_unificado = df_unificado[df_unificado['text_cleaned'].str.strip() != ''].copy()

# --- 6. SALVAR ---
os.makedirs('data', exist_ok=True)
df_unificado.to_csv(OUTPUT_FILE, index=False, encoding='utf-8-sig')

logging.info(f"Dataset unificado salvo com sucesso em '{OUTPUT_FILE}'. Total de {len(df_unificado)} linhas prontas para a classifica√ß√£o com LLM.")

df_unificado.head()

2025-08-06 18:33:17,801 - INFO - Iniciando a unifica√ß√£o...
2025-08-06 18:33:17,805 - INFO - Coluna 'category' recriada com sucesso nos posts.
2025-08-06 18:33:17,849 - INFO - Unifica√ß√£o completa. O dataset final tem 9404 documentos.


Carregando datasets super filtrados...
Carregados 1202 posts e 8202 coment√°rios.


2025-08-06 18:33:18,337 - INFO - Dataset unificado salvo com sucesso em 'data/dataset_unificado_para_analise.csv'. Total de 9337 linhas prontas para a classifica√ß√£o com LLM.


Unnamed: 0,doc_id,doc_type,text,created_utc,score,num_comments,subreddit,category,keyword,post_id,text_cleaned
0,11a27vu,post,eu_nvr,1677171000.0,7948,79,eu_nvr,outro,GPT,,eu_nvr
1,1hmq4rw,post,Euü§ñnvr,1735226000.0,2278,47,eu_nvr,outro,GPT,,Euü§ñnvr
2,1glbrnm,post,eu_nvr,1730934000.0,2216,15,eu_nvr,outro,Transformers,,eu_nvr
3,1hl2hd6,post,Eu_NVR,1735003000.0,1653,23,eu_nvr,outro,GPT,,Eu_NVR
4,18nbq7d,post,eu_nvr,1703125000.0,1194,19,eu_nvr,outro,GPT,,eu_nvr


In [22]:
import pandas as pd
import os

print("Carregando o dataset unificado para a limpeza final...")

# Caminho para o arquivo gerado na etapa anterior
UNIFIED_FILE = 'data/dataset_unificado_para_analise.csv'
FINAL_OUTPUT_FILE = 'data/dataset_final_pronto_para_llm.csv'

try:
    df = pd.read_csv(UNIFIED_FILE, dtype={'doc_id': str, 'post_id': str})
    print(f"Dataset carregado com sucesso! Cont√©m {len(df)} linhas.")
except FileNotFoundError:
    print(f"Erro: Arquivo '{UNIFIED_FILE}' n√£o encontrado. Verifique se a etapa anterior foi conclu√≠da com sucesso.")

Carregando o dataset unificado para a limpeza final...
Dataset carregado com sucesso! Cont√©m 9337 linhas.


In [24]:
print("Iniciando a remo√ß√£o de posts com a keyword 'agi' e seus respectivos coment√°rios...")

# 1. Identificar os IDs dos posts que foram capturados pela keyword 'agi'
# N√≥s olhamos apenas os documentos do tipo 'post' para pegar o ID original da discuss√£o.
post_ids_to_remove = set(df.loc[(df['keyword'] == 'agi') & (df['doc_type'] == 'post'), 'doc_id'])

if not post_ids_to_remove:
    print("Nenhum post encontrado com a keyword 'agi'. Nenhuma remo√ß√£o necess√°ria.")
else:
    print(f"Encontrados {len(post_ids_to_remove)} posts para remover (keyword 'agi').")

    # Armazena o n√∫mero de linhas antes da remo√ß√£o para relat√≥rio
    total_antes = len(df)

    # 2. Filtrar o DataFrame para remover os posts indesejados E seus coment√°rios
    
    # Remove os posts cuja keyword √© 'agi'
    df_final = df[~df['doc_id'].isin(post_ids_to_remove)]
    
    # Remove os coment√°rios cujo post_id corresponde a um post removido
    # Esta √© a parte crucial, garantindo que os coment√°rios associados tamb√©m sejam removidos.
    df_final = df_final[~df_final['post_id'].isin(post_ids_to_remove)]

    # 3. Salvar o DataFrame final
    os.makedirs('data', exist_ok=True)
    df_final.to_csv(FINAL_OUTPUT_FILE, index=False, encoding='utf-8-sig')
    print(f"Dataset final salvo em: '{FINAL_OUTPUT_FILE}' ({len(df_final)} linhas)")

    print("\n--- Relat√≥rio da Remo√ß√£o ---")
    print(f"Linhas antes da remo√ß√£o: {total_antes}")
    print(f"Linhas ap√≥s a remo√ß√£o: {len(df_final)}")
    print(f"Total de {total_antes - len(df_final)} linhas removidas.")

Iniciando a remo√ß√£o de posts com a keyword 'agi' e seus respectivos coment√°rios...
Encontrados 235 posts para remover (keyword 'agi').
Dataset final salvo em: 'data/dataset_final_pronto_para_llm.csv' (8102 linhas)

--- Relat√≥rio da Remo√ß√£o ---
Linhas antes da remo√ß√£o: 9337
Linhas ap√≥s a remo√ß√£o: 8102
Total de 1235 linhas removidas.
