In [1]:
import pandas as pd

In [2]:
df = pd.read_csv('../../datasets/fakeTelegram_SemTravaZap_BR_2022.csv')

In [3]:
df.shape

(557515, 21)

In [38]:
df.columns

Index(['Unnamed: 0', 'date_message', 'id_member_anonymous',
       'id_group_anonymous', 'media', 'media_type', 'media_url', 'has_media',
       'has_media_url', 'trava_zap', 'text_content_anonymous',
       'dataset_info_id', 'date_system', 'score_sentiment',
       'score_misinformation', 'id_message', 'message_type', 'messenger',
       'media_name', 'media_md5', 'caracteres_especial_count'],
      dtype='object')

In [39]:
df.dtypes

Unnamed: 0                     int64
date_message                  object
id_member_anonymous           object
id_group_anonymous            object
media                         object
media_type                    object
media_url                     object
has_media                       bool
has_media_url                   bool
trava_zap                       bool
text_content_anonymous        object
dataset_info_id                int64
date_system                   object
score_sentiment              float64
score_misinformation         float64
id_message                     int64
message_type                  object
messenger                     object
media_name                    object
media_md5                     object
caracteres_especial_count      int64
dtype: object

In [4]:
# Excluir as linhas onde 'text_content_anonymous' é nula, modificando o dataframe original
df.dropna(subset=['text_content_anonymous'], inplace=True)
df.shape

(444146, 21)

In [5]:
message_count = df['text_content_anonymous'].value_counts()
message_count.head()

text_content_anonymous
This community was blocked in Brazil following a decision of the Superior Electoral Court (TSE).                                                                                                                                                                                                                                                                         17422
Rough_sex🙈                                                                                                                                                                                                                                                                                                                                                                1134
Anal sex🙈                                                                                                                                                                                                                                          

In [31]:
message_count_df = message_count.reset_index()
message_count_df.columns = ['text_content_anonymous', 'frequencia']


In [32]:
message_count_df.shape

(265313, 2)

In [33]:
message_count_df = message_count_df[message_count_df['text_content_anonymous'].str.strip().str.split().apply(lambda x: len([w for w in x if w])) >= 5]
message_count_df.shape

(222351, 2)

In [34]:
import re
import emoji
import unidecode

def limpar_texto(texto):
    texto = texto.lower()
    texto = re.sub(r"http\S+", "", texto)  # remove URLs
    texto = emoji.replace_emoji(texto, '')  # remove emojis
    texto = re.sub(r"[^a-zA-Z0-9\s]", "", texto)  # remove pontuação
    texto = unidecode.unidecode(texto)  # remove acentos
    texto = re.sub(r"\s+", " ", texto).strip()
    return texto

message_count_df['texto_limpo'] = message_count_df['text_content_anonymous'].apply(limpar_texto)


In [35]:
message_count_df.head(30)

Unnamed: 0,text_content_anonymous,frequencia,texto_limpo
0,This community was blocked in Brazil following...,17422,this community was blocked in brazil following...
3,سکس مردان ازبک با زن انگلیسی با این vpn از سای...,1019,vpn vpn taqiqlangan saytlardan bu vpn orqali o...
6,فیلم سوپر با زیرنویس فارسی ببین😍😍\nبا این فیلت...,632,amerikalik ayolni arab erkaklari tomonidan zor...
9,We had no choice but to remain in the shadows....,480,we had no choice but to remain in the shadows ...
11,https://t.me/canalselvabrasiloficial\nSELVA BR...,461,selva brasil oficial
14,🇮🇷 سکس با دختر 14 ساله را در سایتهای پورن\nبیی...,400,14 vpn watch sex with a 14yearold girl on porn...
19,"""E conhecereis a verdade, e a verdade vos libe...",367,e conhecereis a verdade e a verdade vos libert...
21,Bem vindo(a) ao grupo Ipirá Notícias. \n\nComp...,358,bem vindoa ao grupo ipir notcias compartilhe n...
28,Vídeo de AVANY FERREIRA MULLER,195,vdeo de avany ferreira muller
30,Vídeo de Maria Teresa D Valente,189,vdeo de maria teresa d valente


In [36]:
message_count_df.describe()

Unnamed: 0,frequencia
count,222351.0
mean,1.525655
std,37.162584
min,1.0
25%,1.0
50%,1.0
75%,1.0
max,17422.0


In [None]:
!pip install sentence-transformers faiss-cpu 


In [37]:
import pandas as pd
import numpy as np
import faiss
from tqdm import tqdm

from sentence_transformers import SentenceTransformer
from collections import defaultdict


# ================================
# 3. Agrupar por texto normalizado
# ================================

df_agrupado = (
    message_count_df.groupby('texto_limpo')
          .agg({
              'frequencia': 'sum',
              'text_content_anonymous': lambda x: x.mode().iloc[0]  # pega texto original mais comum
          })
          .reset_index()
          .rename(columns={'text_content_anonymous': 'texto_original'})
)

# ================================
# 4. Embeddings
# ================================
print(" Gerando embeddings...")
model = SentenceTransformer('all-MiniLM-L6-v2')
embeddings_orig = model.encode(df_agrupado['texto_limpo'].tolist(), show_progress_bar=True)
df_agrupado['vector'] = embeddings_orig.tolist()

# ================================
# 5. Indexação com FAISS
# ================================
embeddings = np.array(embeddings_orig.copy())
dimension = embeddings.shape[1]
faiss.normalize_L2(embeddings)
index = faiss.IndexFlatIP(dimension)
index.add(embeddings)

# ================================
# 6. Busca por vizinhos
# ================================
limiar_similaridade = 0.90
k = 10

print(" Buscando vizinhos similares com FAISS...")
agrupamento = defaultdict(list)
indices_para_remover = set()

for i in tqdm(range(len(df_agrupado))):
    if i in indices_para_remover:
        continue
    vec = embeddings[i].reshape(1, -1).copy()
    D, I = index.search(vec, k)
    for sim, j in zip(D[0][1:], I[0][1:]):
        if j == -1 or j == i or j in indices_para_remover:
            continue
        if sim >= limiar_similaridade:
            agrupamento[i].append(j)
            indices_para_remover.add(j)

# ================================
# 7. Consolidar agrupamentos
# ================================
linhas_resultado = []
mensagens_utilizadas = set()
linhas_agrupadas = []

for idx_base, similares_idxs in agrupamento.items():
    if idx_base in mensagens_utilizadas:
        continue
    freq_total = df_agrupado.iloc[idx_base]['frequencia']
    mensagens_utilizadas.add(idx_base)

    for sim_idx in similares_idxs:
        freq_total += df_agrupado.iloc[sim_idx]['frequencia']
        mensagens_utilizadas.add(sim_idx)
        linhas_agrupadas.append({
            'texto_base': df_agrupado.iloc[idx_base]['texto_original'],
            'texto_similar': df_agrupado.iloc[sim_idx]['texto_original'],
            'frequencia_similar': df_agrupado.iloc[sim_idx]['frequencia']
        })

    linha = df_agrupado.iloc[idx_base].copy()
    linha['frequencia'] = freq_total
    linhas_resultado.append(linha)

# Adiciona não agrupados
indices_restantes = set(range(len(df_agrupado))) - mensagens_utilizadas
df_restantes = df_agrupado.iloc[list(indices_restantes)].copy()

# Resultados finais
df_resultado = pd.DataFrame(linhas_resultado)
df_final_total = pd.concat([df_resultado, df_restantes], ignore_index=True)
df_agrupadas = pd.DataFrame(linhas_agrupadas)

# ================================
# 8. Exibir resultados
# ================================
print(f"\ Total de mensagens finais: {len(df_final_total)}")
print(f"  Mensagens removidas por similaridade: {len(indices_para_remover)}")

print("\n Mensagens finais:")
print(df_final_total[['texto_original', 'frequencia']])

print("\n Agrupamentos realizados:")
print(df_agrupadas)

# ================================
# 9. Salvar com vetores
# ================================

# O vetor já está na coluna 'vector' de df_final_total
df_final_total[['texto_original', 'frequencia', 'vector']].to_pickle("mensagens_com_vectores.pkl")

# (opcional) salvar em CSV sem os vetores
df_final_total[['texto_original', 'frequencia']].to_csv("mensagens_com_frequencia.csv", index=False)



 Gerando embeddings...


Batches: 100%|██████████| 6721/6721 [5:39:47<00:00,  3.03s/it]   


 Buscando vizinhos similares com FAISS...


100%|██████████| 215051/215051 [7:22:11<00:00,  8.11it/s]   


\ Total de mensagens finais: 188264
  Mensagens removidas por similaridade: 28664

 Mensagens finais:
                                           texto_original  frequencia
0       ▪️ 01/11/2022 - 08:00 \n\nÁsia-Pacífico (fecha...          10
1            *02.10.2022 TSE - Governo-SP às 18h 59m 00s*           8
2              02.10.2022 TSE - Governo-SP às 20h 10m 35s           4
3            02.10.2022 TSE - Presidente - às 18h 55m 31s          10
4            *02.10.2022 TSE - Presidente às 20h 02m 45s*           3
...                                                   ...         ...
188259  ‘Zum Zum Zum’ em brasólia…\n\nA bem da paz soc...           1
188260  ZUMBI NÃO ESCOLHE LUGAR PARA MORDER. O OBJETIV...           1
188261  ZUMBIS MODIFICADOS NO DNA PELA VACINA.. NÃO SE...           2
188262  Zuverlässige und vertrauenswürdige Zahlungssei...           1
188263  Zyklon B era pra matar piolhos. A manipulação ...           1

[188264 rows x 2 columns]

 Agrupamentos realizados:
    

In [None]:
df_resultado.head()

Unnamed: 0,text_content_anonymous,frequencia
6,"""E conhecereis a verdade, e a verdade vos libe...",426
9,Vídeo de Maria Teresa D Valente,373
17,Regras do Grupo \n\n1° Regra do grupo é respei...,208
22,Vídeo de Maria Emilia Gadelha Serr,150
36,Ola! Tudo bem? A nossa enquete eleitoral esta ...,149


In [2]:
df_clear = pd.read_csv('mensagens_com_frequencia.csv')
df_clear.head()

Unnamed: 0,texto_original,frequencia
0,▪️ 01/11/2022 - 08:00 \n\nÁsia-Pacífico (fecha...,10
1,*02.10.2022 TSE - Governo-SP às 18h 59m 00s*,8
2,02.10.2022 TSE - Governo-SP às 20h 10m 35s,4
3,02.10.2022 TSE - Presidente - às 18h 55m 31s,10
4,*02.10.2022 TSE - Presidente às 20h 02m 45s*,3


In [5]:
import unidecode
import re
import emoji

# --- Função para limpar texto ---
def limpar_texto(texto):
    texto = texto.lower()
    texto = re.sub(r"http\S+", "", texto)  # remove URLs
    texto = emoji.replace_emoji(texto, '')  # remove emojis
    texto = unidecode.unidecode(texto)  # substitui acentos
    texto = re.sub(r"[^a-zA-Z0-9\s]", "", texto)  # remove pontuação
    texto = re.sub(r"\s+", " ", texto).strip()  # remove espaços extras
    return texto

# Aplicação da função na coluna
df_clear['texto_limpo'] = df_clear['texto_original'].apply(limpar_texto)


In [6]:
df_clear.head()

Unnamed: 0,texto_original,frequencia,texto_limpo
0,▪️ 01/11/2022 - 08:00 \n\nÁsia-Pacífico (fecha...,10,01112022 0800 asiapacifico fechado spasx 165 6...
1,*02.10.2022 TSE - Governo-SP às 18h 59m 00s*,8,02102022 tse governosp as 18h 59m 00s
2,02.10.2022 TSE - Governo-SP às 20h 10m 35s,4,02102022 tse governosp as 20h 10m 35s
3,02.10.2022 TSE - Presidente - às 18h 55m 31s,10,02102022 tse presidente as 18h 55m 31s
4,*02.10.2022 TSE - Presidente às 20h 02m 45s*,3,02102022 tse presidente as 20h 02m 45s


In [8]:
from unidecode import unidecode
import nltk
from nltk.corpus import stopwords
from nltk.stem import WordNetLemmatizer
import string


nltk.download('punkt')
nltk.download('stopwords')
nltk.download('wordnet')

lemmatizer = WordNetLemmatizer()
stop_words = set(stopwords.words('portuguese'))

def preprocess_text(text):

    # Função para extrair e substituir o domínio da URL
    def substituir_dominios(texto):
        # Função para extrair e substituir o domínio da URL
        def extrair_dominio(url):
            # Remove o protocolo (http://, https://, etc.) e o "www." se presente
            dominio = re.sub(r'^https?://(?:www\.)?|www\.', '', url)
            # Remove o caminho e parâmetros da URL
            dominio = re.split(r'[/?#]', dominio)[0]
            # Retorna a parte principal do domínio (antes do primeiro ponto)
            return dominio.split('.')[0]

        # Substitui URLs por seus domínios principais
        return re.sub(r'https?://(?:www\.)?\S+|www\.\S+', lambda match: extrair_dominio(match.group(0)), texto)

    # Substituir domínios
    text = substituir_dominios(text)

    # Converte para minúsculas
    text = text.lower()

    # Remove acentos
    text = unidecode(text)

    #Remover Pontuação
    text = text.translate(str.maketrans('', '', string.punctuation))

    # Remove URLs e menções
    #text = re.sub(r'http\S+|www\S+|https\S+|@\w+', '', text)

    # Substitui emojis repetidos por apenas um
    text = re.sub(r'([\U00010000-\U0010FFFF])\1+', r'\1', text)
    text = re.sub(r'([\U0001F600-\U0001F64F]|[\U0001F300-\U0001F5FF]|[\U0001F680-\U0001F6FF]|[\U0001F700-\U0001F77F]|[\U0001F780-\U0001F7FF]|[\U0001F800-\U0001F8FF]|[\U0001F900-\U0001F9FF]|[\U0001FA00-\U0001FA6F]|[\U0001FA70-\U0001FAFF])\1+', r'\1', text)


    # Remove espaços em branco extras (início ou final) e múltiplos espaços no meio do texto
    text = re.sub(r'\s+', ' ', text).strip()

    # Remove pontuações e caracteres especiais
    #text = re.sub(r'[^\w\s]', '', text)

    # Ajusta risadas "kkk" ou mais para "kk"
    text = re.sub(r'k{2,}|K{2,}', 'kk', text)

    # Ajusta risadas "haha" ou mais para "haha"
    text = re.sub(r'(ha){2,}', 'haha', text, flags=re.IGNORECASE)

    # Ajusta risadas "kaka" ou mais para "kaka"
    text = re.sub(r'(ka){2,}', 'kaka', text, flags=re.IGNORECASE)

    # Remove as stopwords
    text = ' '.join([word for word in text.split() if word not in stop_words])


    return text

dfcp = df_clear.copy()

# Aplicar o pré-processamento à coluna de texto
dfcp['text_processed'] = dfcp['texto_original'].apply(preprocess_text)

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\ACER\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\ACER\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\ACER\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


In [9]:
dfcp.head()

Unnamed: 0,texto_original,frequencia,texto_limpo,text_processed
0,▪️ 01/11/2022 - 08:00 \n\nÁsia-Pacífico (fecha...,10,01112022 0800 asiapacifico fechado spasx 165 6...,01112022 0800 asiapacifico fechado spasx 165 6...
1,*02.10.2022 TSE - Governo-SP às 18h 59m 00s*,8,02102022 tse governosp as 18h 59m 00s,02102022 tse governosp 18h 59m 00s
2,02.10.2022 TSE - Governo-SP às 20h 10m 35s,4,02102022 tse governosp as 20h 10m 35s,02102022 tse governosp 20h 10m 35s
3,02.10.2022 TSE - Presidente - às 18h 55m 31s,10,02102022 tse presidente as 18h 55m 31s,02102022 tse presidente 18h 55m 31s
4,*02.10.2022 TSE - Presidente às 20h 02m 45s*,3,02102022 tse presidente as 20h 02m 45s,02102022 tse presidente 20h 02m 45s


In [None]:
dfcp.to_csv('../dataset/mensagens_com_frequencia_e_texto_processado.csv', index=False)