### Per√≠odo 1

#### Importa√ß√µes

In [27]:
import pandas as pd
import re
import emoji
import nltk
import numpy as np
import string
from nltk.corpus import stopwords

stop_words_pt = set(stopwords.words('portuguese'))
punctuation = set(string.punctuation)


nltk.download('punkt')      # cl√°ssico
nltk.download('punkt_tab')  # novo recurso exigido

from collections import Counter

from sklearn.feature_extraction.text import TfidfVectorizer

import matplotlib.pyplot as plt
import os

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\nasci\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package punkt_tab to
[nltk_data]     C:\Users\nasci\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!


### An√°lises iniciais

In [13]:
# Carregar dataset original
df = pd.read_csv("dataset_zap_1.csv", low_memory=False)

print(f"Tamanho do dataset original: {df.shape}")

# =============================================================================
# FILTRAR APENAS LINHAS QUE POSSUEM TEXTO
# =============================================================================
df_text = df.dropna(subset=['text_content_anonymous']).copy()

print(f"Linhas com texto (coluna 'text_content_anonymous' n√£o-nula): {df_text.shape[0]}")

# =============================================================================
# CRIAR FUN√á√ïES AUXILIARES PARA TOKENIZAR E CALCULAR ESTAT√çSTICAS
# =============================================================================
def tokenize_text(text):
    """Tokeniza usando NLTK e retorna lista de tokens."""
    return nltk.word_tokenize(str(text))

def avg_word_length(token_list):
    """Retorna comprimento m√©dio das palavras em uma lista de tokens."""
    if not token_list:
        return 0
    return np.mean([len(t) for t in token_list])

# =============================================================================
# CRIAR COLUNAS AUXILIARES: TOKENS, N¬∫ DE TOKENS, N¬∫ DE CARACTERES, ETC.
# =============================================================================
# Cria uma coluna 'tokens' para cada linha com texto
df_text['tokens'] = df_text['text_content_anonymous'].apply(tokenize_text)

# N√∫mero de tokens
df_text['num_tokens'] = df_text['tokens'].apply(len)

# N√∫mero de caracteres no texto (excluindo nulos)
df_text['num_chars'] = df_text['text_content_anonymous'].apply(lambda x: len(str(x)))

# Comprimento m√©dio das palavras
df_text['avg_word_length'] = df_text['tokens'].apply(avg_word_length)

# =============================================================================
# ESTAT√çSTICAS DESCRITIVAS SOBRE AS NOVAS COLUNAS
# =============================================================================
print("\n========== ESTAT√çSTICAS DE TEXTO ==========")

# 6.1. Quantidade total de mensagens com texto
total_messages = len(df_text)
print(f"Total de mensagens com texto: {total_messages}")

# 6.2. N√∫mero de tokens
print("\n--- num_tokens ---")
print("M√©dia:", df_text['num_tokens'].mean())
print("Mediana:", df_text['num_tokens'].median())
print("Desvio Padr√£o:", df_text['num_tokens'].std())
print("M√≠nimo:", df_text['num_tokens'].min())
print("M√°ximo:", df_text['num_tokens'].max())

# 6.3. N√∫mero de caracteres
print("\n--- num_chars ---")
print("M√©dia:", df_text['num_chars'].mean())
print("Mediana:", df_text['num_chars'].median())
print("Desvio Padr√£o:", df_text['num_chars'].std())
print("M√≠nimo:", df_text['num_chars'].min())
print("M√°ximo:", df_text['num_chars'].max())

# 6.4. Comprimento m√©dio das palavras
print("\n--- avg_word_length ---")
print("M√©dia:", df_text['avg_word_length'].mean())
print("Mediana:", df_text['avg_word_length'].median())
print("Desvio Padr√£o:", df_text['avg_word_length'].std())
print("M√≠nimo:", df_text['avg_word_length'].min())
print("M√°ximo:", df_text['avg_word_length'].max())

# =============================================================================
# VISUALIZAR ALGUMAS LINHAS COM AS NOVAS COLUNAS
# =============================================================================
print("\nExemplo de linhas com as colunas de an√°lise textual:")
print(df_text[['text_content_anonymous', 'tokens', 'num_tokens',
               'num_chars', 'avg_word_length']].head(5))

Tamanho do dataset original: (631150, 33)
Linhas com texto (coluna 'text_content_anonymous' n√£o-nula): 260153

Total de mensagens com texto: 260153

--- num_tokens ---
M√©dia: 65.87636890598993
Mediana: 18.0
Desvio Padr√£o: 394.75748280128863
M√≠nimo: 1
M√°ximo: 8270

--- num_chars ---
M√©dia: 352.9082808962418
Mediana: 129.0
Desvio Padr√£o: 1707.4162382096229
M√≠nimo: 1
M√°ximo: 65537

--- avg_word_length ---
M√©dia: 7.801094484093022
Mediana: 5.5
Desvio Padr√£o: 7.321759754152609
M√≠nimo: 1.0
M√°ximo: 784.0

Exemplo de linhas com as colunas de an√°lise textual:
                              text_content_anonymous  \
0  üëÜ *O PIB DECOLA NOVAMENTE!*\n\n*O Minist√©rio d...   
1  üëÜ *O PIB DECOLA NOVAMENTE!*\n\n*O Minist√©rio d...   
5                       https://youtu.be/4Kr2KRp6pMk   
7  https://m.facebook.com/story.php?story_fbid=pf...   
8  *Esta not√≠cia me deixa triste!*\nhttps://kwai-...   

                                              tokens  num_tokens  num_chars  \
0  [

### Normaliza√ß√£o e limpeza do texto

O WhatsApp tem v√°rios tipos de ru√≠do:

emojis

figurinhas convertidas em tokens

URLs

risadas (‚Äúkkkk‚Äù, ‚Äúrsrsrs‚Äù)

stopwords sociais (‚Äúbom dia‚Äù, ‚Äúblz‚Äù, ‚Äúoq‚Äù, ‚Äút√°‚Äù, etc.)

pontua√ß√£o repetida

mensagens de sistema (‚Äúmensagem apagada‚Äù)

n√∫meros irrelevantes

tokens como ‚Äúimagem‚Äù, ‚Äú√°udio‚Äù, ‚Äúv√≠deo‚Äù

In [16]:
# Stopwords complementares espec√≠ficas para WhatsApp
custom_stopwords = {
    # cumprimentos / f√≥rmulas sociais
    "bom", "dia", "bom dia",
    "boa", "tarde", "boa tarde",
    "noite", "boa noite",
    "ol√°", "oi", "ola", "tchau",

    # risadas / interjei√ß√µes
    "kk", "kkk", "kkkk", "kkkkk",
    "rs", "rsrs", "rsrsrs",
    "aff", "eita", "oxi", "oxe",

    # WhatsApp / m√≠dia
    "imagem", "figura", "sticker",
    "√°udio", "audio", "v√≠deo", "video",
}

# Uni√£o das stopwords padr√£o + complementares
stop_words_total = stop_words_pt | custom_stopwords


In [17]:
def preprocess_text(text):
    """
    1) Converte para string e min√∫sculas
    2) Mant√©m URLs e emojis
    3) Normaliza emojis para nomes (:smiling_face:) para virarem tokens
    4) Tokeniza com NLTK
    5) Remove stopwords (padr√£o + custom) e pontua√ß√£o
    """
    # 1) string + lowercase
    text = str(text).lower()
    
    # 2) normalizar emojis para texto (sem remover)
    text = emoji.demojize(text)  # üôÇ -> :slightly_smiling_face:
    
    # 3) tokenizar (mant√©m URLs inteiras como tokens)
    tokens = nltk.word_tokenize(text, language="portuguese")
    
    tokens_clean = []
    for token in tokens:
        # remover pontua√ß√£o pura (., !, ?, etc.)
        if token in punctuation:
            continue
        
        # remover stopwords (padr√£o + suas extras)
        if token in stop_words_total:
            continue
        
        # aqui N√ÉO removemos n√∫meros, N√ÉO removemos URLs, N√ÉO removemos emojis demojizados
        tokens_clean.append(token)
    
    return tokens_clean


In [18]:
df = df.dropna(subset=['text_content_anonymous']).copy()

df['tokens_preprocessed'] = df['text_content_anonymous'].apply(preprocess_text)
df['clean_text'] = df['tokens_preprocessed'].apply(lambda x: " ".join(x))

print(df[['text_content_anonymous', 'tokens_preprocessed', 'clean_text']].head(5))


                              text_content_anonymous  \
0  üëÜ *O PIB DECOLA NOVAMENTE!*\n\n*O Minist√©rio d...   
1  üëÜ *O PIB DECOLA NOVAMENTE!*\n\n*O Minist√©rio d...   
5                       https://youtu.be/4Kr2KRp6pMk   
7  https://m.facebook.com/story.php?story_fbid=pf...   
8  *Esta not√≠cia me deixa triste!*\nhttps://kwai-...   

                                 tokens_preprocessed  \
0  [backhand_index_pointing_up, pib, decola, nova...   
1  [backhand_index_pointing_up, pib, decola, nova...   
5                    [https, //youtu.be/4kr2krp6pmk]   
7  [https, //m.facebook.com/story.php, story_fbid...   
8  [not√≠cia, deixa, triste, https, //kwai-video.c...   

                                          clean_text  
0  backhand_index_pointing_up pib decola novament...  
1  backhand_index_pointing_up pib decola novament...  
5                       https //youtu.be/4kr2krp6pmk  
7  https //m.facebook.com/story.php story_fbid=pf...  
8  not√≠cia deixa triste https //kwai-vid

In [21]:
# -------------------------------------------------------------------
# 1. TOKENS "BRUTOS" (ANTES DO PR√â-PROCESSAMENTO)
# -------------------------------------------------------------------
def tokenize_raw(text):
    # tokeniza√ß√£o simples s√≥ para diagn√≥stico
    return nltk.word_tokenize(str(text).lower(), language="portuguese")

# se ainda n√£o tiver essa coluna, criamos:
if 'tokens_raw' not in df.columns:
    df['tokens_raw'] = df['text_content_anonymous'].apply(tokenize_raw)

raw_counter = Counter()
df['tokens_raw'].apply(raw_counter.update)

top20_raw = raw_counter.most_common(20)

print("\n==========================")
print("TOP 20 TOKENS (RAW / BRUTO)")
print("==========================")
for token, freq in top20_raw:
    print(f"{token:25} {freq}")

# -------------------------------------------------------------------
# 2. TOKENS P√ìS-PR√â-PROCESSAMENTO
#    (voc√™ j√° criou 'tokens_preprocessed' e 'clean_text')
# -------------------------------------------------------------------
clean_counter = Counter()
df['tokens_preprocessed'].apply(clean_counter.update)

top20_clean = clean_counter.most_common(20)

print("\n==========================")
print("TOP 20 TOKENS (CLEAN / PROCESSADO)")
print("==========================")
for token, freq in top20_clean:
    print(f"{token:25} {freq}")


TOP 20 TOKENS (RAW / BRUTO)
*                         3342776
9999999                   548161
,                         398377
‡πí‡πí‡πí‡πí‡πí‡πí‡πí‡πí                  396214
de                        337842
:                         313137
.                         272774
e                         260820
‚ò†‚ò†‚ò†‚ò†‚ò†‚ò†                    246825
o                         243976
a                         207702
https                     193263
que                       192108
do                        167855
‡πë‡πë‡πë‡πë‡πë‡πë‡πë‡πë                  167318
!                         128439
‡ß≠‡ß≠‡ß≠‡ß≠‡ß≠‡ß≠‡ß≠‡ß≠                  124400
em                        106984
)                         102180
√©                         99783

TOP 20 TOKENS (CLEAN / PROCESSADO)
:skull_and_crossbones     1234693
9999999                   548161
‡πí‡πí‡πí‡πí‡πí‡πí‡πí‡πí                  396214
skull_and_crossbones      247607
https                     197360
‡πë‡πë‡πë‡πë‡πë‡πë‡πë‡πë        

### verificar similaridade

In [28]:
# ================================
# 4. Rodar todos os experimentos, salvar CSVs e gerar gr√°ficos
# ================================
ks = [2, 5, 10]
windows = [10, 30, 60, 90]
limiar_sim = 0.7      # similaridade usada no paper para detectar coordena√ß√£o
max_dt_pdf = 10       # intervalo m√°ximo para o gr√°fico da Figura 3

summary_rows = []

def gerar_ccdf(df_exp, k, win):
    """Gera gr√°fico CCDF dos intervalos de tempo para similaridade ‚â• 0.7."""
    df_exp["offset"] = df_exp["idx_j"] - df_exp["idx_i"]

    df_high = df_exp[df_exp["similarity"] >= limiar_sim].copy()

    if df_high.empty:
        print("Nenhum par com similaridade alta para CCDF.")
        return

    plt.figure(figsize=(7, 5))

    for offset in range(1, k+1):
        sub = df_high[df_high["offset"] == offset]

        if len(sub) == 0:
            continue

        ts = np.sort(sub["delta_t_seconds"].values)
        n = len(ts)
        ccdf = 1 - np.arange(1, n+1) / n

        plt.loglog(ts, ccdf, label=f"+{offset}")

    plt.xlabel("Time Interval (seconds)")
    plt.ylabel("CCDF")
    plt.title(f"CCDF ‚Äî Similaridade ‚â• {limiar_sim} (k={k}, janela={win}s)")
    plt.legend()
    plt.tight_layout()

    fname = f"CCDF_k{k}_win{win}.png"
    plt.savefig(fname, dpi=300)
    plt.close()
    print(f"Gr√°fico CCDF salvo como {fname}")


def gerar_pdf_similaridade(df_exp, k, win):
    """Gera gr√°fico PDF das similaridades para Œît ‚â§ 10s (paper Figure 3)."""
    df_short = df_exp[df_exp["delta_t_seconds"] <= max_dt_pdf].copy()

    if df_short.empty:
        print("Nenhum par com Œît <= 10s para PDF")
        return

    sims = df_short["similarity"].values
    bins = np.linspace(0, 1, 20)

    hist, edges = np.histogram(sims, bins=bins, density=True)
    centers = 0.5 * (edges[:-1] + edges[1:])

    plt.figure(figsize=(6, 4))
    plt.semilogy(centers, hist, marker="o")
    plt.xlabel("Text Similarity")
    plt.ylabel("PDF")
    plt.title(f"PDF ‚Äî Pairs with Œît ‚â§ {max_dt_pdf}s (k={k}, janela={win}s)")
    plt.tight_layout()

    fname = f"PDF_k{k}_win{win}.png"
    plt.savefig(fname, dpi=300)
    plt.close()
    print(f"Gr√°fico PDF salvo como {fname}")


# LOOP DOS EXPERIMENTOS
for k in ks:
    for win in windows:
        print(f"\n>>> Rodando experimento k={k}, janela={win}s")
        df_exp = run_experiment(k=k, window_seconds=win)

        print("Pares analisados:", len(df_exp))
        if len(df_exp) == 0:
            continue

        # estat√≠sticas b√°sicas
        summary_rows.append({
            "k": k,
            "window_seconds": win,
            "num_pairs": len(df_exp),
            "mean_similarity": df_exp["similarity"].mean(),
            "median_similarity": df_exp["similarity"].median(),
            "p90_similarity": df_exp["similarity"].quantile(0.90),
            "max_similarity": df_exp["similarity"].max(),
        })

        # salvar CSV dos pares
        out_name = f"similaridade_k{k}_win{win}s.csv"
        df_exp.to_csv(out_name, index=False, encoding="utf-8")
        print(f"Arquivo salvo: {out_name}")

        # ===============================
        # GERAR GR√ÅFICOS DO ARTIGO
        # ===============================
        gerar_ccdf(df_exp, k, win)
        gerar_pdf_similaridade(df_exp, k, win)


# ================================
# 5. Criar CSV resumo
# ================================
df_summary = pd.DataFrame(summary_rows)
df_summary.to_csv("resumo_experimentos_similaridade.csv", index=False, encoding="utf-8")
print("\nResumo completo salvo em resumo_experimentos_similaridade.csv")
print(df_summary)


>>> Rodando experimento k=2, janela=30s
Pares analisados: 386643
Arquivo salvo: similaridade_k2_win30s.csv
Gr√°fico CCDF salvo como CCDF_k2_win30.png
Gr√°fico PDF salvo como PDF_k2_win30.png

>>> Rodando experimento k=2, janela=60s
Pares analisados: 459253
Arquivo salvo: similaridade_k2_win60s.csv
Gr√°fico CCDF salvo como CCDF_k2_win60.png
Gr√°fico PDF salvo como PDF_k2_win60.png

>>> Rodando experimento k=2, janela=90s
Pares analisados: 485227
Arquivo salvo: similaridade_k2_win90s.csv
Gr√°fico CCDF salvo como CCDF_k2_win90.png
Gr√°fico PDF salvo como PDF_k2_win90.png

>>> Rodando experimento k=5, janela=30s
Pares analisados: 674449
Arquivo salvo: similaridade_k5_win30s.csv
Gr√°fico CCDF salvo como CCDF_k5_win30.png
Gr√°fico PDF salvo como PDF_k5_win30.png

>>> Rodando experimento k=5, janela=60s
Pares analisados: 951701
Arquivo salvo: similaridade_k5_win60s.csv
Gr√°fico CCDF salvo como CCDF_k5_win60.png
Gr√°fico PDF salvo como PDF_k5_win60.png

>>> Rodando experimento k=5, janela=90s