# üìë Documenta√ß√£o do Projeto: Detector Incremental de Influenciadores

## 1. Introdu√ß√£o
Este projeto implementa um algoritmo de detec√ß√£o de influenciadores baseado em similaridade textual. O diferencial desta solu√ß√£o √© a abordagem **incremental**, que resolve os problemas de escalabilidade (matriz quadr√°tica) e instabilidade de clusters que ocorrem em processamentos di√°rios repetitivos.

---

## 2. A Dor do Neg√≥cio (Problema Resolvido)
* **Problema Original:** O reprocessamento di√°rio de toda a base textual gerava um crescimento exponencial de processamento ($O(N^2)$) e mudava os n√∫meros dos clusters a cada execu√ß√£o.
* **Solu√ß√£o:** Processamento apenas do "delta" (novos casos), encaixando-os em estruturas de dados persistentes (Clusters e Centroides) que mant√™m sua identidade ao longo do tempo.

---

## 3. Defini√ß√£o de "Influenciador"
Seguindo a regra de neg√≥cio estabelecida, um registro √© marcado como **influenciador = 1** se pertencer a um grupo (cluster) que possua:
1.  **Similaridade Textual:** $\ge 60\%$ de semelhan√ßa com o assunto do grupo.
2.  **Densidade de CPFs:** No m√≠nimo **3 CPFs distintos** reclamando sobre o mesmo assunto.

---

## 4. Arquitetura T√©cnica

### 4.1. Fluxo de Processamento Incremental
O algoritmo n√£o compara texto contra texto. Ele compara o **texto novo** contra o **Centroide** (o "resumo" matem√°tico) de cada cluster existente.



### 4.2. Estrutura de Persist√™ncia
O sistema utiliza tr√™s arquivos locais para manter o estado entre as execu√ß√µes:

* **`vetorizador.pkl`**: Armazena o modelo TF-IDF (vocabul√°rio e pesos).
* **`centroides.pkl`**: Lista de vetores que representam a m√©dia de cada assunto.
* **`base_clusters.csv`**: Tabela com metadados (`cluster_id`, `cpfs_unicos`, `quantidade_mensagens`).

---

## 5. Funcionamento do C√≥digo

### Passo 1: Limpeza e Normaliza√ß√£o
O texto √© tratado para remover ru√≠dos que prejudicam a similaridade:
* Remo√ß√£o de acentos e caracteres especiais.
* Convers√£o para min√∫sculas.
* Filtragem de *Stopwords* em portugu√™s.

### Passo 2: Vetoriza√ß√£o e Compara√ß√£o
O texto √© convertido em um vetor via TF-IDF. O sistema calcula a **Similaridade de Cosseno** contra os centroides carregados do arquivo `centroides.pkl`.

### Passo 3: Atribui√ß√£o e Evolu√ß√£o
* **Se similaridade > 0.60:** O texto entra no cluster existente. O centroide desse cluster √© recalculado (M√©dia M√≥vel) para que o grupo "aprenda" com a nova varia√ß√£o de escrita.
* **Se similaridade < 0.60:** Um novo cluster √© criado no arquivo CSV e o novo centroide √© adicionado ao arquivo PKL.

### Passo 4: Atualiza√ß√£o da Regra
O CPF do novo registro √© adicionado ao `set` (conjunto √∫nico) de CPFs daquele cluster. Se o contador atingir 3, a flag `e_influenciador` no CSV √© alterada para `True`.

---

## 6. Vantagens do Modelo Incremental

1.  **Consist√™ncia de IDs:** Se o assunto "Problema no Pix" recebeu o `cluster_id: 10` hoje, ele continuar√° sendo o ID 10 para sempre.
2.  **Performance:** O tempo de execu√ß√£o cresce de forma linear com os novos dados, e n√£o exponencialmente com a base toda.
3.  **Mem√≥ria Otimizada:** Armazenamos apenas um vetor por cluster, em vez de um vetor para cada mensagem enviada na hist√≥ria da empresa.

---

## 7. Como Executar (Exemplo R√°pido)

```python
# Importe as fun√ß√µes do script
from detector_influencers import processar_dados

# Carregue seus novos dados do dia
df_novos = pd.read_sql("SELECT id, texto, cpf FROM sua_tabela WHERE data = 'hoje'", conexao)

# Execute o processador
# Ele ler√° automaticamente os arquivos .pkl e .csv da pasta
resultado = processar_dados(df_novos)

# Salve o resultado de volta no seu banco de dados
resultado.to_sql("tabela_resultados", conexao, if_exists='append')

In [2]:
import pandas as pd
import numpy as np
import re
import pickle
import os
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
import nltk
from nltk.corpus import stopwords

# --- CONFIGURA√á√ïES DE CAMINHO ---
ARQUIVO_MODELO = "vetorizador.pkl"
ARQUIVO_CLUSTERS = "base_clusters.csv"
ARQUIVO_CENTROIDES = "centroides.pkl"

# --- 1. FUN√á√ÉO DE LIMPEZA (O seu tratamento de texto) ---
def limpar_texto(texto):
    """Remove caracteres especiais, acentos e padroniza para min√∫sculo."""
    if not isinstance(texto, str): return ""
    texto = texto.lower()
    # Mant√©m apenas letras de 'a' a 'z' e espa√ßos
    texto = re.sub(r'[^a-z\s]', '', texto)
    return texto.strip()

# --- 2. FUN√á√ïES DE CARGA E SALVAMENTO ---
def carregar_estado():
    """Carrega os dados salvos anteriormente para continuar de onde parou."""
    vetorizador = None
    clusters_df = pd.DataFrame()
    centroides_lista = []

    if os.path.exists(ARQUIVO_MODELO):
        with open(ARQUIVO_MODELO, 'rb') as f:
            vetorizador = pickle.load(f)
    
    if os.path.exists(ARQUIVO_CLUSTERS):
        clusters_df = pd.read_csv(ARQUIVO_CLUSTERS)
        # Converte o texto da coluna 'cpfs_unicos' de volta para um conjunto (set)
        clusters_df['cpfs_unicos'] = clusters_df['cpfs_unicos'].apply(eval).apply(set)
    
    if os.path.exists(ARQUIVO_CENTROIDES):
        with open(ARQUIVO_CENTROIDES, 'rb') as f:
            centroides_lista = pickle.load(f)
            
    return vetorizador, clusters_df, centroides_lista

def salvar_estado(vetorizador, clusters_df, centroides_lista):
    """Salva os dados atuais em arquivos para persist√™ncia."""
    with open(ARQUIVO_MODELO, 'wb') as f:
        pickle.dump(vetorizador, f)
    
    with open(ARQUIVO_CENTROIDES, 'wb') as f:
        pickle.dump(centroides_lista, f)
        
    # No CSV, salvamos o set de CPFs como lista para ser leg√≠vel
    df_temp = clusters_df.copy()
    df_temp['cpfs_unicos'] = df_temp['cpfs_unicos'].apply(list)
    df_temp.to_csv(ARQUIVO_CLUSTERS, index=False)

# --- 3. L√ìGICA PRINCIPAL (INCREMENTAL) ---
def processar_dados(df_novo, limiar=0.60, min_cpfs=3):
    # Tenta carregar o que j√° existe
    vetorizador, clusters_df, centroides_lista = carregar_estado()

    # Se o vetorizador n√£o existir, cria um novo (Treino inicial)
    if vetorizador is None:
        print("Treinando vetorizador pela primeira vez...")
        try:
            stops = stopwords.words('portuguese')
        except:
            nltk.download('stopwords')
            stops = stopwords.words('portuguese')
        
        vetorizador = TfidfVectorizer(stop_words=stops, max_features=5000)
        textos_treino = [limpar_texto(t) for t in df_novo['texto']]
        vetorizador.fit(textos_treino)

    # Prepara os textos novos
    textos_limpos = [limpar_texto(t) for t in df_novo['texto']]
    matriz_novos_vetores = vetorizador.transform(textos_limpos)
    
    resultados = []

    # Percorre cada texto novo
    for i in range(matriz_novos_vetores.shape[0]):
        vetor_atual = matriz_novos_vetores[i]
        cpf_atual = str(df_novo.iloc[i]['cpf'])
        id_atual = df_novo.iloc[i]['id']
        
        melhor_cluster_idx = -1
        maior_score = 0.0

        # Compara com os centroides existentes
        if len(centroides_lista) > 0:
            matriz_centroides = np.vstack(centroides_lista)
            sims = cosine_similarity(vetor_atual, matriz_centroides).flatten()
            melhor_cluster_idx = np.argmax(sims)
            maior_score = sims[melhor_cluster_idx]

        # SE encontrar similaridade >= 60%
        if melhor_cluster_idx != -1 and maior_score >= limiar:
            # Pega o ID do cluster encontrado
            c_id = clusters_df.iloc[melhor_cluster_idx]['cluster_id']
            
            # Atualiza metadados (CPFs e Quantidade)
            clusters_df.at[melhor_cluster_idx, 'cpfs_unicos'].add(cpf_atual)
            clusters_df.at[melhor_cluster_idx, 'quantidade_mensagens'] += 1
            
            # Verifica se virou influenciador
            if len(clusters_df.at[melhor_cluster_idx, 'cpfs_unicos']) >= min_cpfs:
                clusters_df.at[melhor_cluster_idx, 'e_influenciador'] = True
            
            # Recalcula o centroide (M√©dia m√≥vel para o grupo evoluir)
            n = clusters_df.at[melhor_cluster_idx, 'quantidade_mensagens']
            antigo_centroide = centroides_lista[melhor_cluster_idx]
            novo_centroide = (antigo_centroide * (n-1) + vetor_atual.toarray()) / n
            centroides_lista[melhor_cluster_idx] = novo_centroide
            
            cluster_final = c_id
        else:
            # SE N√ÉO encontrar, cria um cluster NOVO
            cluster_final = len(clusters_df) + 1
            novo_reg = {
                'cluster_id': cluster_final,
                'quantidade_mensagens': 1,
                'cpfs_unicos': {cpf_atual},
                'e_influenciador': False
            }
            clusters_df = pd.concat([clusters_df, pd.DataFrame([novo_reg])], ignore_index=True)
            centroides_lista.append(vetor_atual.toarray())
            maior_score = 1.0 # Similaridade com ele mesmo ao criar

        # Adiciona ao relat√≥rio de sa√≠da
        e_influ = clusters_df[clusters_df['cluster_id'] == cluster_final]['e_influenciador'].values[0]
        resultados.append({
            'id': id_atual,
            'cluster_atribuido': cluster_final,
            'similaridade': round(float(maior_score), 4),
            'influenciador': 1 if e_influ else 0
        })

    # Salva tudo nos arquivos para a pr√≥xima rodada
    salvar_estado(vetorizador, clusters_df, centroides_lista)
    
    # Retorna o DataFrame com as novas colunas
    return pd.merge(df_novo, pd.DataFrame(resultados), on='id')



if __name__ == "__main__":
    # --- DIA 1: Execu√ß√£o Inicial ---
    print(">>> PROCESSANDO DIA 1...")
    dados_dia_1 = pd.DataFrame({
        'id': [1, 2, 3, 4, 5, 6, 7, 8, 9],
        'texto': [
            "O pix est√° fora do ar desde cedo",
            "N√£o consigo realizar transferencia via pix",
            "Meu cart√£o de cr√©dito ainda n√£o chegou", 
            "Bom dia, gostaria de tirar uma duvida",
            "O aplicativo √© muito bonito parabens", 
            "O aplicativo √© muito bonito", 
            "Algu√©m me ajuda com o pix por favor",
            "Algu√©m me ajuda com o pix",
            "me ajuda com o pix por favor",
        ],
        'cpf': ['111', '222', '333', '444', '555', '111', '098', '356', '356']
    })
    
    # O sistema cria os arquivos e identifica os primeiros clusters
    resultado_d1 = processar_dados(dados_dia_1)
    print(resultado_d1[['id', 'texto', 'cluster_atribuido', 'influenciador']])


    # --- DIA 2: Novos dados chegando ---
    print("\n>>> PROCESSANDO DIA 2 (INCREMENTAL)...")
    dados_dia_2 = pd.DataFrame({
        'id': [7, 8, 9, 10, 11, 12, 13, 14, 15, 16],
        'texto': [
            "Erro generalizado no pix, arrumem logo",
            "Pix travado aqui tamb√©m",
            "Estou aguardando a entrega do cart√£o a dias",
            "Atendimento p√©ssimo ninguem responde",
            "Voc√™s s√£o horriveis me atendam", 
            "Vou processar voces pelo atendimento ruim",
            "O aplicativo √© muito bonito", 
            "Algu√©m me ajuda com o pix por favor",
            "Algu√©m me ajuda com o pix",
            "me ajuda com o pix por favor",
        ],
        'cpf': ['666', '222', '777', '888', '897', '888', '234', '345', '667', '245']
    })

    # Aqui a m√°gica acontece: ele carrega os arquivos do Dia 1 automaticamente
    resultado_d2 = processar_dados(dados_dia_2)
    print(resultado_d2[['id', 'texto', 'cluster_atribuido', 'influenciador']])

>>> PROCESSANDO DIA 1...
   id                                       texto  cluster_atribuido  \
0   1            O pix est√° fora do ar desde cedo                  1   
1   2  N√£o consigo realizar transferencia via pix                 27   
2   3      Meu cart√£o de cr√©dito ainda n√£o chegou                 28   
3   4       Bom dia, gostaria de tirar uma duvida                 29   
4   5        O aplicativo √© muito bonito parabens                 30   
5   6                 O aplicativo √© muito bonito                 31   
6   7         Algu√©m me ajuda com o pix por favor                  4   
7   8                   Algu√©m me ajuda com o pix                  4   
8   9                me ajuda com o pix por favor                  4   

   influenciador  
0              0  
1              0  
2              0  
3              0  
4              0  
5              0  
6              0  
7              1  
8              1  

>>> PROCESSANDO DIA 2 (INCREMENTAL)...
   id          

In [None]:
import pandas as pd
import numpy as np
import re
import pickle
import os
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
import nltk
from nltk.corpus import stopwords

# =============================================================================
# CONFIGURA√á√ïES T√âCNICAS E ARQUIVOS DE MEM√ìRIA
# =============================================================================
# O sistema utiliza esses arquivos para "lembrar" o que j√° processou.
ARQUIVO_MODELO = "vetorizador_tfidf.pkl"      # Guarda o vocabul√°rio aprendido
ARQUIVO_CLUSTERS = "base_clusters_metadados.csv" # Guarda IDs, CPFs e flags
ARQUIVO_CENTROIDES = "matriz_centroides.pkl"   # Guarda a ess√™ncia matem√°tica de cada grupo

# =============================================================================
# ETAPA 1: TRATAMENTO DE TEXTO (LIMPANDO O RU√çDO)
# =============================================================================
def limpar_texto(texto):
    """
    Padroniza o texto para que 'Pix' e 'pix!!!' sejam lidos da mesma forma.
    """
    if not isinstance(texto, str): 
        return ""
    
    # 1. Converte para min√∫sculas
    texto = texto.lower()
    
    # 2. Remove acentos (opcional, aqui simplificado via Regex)
    # 3. Remove caracteres especiais e n√∫meros, mantendo apenas letras e espa√ßos
    texto = re.sub(r'[^a-z\s]', '', texto)
    
    # 4. Remove espa√ßos extras no in√≠cio e fim
    return texto.strip()

# =============================================================================
# ETAPA 2: PERSIST√äNCIA DE DADOS (CARGA E SALVAMENTO)
# =============================================================================
def carregar_estado_anterior():
    """Tenta carregar os arquivos da pasta local. Se n√£o existirem, retorna vazio."""
    vetorizador = None
    clusters_df = pd.DataFrame()
    centroides_lista = []

    print("\n--- [SISTEMA] Verificando arquivos de mem√≥ria hist√≥rica ---")
    
    if os.path.exists(ARQUIVO_MODELO):
        with open(ARQUIVO_MODELO, 'rb') as f:
            vetorizador = pickle.load(f)
        print(">> Vetorizador TF-IDF carregado com sucesso.")
    
    if os.path.exists(ARQUIVO_CLUSTERS):
        clusters_df = pd.read_csv(ARQUIVO_CLUSTERS)
        # O CSV salva o conjunto de CPFs como String. Precisamos converter de volta para 'set'.
        clusters_df['cpfs_unicos'] = clusters_df['cpfs_unicos'].apply(eval).apply(set)
        print(f">> Base de Clusters carregada: {len(clusters_df)} grupos conhecidos.")
    
    if os.path.exists(ARQUIVO_CENTROIDES):
        with open(ARQUIVO_CENTROIDES, 'rb') as f:
            centroides_lista = pickle.load(f)
        print(">> Matriz de Centroides carregada.")
            
    return vetorizador, clusters_df, centroides_lista

def salvar_estado_atual(vetorizador, clusters_df, centroides_lista):
    """Grava as atualiza√ß√µes nos arquivos locais para a pr√≥xima execu√ß√£o."""
    print("\n--- [SISTEMA] Salvando progresso nos arquivos locais ---")
    
    with open(ARQUIVO_MODELO, 'wb') as f:
        pickle.dump(vetorizador, f)
    
    with open(ARQUIVO_CENTROIDES, 'wb') as f:
        pickle.dump(centroides_lista, f)
        
    # Converte o set de CPFs em lista para o CSV ser leg√≠vel por humanos/Excel
    df_para_disco = clusters_df.copy()
    df_para_disco['cpfs_unicos'] = df_para_disco['cpfs_unicos'].apply(list)
    df_para_disco.to_csv(ARQUIVO_CLUSTERS, index=False)
    print(">> Tudo salvo com sucesso. Sistema pronto para a pr√≥xima rodada.")

# =============================================================================
# ETAPA 3: PROCESSAMENTO INCREMENTAL (O CORA√á√ÉO DO ALGORITMO)
# =============================================================================
def processar_dados_incrementais(df_entrada, limiar_similaridade=0.60, min_cpfs_influencer=3):
    """
    Recebe novos dados e decide se encaixa em grupos velhos ou cria novos.
    """
    # 1. Carrega o que j√° conhecemos de ontem
    vetorizador, clusters_df, centroides_lista = carregar_estado_anterior()

    # 2. Inicializa√ß√£o do Modelo (se for a primeira execu√ß√£o da hist√≥ria)
    if vetorizador is None:
        print("\n--- [TESTE] Modelo n√£o encontrado. Iniciando Treinamento Inicial ---")
        try:
            stops = stopwords.words('portuguese')
        except:
            nltk.download('stopwords')
            stops = stopwords.words('portuguese')
        
        vetorizador = TfidfVectorizer(stop_words=stops, max_features=5000)
        textos_iniciais = [limpar_texto(t) for t in df_entrada['texto']]
        vetorizador.fit(textos_iniciais)
        print(">> Treinamento do vocabul√°rio conclu√≠do.")

    # 3. Vetoriza√ß√£o do lote atual
    print(f"\n--- [TESTE] Vetorizando {len(df_entrada)} novas mensagens ---")
    textos_limpos = [limpar_texto(t) for t in df_entrada['texto']]
    matriz_atual = vetorizador.transform(textos_limpos)
    
    registros_processados = []

    # 4. Loop linha por linha para garantir o processamento incremental puro
    for i in range(matriz_atual.shape[0]):
        vetor_da_mensagem = matriz_atual[i]
        cpf = str(df_entrada.iloc[i]['cpf'])
        id_msg = df_entrada.iloc[i]['id']
        txt_original = df_entrada.iloc[i]['texto']
        
        melhor_match_idx = -1
        maior_score = 0.0

        # COMPARANDO COM O PASSADO: Buscamos nos centroides j√° existentes
        if len(centroides_lista) > 0:
            matriz_centroides = np.vstack(centroides_lista)
            sims = cosine_similarity(vetor_da_mensagem, matriz_centroides).flatten()
            melhor_match_idx = np.argmax(sims)
            maior_score = sims[melhor_match_idx]

        # DECIS√ÉO: Encaixar ou Criar?
        if melhor_match_idx != -1 and maior_score >= limiar_similaridade:
            # ENCAIXE: O texto √© parecido com um grupo existente
            cluster_id_destino = clusters_df.iloc[melhor_match_idx]['cluster_id']
            
            # Atualiza os metadados do grupo
            clusters_df.at[melhor_match_idx, 'cpfs_unicos'].add(cpf)
            clusters_df.at[melhor_match_idx, 'quantidade_mensagens'] += 1
            
            # Verifica se atingiu a regra de Influencer (3 CPFs)
            if len(clusters_df.at[melhor_match_idx, 'cpfs_unicos']) >= min_cpfs_influencer:
                clusters_df.at[melhor_match_idx, 'e_influenciador'] = True
            
            # EVOLU√á√ÉO: O centroide do grupo muda um pouco para se adaptar √† nova escrita
            # F√≥rmula da M√©dia M√≥vel: (M√©dia_Antiga * N + Novo_Valor) / (N+1)
            n_mensagens = clusters_df.at[melhor_match_idx, 'quantidade_mensagens']
            centroide_antigo = centroides_lista[melhor_match_idx]
            novo_centroide = (centroide_antigo * (n_mensagens - 1) + vetor_da_mensagem.toarray()) / n_mensagens
            centroides_lista[melhor_match_idx] = novo_centroide
            
            print(f"[TESTE] Msg ID {id_msg}: Alocada ao Cluster {cluster_id_destino} (Score: {maior_score:.2f})")
        else:
            # CRIA√á√ÉO: Assunto novo detectado
            novo_id = len(clusters_df) + 1
            novo_registro_cluster = {
                'cluster_id': novo_id,
                'quantidade_mensagens': 1,
                'cpfs_unicos': {cpf},
                'e_influenciador': False
            }
            clusters_df = pd.concat([clusters_df, pd.DataFrame([novo_registro_cluster])], ignore_index=True)
            centroides_lista.append(vetor_da_mensagem.toarray())
            cluster_id_destino = novo_id
            print(f"[TESTE] Msg ID {id_msg}: Novo Assunto detectado! Cluster {novo_id} criado.")

        # Coleta o status de influencer atualizado para o relat√≥rio final
        status_influ = clusters_df[clusters_df['cluster_id'] == cluster_id_destino]['e_influenciador'].values[0]
        
        registros_processados.append({
            'id': id_msg,
            'cluster_atribuido': cluster_id_destino,
            'similaridade': maior_score,
            'influenciador': 1 if status_influ else 0
        })

    # 5. Persiste as mudan√ßas
    salvar_estado_atual(vetorizador, clusters_df, centroides_lista)
    
    # 6. Retorna o DF original enriquecido
    df_saida = pd.merge(df_entrada, pd.DataFrame(registros_processados), on='id')
    return df_saida

# =============================================================================
# ETAPA 4: TESTE DE EXECU√á√ÉO (SIMULANDO DOIS DIAS)
# =============================================================================
if __name__ == "__main__":
    # DIA 1
    print("="*60)
    print("SIMULA√á√ÉO - DIA 1")
    print("="*60)
    df_dia1 = pd.DataFrame({
        'id': [1, 2, 3],
        'texto': ["Problema no pix hoje", "Meu pix nao funciona", "Atraso no cartao"],
        'cpf': ['CPF_A', 'CPF_B', 'CPF_C']
    })
    relatorio_d1 = processar_dados_incrementais(df_dia1)
    print("\n--- RELAT√ìRIO FINAL DIA 1 ---")
    print(relatorio_d1[['id', 'texto', 'cluster_atribuido', 'influenciador']])

    # DIA 2 (Aqui o sistema deve reconhecer o cluster do PIX)
    print("\n" + "="*60)
    print("SIMULA√á√ÉO - DIA 2 (INCREMENTAL)")
    print("="*60)
    df_dia2 = pd.DataFrame({
        'id': [4, 5],
        'texto': ["Erro no sistema de pix", "Nao recebi meu cartao ainda"],
        'cpf': ['CPF_D', 'CPF_E']
    })
    relatorio_d2 = processar_dados_incrementais(df_dia2)
    print("\n--- RELAT√ìRIO FINAL DIA 2 ---")
    print(relatorio_d2[['id', 'texto', 'cluster_atribuido', 'influenciador']])

In [15]:
import pandas as pd
import numpy as np
import re
import pickle
import os
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

# --- CONFIGURA√á√ïES DE ARQUIVOS ---
CAMINHO_MODELO = "vetorizador_tfidf.pkl"
CAMINHO_CLUSTERS = "base_clusters.csv"
CAMINHO_CENTROIDES = "centroides_matriz.pkl"

class ProcessadorTexto:
    """Classe respons√°vel pela limpeza padronizada dos textos"""
    @staticmethod
    def limpar(texto):
        if not isinstance(texto, str): return ""
        texto = texto.lower()
        # Remove acentos e caracteres especiais
        texto = re.sub(r'[^a-z\s]', '', texto)
        return texto.strip()

class DetectorIncrementalInfluenciador:
    def __init__(self, similaridade_minima=0.60, minimo_cpfs=3):
        self.limiar = similaridade_minima
        self.min_cpfs = minimo_cpfs
        self.vetorizador = None
        self.clusters_df = pd.DataFrame() # Mem√≥ria dos metadados dos clusters
        self.centroides_lista = []        # Mem√≥ria dos vetores (centroides)
        
        # Tenta carregar dados existentes ao iniciar
        self._carregar_estado()

    def _carregar_estado(self):
        """Carrega os arquivos salvos se eles existirem"""
        if os.path.exists(CAMINHO_MODELO):
            with open(CAMINHO_MODELO, 'rb') as f:
                self.vetorizador = pickle.load(f)
        
        if os.path.exists(CAMINHO_CLUSTERS):
            self.clusters_df = pd.read_csv(CAMINHO_CLUSTERS)
            # Converte a string de CPFs de volta para um conjunto (set)
            self.clusters_df['cpfs_unicos'] = self.clusters_df['cpfs_unicos'].apply(eval).apply(set)
        
        if os.path.exists(CAMINHO_CENTROIDES):
            with open(CAMINHO_CENTROIDES, 'rb') as f:
                self.centroides_lista = pickle.load(f)

    def _salvar_estado(self):
        """Persiste os dados em disco para a pr√≥xima execu√ß√£o"""
        with open(CAMINHO_MODELO, 'wb') as f:
            pickle.dump(self.vetorizador, f)
        
        with open(CAMINHO_CENTROIDES, 'wb') as f:
            pickle.dump(self.centroides_lista, f)
            
        # Para salvar no CSV, convertemos o set de CPFs em lista (string)
        df_para_salvar = self.clusters_df.copy()
        df_para_salvar['cpfs_unicos'] = df_para_salvar['cpfs_unicos'].apply(list)
        df_para_salvar.to_csv(CAMINHO_CLUSTERS, index=False)

    def inicializar_modelo(self, textos_treino):
        """Treina o TF-IDF pela primeira vez (Cold Start)"""
        from nltk.corpus import stopwords
        import nltk
        try:
            pt_stops = stopwords.words('portuguese')
        except:
            nltk.download('stopwords')
            pt_stops = stopwords.words('portuguese')

        self.vetorizador = TfidfVectorizer(stop_words=pt_stops, max_features=5000)
        textos_limpos = [ProcessadorTexto.limpar(t) for t in textos_treino]
        self.vetorizador.fit(textos_limpos)
        print("‚úÖ Modelo TF-IDF inicializado e treinado.")

    def processar_lote_diario(self, novos_dados):
        """
        Recebe um DataFrame com ['id', 'texto', 'cpf'].
        Retorna o mesmo DataFrame com as colunas de cluster e influencer.
        """
        textos_limpos = [ProcessadorTexto.limpar(t) for t in novos_dados['texto']]
        matriz_vetores = self.vetorizador.transform(textos_limpos)
        
        resultados_finais = []

        # Processa cada linha do novo lote
        for i in range(matriz_vetores.shape[0]):
            vetor_atual = matriz_vetores[i]
            cpf_atual = str(novos_dados.iloc[i]['cpf'])
            id_origem = novos_dados.iloc[i]['id']
            
            melhor_cluster_id = None
            maior_similaridade = 0.0
            
            # 1. Compara√ß√£o com clusters existentes
            if len(self.centroides_lista) > 0:
                # Transforma lista de centroides em matriz para c√°lculo r√°pido
                matriz_centroides = np.vstack(self.centroides_lista)
                similaridades = cosine_similarity(vetor_atual, matriz_centroides).flatten()
                
                indice_melhor = np.argmax(similaridades)
                if similaridades[indice_melhor] >= self.limiar:
                    maior_similaridade = similaridades[indice_melhor]
                    melhor_cluster_id = self.clusters_df.iloc[indice_melhor]['cluster_id']

            # 2. L√≥gica de Atribui√ß√£o ou Cria√ß√£o
            if melhor_cluster_id is not None:
                # Atualiza cluster existente
                idx = self.clusters_df[self.clusters_df['cluster_id'] == melhor_cluster_id].index[0]
                
                # Atualiza CPFs e contagem
                self.clusters_df.at[idx, 'cpfs_unicos'].add(cpf_atual)
                total_cpfs = len(self.clusters_df.at[idx, 'cpfs_unicos'])
                self.clusters_df.at[idx, 'quantidade_mensagens'] += 1
                
                # Verifica regra de Influencer
                if total_cpfs >= self.min_cpfs:
                    self.clusters_df.at[idx, 'e_influenciador'] = True
                
                # Atualiza o centroide (m√©dia m√≥vel)
                n = self.clusters_df.at[idx, 'quantidade_mensagens']
                novo_centroide = (self.centroides_lista[idx] * (n-1) + vetor_atual.toarray()) / n
                self.centroides_lista[idx] = novo_centroide
            else:
                # Cria novo cluster
                novo_id = len(self.clusters_df) + 1
                novo_registro = {
                    'cluster_id': novo_id,
                    'quantidade_mensagens': 1,
                    'cpfs_unicos': {cpf_atual},
                    'e_influenciador': False
                }
                self.clusters_df = pd.concat([self.clusters_df, pd.DataFrame([novo_registro])], ignore_index=True)
                self.centroides_lista.append(vetor_atual.toarray())
                melhor_cluster_id = novo_id

            # Guardar resultado da linha atual
            status_influencer = self.clusters_df[self.clusters_df['cluster_id'] == melhor_cluster_id]['e_influenciador'].values[0]
            resultados_finais.append({
                'id': id_origem,
                'cluster_atribuido': melhor_cluster_id,
                'score_similaridade': maior_similaridade,
                'status_influenciador': 1 if status_influencer else 0
            })

        # Salva as altera√ß√µes nos arquivos
        self._salvar_estado()
        
        # Une os resultados com o dataframe original para retorno
        df_resultados = pd.DataFrame(resultados_finais)
        return pd.merge(novos_dados, df_resultados, on='id')

# --- EXEMPLO DE USO EM PRODU√á√ÉO ---

if __name__ == "__main__":
    detector = DetectorIncrementalInfluenciador()

    # Se for a primeira vez rodando na vida:
    if detector.vetorizador is None:
        base_treino = [
            "O pix est√° fora do ar desde cedo",
            "O pix est√° fora do ar desde cedo",
            "O pix est√° fora do ar desde cedo",
            "O pix est√° fora do ar desde cedo",
            "O pix est√° fora do ar desde cedo",
            "O pix est√° fora do ar desde cedo",
            "N√£o consigo realizar transferencia via pix",
            "Meu cart√£o de cr√©dito ainda n√£o chegou", 
            "Bom dia, gostaria de tirar uma duvida",
            "O aplicativo √© muito bonito parabens", 
            "O aplicativo √© muito bonito", 
            "Algu√©m me ajuda com o pix por favor",
            "Algu√©m me ajuda com o pix",
            "me ajuda com o pix por favor",
        ]
        detector.inicializar_modelo(base_treino)

    # Simula√ß√£o de dados chegando hoje
    dados_hoje = pd.DataFrame({
    'id': [7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17],
    'texto': [
        "Erro generalizado no pix, arrumem logo",
        "Pix travado aqui tamb√©m",
        "Estou aguardando a entrega do cart√£o a dias",
        "Atendimento p√©ssimo ninguem responde",
        "Voc√™s s√£o horriveis me atendam", 
        "Vou processar voces pelo atendimento ruim",
        "O aplicativo √© muito bonito", 
        "Algu√©m me ajuda com o pix por favor",
        "Algu√©m me ajuda com o pix",
        "me ajuda com o pix por favor",
        "O pix est√° fora do ar desde cedo"

    ],
    'cpf': ['666', '222', '777', '888', '897', '888', '234', '345', '667', '245', '756']
    })

    relatorio = detector.processar_lote_diario(dados_hoje)
    print("\n--- RESULTADO DO PROCESSAMENTO ---")
    print(relatorio)


--- RESULTADO DO PROCESSAMENTO ---
    id                                        texto  cpf  cluster_atribuido  \
0    7       Erro generalizado no pix, arrumem logo  666                 13   
1    8                      Pix travado aqui tamb√©m  222                 14   
2    9  Estou aguardando a entrega do cart√£o a dias  777                 15   
3   10         Atendimento p√©ssimo ninguem responde  888                 16   
4   11               Voc√™s s√£o horriveis me atendam  897                 17   
5   12    Vou processar voces pelo atendimento ruim  888                 18   
6   13                  O aplicativo √© muito bonito  234                 19   
7   14          Algu√©m me ajuda com o pix por favor  345                 20   
8   15                    Algu√©m me ajuda com o pix  667                 21   
9   16                 me ajuda com o pix por favor  245                 22   
10  17             O pix est√° fora do ar desde cedo  756                 23   

    sc

In [13]:
# --- SIMULA√á√ÉO DE CARGA DE DADOS REAIS ---

# 1. Supondo que voc√™ carregou seus dados do banco/CSV
# df_influ = pd.read_sql("SELECT protocolo, texto_cliente, cpf, data_abertura FROM tabela", conexao)

# 2. Carregar o hist√≥rico de protocolos j√° processados (para n√£o repetir trabalho)
caminho_processados = "protocolos_finalizados.csv"
if os.path.exists(caminho_processados):
    protocolos_antigos = pd.read_csv(caminho_processados)['protocolo'].tolist()
else:
    protocolos_antigos = []

# 3. Filtrar apenas o que √© NOVO (O seu "Anti-Join")
df_novos_casos = df_influ[~df_influ['protocolo'].isin(protocolos_antigos)].copy()

# 4. Ajustar nomes de colunas para o Detector (ele espera 'id', 'texto', 'cpf')
df_novos_casos = df_novos_casos.rename(columns={
    'protocolo': 'id',
    'texto_cliente': 'texto',
    'cpf': 'cpf' # Certifique-se que a coluna CPF existe no seu df_influ
})

if not df_novos_casos.empty:
    detector = DetectorIncrementalInfluenciador()

    # Caso seja a PRIMEIRA execu√ß√£o de todas (Cold Start)
    if detector.vetorizador is None:
        print("Iniciando primeira execu√ß√£o hist√≥rica...")
        detector.inicializar_modelo(df_novos_casos['texto'])

    # Processamento Incremental
    print(f"Processando {len(df_novos_casos)} novos protocolos...")
    relatorio_final = detector.processar_lote_diario(df_novos_casos)

    # 5. Salvar a lista de protocolos processados para o dia de amanh√£
    novos_ids = pd.DataFrame({'protocolo': df_novos_casos['id']})
    novos_ids.to_csv(caminho_processados, mode='a', index=False, header=not os.path.exists(caminho_processados))
    
    print("Processamento conclu√≠do e salvo.")
else:
    print("N√£o h√° novos dados para processar hoje.")

NameError: name 'df_influ' is not defined

In [None]:
# --- SIMULA√á√ÉO COM DADOS MAIS COMPLEXOS ---

dados_dia_1 = pd.DataFrame({
    'id': [1, 2, 3, 4, 5, 6, 7, 8, 9],
    'texto': [
        "O pix est√° fora do ar desde cedo",
        "N√£o consigo realizar transferencia via pix",
        "Meu cart√£o de cr√©dito ainda n√£o chegou", 
        "Bom dia, gostaria de tirar uma duvida",
        "O aplicativo √© muito bonito parabens", 
        "O aplicativo √© muito bonito", 
        "Algu√©m me ajuda com o pix por favor",
        "Algu√©m me ajuda com o pix",
        "me ajuda com o pix por favor",
    ],
    'cpf': ['111', '222', '333', '444', '555', '111', '098', '356', '356']
})

dados_dia_2 = pd.DataFrame({
    'id': [7, 8, 9, 10, 11, 12, 13, 14, 15, 16],
    'texto': [
        "Erro generalizado no pix, arrumem logo",
        "Pix travado aqui tamb√©m",
        "Estou aguardando a entrega do cart√£o a dias",
        "Atendimento p√©ssimo ninguem responde",
        "Voc√™s s√£o horriveis me atendam", 
        "Vou processar voces pelo atendimento ruim",
        "O aplicativo √© muito bonito", 
        "Algu√©m me ajuda com o pix por favor",
        "Algu√©m me ajuda com o pix",
        "me ajuda com o pix por favor",
    ],
    'cpf': ['666', '222', '777', '888', '897', '888', '234', '345', '667', '245']
})

print(">>> INICIANDO SISTEMA >>>")
detector = IncrementalInfluencerDetector(similarity_threshold=0.6)

# Passo 1: Treinamento Inicial (Cold Start)
# Usamos o dia 1 para 'aprender' o vocabul√°rio
texts_train = [TextPreprocessor.clean(t) for t in dados_dia_1['texto']]
detector.fit_vectorizer(texts_train)

# Passo 2: Processamento do Dia 1
print("\n>>> PROCESSANDO DIA 1 (Base Hist√≥rica)...")
resultado_d1 = detector.process_daily_batch(dados_dia_1)
print(resultado_d1[['texto', 'cluster_id', 'is_influencer', 'action_log']])

# Passo 3: Processamento do Dia 2 (Incremental)
print("\n>>> PROCESSANDO DIA 2 (Novos Casos)...")
# Note que o CPF 555 vai se juntar ao cluster do saque.
# Como teremos CPFs 111, 333 e 555 no cluster, ele virar√° Influencer = True
resultado_d2 = detector.process_daily_batch(dados_dia_2)
print(resultado_d2[['texto', 'cluster_id', 'is_influencer', 'action_log']])

# Verificar estado final do Cluster que virou Influencer
cluster_saque_id = resultado_d2.iloc[0]['cluster_id']
print(f"\n>>> ESTADO FINAL CLUSTER {cluster_saque_id} <<<")
print(f"CPFs √∫nicos: {detector.clusters[cluster_saque_id]['cpfs']}")
print(f"√â Influencer? {detector.clusters[cluster_saque_id]['is_influencer']}")

>>> INICIANDO SISTEMA >>>
--- Treinando Vectorizer com 9 textos iniciais ---

>>> PROCESSANDO DIA 1 (Base Hist√≥rica)...
                                        texto  cluster_id  is_influencer  \
0            O pix est√° fora do ar desde cedo           1          False   
1  N√£o consigo realizar transferencia via pix           2          False   
2      Meu cart√£o de cr√©dito ainda n√£o chegou           3          False   
3       Bom dia, gostaria de tirar uma duvida           4          False   
4        O aplicativo √© muito bonito parabens           5          False   
5                 O aplicativo √© muito bonito           5          False   
6         Algu√©m me ajuda com o pix por favor           6          False   
7                   Algu√©m me ajuda com o pix           6          False   
8                me ajuda com o pix por favor           6          False   

         action_log  
0       New Cluster  
1       New Cluster  
2       New Cluster  
3       New Cluster  