# Clusteriza√ß√£o de Textos com a L√≥gica do Algoritmo de Butina

Este notebook faz uma tentativa de adaptar o algoritmo de clusteriza√ß√£o de Darko Butina, originalmente projetado para qu√≠mica computacional, para agrupar documentos de texto, especificamente, sinopses de livros.

### O Algoritmo Original de Butina

O algoritmo foi projetado para ser uma maneira r√°pida e automatizada de agrupar grandes conjuntos de dados moleculares. Suas etapas principais s√£o:

1.  **Gera√ß√£o de "Fingerprints"**: Cada mol√©cula √© convertida em uma representa√ß√£o bin√°ria (uma string de 1s e 0s) que descreve suas caracter√≠sticas estruturais.
2.  **Identifica√ß√£o de Centroides Potenciais**:
    * O algoritmo calcula, para cada mol√©cula, o n√∫mero de "vizinhos" que ela possui acima de um limiar de similaridade (usando o √≠ndice de Tanimoto).
    * As mol√©culas s√£o ordenadas em ordem decrescente pelo n√∫mero de vizinhos. As que est√£o no topo da lista s√£o as melhores candidatas a centroides.
3.  **Clusteriza√ß√£o por Esferas de Exclus√£o**:
    * O algoritmo seleciona a primeira mol√©cula n√£o clusterizada da lista ordenada como um novo centroide.
    * Todos os vizinhos similares a este centroide s√£o agrupados com ele.
    * Uma vez que uma mol√©cula √© atribu√≠da a um cluster, ela √© "marcada" e n√£o pode fazer parte de nenhum outro (a "esfera de exclus√£o").
    * O processo se repete at√© que todas as mol√©culas sejam avaliadas. Mol√©culas n√£o agrupadas tornam-se "singletons".
  
Refer√™ncia: https://ptabdata.blob.core.windows.net/files/2016/PGR2016-00042/v58_1061%20-%20Butina.pdf

In [2]:
synopses_grande = [
    # --- G√™nero: Fantasia / Aventura ---
    "Um jovem mago descobre seu destino ao frequentar uma escola de magia e bruxaria.",
    "Uma sociedade secreta de bruxos luta contra as for√ßas das trevas para proteger o mundo.",
    "Uma antiga profecia envia um her√≥i improv√°vel em uma jornada para encontrar uma espada m√≠tica.",
    "Elfos e an√µes devem deixar de lado suas diferen√ßas para reconquistar um reino perdido de um drag√£o.",
    "Uma garota descobre que pode falar com criaturas m√≠ticas e deve proteg√™-las de um mundo que se industrializa.",
    "Um poderoso necromante amea√ßa libertar um ex√©rcito de mortos-vivos sobre os reinos.",

    # --- G√™nero: Fic√ß√£o Cient√≠fica / Distopia ---
    "Num futuro dist√≥pico, uma garota se voluntaria para um jogo mortal televisionado para salvar sua irm√£.",
    "Ap√≥s o colapso da sociedade, jovens s√£o for√ßados a competir em uma arena brutal.",
    "A √∫ltima col√¥nia humana viaja pelo espa√ßo em uma nave-gera√ß√£o, enfrentando um motim e uma amea√ßa externa desconhecida.",
    "Em um mundo onde as emo√ß√µes s√£o suprimidas por lei, um homem come√ßa a sentir e precisa fugir antes de ser 'curado'.",
    "Um clone descobre a verdade sobre sua cria√ß√£o e lidera uma rebeli√£o contra seus mestres.",
    "Megacorpora√ß√µes governam o mundo a partir de torres de neon, e um hacker descobre uma conspira√ß√£o que pode derrub√°-las.",

    # --- G√™nero: Romance ---
    "Dois amantes de classes sociais diferentes enfrentam obst√°culos em sua busca pelo amor.",
    "Um homem rico e orgulhoso se apaixona por uma mulher de esp√≠rito livre, apesar de suas diferen√ßas.",
    "Um romance de ver√£o se transforma em um amor para a vida toda.",
    "Dois chefs rivais se apaixonam enquanto competem em um concurso de culin√°ria de alto risco.",
    "Uma historiadora viaja no tempo e se apaixona por um cavaleiro, sabendo que seu amor √© imposs√≠vel atrav√©s dos s√©culos.",
    "A dona de uma livraria encontra bilhetes de amor an√¥nimos e inicia uma busca por seu admirador secreto.",
    "Um casamento arranjado entre nobres de reinos rivais inesperadamente se transforma em amor verdadeiro.",

    # --- G√™nero: Mist√©rio / Suspense ---
    "Um detetive brilhante, mas exc√™ntrico, resolve crimes complexos em Londres.",
    "Quando um assassinato ocorre em um trem luxuoso, um detetive famoso deve encontrar o culpado entre os passageiros.",
    "A morte misteriosa de um bilion√°rio da tecnologia em seu quarto do p√¢nico trancado intriga um inspetor veterano.",
    "Um ladr√£o de arte deixa pistas para um detetive aposentado, atraindo-o para um √∫ltimo jogo de gato e rato.",
    "Uma podcaster que reabre um caso arquivado come√ßa a receber amea√ßas, percebendo que o assassino est√° entre seus ouvintes.",
    "O xerife de uma cidade pequena investiga uma s√©rie de desaparecimentos bizarros que os locais atribuem a uma lenda folcl√≥rica.",

    # --- G√™nero: Fic√ß√£o Hist√≥rica ---
    "Um gladiador na Roma antiga luta por sua liberdade, conspirando contra o imperador que traiu sua fam√≠lia.",
    "Durante o Renascimento, um jovem artista se envolve na intriga pol√≠tica da fam√≠lia M√©dici em Floren√ßa.",
    "Uma espi√£ da resist√™ncia opera na Paris ocupada durante a Segunda Guerra Mundial, arriscando tudo por seu pa√≠s.",

    # --- G√™nero: Terror ---
    "Uma fam√≠lia se muda para uma casa nova apenas para descobrir que ela √© assombrada pelos esp√≠ritos de seus antigos moradores.",
    "Uma expedi√ß√£o cient√≠fica na Ant√°rtida descobre uma antiga criatura metamorfa que os ca√ßa um por um."
]

### Conjuntos de Palavras e Similaridade Jaccard

O **√çndice de Tanimoto** para dados bin√°rios √© matematicamente equivalente √† **Similaridade Jaccard**.

* **Fingerprint**: Um conjunto (`set`) contendo as palavras √∫nicas de cada sinopse.
* **Similaridade**: A Similaridade Jaccard, que mede a sobreposi√ß√£o de vocabul√°rio (interse√ß√£o / uni√£o) entre dois conjuntos de palavras.

> Obs: O TFIDF est√° sendo utilizado apenas como tokenizador

In [9]:
import numpy as np
from sklearn.feature_extraction.text import TfidfVectorizer
from nltk.corpus import stopwords

def jaccard_similarity(set1, set2):
    """Calcula a similaridade Jaccard entre dois conjuntos."""
    intersection = len(set1.intersection(set2))
    union = len(set1.union(set2))
    return intersection / union if union != 0 else 0

def cluster_text_jaccard(docs, similarity_threshold):
    """
    Clusteriza textos usando a l√≥gica de Butina com Similaridade Jaccard.
    """
    # Etapa 1: "Fingerprinting" com conjuntos de palavras
    
    stopwords_pt = stopwords.words('portuguese')
    tokenizer = TfidfVectorizer(stop_words=stopwords_pt).build_analyzer()
    doc_sets = [set(tokenizer(doc)) for doc in docs]

    # Etapa 2: Calcular a matriz de similaridade Jaccard
    num_docs = len(docs)
    sim_matrix = np.zeros((num_docs, num_docs))
    for i in range(num_docs):
        for j in range(num_docs):
            sim_matrix[i, j] = jaccard_similarity(doc_sets[i], doc_sets[j])

    # Etapa 3: Aplicar a l√≥gica de Butina, pega os que t√™m mais vizinhos e ordena
    num_neighbors = (sim_matrix >= similarity_threshold).sum(axis=1) - 1
    sorted_indices = np.argsort(num_neighbors)[::-1]

    # Etapa 4: Agrupar os documentos em clusters ou singletons, excluindo os j√° agrupados (flagged)
    clusters = {}
    flagged = np.zeros(len(docs), dtype=bool)
    cluster_id = 0

    for idx in sorted_indices:
        if flagged[idx]:
            continue

        cluster_id += 1
        clusters[cluster_id] = {'centroid_synopsis': docs[idx], 'members': []}
        flagged[idx] = True

        neighbor_indices = np.where((sim_matrix[idx] >= similarity_threshold) & (np.arange(num_docs) != idx))[0]
        for neighbor_idx in neighbor_indices:
            if not flagged[neighbor_idx]:
                clusters[cluster_id]['members'].append(docs[neighbor_idx])
                flagged[neighbor_idx] = True

    singleton_indices = np.where(flagged == False)[0]
    singletons = [docs[i] for i in singleton_indices]

    return clusters, singletons

print("--- RESULTADOS COM SIMILARIDADE JACCARD ---")
clusters_jac, singletons_jac = cluster_text_jaccard(synopses_grande, similarity_threshold=0.05)

for cid, data in clusters_jac.items():
    print(f"\nüìö Cluster {cid}")
    print(f"   Centroide: \"{data['centroid_synopsis']}\"")
    print("   Membros:")
    if data['members']:
        for member in data['members']:
            print(f"    - \"{member}\"")
    else:
        print("     (Nenhum outro membro neste cluster)")

print(f"\n--- Singletons ---")
for s in singletons_jac:
    print(f"  - \"{s}\"")

--- RESULTADOS COM SIMILARIDADE JACCARD ---

üìö Cluster 1
   Centroide: "Uma garota descobre que pode falar com criaturas m√≠ticas e deve proteg√™-las de um mundo que se industrializa."
   Membros:
    - "Um jovem mago descobre seu destino ao frequentar uma escola de magia e bruxaria."
    - "Uma sociedade secreta de bruxos luta contra as for√ßas das trevas para proteger o mundo."
    - "Num futuro dist√≥pico, uma garota se voluntaria para um jogo mortal televisionado para salvar sua irm√£."
    - "Um clone descobre a verdade sobre sua cria√ß√£o e lidera uma rebeli√£o contra seus mestres."
    - "Megacorpora√ß√µes governam o mundo a partir de torres de neon, e um hacker descobre uma conspira√ß√£o que pode derrub√°-las."
    - "Quando um assassinato ocorre em um trem luxuoso, um detetive famoso deve encontrar o culpado entre os passageiros."
    - "Uma expedi√ß√£o cient√≠fica na Ant√°rtida descobre uma antiga criatura metamorfa que os ca√ßa um por um."

üìö Cluster 2
   Centroide: "U

In [5]:

def recomendar_por_sinopse(sinopse_usuario, clusters, threshold=0.1):
    """
    Dada uma sinopse, encontra o cluster mais similar e recomenda outros livros desse cluster.
    """
    stopwords_pt = stopwords.words('portuguese')
    tokenizer = TfidfVectorizer(stop_words=stopwords_pt).build_analyzer()
    set_usuario = set(tokenizer(sinopse_usuario))
    
    melhor_cluster = None
    melhor_sim = 0
    
    for cid, data in clusters.items():
        set_centroide = set(tokenizer(data['centroid_synopsis']))
        sim = jaccard_similarity(set_usuario, set_centroide)
        if sim > melhor_sim and sim >= threshold:
            melhor_sim = sim
            melhor_cluster = cid

    if melhor_cluster is not None:
        recomendacoes = [data['centroid_synopsis']] + clusters[melhor_cluster]['members']
        # Remove a pr√≥pria sinopse do usu√°rio, se estiver na lista
        recomendacoes = [r for r in recomendacoes if r != sinopse_usuario]
        return recomendacoes
    else:
        return []

sinopse_usuario = "Um romance com muitos desafios e um amor que supera barreiras sociais."
recomendacoes = recomendar_por_sinopse(sinopse_usuario, clusters_jac, threshold=0.05)
print("\n--- Recomenda√ß√µes para o usu√°rio ---")
for r in recomendacoes:
    print(f"  - \"{r}\"")


--- Recomenda√ß√µes para o usu√°rio ---
  - "Uma espi√£ da resist√™ncia opera na Paris ocupada durante a Segunda Guerra Mundial, arriscando tudo por seu pa√≠s."
  - "Um poderoso necromante amea√ßa libertar um ex√©rcito de mortos-vivos sobre os reinos."
  - "Dois amantes de classes sociais diferentes enfrentam obst√°culos em sua busca pelo amor."
  - "Um romance de ver√£o se transforma em um amor para a vida toda."
  - "Dois chefs rivais se apaixonam enquanto competem em um concurso de culin√°ria de alto risco."
  - "Uma historiadora viaja no tempo e se apaixona por um cavaleiro, sabendo que seu amor √© imposs√≠vel atrav√©s dos s√©culos."
  - "A dona de uma livraria encontra bilhetes de amor an√¥nimos e inicia uma busca por seu admirador secreto."
