In [1]:
def detectar_topico(texto, palavras_chave_por_topico, modelo):
    """
    Detecta o tópico mais provável para um texto com base na similaridade de embeddings.

    Args:
        texto: Texto a ser classificado
        palavras_chave_por_topico: Dicionário {tópico: [palavras_chave]}
        modelo: Modelo de embeddings
    """
    # Vetorizar o texto
    vetor_texto = texto_para_vetor(texto, modelo)

    # Calcular similaridade média com cada conjunto de palavras-chave
    similaridades_topicos = {}

    # Implementar cálculo de similaridade média entre o texto e as palavras-chave
    # ...

    # Retornar o tópico com maior similaridade
    # ...

# Definir palavras-chave por tópico
topicos = {
    "Cinema": ["filme", "cinema", "ator", "diretor", "roteiro"],
    "Tecnologia": ["computador", "algoritmo", "software", "programação", "tecnologia"],
    "Esporte": ["futebol", "atleta", "equipe", "competição", "treino"]
}

# Textos para classificar
textos_para_classificar = [
    "O novo filme do diretor ganhou vários prêmios no festival",
    "A empresa lançou um software de inteligência artificial",
    "O time conquistou o campeonato após uma temporada difícil"
]



In [2]:
# Classificar textos (implemente sua solução)
# ...

import numpy as np
from sklearn.feature_extraction.text import TfidfVectorizer

# Função que transforma texto em vetor
def texto_para_vetor(texto, modelo):
    return modelo.transform([texto]).toarray()[0]

# Função para detectar o tópico mais provável
def detectar_topico(texto, palavras_chave_por_topico, modelo):
    vetor_texto = texto_para_vetor(texto, modelo)
    similaridades_topicos = {}

    for topico, palavras_chave in palavras_chave_por_topico.items():
        similaridades = []
        for palavra in palavras_chave:
            vetor_palavra = texto_para_vetor(palavra, modelo)
            similaridade = np.dot(vetor_texto, vetor_palavra) / (np.linalg.norm(vetor_texto) * np.linalg.norm(vetor_palavra))
            similaridades.append(similaridade)
        
        media = sum(similaridades) / len(similaridades)
        similaridades_topicos[topico] = media

    # Retorna o tópico com a maior média de similaridade
    return max(similaridades_topicos, key=similaridades_topicos.get)

# Tópicos e palavras-chave
topicos = {
    "Cinema": ["filme", "cinema", "ator", "diretor", "roteiro"],
    "Tecnologia": ["computador", "algoritmo", "software", "programação", "tecnologia"],
    "Esporte": ["futebol", "atleta", "equipe", "competição", "treino"]
}

# Textos que queremos classificar
textos_para_classificar = [
    "O novo filme do diretor ganhou vários prêmios no festival",
    "A empresa lançou um software de inteligência artificial",
    "O time conquistou o campeonato após uma temporada difícil"
]

# Preparar corpus para treinar o modelo TF-IDF (inclui os textos e as palavras-chave)
corpus = textos_para_classificar + [palavra for lista in topicos.values() for palavra in lista]
modelo = TfidfVectorizer().fit(corpus)

# Classificar cada texto
for texto in textos_para_classificar:
    topico_detectado = detectar_topico(texto, topicos, modelo)
    print(f'"{texto}" → Tópico detectado: {topico_detectado}')


"O novo filme do diretor ganhou vários prêmios no festival" → Tópico detectado: Cinema
"A empresa lançou um software de inteligência artificial" → Tópico detectado: Tecnologia
"O time conquistou o campeonato após uma temporada difícil" → Tópico detectado: Cinema
