In [1]:
import numpy as np
import gensim.downloader as api

# Carrega o modelo pré-treinado
modelo_pretreino = api.load("glove-wiki-gigaword-100")

In [2]:
# Função que transforma texto em vetor médio
def texto_para_vetor(texto, modelo):
    palavras = texto.lower().split()
    vetores = [modelo[word] for word in palavras if word in modelo]
    if vetores:
        return np.mean(vetores, axis=0)
    else:
        return np.zeros(modelo.vector_size)


In [3]:
# Função para detectar tópico
def detectar_topico(texto, palavras_chave_por_topico, modelo):
    vetor_texto = texto_para_vetor(texto, modelo)
    similaridades_topicos = {}

    for topico, palavras_chave in palavras_chave_por_topico.items():
        similaridades = []
        for palavra in palavras_chave:
            if palavra in modelo:
                vetor_palavra = modelo[palavra]
                sim = np.dot(vetor_texto, vetor_palavra) / (np.linalg.norm(vetor_texto) * np.linalg.norm(vetor_palavra))
                similaridades.append(sim)
        if similaridades:
            similaridades_topicos[topico] = np.mean(similaridades)
        else:
            similaridades_topicos[topico] = -1

    return max(similaridades_topicos, key=similaridades_topicos.get)

In [4]:
# Dicionário de tópicos e palavras-chave
topicos = {
    "Cinema": ["filme", "cinema", "ator", "atriz", "diretor", "estreia", "drama", "comédia", "roteiro", "festival"],
    "Tecnologia": ["computador", "algoritmo", "software", "programação", "tecnologia", "aplicativo", "inteligência", "artificial", "rede", "dados"],
    "Esporte": ["futebol", "basquete", "atleta", "jogo", "partida", "equipe", "competição", "campeonato", "treino", "vitória"]
}


# Lista de textos a classificar
textos_para_classificar = [
    "O novo filme do diretor ganhou vários prêmios no festival",
    "A empresa lançou um software de inteligência artificial",
    "O time conquistou o campeonato após uma temporada difícil"
]

In [5]:
# Executa a classificação
for texto in textos_para_classificar:
    topico = detectar_topico(texto, topicos, modelo_pretreino)
    print(f"Texto: \"{texto}\"\n→ Tópico detectado: {topico}\n")

Texto: "O novo filme do diretor ganhou vários prêmios no festival"
→ Tópico detectado: Cinema

Texto: "A empresa lançou um software de inteligência artificial"
→ Tópico detectado: Tecnologia

Texto: "O time conquistou o campeonato após uma temporada difícil"
→ Tópico detectado: Esporte

