# Análise de Embeddings dos Hinos da ICM
Este notebook explora técnicas de embeddings para representar os textos dos hinos da coletânea principal da Igreja Cristã Maranata.

O objetivo é aplicar modelos de vetorização, calcular similaridade, realizar agrupamentos e extrair tópicos dos louvores, utilizando métodos como FastText, PCA, t-SNE, UMAP, KMeans, LDA e NMF.

---
**Conteúdo do notebook:**
- Carregamento do modelo FastText e dos dados tratados
- Geração de embeddings com diferentes estratégias de peso
- Cálculo de similaridade entre hinos
- Visualização de matrizes de similaridade
- Redução de dimensionalidade (PCA, t-SNE, UMAP)
- Agrupamento de hinos por KMeans
- Extração de tópicos com LDA e NMF
- Visualização dos agrupamentos e tópicos
- Salvamento dos resultados para uso futuro

Este material é público e pode ser compartilhado para fins de pesquisa, estudo ou divulgação cultural.

# Parte 4 - Embeddings 

---

**A seguir:** Carregamento do modelo FastText pré-treinado para português, utilizado para gerar embeddings das palavras dos hinos.

In [1]:
import fasttext

# Modelo baixado diretamente do site do fasttext
# (https://dl.fbaipublicfiles.com/fasttext/vectors-crawl/cc.pt.300.bin.gz)
model = fasttext.load_model("..\\assets\\cc.pt.300.bin")

# Outra alternativa
# fasttext.util.download_model('pt', if_exists='ignore')

---

**A seguir:** Carregamento dos dados dos hinos já tokenizados, prontos para análise de embeddings.

In [None]:
import pandas as pd

hinos_analise: pd.DataFrame = pd.read_pickle("..\\assets\\hinos_analise_tokens.pkl")

---

**A seguir:** Geração dos embeddings dos hinos utilizando diferentes estratégias de peso: TF-IDF, penalização por comprimento e média uniforme.

In [None]:
import numpy as np
from collections import Counter


def embed_text_weighted(tokens, model, method="tfidf"):
    """Embedding com diferentes estratégias de peso"""
    if not tokens:
        return np.zeros(model.get_dimension())

    vectors = []
    weights = []

    if method == "tfidf":
        # Peso baseado em frequência inversa (palavras raras = mais peso)
        token_counts = Counter(tokens)
        total_docs = len(hinos_analise)  # ou seu corpus total

        for word in tokens:
            vector = model.get_word_vector(word)
            # Simulação simples de TF-IDF
            tf = token_counts[word] / len(tokens)
            idf = np.log(
                total_docs
                / (
                    1
                    + sum(
                        1
                        for doc_tokens in hinos_analise["tokens_no_stops"]
                        if word in doc_tokens
                    )
                )
            )
            weight = tf * idf

            vectors.append(vector)
            weights.append(weight)

    elif method == "uniform":
        # Sua abordagem atual
        vectors = [model.get_word_vector(word) for word in tokens]
        weights = [1.0] * len(vectors)

    elif method == "length_penalty":
        # Penaliza documentos muito longos
        vectors = [model.get_word_vector(word) for word in tokens]
        weights = [1.0 / np.sqrt(len(tokens))] * len(vectors)

    # Média ponderada
    weighted_sum = np.average(vectors, axis=0, weights=weights)
    return weighted_sum


# Teste diferentes abordagens
hinos_analise["word_embedding_tfidf"] = hinos_analise["tokens_no_stops"].apply(
    lambda t: embed_text_weighted(t, model, "tfidf")
)

hinos_analise["word_embedding_length_penalty"] = hinos_analise["tokens_no_stops"].apply(
    lambda t: embed_text_weighted(t, model, "length_penalty")
)

hinos_analise["word_embedding"] = hinos_analise["tokens_no_stops"].apply(
    lambda t: embed_text_weighted(t, model, "uniform")
)
hinos_analise.head()

---

**A seguir:** Cálculo da similaridade entre hinos usando os embeddings gerados, comparação dos métodos e exibição dos hinos mais semelhantes ao hino de referência.

In [None]:
from sklearn.metrics.pairwise import cosine_similarity

sims_tfidf = cosine_similarity(list(hinos_analise["word_embedding_tfidf"]))
sims_lp = cosine_similarity(list(hinos_analise["word_embedding_length_penalty"]))
sims = cosine_similarity(list(hinos_analise["word_embedding"]))

# hinos mais semelhantes ao hino 443
similarities_tfidf = list(enumerate(sims_tfidf[443]))
similarities_tfidf = sorted(similarities_tfidf, key=lambda x: x[1], reverse=True)

similarities_lp = list(enumerate(sims_lp[443]))
similarities_lp = sorted(similarities_lp, key=lambda x: x[1], reverse=True)

similarities = list(enumerate(sims[443]))
similarities = sorted(similarities, key=lambda x: x[1], reverse=True)

print("Mais parecidos com o hino 443: " + hinos_analise["nome"].iloc[443])
print("TF-IDF:")
for idx, score in similarities_tfidf[1:6]:
    print(f"Hino {idx}: {hinos_analise['nome'].iloc[idx]} → similaridade {score:.3f}")

print("Length Penalty:")
for idx, score in similarities_lp[1:6]:
    print(f"Hino {idx}: {hinos_analise['nome'].iloc[idx]} → similaridade {score:.3f}")

print("Uniform:")
for idx, score in similarities[1:6]:
    print(f"Hino {idx}: {hinos_analise['nome'].iloc[idx]} → similaridade {score:.3f}")

---

**A seguir:** Criação de DataFrames de similaridade para visualização e análise dos resultados dos diferentes métodos de embeddings.

In [None]:
sims_tfidf_df = pd.DataFrame(
    sims_tfidf, index=hinos_analise.index, columns=hinos_analise.index
)
sims_lp_df = pd.DataFrame(
    sims_lp, index=hinos_analise.index, columns=hinos_analise.index
)
sims_df = pd.DataFrame(sims, index=hinos_analise.index, columns=hinos_analise.index)

---

**A seguir:** Visualização das matrizes de similaridade entre hinos utilizando heatmaps para os diferentes métodos de embeddings.

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

fig, ax = plt.subplots(1, 3, figsize=(24, 5))

sns.heatmap(sims_tfidf_df, cmap="viridis", annot=False, ax=ax[0])
sns.heatmap(sims_lp_df, cmap="viridis", annot=False, ax=ax[1])
sns.heatmap(sims_df, cmap="viridis", annot=False, ax=ax[2])
plt.title("Similaridade entre hinos (Word Embeddings)")
plt.show()

---

**A seguir:** Identificação dos pares de hinos com alta similaridade, destacando possíveis relações temáticas ou estilísticas.

In [None]:
high_similarity_word2vec = sims_tfidf_df[
    (sims_tfidf_df > 0.5) & (sims_tfidf_df < 1.0)
].stack()  # .reset_index()
high_similarity_word2vec = high_similarity_word2vec[
    high_similarity_word2vec.index.get_level_values(0)
    < high_similarity_word2vec.index.get_level_values(1)
]
high_similarity_word2vec.sort_values(ascending=False)

---

**A seguir:** Redução de dimensionalidade dos embeddings dos hinos utilizando PCA, t-SNE e UMAP para visualização e agrupamento.

## Clustering

In [None]:
import numpy as np
from sklearn.decomposition import PCA
from sklearn.manifold import TSNE
import umap


pca = PCA(n_components=2)
tsne = TSNE(
    n_components=2,  # 2D
    perplexity=30,  # balanceia "quantos vizinhos" considerar (20-50 costuma ser bom)
    # n_iter=1000,  # número de iterações
    random_state=42,
)
umap_model = umap.UMAP(
    n_neighbors=15,  # controla quão “local” é o agrupamento (10–50 bons valores)
    min_dist=0.1,  # densidade dos pontos no espaço 2D (0 = pontos bem juntos, 0.5 = mais espalhados)
    n_components=2,  # queremos 2D para visualização
    random_state=42,
)

X = np.vstack(hinos_analise["word_embedding_tfidf"].values)

X_pca = pca.fit_transform(X)
X_tsne = tsne.fit_transform(X)
X_umap = umap_model.fit_transform(X)

hinos_analise["word_pca1"] = X_pca[:, 0]
hinos_analise["word_pca2"] = X_pca[:, 1]

hinos_analise["word_tsne1"] = X_tsne[:, 0]
hinos_analise["word_tsne2"] = X_tsne[:, 1]

hinos_analise["word_umap1"] = X_umap[:, 0]
hinos_analise["word_umap2"] = X_umap[:, 1]

---

**A seguir:** Visualização dos agrupamentos dos hinos por embeddings reduzidos, utilizando scatterplots para PCA, t-SNE e UMAP.

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

# Criar figura com 3 subplots lado a lado
fig, axes = plt.subplots(1, 3, figsize=(18, 6))

# Plot PCA
sns.scatterplot(
    data=hinos_analise,
    x="word_pca1",
    y="word_pca2",
    ax=axes[0],
)
axes[0].set_title("PCA - Hinos agrupados por embeddings")
axes[0].legend(bbox_to_anchor=(1.05, 1), loc="upper left")

# Plot t-SNE
sns.scatterplot(
    data=hinos_analise,
    x="word_tsne1",
    y="word_tsne2",
    ax=axes[1],
)
axes[1].set_title("t-SNE - Hinos agrupados por embeddings")
axes[1].legend(bbox_to_anchor=(1.05, 1), loc="upper left")

# Plot UMAP
sns.scatterplot(
    data=hinos_analise,
    x="word_umap1",
    y="word_umap2",
    ax=axes[2],
)
axes[2].set_title("UMAP - Hinos agrupados por embeddings")
axes[2].legend(bbox_to_anchor=(1.05, 1), loc="upper left")

plt.tight_layout()
plt.show()

---

**A seguir:** Análise de agrupamento dos hinos utilizando KMeans, avaliação do número ideal de clusters com o coeficiente de Silhouette.

In [None]:
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score
import matplotlib.pyplot as plt

range_n_clusters = range(2, 12)
silhouette_scores = []

for k in range_n_clusters:
    kmeans = KMeans(n_clusters=k, random_state=42)
    labels = kmeans.fit_predict(X_umap)
    score = silhouette_score(X_umap, labels)
    silhouette_scores.append(score)
    print(f"k = {k}, silhouette = {score:.4f}")

# Visualiza o resultado
plt.figure(figsize=(8, 5))
plt.plot(range_n_clusters, silhouette_scores, marker="o")
plt.title("Análise de Silhouette para seleção de k")
plt.xlabel("Número de clusters (k)")
plt.ylabel("Coeficiente médio de Silhouette")
plt.grid(True)
plt.show()

---

**A seguir:** Visualização dos coeficientes de Silhouette para diferentes valores de k, auxiliando na escolha do número de clusters ideal.

In [None]:
from sklearn.metrics import silhouette_samples
import numpy as np

k = 10  # exemplo, número escolhido
kmeans = KMeans(n_clusters=k, random_state=42)
labels = kmeans.fit_predict(X_umap)

silhouette_vals = silhouette_samples(X_umap, labels)
y_lower = 10

plt.figure(figsize=(8, 6))
for i in range(k):
    ith_vals = silhouette_vals[labels == i]
    ith_vals.sort()
    size_cluster_i = ith_vals.shape[0]
    y_upper = y_lower + size_cluster_i
    plt.fill_betweenx(np.arange(y_lower, y_upper), 0, ith_vals)
    y_lower = y_upper + 10

plt.axvline(x=np.mean(silhouette_vals), color="red", linestyle="--")
plt.title(f"Silhouette plot para k={k}")
plt.xlabel("Coeficiente de Silhouette")
plt.ylabel("Clusters")
plt.show()

---

**A seguir:** Visualização dos coeficientes de Silhouette por cluster, detalhando a qualidade dos agrupamentos formados.

In [None]:
from sklearn.cluster import KMeans

n_clusters = 10
kmeans = KMeans(n_clusters=n_clusters, random_state=42)
hinos_analise["word_cluster"] = kmeans.fit_predict(X_umap)

---

**A seguir:** Atribuição dos clusters aos hinos e visualização dos agrupamentos por embeddings reduzidos.

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

# Criar figura com 3 subplots lado a lado
plt.figure(figsize=(10, 6))

# Plot PCA
sns.scatterplot(
    data=hinos_analise,
    x="word_umap1",
    y="word_umap2",
    hue="word_cluster",
    palette="tab10",
    s=80,
)
plt.title("PCA - Hinos agrupados por embeddings")
plt.legend(bbox_to_anchor=(1.05, 1), loc="upper left")
plt.tight_layout()
plt.show()

---

**A seguir:** Análise dos termos mais frequentes em cada cluster e visualização da distribuição dos hinos por cluster.

In [None]:
from collections import Counter

for c in sorted(hinos_analise["word_cluster"].unique()):
    cluster_tokens = hinos_analise.loc[
        hinos_analise["word_cluster"] == c, "tokens_no_stops"
    ].sum()
    top_terms = Counter(cluster_tokens).most_common(10)
    print(f"\nCluster {c}:")
    print([t for t, _ in top_terms])
    print(hinos_analise.loc[hinos_analise["word_cluster"] == c, "nome"][:5])

print(hinos_analise["word_cluster"].value_counts().sort_index())

---

**A seguir:** Extração de tópicos dos hinos utilizando LDA e NMF, atribuição dos tópicos aos hinos e visualização da distribuição dos tópicos.

## Tópicos

---

**A seguir:** Visualização dos agrupamentos dos hinos por tópicos, utilizando scatterplots para PCA, t-SNE e UMAP.

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.decomposition import LatentDirichletAllocation, NMF

n_topics = n_clusters

# Criar TF-IDF apenas para análise de tópicos
vectorizer = TfidfVectorizer(
    max_features=500,
    stop_words=None,  # você já removeu as stopwords
    ngram_range=(1, 3),  # uni, bi e trigramas
    min_df=2,  # palavra deve aparecer em pelo menos 2 documentos
)

# Usar texto já limpo (sem stopwords)
texts_for_topics = [" ".join(tokens) for tokens in hinos_analise["tokens_no_stops"]]
X_tfidf = vectorizer.fit_transform(texts_for_topics)

# Agora podemos usar LDA e NMF
lda = LatentDirichletAllocation(n_components=n_topics, random_state=42, max_iter=10)
lda_topics = lda.fit_transform(X_tfidf)

# NMF também funciona com TF-IDF
nmf = NMF(n_components=n_topics, random_state=42, max_iter=100)
nmf_topics = nmf.fit_transform(X_tfidf)


def display_topics(model, feature_names, n_top_words=10):
    for idx, topic in enumerate(model.components_):
        print(f"\nTópico {idx+1}:")
        top_words = [feature_names[i] for i in topic.argsort()[: -n_top_words - 1 : -1]]
        print(f"Palavras-chave: {' | '.join(top_words)}")


feature_names = vectorizer.get_feature_names_out()

print("=== LDA (Latent Dirichlet Allocation) ===")
display_topics(lda, feature_names)

print("\n=== NMF (Non-negative Matrix Factorization) ===")
display_topics(nmf, feature_names)

# Atribuir tópicos aos hinos
hinos_analise["LDA_topic"] = lda_topics.argmax(axis=1)
hinos_analise["NMF_topic"] = nmf_topics.argmax(axis=1)

print(f"\nDistribuição LDA:")
print(hinos_analise["LDA_topic"].value_counts().sort_index())

print(f"\nDistribuição NMF:")
print(hinos_analise["NMF_topic"].value_counts().sort_index())

---

**A seguir:** Visualização da distribuição dos tópicos atribuídos aos hinos por LDA e NMF.

In [None]:
# Visualizar a distribuição de tópicos
import matplotlib.pyplot as plt

fig, axes = plt.subplots(1, 2, figsize=(15, 5))

# LDA
hinos_analise["LDA_topic"].value_counts().sort_index().plot(
    kind="bar", ax=axes[0], title="LDA (TF-IDF)"
)
axes[0].set_xlabel("Tópico")
axes[0].set_ylabel("Número de Hinos")

# NMF
hinos_analise["NMF_topic"].value_counts().sort_index().plot(
    kind="bar", ax=axes[1], title="NMF (TF-IDF)"
)
axes[1].set_xlabel("Tópico")
axes[1].set_ylabel("Número de Hinos")

plt.tight_layout()
plt.show()

---

**A seguir:** Visualização dos agrupamentos dos hinos por tópicos em diferentes projeções (PCA, t-SNE, UMAP).

In [None]:
# Criar figura com 3 subplots lado a lado
fig, axes = plt.subplots(1, 3, figsize=(18, 6))

# Plot PCA
sns.scatterplot(
    data=hinos_analise,
    x="word_pca1",
    y="word_pca2",
    hue="NMF_topic",
    palette="tab10",
    s=80,
    ax=axes[0],
)
axes[0].set_title("PCA - Hinos agrupados por tópicos")
axes[0].legend(bbox_to_anchor=(1.05, 1), loc="upper left")

# Plot t-SNE
sns.scatterplot(
    data=hinos_analise,
    x="word_tsne1",
    y="word_tsne2",
    hue="NMF_topic",
    palette="tab10",
    s=80,
    ax=axes[1],
)
axes[1].set_title("t-SNE - Hinos agrupados por tópicos")
axes[1].legend(bbox_to_anchor=(1.05, 1), loc="upper left")

# Plot UMAP
sns.scatterplot(
    data=hinos_analise,
    x="word_umap1",
    y="word_umap2",
    hue="NMF_topic",
    palette="tab10",
    s=80,
    ax=axes[2],
)
axes[2].set_title("UMAP - Hinos agrupados por tópicos")
axes[2].legend(bbox_to_anchor=(1.05, 1), loc="upper left")

plt.tight_layout()
plt.show()

---

**A seguir:** Salvamento dos resultados e informações enriquecidas dos hinos para uso em análises futuras.

## Salvamento de informações novas

---

**Fim do notebook:** Finalização do processamento, com os dados prontos para exportação e uso em outras análises ou aplicações.

In [None]:
hinos_analise[
    [
        "nome",
        "texto_limpo",
        "categoria_id",
        "categoria_abr",
        "tokens_no_stops",
        "word_embedding_tfidf",
        "word_tsne1",
        "word_tsne2",
        "word_umap1",
        "word_umap2",
        "word_cluster",
        "NMF_topic",
    ]
].to_pickle("..\\assets\\hinos_analise_word_embeddings.pkl")

In [None]:
sims_tfidf_df.to_pickle("..\\assets\\similarity_matrix_word_embeddings_tfidf.pkl")