In [8]:
# 📊 Visualização t-SNE Simplificada e Melhorada
import pandas as pd
import plotly.express as px
from sklearn.manifold import TSNE
from sklearn.preprocessing import StandardScaler

# Carregar o dataset processado
df = pd.read_csv('../../data/processed/normalized_data.csv')

# Normalização dos embeddings
scaler = StandardScaler()
X_normalized = scaler.fit_transform(df.iloc[:, 3:].values)

# Aplicar t-SNE com perplexity ajustado para uma melhor separação
tsne = TSNE(n_components=2, perplexity=50, random_state=42)
tsne_results = tsne.fit_transform(X_normalized)

# Adicionar os resultados ao DataFrame
df['tsne_1'] = tsne_results[:, 0]
df['tsne_2'] = tsne_results[:, 1]

# 📈 Visualização com Plotly (sem centróides, mais minimalista)
fig_tsne_clean = px.scatter(
    df, 
    x='tsne_1', 
    y='tsne_2', 
    color='syndrome_id',
    opacity=0.7,  # Reduzindo a sobreposição para uma visualização mais clara
    title="t-SNE Visualization of Embeddings",
    labels={'tsne_1': 't-SNE Component 1', 'tsne_2': 't-SNE Component 2'}
)

# Melhorando a estética do gráfico
fig_tsne_clean.update_layout(
    plot_bgcolor='white',
    xaxis=dict(showgrid=True),
    yaxis=dict(showgrid=True),
    legend_title_text="Syndrome ID"
)

fig_tsne_clean.show()


O gráfico t-SNE gerado mostra uma separação moderada entre as diferentes classes de síndromes genéticas, evidenciando que o modelo de classificação possui uma base informativa sólida para identificar padrões. No entanto, há sobreposição entre algumas classes, sugerindo a necessidade de ajustes finos no modelo ou exploração de outras técnicas de redução de dimensionalidade para melhorar a separabilidade e a performance do classificador.