# Explorando as métricas

- Será considerado o arquivo dos experimentos para o qual já foram filtrados os modelos com mais de cinco tópicos 'runs_catalog_filtered.csv'.
- Serão verificadas as três métricas de coerência de tópicos (c_v, c_npmi, u_mass) buscando filtrar os resultados nos primeiros quartis de cada métrica para avaliação visual.
- Serão priorizadas modelagens com maior granularidade, consequentemente, maior número de tópicos, quando tal fator não resultar em perda de qualidade das representações e vizualizações geradas.

In [1]:
import pandas as pd

In [None]:
df = pd.read_csv('../models/expr_bertopic_profiap/runs_catalog_filtered.csv')

In [25]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 22 entries, 0 to 21
Data columns (total 7 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   embedding_model  22 non-null     object 
 1   n_neighbors      22 non-null     int64  
 2   cluster_size     22 non-null     int64  
 3   n_topics         22 non-null     int64  
 4   c_v              22 non-null     float64
 5   c_npmi           22 non-null     float64
 6   u_mass           22 non-null     float64
dtypes: float64(3), int64(3), object(1)
memory usage: 1.3+ KB


In [11]:
df.sort_values('n_topics',ascending=False).style.background_gradient(cmap='gray',subset=['n_topics','c_v', 'c_npmi', 'u_mass'])

Unnamed: 0,embedding_model,n_neighbors,cluster_size,n_topics,c_v,c_npmi,u_mass
0,granite,5,5,64,0.477648,-0.023182,-5.881825
13,paraphrase,10,5,62,0.454723,-0.052465,-6.651421
10,paraphrase,5,5,61,0.456171,-0.051186,-6.444358
16,paraphrase,15,5,61,0.460548,-0.064639,-6.866158
20,paraphrase,20,5,57,0.437425,-0.057962,-6.07026
6,granite,15,5,55,0.482284,-0.019487,-6.170697
8,granite,20,5,55,0.486783,-0.008705,-5.958672
3,granite,10,5,49,0.503942,0.005211,-5.211826
1,granite,5,10,30,0.53457,-0.006749,-4.920437
9,granite,20,10,25,0.547122,-0.00489,-4.659907


## Quais estão no primeiro quartil para todas as métricas?

In [12]:
(df[
    (df.c_v >= df.c_v.quantile(0.75)) &
    (df.u_mass >= df.u_mass.quantile(0.75)) &
    (df.c_npmi >= df.c_npmi.quantile(0.75)) 
]).style.background_gradient(cmap='gray',subset=['n_topics','c_v', 'c_npmi', 'u_mass'])

Unnamed: 0,embedding_model,n_neighbors,cluster_size,n_topics,c_v,c_npmi,u_mass
7,granite,15,10,24,0.573339,0.020438,-4.170806
17,paraphrase,15,10,9,0.590744,0.05059,-2.348568
21,paraphrase,20,10,6,0.542992,0.019195,-3.243216


## Dos clusters com maior número de tópicos, algum se encontra acima do segundo quartil para todas as métricas?

In [9]:
(df[
    (df.c_v >= df.c_v.quantile(0.5)) &
    (df.u_mass >= df.u_mass.quantile(0.5)) &
    (df.c_npmi >= df.c_npmi.quantile(0.5)) &
    (df.n_topics >= df.n_topics.quantile(0.5))
]).style.background_gradient(cmap='viridis',subset=['n_topics','c_v', 'c_npmi', 'u_mass'])

Unnamed: 0,embedding_model,n_neighbors,cluster_size,n_topics,c_v,c_npmi,u_mass
4,granite,10,10,24,0.542433,0.016285,-4.53852
7,granite,15,10,24,0.573339,0.020438,-4.170806
9,granite,20,10,25,0.547122,-0.00489,-4.659907


## Conclusões

Tendo em vista a análise dos parametros que apresentaram melhor desempenho geral nas métricas e priorizando a maior diversidade de tópicos identificados, destaca-se positivamente a combinação do modelo IBM/Granite com min_cluster_size=10 e n_neighbors=15. Destaca-se também a configuração por se tratar do padrão utilizado de forma automática pela biblioteca.