In [None]:
%load_ext autoreload
%autoreload 2

In [None]:
from src.data.make_dataset import load_dossies_df
from src.data.make_metadados import load_dossies_metadados_df
from src.features.build_features import get_tfidf_features, get_tf_features
from src.models import train_model, predict_model, validate_model
from src.visualization.visualize import plot_dendrogram_Agglomerative, plot_dendrogram
from src.data.make_reports import export_df_to_json

In [None]:
dossies = load_dossies_df()
len(dossies)

In [None]:
dossies.head()

In [None]:
dossies_metadados = load_dossies_metadados_df(dossies.nome_do_arquivo)
len(dossies_metadados)

In [None]:
dossies_metadados.head()

In [None]:
X, tfidf_feature_names = get_tfidf_features(dossies.conteudo)
X.shape

In [None]:
X_topics, tf_feature_names = get_tf_features(dossies.conteudo, n_features=1000)
X_topics.shape

In [None]:
aggl_clustering = train_model.agglomerative(X, distance_threshold=0, n_clusters=None, linkage='ward')
aggl_clustering

In [None]:
n_topics = 10
validate_model.print_top_words(train_model.lda(X_topics, n_topics), tf_feature_names, n_top_words=10)

In [None]:
validate_model.print_top_words(train_model.nmf(X, n_topics), tfidf_feature_names, n_top_words=10)

In [None]:
plot_dendrogram_Agglomerative(
    aggl_clustering,
    truncate_mode='lastp',  # show only the last p merged clusters
    p=100,  # show only the last p merged clusters
    leaf_rotation=90,
    # leaf_font_size=12.,
    show_contracted=True    
)

In [None]:
Z = train_model.linkage_matrix(X, method='ward')
plot_dendrogram(
    Z,
    truncate_mode='level',
    p=5,
    leaf_rotation=90,
    # leaf_font_size=12.,
    show_contracted=True
)

In [None]:
# a partir da analise do dendrograma plotada, 5 clusters parece uma boa escolha
n_clusters = 5
labels = predict_model.Z_labels(Z, t=n_clusters, criterion='maxclust')
labels

In [None]:
dossies_com_metadados = dossies.join(
    dossies_metadados.set_index('nome_do_arquivo'),
    on='nome_do_arquivo'
)

dossies_com_metadados = dossies_com_metadados.dropna()
len(dossies_com_metadados)

In [None]:
# Com os resultados dessa célula pode-se presumir que documentos com a label 2 está fortemente relacionado à questões de agricultura
cluster_2 = validate_model.checar_categoria(dossies_com_metadados, labels, 2)
cluster_2.info()
print(cluster_2.head())

In [None]:
validate_model.checar_substring(cluster_2, 'titulo', 'cultivo')

In [None]:
# Com os resultados dessa célula pode-se presumir que documentos com a label 1 está fortemente relacionado à questões de agricultura
cluster_1 = validate_model.checar_categoria(dossies_com_metadados, labels, 1)
cluster_1.head()

In [None]:
validate_model.checar_substring(cluster_1, 'titulo', r'cogumelos?')

In [None]:
validate_model.get_topics_by_doc(cluster_1)

In [None]:
doc_topics_cluster_1 = validate_model.get_topics_by_doc(cluster_1, n_top_topics=1)
doc_topics_cluster_1

In [None]:
cluster_4 = validate_model.checar_categoria(dossies_com_metadados, labels, 4)
cluster_4.head()