In [None]:
import os
from os import listdir
from os.path import isfile, join
from datetime import datetime
import re
import json
import pickle

In [None]:
from IPython.display import display, Markdown

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

In [None]:
from sklearn.cluster import KMeans
from kneed import KneeLocator

In [None]:
import warnings
warnings.filterwarnings('ignore')

import logging
logger = logging.getLogger()
logger.setLevel(logging.CRITICAL)

In [None]:
import httpimport

with httpimport.remote_repo(
    ['visualizador_dataframes', 'ferramentas_linguagem_natural'],
    'https://bonafe.github.io/CienciaDadosPython/src/componentes/'):
    
    from ferramentas_linguagem_natural import FerramentasLinguagemNatural
    
    from visualizador_dataframes import VisualizadorDataFrames    

In [None]:
def prefixoData(data):
    return data.strftime("%Y_%m_%d")

In [None]:
df_instrutores = pd.read_csv("z:/bases_capacita/projeto_capacita/tcc_bonafe/2022_06_30-instrutores_acoes-capacitacao_conteudo-programatico_anonimizado.csv", index_col=None, header=0)
df_instrutores.name = "instrutores"

In [None]:
df_instrutores.dropna(inplace=True)

In [None]:
df_instrutores.info()

In [None]:
stopwords_conteudo_capacita = [
    "curso",
    "apresentação", 
    "turma", 
    "capacitação", 
    "aula", 
    "utilização", 
    "prático", 
    "estudo", 
    "treinamento", 
    "encontro", 
    "seminário",
    "especialização",
    "repasse",
    "funcionalidade",
    "sistema",
    "atuam",
    "atuar",
    "servidores",
    "utilização",
    "análise",
    "sobre",
    "objetivo",
    "área",
    "equipe",
    "visando",
    "habilitar",
    "conhecimento",
    "processo",
    "trabalho",
    "receita",
    "federal",
    "participante",
    "apresentar",
    "ações",
    "ação",
    "envolvendo",
    "desde",
    "rfb",
    "nbsp",
    "conhecer",
    "capacitar",
    "atualizar",
    "reciclar",
    "região"
]

# Opções para o método do Cotovelo

In [None]:
opcoes_metodo_cotovelo = {
        'stopwords': stopwords_conteudo_capacita,
        'KMeans':{
            'quantidade_clusters':20
        },
        'TfidfVectorizer':{
            'ngram_range': (1,1)
        }
    }  

# Conteúdo Programático

In [None]:
FerramentasLinguagemNatural.metodoDoCotovelo (df_instrutores, "conteudo_programatico", opcoes_metodo_cotovelo)

In [None]:
opcoes_cluster_conteudo_programatico = {
        'stopwords': stopwords_conteudo_capacita,
        'KMeans':{
            'quantidade_clusters':13
        },
        'TfidfVectorizer':{
            'ngram_range': (1,1)
        }
    }  

In [None]:
coluna_texto_conteudo_programatico = 'conteudo_programatico'

[
    df_cluster_conteudo_programatico, 
    coluna_cluster_conteudo_programatico, 
    modelo_conteudo_programatico, 
    fittedVectorizer_conteudo_programatico
    
] = FerramentasLinguagemNatural.gerarCluster (
    df_instrutores,     
    coluna_texto_conteudo_programatico, 
    opcoes_cluster_conteudo_programatico)

# Título Ação

In [None]:
FerramentasLinguagemNatural.metodoDoCotovelo (df_instrutores, "titulo_acao", opcoes_metodo_cotovelo)

In [None]:
opcoes_cluster_titulo_acao = {
    'stopwords': stopwords_conteudo_capacita,
    'KMeans':{
        'quantidade_clusters':14
    },
    'TfidfVectorizer':{
        'ngram_range': (1,1)
    }
}  

In [None]:
coluna_texto_titulo_acao = 'titulo_acao'

[
    df_cluster_titulo_acao, 
    coluna_cluster_titulo_acao, 
    modelo_titulo_acao, 
    fittedVectorizer_titulo_acao
    
] = FerramentasLinguagemNatural.gerarCluster (
    df_instrutores,     
    coluna_texto_titulo_acao, 
    opcoes_cluster_titulo_acao)

# Nome Curso

In [None]:
FerramentasLinguagemNatural.metodoDoCotovelo (df_instrutores, "nome_curso", opcoes_metodo_cotovelo)

In [None]:
opcoes_cluster_nome_curso = {
    'stopwords': stopwords_conteudo_capacita,
    'KMeans':{
        'quantidade_clusters':16
    },
    'TfidfVectorizer':{
        'ngram_range': (1,1)
    }
}  

In [None]:
coluna_texto_nome_curso = 'nome_curso'

[
    df_cluster_nome_curso, 
    coluna_cluster_nome_curso, 
    modelo_nome_curso, 
    fittedVectorizer_nome_curso
    
] = FerramentasLinguagemNatural.gerarCluster (
    df_instrutores,     
    coluna_texto_nome_curso, 
    opcoes_cluster_nome_curso)

# Objetivo Projeto

In [None]:
FerramentasLinguagemNatural.metodoDoCotovelo (df_instrutores, "objetivo_projeto", opcoes_metodo_cotovelo)

In [None]:
opcoes_cluster_objetivo_projeto = {
    'stopwords': stopwords_conteudo_capacita,
    'KMeans':{
        'quantidade_clusters':13
    },
    'TfidfVectorizer':{
        'ngram_range': (1,1)
    }
}  

In [None]:
coluna_texto_objetivo_projeto = 'objetivo_projeto'

[
    df_cluster_objetivo_projeto, 
    coluna_cluster_objetivo_projeto, 
    modelo_objetivo_projeto, 
    fittedVectorizer_objetivo_projeto
    
] = FerramentasLinguagemNatural.gerarCluster (
    df_instrutores,     
    coluna_texto_objetivo_projeto, 
    opcoes_cluster_objetivo_projeto)

In [None]:
   
df_instrutores_clusterizado = pd.merge (
     df_instrutores,  
     df_cluster_conteudo_programatico[["id_instrutoria", coluna_cluster_conteudo_programatico]],  
     how="left", 
     on="id_instrutoria")

df_instrutores_clusterizado = pd.merge (
    df_instrutores_clusterizado,  
    df_cluster_titulo_acao[["id_instrutoria", coluna_cluster_titulo_acao]],  
    how="left", 
    on="id_instrutoria")

df_instrutores_clusterizado = pd.merge (
    df_instrutores_clusterizado,  
    df_cluster_objetivo_projeto[["id_instrutoria", coluna_cluster_objetivo_projeto]],  
    how="left", 
    on="id_instrutoria")

df_instrutores_clusterizado = pd.merge (
    df_instrutores_clusterizado,  
    df_cluster_nome_curso[["id_instrutoria", coluna_cluster_nome_curso]],  
    how="left", 
    on="id_instrutoria")

de_para = {
    coluna_cluster_conteudo_programatico:"cluster_conteudo_programatico",
    coluna_cluster_titulo_acao:"cluster_titulo_acao",        
    coluna_cluster_objetivo_projeto:"cluster_objetivo_projeto",
    coluna_cluster_nome_curso:"cluster_nome_curso"
}
df_instrutores_clusterizado = df_instrutores_clusterizado.rename(columns=de_para, errors="raise")


In [None]:
df_instrutores_clusterizado.info()

In [None]:
pasta_destino = f'z:/bases_capacita/projeto_capacita/tcc_bonafe/'
nome_arquivo = f'{pasta_destino}/{prefixoData(datetime.now())}-instrutores_clusterizacao_variaveis_textos.csv'
df_instrutores_clusterizado.to_csv (nome_arquivo, index=False)