In [None]:
import os
from os import listdir
from os.path import isfile, join

import re

import numpy as np

from datetime import datetime

import json

import pandas as pd

from IPython.display import display, Markdown

import matplotlib.pyplot as plt

In [None]:
import httpimport

with httpimport.remote_repo(['visualizador_dataframes'],'https://bonafe.github.io/CienciaDadosPython/src/componentes/'):
    from visualizador_dataframes import VisualizadorDataFrames

In [None]:
pd.set_option('display.max_rows', 1000)
pd.set_option('display.max_columns', None)
pd.set_option('display.max_colwidth', 10000)

In [None]:
def prefixoData(data):
    return data.strftime("%Y_%m_%d")

In [None]:
pasta_capacitacao = os.path.dirname("z:/bases_capacita/projeto_capacita/sa3/entrega_2022/")
todos_arquivos_pasta_capacitacao = listdir(pasta_capacitacao)

print ('\n*************** Arquivos Base Capacitação ***************\n\n')
print (*todos_arquivos_pasta_capacitacao, sep = '\n')

In [None]:
pasta_tcc_bonafe = os.path.dirname("z:/bases_capacita/projeto_capacita/tcc_bonafe/")
todos_arquivos_pasta_tcc_bonafe = listdir(pasta_tcc_bonafe)

print ('\n*************** Arquivos Base TCC Bonafé ***************\n\n')
print (*todos_arquivos_pasta_tcc_bonafe, sep = '\n')

In [None]:
df_acoes = pd.read_csv( os.path.join(pasta_capacitacao,"2022_06_01-acoes_capacitacao.csv"), index_col=None, header=0)
df_acoes.name = "acoes_capacitacao"

df_conteudo_programatico = pd.read_csv( os.path.join(pasta_tcc_bonafe,"2022_06_30-conteudo_programatico_agrupado.csv"), index_col=None, header=0)
df_conteudo_programatico.name = "conteudo_programatico_acoes_capacitacao"

In [None]:
visualizador = VisualizadorDataFrames(df_acoes)
visualizador.exibirMetricas("acoes_capacitacao", log=False)

In [None]:
df_acoes.info()

In [None]:
#Cria uma coluna id_acao_trimestre que representa um conjunto de conteúdos programáticos 
df_acoes["id_acao_trimestre"] = df_acoes["id_acao"].astype(str) + "_" + df_acoes["id_trimestre"].astype(str)

df_acoes_conteudos = pd.merge(df_acoes, df_conteudo_programatico, how="left", on=["id_acao_trimestre"])

dicionario = {
    "id_acao_x":"id_acao_base_acoes",
    "id_acao_y":"id_acao_base_conteudo_programatico",
    "id_trimestre_x":"id_trimestre_base_acoes",
    "id_trimestre_y":"id_trimestre_base_conteudo_programatico",
    "titulo_acao_x":"titulo_acao_base_acoes",
    "titulo_acao_y":"titulo_acao_base_conteudo_programatico"
}
df_acoes_conteudos.rename(columns=dicionario, inplace=True)
df_acoes_conteudos.name = "acoes_conteudos"

In [None]:
df_acoes_conteudos.info()

In [None]:
visualizador = VisualizadorDataFrames(df_acoes_conteudos)
visualizador.exibirMetricas("acoes_conteudos", log=False)

In [None]:
len(pd.DataFrame([df_acoes.iat[0, indice_coluna].__class__.__name__
            for indice_coluna in range(df_acoes.shape[1])])[0])

In [None]:
df_acoes.count().to_frame()[0].index.tolist()

In [None]:
display(df_acoes.count())
display(df_acoes.dtypes)

In [None]:
display(f'Número de id_acao_trimestre na base Ações de Capacitação: {df_acoes["id_acao_trimestre"].count()}')
display(f'Número de id_acao_trimestre ÚNICOS na base Ações de Capacitação: {df_acoes["id_acao_trimestre"].nunique()}')
display(f'Número de id_acao_trimestre na base Conteúdo Programático: {df_conteudo_programatico["id_acao_trimestre"].count()}')
display(f'Número de id_acao_trimestre ÚNICOS na base Conteúdo Programático: {df_conteudo_programatico["id_acao_trimestre"].nunique()}')

In [None]:
display(f'Número de registos de conteúdo programático com campo id_acao_trimestre: {df_conteudo_programatico["id_acao_trimestre"].count()}')
display(f'Número de registos únicos de conteúdo programático com campo id_acao_trimestre: {df_conteudo_programatico["id_acao_trimestre"].nunique()}')
display(f'Número de registos de ações de capacitação com campo id_acao_trimestre: {df_acoes["id_acao_trimestre"].count()}')
display(f'Número de registos únicos de ações de capacitação com campo id_acao_trimestre: {df_acoes["id_acao_trimestre"].nunique()}')
#display(Markdown(f'### Apenas 4.562 de 15.640 ({round(4562/15640*100)}%) conjuntos de ação/trimestre possuem conteúdo programático:'))

dados = {'Conteúdo programático': 4562, 'Ação/Trismestre': 15640}
nomes = list(dados.keys())
valores = list(dados.values())

#plt.bar(range(len(dados)), valores, tick_label=nomes)
#plt.show()

In [None]:
#Cada registro da base de ações é uma turma
display(f'Número de registros na coluna id_turma_execucao na base Ações de Capacitação: {df_acoes["id_turma_execucao"].count()}')
display(f'Número de registros ÚNICOS na coluna id_turma_execucao na base Ações de Capacitação: {df_acoes["id_turma_execucao"].nunique()}')

In [None]:
display(df_acoes_conteudos["conteudo_programatico"].nunique())
display(df_acoes_conteudos["conteudo_programatico"].count())
display(df_acoes_conteudos["conteudo_programatico"].nunique()/df_acoes_conteudos["conteudo_programatico"].count())
display(df_acoes_conteudos["informacoes_adicionais_projeto"].nunique())
display(df_acoes_conteudos["informacoes_adicionais_projeto"].count())
display(df_acoes_conteudos["informacoes_adicionais_projeto"].nunique()/df_acoes_conteudos["informacoes_adicionais_projeto"].count())


In [None]:
df = df_acoes_conteudos[[
    "id_trimestre_base_acoes",
    "id_turma_execucao", 
    "id_acao_base_acoes",     
    "id_acao_trimestre",
    "modalidade_programa", 
    "modalidade_execucao", 
    "titulo_acao_base_acoes",
    "titulo_acao_base_conteudo_programatico",
    "conteudo_programatico",
    "publico_alvo",
    "objetivo_projeto",
    "informacoes_adicionais_projeto",
    "turma",
    "regiao_promotora",
    "municipio",
    "data_inicio",
    "data_fim",
    "ano_evento",
    "nivel_acao",
    "tipo_demanda",
    "tipo_competencia",
    "titulo_competencia",
    "nome_rcd",
    "internacional",
    "dispensa_ponto",    
]]

df = df_acoes_conteudos

contagem = df.count()
contagem.name = "contagem"

unicos = df.nunique()
unicos.name = "unicos"

log_contagem = np.log(df.count())
log_contagem.name = "log_contagem"

log_unicos = np.log(df.nunique())
log_unicos.name = "log_unicos"

normal = pd.merge(contagem, unicos, right_index=True, left_index=True).sort_values(["unicos"])
#normal.plot(kind="bar", figsize=(16,8), title="Contagem e Número de registros únicos \npara cada campo da base de Ações de Capacitação")

log = pd.merge(log_contagem, log_unicos, right_index=True, left_index=True).sort_values(["log_unicos"])
#log.plot(kind="bar", figsize=(16,8), title="Log da Contagem e Número de registros únicos \npara cada campo da base de Ações de Capacitação")


indice_variacao = normal["unicos"] / normal["contagem"]
indice_variacao.name = "indice_variacao"
normal = pd.merge (normal, indice_variacao, right_index=True, left_index=True).sort_values(["indice_variacao"])
normal["indice_variacao"].plot(kind="bar", figsize=(16,8), title="Número de registros únicos\ndividido pelo número total de registros \npara cada campo da base de Ações de Capacitação")


In [None]:
display(df.count().sample(10))
display(df.nunique().sample(10))

In [None]:
df_acoes_conteudos.nunique()

In [None]:
dicionario = {
    "id_acao_x":"id_acao_base_acoes",
    "id_acao_y":"id_acao_base_conteudo_programatico",
    "id_trimestre_x":"id_trimestre_base_acoes",
    "id_trimestre_y":"id_trimestre_base_conteudo_programatico",
    "titulo_acao_x":"titulo_acao_base_acoes",
    "titulo_acao_y":"titulo_acao_base_conteudo_programatico"
}
df_acoes_conteudos.rename(columns=dicionario, inplace=True)

In [None]:
df_acoes_conteudos.rename(columns=dicionario, inplace=True)

In [None]:
df_acoes_conteudos.info()

In [None]:
pasta_destino = f'z:/bases_capacita/projeto_capacita/tcc_bonafe/'
nome_arquivo = f'{pasta_destino}/{prefixoData(datetime.now())}-acoes_capacitacao_com_conteudo_programatico.csv'

In [None]:
df_acoes_conteudos.to_csv (nome_arquivo, index=False)