# Importando Ferramentas

In [1]:
# Instalando API da Base dos Dados
# !pip install basedosdados

# Importando Ferramentas Básicas
import json

import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import basedosdados as bd
from ipywidgets import interact

from Utils.data_utils import *

In [2]:
# Importando Dados

In [3]:
# Visualizando informações dos dados
#bd.list_datasets()

In [4]:
# Lendo os dados
idh_municipios = get_data("mundo_onu_adh.municipios")


In [5]:
# Visualizando a tabela de IDH dos Municípios
idh_municipios.head(5)

Unnamed: 0,id_municipio,ano,expectativa_vida,fecundidade_total,mortalidade_1,mortalidade_5,razao_dependencia,prob_sobrevivencia_40,prob_sobrevivencia_60,taxa_envelhecimento,...,pia,pia_10_14,pia_15_17,pia_18_mais,indice_escolaridade,indice_frequencia_escolar,idhm,idhm_e,idhm_l,idhm_r
0,1100015,1991,62.01,4.08,45.58,58.05,73.5,83.81,66.87,1.82,...,,,,,0.117,0.109,0.329,0.112,0.617,0.516
1,1100023,1991,66.02,3.72,32.39,41.41,69.97,88.08,74.23,1.82,...,,,,,0.2,0.199,0.432,0.199,0.684,0.593
2,1100031,1991,63.16,3.89,41.52,52.94,77.23,85.09,69.0,2.59,...,,,,,0.111,0.106,0.309,0.108,0.636,0.43
3,1100049,1991,65.03,3.81,35.37,45.19,71.11,87.08,72.44,2.47,...,,,,,0.176,0.169,0.407,0.171,0.667,0.593
4,1100056,1991,62.73,3.55,43.0,54.82,71.09,84.62,68.2,2.46,...,,,,,0.152,0.175,0.386,0.167,0.629,0.547


In [6]:
df_idh_municipios = idh_municipios[["id_municipio", "ano", "idhm", "idhm_e", "idhm_l", "idhm_r"]]#.drop_duplicates(subset=["id_municipio"])

In [7]:
df_idh_municipios.head(5)

Unnamed: 0,id_municipio,ano,idhm,idhm_e,idhm_l,idhm_r
0,1100015,1991,0.329,0.112,0.617,0.516
1,1100023,1991,0.432,0.199,0.684,0.593
2,1100031,1991,0.309,0.108,0.636,0.43
3,1100049,1991,0.407,0.171,0.667,0.593
4,1100056,1991,0.386,0.167,0.629,0.547


**Dicionário de Dados**

<br>

- idhm    :  `Municipal`
- idhm_e  :  `Educação`
- idhm_l  :  `Longevidade`
- idhm_r  :  `Renda` 

In [8]:
info_municipios = get_data("br_bd_diretorios_brasil.municipio")
df_info_municipios = info_municipios[["id_municipio", "municipio", "capital_uf", "uf", "regiao", "microrregiao", "mesorregiao"]]#.drop_duplicates(subset=["id_municipio"])

In [9]:
# Juntando as duas tabelas com base no ID municipal
df_total_municipios = df_idh_municipios.merge(df_info_municipios, left_on="id_municipio", right_on="id_municipio")

In [10]:
# df_total_municipios.set_index('id_municipio', inplace=True)

In [11]:
# Visualizando a tabela
df_total_municipios.head(5)

Unnamed: 0,id_municipio,ano,idhm,idhm_e,idhm_l,idhm_r,municipio,capital_uf,uf,regiao,microrregiao,mesorregiao
0,1100015,1991,0.329,0.112,0.617,0.516,Alta Floresta D'Oeste,0,Rondônia,Norte,Cacoal,Leste Rondoniense
1,1100015,2000,0.483,0.262,0.698,0.617,Alta Floresta D'Oeste,0,Rondônia,Norte,Cacoal,Leste Rondoniense
2,1100015,2010,0.641,0.526,0.763,0.657,Alta Floresta D'Oeste,0,Rondônia,Norte,Cacoal,Leste Rondoniense
3,1100023,1991,0.432,0.199,0.684,0.593,Ariquemes,0,Rondônia,Norte,Ariquemes,Leste Rondoniense
4,1100023,2000,0.556,0.343,0.742,0.674,Ariquemes,0,Rondônia,Norte,Ariquemes,Leste Rondoniense


In [20]:
evolucao_idh_municipio = { "id_municipio": list(df_total_municipios["id_municipio"].unique()), "idhm": [], "idhm_e":[]}

lista_var_percent_idhm = []

lista_var_percent_idhm_e = []

for id_municipio in df_total_municipios["id_municipio"].unique():
    
    df_var_idhm = df_total_municipios.loc[df_total_municipios["id_municipio"] == id_municipio, "idhm"].values
    
    df_var_idhm_e = df_total_municipios.loc[df_total_municipios["id_municipio"] == id_municipio, "idhm_e"].values
    
    var_percent_idhm = round(((df_var_idhm[2]/df_var_idhm[1])-1)*100,1)
        
    var_percent_idhm_e = round(((df_var_idhm_e[2]/df_var_idhm_e[1])-1)*100,1)
    
    lista_var_percent_idhm.append(var_percent_idhm)
    
    lista_var_percent_idhm_e.append(var_percent_idhm_e)
    
evolucao_idh_municipio["idhm"] = lista_var_percent_idhm    

evolucao_idh_municipio["idhm_e"] = lista_var_percent_idhm_e 

In [21]:
evolucao_idh_municipio

{'id_municipio': [1100015,
  1100023,
  1100031,
  1100049,
  1100056,
  1100064,
  1100072,
  1100080,
  1100098,
  1100106,
  1100114,
  1100122,
  1100130,
  1100148,
  1100155,
  1100189,
  1100205,
  1100254,
  1100262,
  1100288,
  1100296,
  1100304,
  1100320,
  1100338,
  1100346,
  1100379,
  1100403,
  1100452,
  1100502,
  1100601,
  1100700,
  1100809,
  1100908,
  1100924,
  1100940,
  1101005,
  1101104,
  1101203,
  1101302,
  1101401,
  1101435,
  1101450,
  1101468,
  1101476,
  1101484,
  1101492,
  1101500,
  1101559,
  1101609,
  1101708,
  1101757,
  1101807,
  1200013,
  1200054,
  1200104,
  1200138,
  1200179,
  1200203,
  1200252,
  1200302,
  1200328,
  1200336,
  1200344,
  1200351,
  1200385,
  1200393,
  1200401,
  1200427,
  1200435,
  1200450,
  1200500,
  1200609,
  1200708,
  1200807,
  1300029,
  1300060,
  1300086,
  1300102,
  1300144,
  1300201,
  1300300,
  1300409,
  1300508,
  1300607,
  1300631,
  1300680,
  1300706,
  1300805,
  1300839,
  130

In [22]:
df_evolucao_idh = pd.DataFrame.from_dict(evolucao_idh_municipio)

In [23]:
df_evolucao_idh.sort_values(by=1)

Unnamed: 0,id_municipio,idhm,idhm_e
0,1100015,32.7,100.8
1,1100023,26.3,74.9
2,1100031,33.2,96.8
3,1100049,26.6,64.5
4,1100056,27.7,78.1
...,...,...,...
5560,5222005,19.5,65.4
5561,5222054,17.3,46.7
5562,5222203,29.7,72.3
5563,5222302,45.1,139.3


# Melhores e piores IDHs

In [29]:
sorted_evolucao_idh = df_evolucao_idh.sort_values(by='idhm').reset_index(drop=True)

In [30]:
def pega_nomes():
    

sorted_evolucao_idh = 

Unnamed: 0,id_municipio,idhm,idhm_e
0,3510807,4.4,10.2
1,3520426,4.5,11.0
2,3504701,4.7,2.9
3,4320305,4.9,16.2
4,3548807,5.1,9.6
...,...,...,...
5560,1200328,111.3,444.2
5561,2206951,114.6,429.7
5562,1712702,116.0,509.2
5563,2204550,137.4,829.3


# Análise Exploratória de Dados

In [None]:
anos = [1991, 2000, 2010]

lista_medias_municipio = [df_idh_municipios.loc[df_idh_municipios["ano"]==ano, "idhm"].mean()\
                for ano in anos]

lista_medias_municipio_e = [df_idh_municipios.loc[df_idh_municipios["ano"]==ano, "idhm_e"].mean()\
                for ano in anos]

lista_medias_municipio_l = [df_idh_municipios.loc[df_idh_municipios["ano"]==ano, "idhm_l"].mean()\
                for ano in anos]

lista_medias_municipio_r = [df_idh_municipios.loc[df_idh_municipios["ano"]==ano, "idhm_r"].mean()\
                for ano in anos]


In [None]:
fig, (ax0) = plt.subplots(nrows = 1,
                            ncols = 1,
                            figsize = (15,10),
                             sharex = True)

scatter = ax0.plot(anos, 
                   lista_medias_municipio, 
                   marker='o', 
                   label='Média')


scatter = ax0.plot(anos,lista_medias_municipio_e, 
                   c = 'red', 
                   marker='o', 
                   label='Educação')

scatter = ax0.plot(anos, 
                   lista_medias_municipio_l,
                   c = 'green', 
                   marker='o', 
                   label='Longevidade')

scatter = ax0.plot(anos, 
                   lista_medias_municipio_r, 
                   c = 'black', 
                   marker='o', 
                   label='Renda')

ax0.set(title = 'Evolução dos indicadores',
        xlabel = 'Média anual',
       ylabel = 'Ano')

ax0.legend(bbox_to_anchor = (1.04,1))


In [None]:
sns.set_theme(style="darkgrid")

fig, ax = plt.subplots(figsize = (15,7.5))

ax = sns.kdeplot(data = df_total_municipios.loc[df_total_municipios["ano"]==2010], 
                  x= "idhm",
                  hue = 'regiao',
                  palette = "tab10",
                  fill = True, 
                  common_norm = False, 
                  alpha = .5, 
                  linewidth = 1.5)



In [None]:
# Fixar escala

def f(ano):
  
    sns.set_theme(style="darkgrid")

    fig, ax = plt.subplots(figsize = (15,7.5))

    ax = sns.kdeplot(data = df_total_municipios.loc[df_total_municipios["ano"]==ano], 
                    x= "idhm",
                    hue = 'regiao',
                    palette = "tab10",
                    fill = True, 
                    common_norm = False, 
                    alpha = .5, 
                    linewidth = 1.5)

    plt.show()
    
interact(f, ano = [1991,2000,2010])

In [None]:
def Graf_Interativo_Ano_Regiao(Ano):
    
    sns.set_theme(style="darkgrid")

    fig, (ax0, ax1, ax2, ax3) = plt.subplots( ncols = 1,
                                              nrows = 4,
                                              figsize = (15,22),
                                              sharex = True)

    ax0 = sns.kdeplot(  data = df_total_municipios.loc[df_total_municipios["ano"] == Ano], 
                        x = "idhm",
                        hue = 'regiao',
                        palette = "rocket",
                        fill = True, 
                        common_norm = False, 
                        alpha = .5, 
                        linewidth = 1.5,
                        ax = ax0)
    
    ax0.set_title('IDH Total',
                   fontsize = 18,
                   y = 1.03)
    
    ax1 = sns.kdeplot(  data = df_total_municipios.loc[df_total_municipios["ano"] == Ano], 
                        x = "idhm_e",
                        hue = 'regiao',
                        palette = "rocket",
                        fill = True, 
                        common_norm = False, 
                        alpha = .5, 
                        linewidth = 1.5,
                        ax = ax1)
    
    ax1.set_title('IDH Escolar',
                   fontsize = 18,
                   y = 1.03)
    
    ax2 = sns.kdeplot(  data = df_total_municipios.loc[df_total_municipios["ano"] == Ano], 
                        x = "idhm_l",
                        hue = 'regiao',
                        palette = "rocket",
                        fill = True, 
                        common_norm = False, 
                        alpha = .5, 
                        linewidth = 1.5,
                        ax = ax2)
    
    ax2.set_title('IDH Longevidade',
                   fontsize = 18,
                   y = 1.03)
    
    ax3 = sns.kdeplot(  data = df_total_municipios.loc[df_total_municipios["ano"] == Ano], 
                        x = "idhm_r",
                        hue = 'regiao',
                        palette = "rocket",
                        fill = True, 
                        common_norm = False, 
                        alpha = .5, 
                        linewidth = 1.5,
                        ax = ax3)
    
    ax3.set_title('IDH Renda',
                   fontsize = 18,
                   y = 1.03)
    

    fig.suptitle('Distribuição de IDH Municipal', 
                 fontsize = 25, 
                 fontweight = 'bold', 
                 y = 0.92)
    
    ax1.legend_ = None
    ax2.legend_ = None
    ax3.legend_ = None
    
    ax0.legend(labels = ['Norte', 'Nordeste', 'Sudeste', 'Sul', 'Centro-Oeste'],
               title="Região",
               loc= 0, 
               fontsize='medium', 
               fancybox= True,
               bbox_to_anchor=(0.5, 0.8, 0.5, 0.5),
               edgecolor  = '#FFFFFF',
               title_fontsize = 'large')
    
    ax0.set_ylabel('Densidade', fontsize = 15, y = 0.5)
    ax1.set_ylabel('Densidade', fontsize = 15, y = 0.5)
    ax2.set_ylabel('Densidade', fontsize = 15, y = 0.5)
    ax3.set_ylabel('Densidade', fontsize = 15, y = 0.5)
    
    plt.xlabel('IDH', fontsize = 20, x = 0.5)

    plt.show();

interact(Graf_Interativo_Ano_Regiao, Ano = [1991,2000, 2010])

In [None]:
def Graf_Interativo_Meso(UF):
    
    sns.set_theme(style="darkgrid")
    
    fig, ax = plt.subplots(figsize = (15,7.5))
    
    ax = sns.kdeplot(data = df_total_municipios.loc[df_total_municipios['uf'] == UF], 
                     x = "idhm",
                     hue = 'mesorregiao',
                     palette = "rocket",
                     fill = True, 
                     common_norm = False, 
                     alpha = .5, 
                     linewidth = 1.5)
    
    ax.legend(labels = df_total_municipios.mesorregiao.loc[df_total_municipios['uf'] == UF].unique(),
               title="Mesorregião",
               loc= 0, 
               fontsize='medium', 
               fancybox= True,
               bbox_to_anchor=(0.5, 0.6, 0.5, 0.5),
               edgecolor  = '#FFFFFF',
               title_fontsize = 'x-large')
    
    ax.set_xlabel('IDH', 
                  fontsize = 15, 
                  y = 0.5,
                  fontweight = 'bold')
    
    ax.set_ylabel('Densidade', 
                  fontsize = 15, 
                  y = 0.5,
                  fontweight = 'bold')
    
    fig.suptitle('IDH das Mesorregiões', 
                 fontsize = 20, 
                 fontweight = 'bold',
                 y = 0.94)
        
    plt.show(); 
    
interact(Graf_Interativo_Meso,
         UF = df_total_municipios.uf.unique())

In [None]:
despesas_educação = \
['Educação',
'Ensino Fundamental',
'Atenção Básica',
'Assistência à Criança e ao Adolescente',
'Educação Infantil',
'Educação de Jovens e Adultos',
'Educação Especial',
'Cultura',
'"Patrimônio Histórico, Artístico e Arqueológico"',
'Difusão Cultural',
'Ensino Superior',
'Ensino Médio',
'Ensino Profissional',
'Educação Básica',
'Ciência e Tecnologia',
'Desenvolvimento Tecnológico e Engenharia',
'Demais Subfunções Ciência e Tecnologia',
'Demais Subfunções Cultura']

In [None]:
despesas_educação

In [None]:
# df_despesas_full = get_data("br_tesouro_finbra.despesas_por_funcao")
# df_despesas = df_despesas_full[["id_municipio", "sigla_uf", "ano", "coluna", "conta", "valor"]].loc[(df_despesas_full["coluna"] == "Despesas Pagas") & (df_despesas_full["conta"].isin(despesas_educação))]

In [None]:
query_despesas = \
"""
SELECT  id_municipio, sigla_uf, ano, coluna, conta, valor
FROM `basedosdados.br_tesouro_finbra.despesas_por_funcao` 
WHERE coluna='Despesas Pagas' AND conta IN 
('Educação',
'Ensino Fundamental',
'Atenção Básica',
'Assistência à Criança e ao Adolescente',
'Educação Infantil',
'Educação de Jovens e Adultos',
'Educação Especial',
'Cultura',
'"Patrimônio Histórico, Artístico e Arqueológico"',
'Difusão Cultural',
'Ensino Superior',
'Ensino Médio',
'Ensino Profissional',
'Educação Básica',
'Ciência e Tecnologia',
'Desenvolvimento Tecnológico e Engenharia',
'Demais Subfunções Ciência e Tecnologia',
'Demais Subfunções Cultura');
"""

df_despesas = get_data("br_tesouro_finbra.despesas_por_funcao.educacao", query = query_despesas)

In [None]:
#SELECT DISTINCT conta FROM `basedosdados.br_tesouro_finbra.despesas_por_funcao`;

#SELECT DISTINCT coluna FROM `basedosdados.br_tesouro_finbra.despesas_por_funcao`;

#SELECT * FROM `basedosdados.br_tesouro_finbra.despesas_por_funcao` WHERE coluna='Despesas Liquidadas' LIMIT 100;

#SELECT id_municipio, populacao, conta, valor FROM `basedosdados.br_tesouro_finbra.despesas_por_funcao`;

#SELECT  id_municipio, sigla_uf, ano, coluna, conta, valor  FROM `basedosdados.br_tesouro_finbra.despesas_por_funcao` WHERE coluna='Despesas Empenhadas';

In [None]:
df_despesas

In [None]:
# from google.colab import drive
# drive.mount('/content/drive')

# Testes

In [None]:
despesas_orcamentarias = get_data("br_tesouro_finbra.despesas_orcamentarias")

In [None]:
despesas_orcamentarias.head(5)

# Descrição dos dados

- **Despesa Empenhada**: Valor do orçamento público formalmente reservado (pela emissão do empenho) para compromissos assumidos com terceiros.
	
- **Despesa Liquidada**: É a verificação do direito adquirido pelo credor de receber o pagamento. É o segundo estágio da execução da despesa, precedido do empenho e antecedido do pagamento.

In [None]:
# despesas_orcamentarias.to_csv('./Dados/despesas_orcamentarias.csv',sep=';',index=False)

In [None]:
despesas_orcamentarias.shape

In [None]:
despesas_orcamentarias["conta"].value_counts().keys()[:50]

In [None]:
despesas_orcamentarias["coluna"].value_counts()