#### Script desenvolvido para capturar dados das emendas parlamentares para todos os estados do Brasil disponibilizados por meio de API fornecida pelo portal da transparência do Governo Federal.
Os dados foram coletados para os anos de 2014 e 2022, com delimitação de parâmetros: função saúde, subgrupo assistência hospitalar e ambulatorial.

Os dados estão disponíveis no portal da transparência, no link:

https://api.portaldatransparencia.gov.br/swagger-ui.html

Para acessar os dados pela API, é necessário fazer um cadastro para receber uma chave de acesso.



In [1]:
# a API retorna a consulta com paginação.
# esse código obtém todos os dados contidos em todas as páginas para os parâmetros selecionados.

# import requests
# import pandas as pd

# tabela_ano = pd.DataFrame()
# pagina = 1

# while True:
#     url = f'https://api.portaldatransparencia.gov.br/api-de-dados/emendas?ano=2023&codigoFuncao=10&codigoSubfuncao=302&pagina={pagina}'
#     headers = {"chave-api-dados": "COLOQUE SUA CHAVE AQUI"}
#     resultado = requests.get(url, headers=headers).json()
#     tabela = pd.DataFrame(resultado)
#     if len(resultado)< 1:
#         break
#     tabela_ano = pd.concat([tabela_ano, tabela])
#     pagina +=1


In [2]:
# # esse código obtém todos os dados contidos em todas as páginas para todos os anos 

# import requests
# import pandas as pd


# df = pd.DataFrame()
# anos = [2013, 2014, 2015, 2016, 2017, 2018, 2019, 2020, 2021, 2022]

# for ano in anos:

#     pagina = 1
#     tabela_ano = pd.DataFrame()

#     while True:
#         url = f'https://api.portaldatransparencia.gov.br/api-de-dados/emendas?ano={ano}&codigoFuncao=10&codigoSubfuncao=302&pagina={pagina}'
#         headers = {"chave-api-dados": "COLOQUE SUA CHAVE AQUI"}
#         resultado = requests.get(url, headers=headers).json()
#         tabela = pd.DataFrame(resultado)
#         if len(resultado)< 1:
#             break
#         tabela_ano = pd.concat([tabela_ano, tabela])
#         pagina +=1
    
#     df = pd.concat([df, tabela_ano])



# Trabalhe a partir daqui, caso não queira baixar diretamente da API

In [20]:
import pandas as pd
import plotly.express as px

df = pd.read_excel('./data/emendas.xlsx', engine='openpyxl')

df.head()

# checagem básica no conteúdo das colunas para verificar se o carregamento dos dados foi correto

#df['ano'].unique()
#df['funcao'].unique() # Saúde
#df['subfuncao'].unique() # Assistência hospitalar e ambulatorial
#df['localidadeDoGasto'].unique()
#df['numeroEmenda'].unique()
#df.shape

Unnamed: 0,codigoEmenda,ano,tipoEmenda,autor,nomeAutor,numeroEmenda,localidadeDoGasto,funcao,subfuncao,valorEmpenhado,valorLiquidado,valorPago,valorRestoInscrito,valorRestoCancelado,valorRestoPago
0,S/I,2014,Emenda Individual,Sem informação,Sem informação,S/I,SANTA CRUZ DAS PALMEIRAS - SP,Saúde,Assistência hospitalar e ambulatorial,"99.600,00",0,0,0,000,"99.600,00"
1,S/I,2014,Emenda Individual,Sem informação,Sem informação,S/I,JARAGUÁ - GO,Saúde,Assistência hospitalar e ambulatorial,"99.600,00",0,0,0,000,"99.600,00"
2,S/I,2014,Emenda Individual,Sem informação,Sem informação,S/I,SANHARÓ - PE,Saúde,Assistência hospitalar e ambulatorial,"100.000,00",0,0,0,000,"100.000,00"
3,S/I,2014,Emenda Individual,Sem informação,Sem informação,S/I,ANÁPOLIS - GO,Saúde,Assistência hospitalar e ambulatorial,"100.000,00",0,0,0,"100.000,00",000
4,S/I,2014,Emenda Individual,Sem informação,Sem informação,S/I,NOVA BRÉSCIA - RS,Saúde,Assistência hospitalar e ambulatorial,"100.000,00",0,0,0,000,"100.000,00"


In [21]:
# checagem nos dados numéricos

colunas_numericas = ['valorEmpenhado', 'valorLiquidado', 'valorPago', 
                    'valorRestoInscrito', 'valorRestoCancelado', 'valorRestoPago']
df[colunas_numericas]

Unnamed: 0,valorEmpenhado,valorLiquidado,valorPago,valorRestoInscrito,valorRestoCancelado,valorRestoPago
0,"99.600,00",000,000,000,000,"99.600,00"
1,"99.600,00",000,000,000,000,"99.600,00"
2,"100.000,00",000,000,000,000,"100.000,00"
3,"100.000,00",000,000,000,"100.000,00",000
4,"100.000,00",000,000,000,000,"100.000,00"
...,...,...,...,...,...,...
10032,"84.165.224,00","83.561.074,00","84.165.224,00",000,000,000
10033,"95.361.233,00","95.361.233,00","95.361.233,00",000,000,000
10034,"111.914.968,00","111.866.347,00","111.914.968,00",000,000,000
10035,"130.208.590,00","129.844.421,00","129.844.421,00",000,000,"364.169,00"


In [22]:
# Removendo pontos das colunas numéricas e substituindo virgulas por pontos
# transformando em dados numéricos

colunas_numericas = ['valorEmpenhado', 'valorLiquidado', 'valorPago', 
                    'valorRestoInscrito', 'valorRestoCancelado', 'valorRestoPago']

for col in colunas_numericas:
    df[col] = df[col].str.replace('.', '', regex=False)
    df[col] = df[col].str.replace(',', '.', regex=False)

df[colunas_numericas] = df[colunas_numericas].apply(pd.to_numeric, errors='coerce')

df[colunas_numericas]


Unnamed: 0,valorEmpenhado,valorLiquidado,valorPago,valorRestoInscrito,valorRestoCancelado,valorRestoPago
0,99600.0,0.0,0.0,0.0,0.0,99600.0
1,99600.0,0.0,0.0,0.0,0.0,99600.0
2,100000.0,0.0,0.0,0.0,0.0,100000.0
3,100000.0,0.0,0.0,0.0,100000.0,0.0
4,100000.0,0.0,0.0,0.0,0.0,100000.0
...,...,...,...,...,...,...
10032,84165224.0,83561074.0,84165224.0,0.0,0.0,0.0
10033,95361233.0,95361233.0,95361233.0,0.0,0.0,0.0
10034,111914968.0,111866347.0,111914968.0,0.0,0.0,0.0
10035,130208590.0,129844421.0,129844421.0,0.0,0.0,364169.0


In [23]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10037 entries, 0 to 10036
Data columns (total 15 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   codigoEmenda         10037 non-null  object 
 1   ano                  10037 non-null  int64  
 2   tipoEmenda           10037 non-null  object 
 3   autor                10037 non-null  object 
 4   nomeAutor            10037 non-null  object 
 5   numeroEmenda         10037 non-null  object 
 6   localidadeDoGasto    10037 non-null  object 
 7   funcao               10037 non-null  object 
 8   subfuncao            10037 non-null  object 
 9   valorEmpenhado       10037 non-null  float64
 10  valorLiquidado       10037 non-null  float64
 11  valorPago            10037 non-null  float64
 12  valorRestoInscrito   9987 non-null   float64
 13  valorRestoCancelado  10036 non-null  float64
 14  valorRestoPago       10037 non-null  float64
dtypes: float64(6), int64(1), object(8)
m

In [24]:
# exclusão de colunas desnecessárias

df.columns
df = df.drop(columns=['codigoEmenda', 'tipoEmenda', 'autor', 'nomeAutor', 
                    'numeroEmenda', 'funcao', 'subfuncao'])

df.head()

Unnamed: 0,ano,localidadeDoGasto,valorEmpenhado,valorLiquidado,valorPago,valorRestoInscrito,valorRestoCancelado,valorRestoPago
0,2014,SANTA CRUZ DAS PALMEIRAS - SP,99600.0,0.0,0.0,0.0,0.0,99600.0
1,2014,JARAGUÁ - GO,99600.0,0.0,0.0,0.0,0.0,99600.0
2,2014,SANHARÓ - PE,100000.0,0.0,0.0,0.0,0.0,100000.0
3,2014,ANÁPOLIS - GO,100000.0,0.0,0.0,0.0,100000.0,0.0
4,2014,NOVA BRÉSCIA - RS,100000.0,0.0,0.0,0.0,0.0,100000.0


In [25]:
# checagem nos dados 

contagem_de_dados = df.count()

#contar a quantidade de valores zero por coluna:
contagem_de_zeros = (df == 0).sum()

#contar a quantidade de valores ausentes (NaN) por coluna:
contagem_de_nan = df.isna().sum()


# resumo que inclui todas as métricas anteriores:
resumo = pd.concat([contagem_de_dados, contagem_de_zeros, contagem_de_nan], axis=1)
resumo.columns = ['Dados', 'Zeros', 'NaN']
resumo


Unnamed: 0,Dados,Zeros,NaN
ano,10037,0,0
localidadeDoGasto,10037,0,0
valorEmpenhado,10037,3,0
valorLiquidado,10037,4396,0
valorPago,10037,4467,0
valorRestoInscrito,9987,7078,50
valorRestoCancelado,10036,7937,1
valorRestoPago,10037,4458,0


In [8]:
# checagem nos dados: duas colunas com valores negativos

contagem_negativos = (df[colunas_numericas].lt(0)).any().sum()
print(contagem_negativos)

#df[df['valorRestoInscrito'] < 0]

2


In [9]:
df[df['valorEmpenhado'] == 0]

Unnamed: 0,ano,localidadeDoGasto,valorEmpenhado,valorLiquidado,valorPago,valorRestoInscrito,valorRestoCancelado,valorRestoPago
8848,2022,CEARÁ (UF),0.0,0.0,0.0,592098.55,0.0,1566025.45
8849,2022,CEARÁ (UF),0.0,0.0,0.0,589046.62,0.0,1559073.38
8850,2022,RIO DE JANEIRO (UF),0.0,0.0,0.0,231014.76,0.0,91946.47


In [10]:
# método de cálculo do valor das emendas para uso no trabalho:
# se o valor empenhado for menor que o valor pago, então o valor será o valor pago
# se o valor empenhado for zero, o valor das emendas é igual ao resto pago

df['valor_emendas'] = df['valorEmpenhado']
condicao1 = df['valorEmpenhado'] == 0
condicao2 = df['valorEmpenhado'] < df['valorPago']
df.loc[condicao1, 'valor_emendas'] = df['valorRestoPago']
df.loc[condicao2, 'valor_emendas'] = df['valorPago']

In [11]:
df[df['valorEmpenhado'] == 0]

Unnamed: 0,ano,localidadeDoGasto,valorEmpenhado,valorLiquidado,valorPago,valorRestoInscrito,valorRestoCancelado,valorRestoPago,valor_emendas
8848,2022,CEARÁ (UF),0.0,0.0,0.0,592098.55,0.0,1566025.45,1566025.45
8849,2022,CEARÁ (UF),0.0,0.0,0.0,589046.62,0.0,1559073.38,1559073.38
8850,2022,RIO DE JANEIRO (UF),0.0,0.0,0.0,231014.76,0.0,91946.47,91946.47


In [12]:
# exclusão de colunas desnecessárias

df.columns
df = df.drop(columns=['valorEmpenhado','valorPago','valorLiquidado', 'valorRestoInscrito', 'valorRestoCancelado', 'valorRestoPago'])

df.head()

Unnamed: 0,ano,localidadeDoGasto,valor_emendas
0,2014,SANTA CRUZ DAS PALMEIRAS - SP,99600.0
1,2014,JARAGUÁ - GO,99600.0
2,2014,SANHARÓ - PE,100000.0
3,2014,ANÁPOLIS - GO,100000.0
4,2014,NOVA BRÉSCIA - RS,100000.0


In [13]:
round(df['valor_emendas'].describe())

count        10037.0
mean       2324709.0
std       12335206.0
min              1.0
25%         237647.0
50%         684800.0
75%        1850544.0
max      503496128.0
Name: valor_emendas, dtype: float64

In [14]:
# limpando coluna de textos

import unicodedata

df['localidadeDoGasto'] = df['localidadeDoGasto'].str.replace(r'\s*\(\w+\)$', '', regex=True)

def preprocess_column_str(df, column_name):
    df[column_name] = df[column_name].apply(lambda x: unicodedata.normalize("NFD", x))
    df[column_name] = df[column_name].apply(lambda x: x.encode("ascii", "ignore").decode("utf-8"))
    df[column_name] = df[column_name].apply(lambda x: x.upper())
    df[column_name] = df[column_name].apply(lambda x: x.strip())
    return df

preprocess_column_str(df, 'localidadeDoGasto')


Unnamed: 0,ano,localidadeDoGasto,valor_emendas
0,2014,SANTA CRUZ DAS PALMEIRAS - SP,99600.0
1,2014,JARAGUA - GO,99600.0
2,2014,SANHARO - PE,100000.0
3,2014,ANAPOLIS - GO,100000.0
4,2014,NOVA BRESCIA - RS,100000.0
...,...,...,...
10032,2022,MINAS GERAIS,84165224.0
10033,2022,RIO GRANDE DO SUL,95361233.0
10034,2022,CEARA,111914968.0
10035,2022,PARA,130208590.0


In [15]:
# separando município de uf na coluna localidadeDoGasto

df[['municipio', 'uf']] = df['localidadeDoGasto'].str.split(' - ', expand=True)
df

Unnamed: 0,ano,localidadeDoGasto,valor_emendas,municipio,uf
0,2014,SANTA CRUZ DAS PALMEIRAS - SP,99600.0,SANTA CRUZ DAS PALMEIRAS,SP
1,2014,JARAGUA - GO,99600.0,JARAGUA,GO
2,2014,SANHARO - PE,100000.0,SANHARO,PE
3,2014,ANAPOLIS - GO,100000.0,ANAPOLIS,GO
4,2014,NOVA BRESCIA - RS,100000.0,NOVA BRESCIA,RS
...,...,...,...,...,...
10032,2022,MINAS GERAIS,84165224.0,MINAS GERAIS,
10033,2022,RIO GRANDE DO SUL,95361233.0,RIO GRANDE DO SUL,
10034,2022,CEARA,111914968.0,CEARA,
10035,2022,PARA,130208590.0,PARA,


In [16]:
# criar coluna amostra uf

def coluna_dummy(valor):
    if pd.notna(valor):
        return 0
    return 1

df['amostra_uf'] = df['uf'].apply(coluna_dummy)

df


Unnamed: 0,ano,localidadeDoGasto,valor_emendas,municipio,uf,amostra_uf
0,2014,SANTA CRUZ DAS PALMEIRAS - SP,99600.0,SANTA CRUZ DAS PALMEIRAS,SP,0
1,2014,JARAGUA - GO,99600.0,JARAGUA,GO,0
2,2014,SANHARO - PE,100000.0,SANHARO,PE,0
3,2014,ANAPOLIS - GO,100000.0,ANAPOLIS,GO,0
4,2014,NOVA BRESCIA - RS,100000.0,NOVA BRESCIA,RS,0
...,...,...,...,...,...,...
10032,2022,MINAS GERAIS,84165224.0,MINAS GERAIS,,1
10033,2022,RIO GRANDE DO SUL,95361233.0,RIO GRANDE DO SUL,,1
10034,2022,CEARA,111914968.0,CEARA,,1
10035,2022,PARA,130208590.0,PARA,,1


In [17]:
# substituir os valores nulos da coluna uf pela informação contida na coluna município

def verifica_nulos(col1, col2):
    if pd.isna(col1):
        return col2
    return col1

df['uf'] = df.apply(lambda row: verifica_nulos(row['uf'], row['municipio']), axis=1)

df


Unnamed: 0,ano,localidadeDoGasto,valor_emendas,municipio,uf,amostra_uf
0,2014,SANTA CRUZ DAS PALMEIRAS - SP,99600.0,SANTA CRUZ DAS PALMEIRAS,SP,0
1,2014,JARAGUA - GO,99600.0,JARAGUA,GO,0
2,2014,SANHARO - PE,100000.0,SANHARO,PE,0
3,2014,ANAPOLIS - GO,100000.0,ANAPOLIS,GO,0
4,2014,NOVA BRESCIA - RS,100000.0,NOVA BRESCIA,RS,0
...,...,...,...,...,...,...
10032,2022,MINAS GERAIS,84165224.0,MINAS GERAIS,MINAS GERAIS,1
10033,2022,RIO GRANDE DO SUL,95361233.0,RIO GRANDE DO SUL,RIO GRANDE DO SUL,1
10034,2022,CEARA,111914968.0,CEARA,CEARA,1
10035,2022,PARA,130208590.0,PARA,PARA,1


In [18]:
# Transforma em nulos os valores de "municipio" quando "amostra_uf" for igual a um

df.loc[df['amostra_uf'] == 1, 'municipio'] = None

df

Unnamed: 0,ano,localidadeDoGasto,valor_emendas,municipio,uf,amostra_uf
0,2014,SANTA CRUZ DAS PALMEIRAS - SP,99600.0,SANTA CRUZ DAS PALMEIRAS,SP,0
1,2014,JARAGUA - GO,99600.0,JARAGUA,GO,0
2,2014,SANHARO - PE,100000.0,SANHARO,PE,0
3,2014,ANAPOLIS - GO,100000.0,ANAPOLIS,GO,0
4,2014,NOVA BRESCIA - RS,100000.0,NOVA BRESCIA,RS,0
...,...,...,...,...,...,...
10032,2022,MINAS GERAIS,84165224.0,,MINAS GERAIS,1
10033,2022,RIO GRANDE DO SUL,95361233.0,,RIO GRANDE DO SUL,1
10034,2022,CEARA,111914968.0,,CEARA,1
10035,2022,PARA,130208590.0,,PARA,1


In [19]:
# Transformando nomes de estados para siglas

siglas_uf = {
    'ACRE': 'AC',
    'ALAGOAS': 'AL',
    'AMAPA': 'AP',
    'AMAZONAS': 'AM',
    'BAHIA': 'BA',
    'CEARA': 'CE',
    'DISTRITO FEDERAL': 'DF',
    'ESPIRITO SANTO': 'ES',
    'GOIAS': 'GO',
    'MARANHAO': 'MA',
    'MATO GROSSO': 'MT',
    'MATO GROSSO DO SUL': 'MS',
    'MINAS GERAIS': 'MG',
    'PARA': 'PA',
    'PARAIBA': 'PB',
    'PARANA': 'PR',
    'PERNAMBUCO': 'PE',
    'PIAUI': 'PI',
    'RIO DE JANEIRO': 'RJ',
    'RIO GRANDE DO NORTE': 'RN',
    'RIO GRANDE DO SUL': 'RS',
    'RONDONIA': 'RO',
    'RORAIMA': 'RR',
    'SANTA CATARINA': 'SC',
    'SAO PAULO': 'SP',
    'SERGIPE': 'SE',
    'TOCANTINS': 'TO'
}
df['uf'] = df['uf'].replace(siglas_uf)
df


Unnamed: 0,ano,localidadeDoGasto,valor_emendas,municipio,uf,amostra_uf
0,2014,SANTA CRUZ DAS PALMEIRAS - SP,99600.0,SANTA CRUZ DAS PALMEIRAS,SP,0
1,2014,JARAGUA - GO,99600.0,JARAGUA,GO,0
2,2014,SANHARO - PE,100000.0,SANHARO,PE,0
3,2014,ANAPOLIS - GO,100000.0,ANAPOLIS,GO,0
4,2014,NOVA BRESCIA - RS,100000.0,NOVA BRESCIA,RS,0
...,...,...,...,...,...,...
10032,2022,MINAS GERAIS,84165224.0,,MG,1
10033,2022,RIO GRANDE DO SUL,95361233.0,,RS,1
10034,2022,CEARA,111914968.0,,CE,1
10035,2022,PARA,130208590.0,,PA,1


In [20]:
# ajustando nome e valor da coluna amostra_uf

label = {0: 'MUNICIPIO', 1: 'UF'}
df['amostra_uf'] = df['amostra_uf'].map(label)
df = df.rename(columns={'amostra_uf': 'amostra'})
df

Unnamed: 0,ano,localidadeDoGasto,valor_emendas,municipio,uf,amostra
0,2014,SANTA CRUZ DAS PALMEIRAS - SP,99600.0,SANTA CRUZ DAS PALMEIRAS,SP,MUNICIPIO
1,2014,JARAGUA - GO,99600.0,JARAGUA,GO,MUNICIPIO
2,2014,SANHARO - PE,100000.0,SANHARO,PE,MUNICIPIO
3,2014,ANAPOLIS - GO,100000.0,ANAPOLIS,GO,MUNICIPIO
4,2014,NOVA BRESCIA - RS,100000.0,NOVA BRESCIA,RS,MUNICIPIO
...,...,...,...,...,...,...
10032,2022,MINAS GERAIS,84165224.0,,MG,UF
10033,2022,RIO GRANDE DO SUL,95361233.0,,RS,UF
10034,2022,CEARA,111914968.0,,CE,UF
10035,2022,PARA,130208590.0,,PA,UF


In [21]:
# reordenando colunas

df = df.drop(columns=['localidadeDoGasto'])

nova_ordem = ['ano', 'amostra', 'uf', 'municipio',  'valor_emendas']

df = df[nova_ordem]
df

Unnamed: 0,ano,amostra,uf,municipio,valor_emendas
0,2014,MUNICIPIO,SP,SANTA CRUZ DAS PALMEIRAS,99600.0
1,2014,MUNICIPIO,GO,JARAGUA,99600.0
2,2014,MUNICIPIO,PE,SANHARO,100000.0
3,2014,MUNICIPIO,GO,ANAPOLIS,100000.0
4,2014,MUNICIPIO,RS,NOVA BRESCIA,100000.0
...,...,...,...,...,...
10032,2022,UF,MG,,84165224.0
10033,2022,UF,RS,,95361233.0
10034,2022,UF,CE,,111914968.0
10035,2022,UF,PA,,130208590.0


In [22]:
df['uf'].unique()

array(['SP', 'GO', 'PE', 'RS', 'PR', 'MG', 'BA', 'MS', 'SC', 'RJ', 'CE',
       'ES', 'PA', 'RO', 'MT', 'TO', 'AL', 'NORDESTE', 'MA', 'PB', 'RN',
       'AM', 'AC', 'AP', 'PI', 'SE', 'CENTRO-OESTE', 'RR', 'NORTE', 'DF',
       'NACIONAL', 'SUL', 'MULTIPLO', 'SUDESTE'], dtype=object)

In [23]:
# verificando valores da coluna uf: 767 CASOS não são uf

df['uf'].unique()
regiao = ['NORDESTE', 'CENTRO-OESTE', 'NORTE', 'NACIONAL', 'MULTIPLO', 'SUDESTE', 'SUL']

resultado = df[df['uf'].isin(regiao)]
resultado


Unnamed: 0,ano,amostra,uf,municipio,valor_emendas
106,2014,UF,NORDESTE,,350000.00
265,2014,UF,CENTRO-OESTE,,3085700.00
293,2014,UF,NORTE,,6699981.65
307,2014,UF,NACIONAL,,28308418.00
331,2015,UF,NACIONAL,,46716.00
...,...,...,...,...,...
9837,2022,UF,CENTRO-OESTE,,3878838.00
9948,2022,UF,NACIONAL,,6518460.00
9974,2022,UF,NACIONAL,,8509098.00
10002,2022,UF,MULTIPLO,,15748533.00


In [24]:
# Lista de regiões desejadas
# colocando valor regiao na dummy amostra

regiao = ['NORDESTE', 'CENTRO-OESTE', 'NORTE', 'NACIONAL', 'MULTIPLO', 'SUDESTE', 'SUL']

df.loc[df['uf'].isin(regiao), 'amostra'] = 'REGIAO'
df['amostra'].unique()

array(['MUNICIPIO', 'REGIAO', 'UF'], dtype=object)

In [25]:
# criando coluna com o nome da regiao

df['regiao'] = df.apply(lambda row: row['uf'] if row['amostra'] == 'REGIAO' else None, axis=1)

df[df['amostra'] == 'REGIAO']
df['regiao'].unique()

array([None, 'NORDESTE', 'CENTRO-OESTE', 'NORTE', 'NACIONAL', 'SUL',
       'MULTIPLO', 'SUDESTE'], dtype=object)

In [26]:
df

Unnamed: 0,ano,amostra,uf,municipio,valor_emendas,regiao
0,2014,MUNICIPIO,SP,SANTA CRUZ DAS PALMEIRAS,99600.0,
1,2014,MUNICIPIO,GO,JARAGUA,99600.0,
2,2014,MUNICIPIO,PE,SANHARO,100000.0,
3,2014,MUNICIPIO,GO,ANAPOLIS,100000.0,
4,2014,MUNICIPIO,RS,NOVA BRESCIA,100000.0,
...,...,...,...,...,...,...
10032,2022,UF,MG,,84165224.0,
10033,2022,UF,RS,,95361233.0,
10034,2022,UF,CE,,111914968.0,
10035,2022,UF,PA,,130208590.0,


In [27]:
# alterando ordem das colunas 

nova_ordem2 = ['ano', 'amostra', 'regiao' ,'uf', 'municipio',  'valor_emendas']

df = df[nova_ordem2]
df

Unnamed: 0,ano,amostra,regiao,uf,municipio,valor_emendas
0,2014,MUNICIPIO,,SP,SANTA CRUZ DAS PALMEIRAS,99600.0
1,2014,MUNICIPIO,,GO,JARAGUA,99600.0
2,2014,MUNICIPIO,,PE,SANHARO,100000.0
3,2014,MUNICIPIO,,GO,ANAPOLIS,100000.0
4,2014,MUNICIPIO,,RS,NOVA BRESCIA,100000.0
...,...,...,...,...,...,...
10032,2022,UF,,MG,,84165224.0
10033,2022,UF,,RS,,95361233.0
10034,2022,UF,,CE,,111914968.0
10035,2022,UF,,PA,,130208590.0


In [28]:
# Apagando o nome da região na coluna uf

df.loc[df['amostra'] == 'REGIAO', 'uf'] = None

df[df['amostra'] == 'REGIAO']

Unnamed: 0,ano,amostra,regiao,uf,municipio,valor_emendas
106,2014,REGIAO,NORDESTE,,,350000.00
265,2014,REGIAO,CENTRO-OESTE,,,3085700.00
293,2014,REGIAO,NORTE,,,6699981.65
307,2014,REGIAO,NACIONAL,,,28308418.00
331,2015,REGIAO,NACIONAL,,,46716.00
...,...,...,...,...,...,...
9837,2022,REGIAO,CENTRO-OESTE,,,3878838.00
9948,2022,REGIAO,NACIONAL,,,6518460.00
9974,2022,REGIAO,NACIONAL,,,8509098.00
10002,2022,REGIAO,MULTIPLO,,,15748533.00


# A partir de agora, ver resultados por meio de gráficos

### (1) Análise temporal

In [29]:
# gráfico das emendas ao longo do tempo

fig1 = px.bar(df, x='ano', y='valor_emendas', title='Emendas Parlamentares - Subgrupo Assistência Hospitalar e Ambulatorial')
fig1.update_layout(yaxis_title='')
fig1.show()

In [30]:
# gráfico das emendas ao longo do tempo
# mesma informação anterior, mudando o design


fig2 = px.bar(df, x='ano', y='valor_emendas', title='Emendas Parlamentares - Subgrupo Assistência Hospitalar e Ambulatorial', template='plotly_dark')
fig2.update_layout(title_x=0.5)
fig2.update_xaxes(title = 'Ano', showgrid=False)
fig2.update_yaxes(visible= False, showticklabels=False, showgrid=False)

### (2) Comparando localidades

In [31]:
#### agrupando dados por amostra para fazer gráfico

df_municipio = df[(df['amostra'] == 'MUNICIPIO')]
df_regiao = df[(df['amostra'] == 'REGIAO')]
df_uf = df[(df['amostra'] == 'UF')]


soma_ano_munic = df_municipio.groupby('ano')['valor_emendas'].sum()
soma_ano_regiao = df_regiao.groupby('ano')['valor_emendas'].sum()
soma_ano_uf = df_uf.groupby('ano')['valor_emendas'].sum()


data = {'Ano': soma_ano_munic.index,
        'Município': soma_ano_munic.values,
        'Região': soma_ano_regiao.values,
        'UF': soma_ano_uf.values}

df_soma = pd.DataFrame(data)

fig3 = px.bar(df_soma, x='Ano', y=['Município', 'Região', 'UF'], template='plotly_dark')
fig3.update_layout(legend_title_text = 'Localidade',
                title='Emendas Parlamentares - Subgrupo Assistência Hospitalar e Ambulatorial',
                title_x=0.5)
fig3.update_xaxes(title = 'Ano', showgrid=False)
fig3.update_yaxes(visible= False, showticklabels=False, showgrid=False)
fig3.update_traces(name='Nova Legenda', selector=dict(name='Série1'))

# Exiba o gráfico
fig3.show()




### (3) Análise por uf ao longo do tempo

In [38]:
#### informações por uf

#df_uf = df[(df['amostra'] == 'UF')]

ano_uf = df_uf.groupby(['uf', 'ano'])['valor_emendas'].sum()

fig4 = px.bar(ano_uf.reset_index(), x='uf', y='valor_emendas', color='ano', template='plotly_dark')

fig4.update_layout(barmode='relative', title='Emendas Parlamentares - Subgrupo Assistência Hospitalar e Ambulatorial',
                title_x=0.5)
fig4.update_xaxes(title = 'Estados', showgrid=False)
fig4.update_yaxes(visible= False, showticklabels=False, showgrid=False)
fig4.show()



In [39]:
# outra formatação do gráfico anterior

ano_uf = df_uf.groupby(['uf', 'ano'])['valor_emendas'].sum()

fig = px.bar(ano_uf.reset_index(), x='uf', y='valor_emendas', color='ano', color_continuous_scale='Aggrnyl', template='plotly_dark')

fig.update_layout(barmode='relative', title='Emendas Parlamentares - Subgrupo Assistência Hospitalar e Ambulatorial', title_x=0.5)
fig.update_xaxes(title='Estados', showgrid=False)
fig.update_yaxes(visible=False, showticklabels=False, showgrid=False)
fig.show()


### (4) Análise por região

In [34]:
#### informações por região

# df_regiao = df[(df['amostra'] == 'REGIAO')]

ano_regiao = df_regiao.groupby(['regiao', 'ano'])['valor_emendas'].sum()


fig5 = px.bar(ano_regiao.reset_index(), x='regiao', y='valor_emendas', color='ano', template='plotly_dark')

fig5.update_layout(barmode='relative', title='Emendas Parlamentares - Subgrupo Assistência Hospitalar e Ambulatorial',
                title_x=0.5)
fig5.update_xaxes(title = 'Regiões', showgrid=False)
fig5.update_yaxes(visible= False, showticklabels=False, showgrid=False)
fig5.show()

In [40]:
#### informações por região excluindo emendas nacionais

# df_regiao = df[(df['amostra'] == 'REGIAO')]


ano_regiao_filtrado = ano_regiao.reset_index()
ano_regiao_filtrado = ano_regiao_filtrado[ano_regiao_filtrado['regiao'] != 'NACIONAL']

fig = px.bar(ano_regiao_filtrado, x='regiao', y='valor_emendas', color='ano', template='plotly_dark')

fig.update_layout(barmode='relative', title='Emendas Parlamentares - Subgrupo Assistência Hospitalar e Ambulatorial - Excluindo categoria Nacional', title_x=0.5)
fig.update_xaxes(title='Regiões/Sem Nacional', showgrid=False)
fig.update_yaxes(visible=False, showticklabels=False, showgrid=False)
fig.show()


### (4) Análise por por Municípios

In [41]:
#### informações por municipio

#df_municipio = df[(df['amostra'] == 'MUNICIPIO')]

ano_municipio = df_municipio.groupby(['uf', 'municipio'])['valor_emendas'].sum()


fig = px.bar(ano_municipio.reset_index(), x='uf', y='valor_emendas', color='municipio', template='plotly_dark')

fig.update_layout(barmode='relative', title='Emendas Parlamentares - Subgrupo Assistência Hospitalar e Ambulatorial', title_x=0.5)
fig.update_xaxes(title='Estados', showgrid=False)
fig.update_yaxes(visible=False, showticklabels=False, showgrid=False)

fig.show()
