# **Projeto do Módulo 6**

Breve estudo sobre os gastos parlamentáres do estado do Mato Grosso.

**Grupo 1**: [Márcio Estevam](https://github.com/Mestevam1976), [Paulo H S Fernandes](https://github.com/PHSFernandes), [Letícia Felippe](https://github.com/leticiafelippe), [Reinaldo Leandro de Sousa](https://github.com/Reinaldos).

![Tribunal de contas do estado do Mato Grosso](https://storage.unicanews.com.br/storage/webdisco/2022/03/07/1200x900/08a95c77d5923ef0af74b0e5a00d7e7b.jpg)

<hr>
<a id="indice"></a>

# Índice

* [<b>INTRODUÇÃO:</b>](#intro)
    - [PERGUNTAS A SEREM RESPONDIDAS](#perguntas)
    - [DICIONÁRIO DE VARIÁVEIS](#dicionario)
    - [SUMÁRIO DE BIBLIOTECAS](#sum_libs)
    - [IMPORTANDO AS BIBLIOTECAS](#import_libs)
* [<b>ANÁLISE DOS DADOS:</b>](#analise_dados)
    - [IMPORTANDO OS ARQUIVOS .CSV E ATRIBUINDO AS VARIÁVEIS](#import_dados)
    - [UNIFICANDO AS BASES 2019, 2020 E 2021 EM UM ÚNICO DATAFRAME](#concat_dados)
    - [TRATAMENTO E LIMPEZA DOS DADOS](#tratamento)
* [<b>AVALIAÇÃO ESTATÍSTICA DOS DADOS FILTRADOS</b>](#aval_estatistica)
* [<b>ANÁLISE EXPLORATÓRIA PARA RESOLUÇÃO DE QUESTÕES PRÉ-DEFINIDAS</b>](#analise_exploratoria)
    - [QUESTÃO 01](#q_01)
    - [QUESTÃO 02](#q_02)
    - [QUESTÃO 03](#q_03)
    - [QUESTÃO 04](#q_04)
    - [QUESTÃO 05](#q_05)
    - [QUESTÃO 06](#q_06)
    - [QUESTÃO 07](#q_07)
    - [QUESTÃO 08](#q_08)

* [<b>EQUIPE DE PROJETO</b>](#equipe)

<hr>
<a id="intro"></a>

## Introdução

Dando continuidade a investigação dos gastos dos parlamentares brasileiros nos anos de 2019, 2020 e 2021 desenvovido no módulo 5, a propósta é focar no estado do Mato Grosso com o objetivo de apresentar os fatos encontrados nos gastos dos parlamentares que mais chamaram a nossa atenção.

A Cota para o Exercício da Atividade Parlamentar é regida por uma série de regras que podem ser consultadas [aqui](https://www2.camara.leg.br/legin/int/atomes/2009/atodamesa-43-21-maio-2009-588364-norma-cd-mesa.html) e que há algumas iniciativas, como o [Serenata de Amor](https://serenata.ai/), que visam acompanhar os gastos realizados pelos nossos políticos e podem ser utilizadas para auxiliar na geração de insights.

O presente estudo busca fazer uma análise exploratória sobre os gastos parlamentares do Mato Grosso anos de 2019, 2020 e 2021.

<hr>
<a id="perguntas"></a>

## Perguntas a serem respondidas:

* Como se comportam os gastos com cotas parlamentares ao longo do tempo? Existe alguma tendência de aumento ou redução desse custo?
* Qual a média de gastos por parlamentar?
* Quais foram os parlamentares que mais e que menos consumiram recursos?
* Quais são as categorias de despesas mais onerosas dentre os recursos destinados às cotas parlamentares?
* Quais são os partidos que mais e que menos consumiram a cota parlamentar?
* Há alguma correlação entre a quantidade de parlamentares por partido e o valor total dos gastos?
* Quais são os trechos de viagem mais recorrentes entre as despesas de viagem?
* Qual a média de gastos por partido?

<hr>
<a id= "dicionario"></a>

## Dicionário de variáveis

- `Nome Parlamentar(txNomeParlamentar)` :  *Nome adotado pelo Parlamentar ao tomar posse do seu mandato.*
- `ideCadastro(Identificador Único do Parlamentar)` : *Número que identifica unicamente um deputado federal na CD.*
- `nuCarteiraParlamentar(Número da Carteira Parlamentar)` : *Documento usado para identificar um deputado federal na CD.*
- `nuLegislatura(Número da  Legislatura)` : *No contexto da cota CEAP, representa o ano base de início da legislatura.*
- `sgUF(Sigla da Unidade Federal)` : *Representa a UF do parlamentar.*
- `sdPartido(Sigla do Partido)` : *Representa o partido do parlamentar.*
- `codLegislatura(Código da Legislatura)` : *No contexto da cota CEAP, o seu conteúdo representa o código identificador da Legislatura.*
- `numSubCota(Número da Subcota) `: *Representa o código do Tipo de Despesa, comprovada por meio da emissão de um documento fiscal, a qual é debitada na cota do deputado.*
- `txtDescricao(Descrição da Subcota)` : *Descrição do Tipo de Despesa.*
- `numEspecificacaoSubCota(Número da Especificação da Subcota)` : *Representa o código desta especificação mais detalhada.*
- `txtDescricaoEspecificacao(Descrição da Especificação da Subcota)` : *Detalha o tipo de despesa efetuada.*
- `txtFornecedor(Fornecedor)` : *Representa o fornecedor do produto ou serviço presente no documento fiscal.*
- `txtCNPJCPF(CNPJ/CPF)` : *Indica se o fornecedor é CNPJ ou CPF , presente no documento fiscal.*
- `txtNumero(Número do Documento)` : *Indica o número do documento do emissor da NF em questão.*
- `indTipoDocumento(Indicativo de Tipo de Documento Fiscal)` : *Tipo de documento do fiscal – 0 para Nota Fiscal; 1 para Recibo; 2 para Despesa no Exterior.*
- `datEmissao(Data de Emissão)` : *A data de emissão do documento.*
- `vlrDocumento(Valor do Documento)` : *O seu conteúdo é o valor de face do documento fiscal ou o valor do documento que deu causa à despesa.*
- `vlrGlosa(Valor da Glosa)` : *Valor da glosa do documento que deu causa à despesa.*
- `vlrLiquido(Valor Liquido)` : *Valor líquido do documento (será calculado pela diferença entre o Valor do Documento e o Valor da Glosa)*
- `numMes(Mês) `: *Indica o mês da emissão da nota.*
- `numAno(Ano) `: *Indica o ano da emissão da nota.*
- `numParcela(Número da Parcela)` : *O seu conteúdo representa o número da parcela do documento fiscal. Ocorre quando o documento tem de ser reembolsado de forma parcelada.*
- `txtPassageiro(Nome do Passageiro)` : *O nome do passageiro, em caso da emissão do documento ser uma passagem aérea.*
- `txtTrecho(Trecho)` : *Representa qual o trecho da viagem, somente em casos de viagem aérea.*
- `numLote(Número do Lote) `: *Representa a capa do lote em que esse documento será incluído para ser entregue na Câmara para ressarcimento.*
- `numRessarcimento(Número do Ressarcimento) `: *Indica o ressarcimento do qual o documento faz parte.*
- `vlrRestituição(Valor da Restituição)` : *Indica o valor que será restituído sobre aquele documento.*
- `nuDeputadoId(Identificador do Solicitante)` : *Número que identifica um Parlamentar ou Liderança na Transparência da Cota para Exercício da Atividade Parlamentar.*

<hr>
<a id="sum_libs"></a>

## Sumário de biblíotecas

Foram utilizadas as mais variadas bibliotecas para facilitar e enxugar o processo de análise.

- `Pandas`: *Biblioteca livre utilizada para criação de estrutura de dados e realização de análises de dados.*
- `Numpy`: *Biblioteca para a linguagem de programação Python, que suporta o processamento de grandes, multi-dimensionais arranjos e matrizes, juntamente com uma grande coleção de funções matemáticas de alto nível para operar sobre estas matrizes.*
- `Matplotlib.pyplot`: *Biblioteca de software para criação de gráficos e visualizações de dados em geral, feita para e da linguagem de programação Python e sua extensão de matemática NumPy.*
- `Seaborn`: *Biblioteca de visualização para plotagem de gráficos estatísticos em Python. Ele é construído na parte superior da biblioteca matplotlib e também está intimamente integrado às estruturas de dados dos pandas*



<hr>
<a id="analise_dados"></a>

## Análise de Dados

<hr>
<a id="import_libs"></a>

## Importando as bibliotecas

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

### Ocultando mensagens de avisos no Pandas:

In [None]:
import warnings

from pandas.core.common import SettingWithCopyWarning

warnings.simplefilter(action="ignore", category=SettingWithCopyWarning)

<hr>
<a id="import_dados"></a>

## Importando os arquivos .csv e atribuindo a variáveis:

In [None]:
d_2019 = pd.read_csv('../input/dados-csv-complementares/Ano-2019.csv', sep=';')
d_2020 = pd.read_csv('../input/dados-csv-complementares/Ano-2020.csv', sep=';')
d_2021 = pd.read_csv('../input/dados-csv-complementares/Ano-2021.csv', sep=';')

print('O dataset de 2019 tem', d_2019.shape[0], 'linhas e', d_2019.shape[1], 'colunas.\n'
      'O dataset de 2020 tem', d_2020.shape[0], 'linhas e', d_2020.shape[1], 'colunas.\n'
      'O dataset de 2021 tem', d_2021.shape[0], 'linhas e', d_2021.shape[1], 'colunas.')

<hr>
<a id="concat_dados"></a>

## Unificando as bases 2019, 2020 e 2021 em um único DataFrame:

In [None]:
d_unificado = pd.concat([d_2019,d_2020,d_2021])

print('O dataframe unificado possui', d_unificado.shape[0], 'linhas e', d_unificado.shape[1], 'colunas')

## Verificando os nomes das colunas:

In [None]:
d_unificado.columns

   ><b>OBS:</b>A formatação do nome das colunas está no padrão "CamelCase"

## Checando o espaço físico do dataset unificado:

In [None]:
tamanho = sum(d_unificado.memory_usage())

print('O espaço físico ocupado em MB pelo dataset unificado é de', tamanho/1000000, 'MB')

## Checando os tipos de formatos em todas as colunas:

In [None]:
d_unificado.dtypes

><b>OBSERVAÇÕES:</b>
>>1. Verificado que a coluna 'datEmissao' está no formato <b>'Object'</b>, a mesma deverá ser convertida para o formato de data.
>>2. Verificado que as colunas que contém os valores das despesas já estão em formato <b>'float64'</b>, dispensando assim sua conversão, salvo se a formatação do separador de centavos estiver fora do padrão americano (ponto).

## Verificando o percentual de valores nulos ('NaN') no dataset unificado:

>Nessa etapa o .isnull() foi utilizado, acompanhado do .mean() para encontrar o percentual de d_copia faltantes em cada coluna deste dataset.

In [None]:
percentual_nulos = pd.DataFrame(round(d_unificado.isnull().mean()*100,2)) # Número de dados nulos em percentual

percentual_nulos.rename(columns={0:'Percentual de Dados Nulos (%)'}) 

><b>OBSERVAÇÕES:</b>
>>Verificado altos índices de valores nulos (faltantes) nas seguintes colunas:
    >>><b>vlrRestituicao (99,93%)</b>    
    >>><b>txtTrecho (76,88%)</b>     
    >>><b>txtPassageiro (76,69%)</b>    
    >>><b>txtDescricaoEspecificacao (75,49%)</b>    
    >>><b>urlDocumento (37,06%)</b>

>>No entanto, nas colunas que se referem aos valores financeiros o índice de valores nulos é aceitável.

<hr>
<a id="tratamento"></a>

# Tratamento e Limpeza dos Dados

### Configurando o Pandas para exibição de todas as 31 colunas do dataset:

In [None]:
pd.set_option('display.max_columns',31) # Setando o Pandas para exibir todas as 31 colunas

### Convertendo a coluna 'datEmissao' do tipo 'Object' para o tipo 'Datetime' em todos as fontes de dados:

In [None]:
d_2019['datEmissao'] = pd.to_datetime(d_2019['datEmissao'], format = '%Y/%m/%d')

d_2020['datEmissao'] = pd.to_datetime(d_2020['datEmissao'], format = '%Y/%m/%d')

d_2021['datEmissao'] = pd.to_datetime(d_2021['datEmissao'], format = '%Y/%m/%d')

d_unificado['datEmissao'] = pd.to_datetime(d_unificado['datEmissao'], format = '%Y/%m/%d')

### Criando uma cópia do dataset como Boa Prática de Programação:

In [None]:
d_copia = d_unificado

### Verificando a existência de despesas sem atribuição do partido político:

In [None]:
sem_partido = d_copia[d_copia['sgPartido'].isnull()]

### Verificado após uma amostragem que os lançamentos sem partidos políticos, se referem a lançamentos de suas lideranças partidárias.

In [None]:
sem_partido['txNomeParlamentar'].unique()

In [None]:
sem_partido.sample(5)

### Obtendo os nomes únicos das Lideranças Partidárias:

In [None]:
lista_liderancas = sem_partido['txNomeParlamentar'].value_counts()

lista_liderancas = lista_liderancas.reset_index()

lista_liderancas = pd.DataFrame(lista_liderancas)

partidos_completo = lista_liderancas['index'].str.split()

partidos = []

for i in partidos_completo:
    partidos.append(i[-1])
    
lista_liderancas['Partido'] = partidos

del(lista_liderancas['txNomeParlamentar'])

lista_liderancas.rename(columns={'index': 'Nomes_partidos'}, inplace=True)

lista_liderancas

### Atribuindo as Lideranças Partidárias aos seus respectivos partidos políticos:

In [None]:
d_copia['sgPartido'] = np.where(d_copia['txNomeParlamentar'] == "LIDERANÇA DO PSL", 'PSL', d_copia.sgPartido)
d_copia['sgPartido'] = np.where(d_copia['txNomeParlamentar'] == "LIDERANÇA DO PT", 'PT', d_copia.sgPartido)
d_copia['sgPartido'] = np.where(d_copia['txNomeParlamentar'] == "LIDERANÇA DO PTB", 'PTB', d_copia.sgPartido) 
d_copia['sgPartido'] = np.where(d_copia['txNomeParlamentar'] == "LIDERANÇA DO PSDB", 'PSDB', d_copia.sgPartido)
d_copia['sgPartido'] = np.where(d_copia['txNomeParlamentar'] == "LIDERANÇA DO PODEMOS", 'PODEMOS', d_copia.sgPartido)
d_copia['sgPartido'] = np.where(d_copia['txNomeParlamentar'] == "LIDERANÇA DO SOLIDARIEDADE", 'SOLIDARIEDADE', d_copia.sgPartido)
d_copia['sgPartido'] = np.where(d_copia['txNomeParlamentar'] == "LIDERANÇA DO PSD", 'PSD', d_copia.sgPartido)
d_copia['sgPartido'] = np.where(d_copia['txNomeParlamentar'] == "LIDERANÇA DO NOVO", 'NOVO', d_copia.sgPartido)
d_copia['sgPartido'] = np.where(d_copia['txNomeParlamentar'] == "LIDERANÇA DO DEMOCRATAS", 'DEMOCRATAS', d_copia.sgPartido)
d_copia['sgPartido'] = np.where(d_copia['txNomeParlamentar'] == "LIDERANÇA DO CIDADANIA", 'CIDADANIA', d_copia.sgPartido)
d_copia['sgPartido'] = np.where(d_copia['txNomeParlamentar'] == "LIDERANÇA DO AVANTE", 'AVANTE', d_copia.sgPartido)
d_copia['sgPartido'] = np.where(d_copia['txNomeParlamentar'] == "LIDERANÇA DO PDT", 'PDT', d_copia.sgPartido)
d_copia['sgPartido'] = np.where(d_copia['txNomeParlamentar'] == "LIDERANÇA DO PSOL", 'PSOL', d_copia.sgPartido)
d_copia['sgPartido'] = np.where(d_copia['txNomeParlamentar'] == "LIDERANÇA DO PROGRESSISTAS", 'PROGRESSISTAS', d_copia.sgPartido)
d_copia['sgPartido'] = np.where(d_copia['txNomeParlamentar'] == "LIDERANÇA DO PARTIDO REPUBLICANO DA ORDEM SOCIAL", 'REPUBLICANOS', d_copia.sgPartido)

### Checando os dados das Lideranças que ficaram sem Partidos:

In [None]:
d_copia[d_copia['sgPartido'].isnull()]['txNomeParlamentar'].unique()

### Filtrando apenas os valores Positivos na coluna 'vlrLiquido' 

In [None]:
valor_positivo = d_copia.query('vlrLiquido > 0')

In [None]:
d_copia.query('vlrLiquido < 0')['txtDescricao'].unique()

><b>OBSERVAÇÃO 1:</b> 
>>À fim de averiguarmos os valores negativos diferentes de Passagens Aéreas (cujas regras diferem dos demais lançamentos - tema explicado no dicionário das variáveis), realizamos a checagem dos lançamentos negativos e constatamos que, se tratam de inconsistências de lançamentos como o apontado abaixo do parlamentar Eduardo Bolsonaro:

In [None]:
d_copia[(d_copia['txtDescricao']=='LOCAÇÃO OU FRETAMENTO DE VEÍCULOS AUTOMOTORES')&(d_copia['vlrLiquido']< 0)]

><b>OBSERVAÇÃO 2:</b> 
>>Ao realizarmos a filtragem pelo Estado do Mato Grosso (MT) não identificamos nenhum lançamento negativo, à não ser os já explicados que são os valores de passagens aéreas que seguem outras regras de lançamentos (compensação).Dessa forma, reiteramos que retiramos os valores negativos do dataset filtrado.

### Filtrando apenas os lançamentos do Estado do Mato Grosso (MT) e gerando o dataset "dados_mt" que será a base de análise pela equipe de projeto.

In [None]:
dados_mt = valor_positivo.query('sgUF == "MT"')

dados_mt.sample(10)

In [None]:
dados_mt.head()

In [None]:
dados_mt.shape

### Exportando o dataset para o formato .csv:

In [None]:
#dados_mt.to_csv('teste_dados_mt.csv', index=False)

<hr>
<a id="aval_estatistica"></a>

# Avaliação Estatística dos Dados Filtrados no dataframe "dados_mt"

>Começamos a avaliação estatística dos dados filtrados no dataframe 'dados_mt' com a aplicação do método Describe:

In [None]:
dados_mt.describe().T

><b>OBSERVAÇÃO:</b> 
>>Através do método do Describe podemos observar que o dataset possui uma boa consistência de dados, quanto ao preenchimento. <br>Apenas as colunas 'vlrRestituição' e 'cpf' possuem valores faltantes.

>O box plot dá uma ideia da posição, dispersão, assimetria, caudas e dados discrepantes (outliers). <br>A posição central
é dada pela Mediana e a dispersão por IIQ (Intervalo entre Quartis).
<br>As posições relativas de Q1, Mediana e Q3 dão uma noção da simetria da distribuição.
<br>Os comprimentos das caudas são dados pelas linhas que vão do retângulo aos valores remotos e pelos valores atípicos.

<p><img src="https://miro.medium.com/max/1400/1*2c21SkzJMf3frPXPAR_gZA.png" width="800" height="400"></p>

In [None]:
sns.set_style("darkgrid", {"grid.color": ".6", "grid.linestyle": ":"})
ax = sns.boxplot(x = 'vlrLiquido', data = dados_mt, orient = 'h')
ax.figure.set_size_inches(12,6)
ax.set_title('Variação das Despesas Parlamentares', fontsize=18)
ax.set_xlabel('Reais', fontsize=14)
ax
print()

<hr>
<a id="analise_exploratoria"></a>

# Análise Exploratória para Resolução das Questões Predefinidas:

## 1 - Como se comportam os gastos com cotas parlamentares ao longo do tempo? Existe alguma tendência de aumento ou redução desse custo?
<a id="q_01"></a>

><b>Obs:</b> Utilizado como referência a coluna 'vlrLiquido' conforme discrimina o Dicionário de Dados: 
     <p>O seu conteúdo representa o valor líquido do documento fiscal ou do documento que deu causa à despesa
     e será calculado pela diferença entre o Valor do Documento e o Valor da Glosa. <p>É este valor que será 
     debitado da cota do deputado. Caso o débito seja do Tipo Telefonia e o valor seja igual a zero, significa
     que a despesa foi franqueada.

## 1.1 - Obtendo as despesas no período de 2019 a 2021

Aqui a opção foi usar o método dt.to_period('M') para agrupar os períodos por mês para facilitar a visualização

In [None]:
despesas_por_mes = dados_mt.groupby(dados_mt['datEmissao'].dt.to_period('M'))['vlrLiquido'].sum().reset_index()

despesas_por_mes

Para criação do gráfico com as datas, precisamos converter a coluna 'datEmissao' do tipo datetime para o tipo string:

In [None]:
despesas_por_mes['datEmissao'] = despesas_por_mes['datEmissao'].astype(str)

## 1.2 - Representação gráfica das despesas ao longo do período:

In [None]:
eixo_data = despesas_por_mes['datEmissao']

eixo_valores = despesas_por_mes['vlrLiquido'] 

fig, ax = plt.subplots(figsize=(18, 6))

# Adiconando títulos
plt.title("Evolução dos gastos de Cota para o Exercício da Atividade Parlamentar no período de 2019 a 2021 ", loc='left', fontsize=14, fontweight=0)
plt.xlabel("Período", fontsize=15)
plt.ylabel("Valor em reais", fontsize=15)
plt.yticks(fontsize=10)
plt.xticks(fontsize=10)

# rotacionar das datas
fig.autofmt_xdate()

plt.plot(eixo_data, eixo_valores)
print()

## 2 - Qual a média de gastos por parlamentar?
<a id="q_02"></a>

In [None]:
dados_mt.txNomeParlamentar.value_counts()

In [None]:
a = dados_mt[['txNomeParlamentar', 'sgPartido','vlrLiquido']].groupby(['txNomeParlamentar', 'sgPartido']).mean().sort_values('vlrLiquido',ascending=False).round(2)

a.rename(columns={'vlrLiquido':'Média Despesas'}, inplace=True)

a = a.reset_index()

a

In [None]:
fig, ax = plt.subplots(figsize=(14, 8))
plt.title('Média de gastos mensais por parlamentar', fontsize=20)

sns.set(font_scale=2)
sns.barplot(x="Média Despesas", y="txNomeParlamentar",data=a.sort_values(by='Média Despesas', ascending=False)[:15]);
plt.ylabel('Parlamentar', fontsize=12)
plt.xlabel('Valor em Reais R$', fontsize=12)
plt.yticks(fontsize=12)
plt.xticks(fontsize=12)

plt.tight_layout()

## 3 - Quais foram os parlamentares que mais e que menos consumiram recursos?
<a id="q_03"></a>

In [None]:
desp_maxima_parlamentar = dados_mt[['txNomeParlamentar','sgPartido', 'vlrLiquido']].groupby(['txNomeParlamentar', 'sgPartido']).sum().sort_values('vlrLiquido',ascending=False).round(2).reset_index()

desp_maxima_parlamentar.rename(columns={'vlrLiquido':'Despesas Máximas R$'}, inplace=True)

desp_maxima_parlamentar = desp_maxima_parlamentar.head()

desp_maxima_parlamentar.style.format({'Despesas Máximas R$':'R$ {:.2F}'}).background_gradient(cmap='Reds')

In [None]:
fig, ax = plt.subplots(figsize=(14, 8))
plt.title('Parlamentares que consumiram mais recursos no Período de 2019 a 2021', fontsize=20)

grafico = sns.barplot(y = 'txNomeParlamentar', x = 'Despesas Máximas R$', data = desp_maxima_parlamentar[:10])
grafico.bar_label(grafico.containers[0], fontsize=12)
plt.ylabel('Parlamentar', fontsize=15)
plt.xlabel('Valor em Milhões de Reais R$', fontsize=15)
plt.yticks(fontsize=12)
plt.xticks(fontsize=12)
print()

In [None]:
desp_minima_parlamentar = dados_mt[['txNomeParlamentar','sgPartido', 'vlrLiquido']].groupby(['txNomeParlamentar', 'sgPartido']).sum().sort_values('vlrLiquido',ascending=True).round(2).reset_index()

desp_minima_parlamentar.rename(columns={'vlrLiquido':'Despesa Mínima R$'}, inplace=True)

desp_minima_parlamentar = desp_minima_parlamentar.head()

desp_minima_parlamentar.style.format({'Despesa Mínima R$':'R$ {:.2F}'}).background_gradient(cmap='Reds')

In [None]:
fig, ax = plt.subplots(figsize=(14, 8))
plt.title('Parlamentares que consumiram menos recursos no Período de 2019 a 2021', fontsize=20)

grafico = sns.barplot(y = 'txNomeParlamentar', x = 'Despesa Mínima R$', data = desp_minima_parlamentar[-10:])
grafico.bar_label(grafico.containers[0], fontsize=12)
plt.ylabel('Parlamentar')
plt.xlabel('Valores em Reais (R$)')
plt.xticks(fontsize=10)
plt.yticks(fontsize=10)
print()

## 4 - Quais são as categorias de despesas mais onerosas dentre os recursos destinados às cotas parlamentares?
<a id="q_04"></a>

In [None]:
categorias_onerosas = dados_mt[['txtDescricao', 'vlrLiquido']].groupby('txtDescricao').sum().sort_values('vlrLiquido', ascending=False)

categorias_onerosas.rename(columns={'vlrLiquido':'Valor Gasto na Categoria'}, inplace=True)

categorias_onerosas = categorias_onerosas.reset_index() # Reset Index caso deseje gerar gráfico (ele reposiciona as colunas)

categorias_onerosas.style.format({'Valor Gasto na Categoria':'R$ {:.2F}'}).background_gradient(cmap='Reds')

## 4.1 - Plotando um gráfico com as categorias mais onerosas:

In [None]:
# Determinando a categoria e valores:
x = categorias_onerosas.txtDescricao
y = categorias_onerosas['Valor Gasto na Categoria']/1000000

# Ajustando o tamanho da Área do Gráfico:
fig, ax = plt.subplots(figsize=(18, 12))
  
# Gerando o BarPlot Horizontal:
ax.barh(x, y)
  
# Removendo as linhas de limites do gráfico:
for s in ['top', 'bottom', 'left', 'right']:
    ax.spines[s].set_visible(False)
  
# Removendo as marcações dos eixos x e y:
ax.xaxis.set_ticks_position('none')
ax.yaxis.set_ticks_position('none')
  
# Adicionando preenchimento entre eixos e rótulos:
ax.xaxis.set_tick_params(pad=5)
ax.yaxis.set_tick_params(pad=5)
  
# Adicionando as marcações do grid em x e y:
ax.grid(visible=True, color='grey',
        linestyle='-.', linewidth=0.5,
        alpha=0.2)
  
# Mostrando os valores maiores no alto do gráfico:
ax.invert_yaxis()
  
# Adicionando Rótulos nas Barras do Gráfico
for i in ax.patches:
    plt.text(i.get_width()+0.2, i.get_y()+0.5,
             str(round((i.get_width()), 2)),
             fontsize=12, fontweight='bold',
             color='grey')
  
# Adicionando um Título ao Gráfico:
ax.set_title('Despesas Totais por Categorias - Período de 2019 a 2021 - valores em Milhões de Reais',
             loc='center', )

plt.xticks(fontsize=12)
plt.yticks(fontsize=12)
  
# # Adicionando uma Marca d'água no Gráfico
# fig.text(0.9, 0.15, 'Márcio Estevam da Silva', fontsize=12,
#          color='grey', ha='right', va='bottom',
#          alpha=0.7)
  
# Mostra o gráfico:
plt.show()

## 5 - Quais são os trechos de viagem mais recorrentes entre as despesas de viagem?
<a id="q_05"></a>

In [None]:
trecho_viagem = dados_mt['txtTrecho'].dropna().value_counts()

trecho_viagem = trecho_viagem.reset_index()

trecho_viagem.rename(columns={'index':'Origem / Destino', 'txtTrecho':'Qtde de Viagens'}, inplace=True)

trecho_viagem = trecho_viagem.head(20)

trecho_viagem

In [None]:
aeroportos = { 'Siglas':['BSB', 'CGB', 'OPS', 'SMT', 'GRU', 'CGH', 'SXO'],
               'Cidades': ['Brasília', 'Cuiabá', 'Sinop', 'Sorriso', 'Guarulhos', 'São Paulo', 'São Félix do Araguaia'],
               'Estados': ['DF', 'MT', 'MT', 'MT', 'SP', 'SP', 'MT']
             }
aeroportos = pd.DataFrame(aeroportos)

aeroportos

In [None]:
trecho_viagem['Origem'] = trecho_viagem['Origem / Destino'].str[0:3]
trecho_viagem['Destino'] = trecho_viagem['Origem / Destino'].str[-3:]

In [None]:
trecho_viagem['Cidade_origem'] = trecho_viagem['Origem'].map(aeroportos.set_index('Siglas')['Cidades'])

In [None]:
trecho_viagem['Cidade_destino'] = trecho_viagem['Destino'].map(aeroportos.set_index('Siglas')['Cidades'])

In [None]:
#trecho_viagem.to_csv('trecho_viagem.csv', index=False)

trecho_viagem

## 5.1 - Plotando um gráfico com os trechos mais recorrentes:

In [None]:
plt.figure(figsize =(17, 6))

sns.set_style("whitegrid")

ax = sns.barplot( x = trecho_viagem['Origem / Destino'], y = trecho_viagem['Qtde de Viagens'],data = trecho_viagem,
                  linewidth=2, palette = "Set2", ci=None)

for i in ax.patches:
    ax.annotate(i.get_height(),
                  (i.get_x() + i.get_width() / 2, i.get_height()),
                  ha='center',
                  va='baseline',
                  fontsize=12,
                  color='black',
                  xytext=(0, 1),
                  textcoords='offset points')

ax.set_xticklabels(ax.get_xticklabels(),rotation = 50)

# Adicionando Título ao gráfico
plt.title("Os 10 Trechos de Viagens mais Recorrentes no Período de 2019 a 2021", loc="center", fontsize=18)
plt.xlabel("Origem / Destino", fontsize=14)
plt.ylabel("Número de vezes", fontsize=14)
plt.xticks(fontsize=12)
plt.yticks(fontsize=12)

plt.show()

## 6 - Qual a média de gastos por partido?
<a id="q_06"></a>

In [None]:
gasto_partidos = dados_mt[['sgPartido', 'vlrLiquido']].groupby(['sgPartido']).mean()

gasto_partidos_media = gasto_partidos.groupby(['sgPartido']).mean().reset_index().round(2)

gasto_partidos_media = gasto_partidos_media.sort_values(by='vlrLiquido',ascending=False)

#gasto_partidos_media.to_csv('gasto_partidos.csv', index=False)

gasto_partidos_media.style.format({'vlrLiquido':'R$ {:.2F}'}).background_gradient(cmap='Reds')

In [None]:
g_p = dados_mt[['txNomeParlamentar','sgPartido', 'vlrLiquido']].groupby(['txNomeParlamentar', 'sgPartido']).sum().sort_values('vlrLiquido',ascending=False).round(2).reset_index()

g_p

In [None]:
plt.figure(figsize =(20, 10))

sns.set_style("whitegrid")

ax = sns.barplot( x = gasto_partidos_media['sgPartido'], y = (gasto_partidos_media['vlrLiquido']),data = gasto_partidos_media,
                  linewidth=2, palette = "Set2", ci=None)

for i in ax.patches:
    ax.annotate(i.get_height(),
                  (i.get_x() + i.get_width() / 2, i.get_height()),
                  ha='center',
                  va='baseline',
                  fontsize=12,
                  color='black',
                  xytext=(0, 1),
                  textcoords='offset points')

ax.set_xticklabels(ax.get_xticklabels(),rotation = 70)

# Adicionando Título ao gráfico
plt.title("Média de Gastos por Partidos - Período de 2019 a 2021", loc="center", fontsize=18)
plt.xlabel("Partidos")
plt.ylabel("Valores em Reais")
plt.xticks(fontsize=12)
plt.yticks(fontsize=12)

plt.show()

## 7 - Quais são os partidos que mais e que menos consumiram a cota parlamentar?
<a id="q_07"></a>

A Cota para o Exercício da Atividade Parlamentar (CEAP), instituída pelo Ato da Mesa 43/2009, unificou a verba indenizatória (que vigorava desde 2001), a cota de passagens aéreas e a cota postal-telefônica. O valor mensal do benefício deve ser utilizado pelo deputado para custear despesas típicas do exercício do mandato parlamentar, como aluguel de escritório de apoio ao mandato no estado, passagens aéreas, alimentação, aluguel de carro, combustível, entre outras.
<br>Segue tabela demonstrativa da Cota Parlamentar vigente:

<p align="center"><img src="https://static.wixstatic.com/media/fa559d_3b5f6de0221e463db8c19a7d276b64ac~mv2.jpg/v1/fill/w_450,h_300,al_c,q_80,usm_0.66_1.00_0.01/cota%20parlamentar.webp"></p>

<b>OBSERVAÇÃO:</b> O Estado do Mato Grosso possui limite mensal de <b>R$ 39.428,03</b> por deputado federal. 

Primeiramente para ter uma ideia geral das despesas por partidos no período de 2019 a 2021, separamos as colunas 'sgPartido' e 'vlrLiquido' do DataFrame 'dados_mt' e agrupamos a visualização através da coluna 'sgPartido'e exibimos os 10 primeiros resultados ordenados pelo valor em 'vlrLiquido'.

### Partidos que mais utilizaram a cota parlamentar:

In [None]:
gasto_partidos = dados_mt[['sgPartido', 'sgUF','vlrLiquido']].groupby(['sgPartido']).sum().sort_values('vlrLiquido', ascending = False)

gasto_partidos = gasto_partidos.reset_index()

gasto_partidos_tabela = gasto_partidos.head(5)

gasto_partidos_tabela.style.format({'vlrLiquido':'R$ {:.2F}'}).background_gradient(cmap='Reds')

### Partidos que menos utilizaram a cota parlamentar:

In [None]:
gasto_partidos = dados_mt[['sgPartido', 'sgUF','vlrLiquido']].groupby(['sgPartido']).sum().sort_values('vlrLiquido', ascending = True)

gasto_partidos = gasto_partidos.reset_index()

gasto_partidos_tabela = gasto_partidos.head(5)

gasto_partidos_tabela.style.format({'vlrLiquido':'R$ {:.2F}'}).background_gradient(cmap='Reds')

Atribuímos o valor da cota referente ao Estado do Mato Grosso:

In [None]:
cota_mt = 39428.03

In [None]:
aux_parlamentares = dados_mt[['txNomeParlamentar', 'sgPartido']].drop_duplicates()

parlamentares_partido_mt = aux_parlamentares['sgPartido'].value_counts().to_frame()

parlamentares_partido_mt

total_cota_partido = parlamentares_partido_mt.rename(columns={'sgPartido':'Qtde_parlamentares'})

total_cota_partido['cota_mensal'] = total_cota_partido['Qtde_parlamentares'] * cota_mt

total_cota_partido.style.format({'cota_mensal':'R$ {:.2F}'}).background_gradient(cmap='Reds')

In [None]:
total_cota_partido["cota_disponibilizada_periodo"] = (cota_mt * 31) * total_cota_partido['Qtde_parlamentares']

total_cota_partido = total_cota_partido.reset_index().rename(columns={'index':'sgPartido'})

total_cota_partido

In [None]:
gasto_total_partidos = gasto_partidos.groupby('sgPartido').sum().reset_index()

gasto_total_partidos

In [None]:
uso_da_cota = pd.merge(total_cota_partido, gasto_total_partidos, on=['sgPartido'])

uso_da_cota['Percentual Utilizado (%)'] = (uso_da_cota['vlrLiquido'] / uso_da_cota['cota_disponibilizada_periodo'])*100

uso_da_cota = uso_da_cota.sort_values(by='Percentual Utilizado (%)', ascending=False)

uso_da_cota = pd.DataFrame(uso_da_cota)

#uso_da_cota.to_csv('uso_da_cota.csv', index=False)

uso_da_cota

In [None]:
x = uso_da_cota['sgPartido']
y = uso_da_cota['Percentual Utilizado (%)']

plt.figure(figsize=(15,6))

plt.bar(x, y, color='r')

plt.xticks(rotation = 30)
plt.xlabel("Partidos")
plt.ylabel("Percentual de Utilização (%)")
plt.xticks(fontsize=12)
plt.yticks(fontsize=12)
plt.legend(["% Utilizado da Cota"])
plt.title("Percentual de Utilização da Cota parlamentar")

for index,data in enumerate(y.round(2)):
    plt.text(x=index , y =data+1 , s=f"{data}%" , fontdict=dict(fontsize=16))
    
plt.show()

## 8 - Há alguma correlação entre a quantidade de parlamentares por partido e o valor total dos gastos?
<a id="q_08"></a>

Primeiramente fazemos a verificação do gasto total dos partidos no período:

In [None]:
gasto_partidos = dados_mt[['sgPartido', 'vlrLiquido']].groupby(['sgPartido']).sum().sort_values('vlrLiquido', ascending = False)

gasto_partidos = gasto_partidos.reset_index()

gasto_partidos = gasto_partidos.rename(columns={'vlrLiquido':'Total_gastos'})

gasto_partidos.style.format({'Total_gastos':'R$ {:.2F}'})

Em seguida checamos a quantidade de parlamentares por partido nesse período:

In [None]:
aux_partido = dados_mt[['sgPartido', 'txNomeParlamentar']].drop_duplicates()

parlamentares_partido = aux_partido.groupby('sgPartido').count().sort_values(by='txNomeParlamentar', ascending=False).reset_index()

parlamentares_partido = parlamentares_partido.rename(columns={'txNomeParlamentar':'Qtde_parlamentares'})

parlamentares_partido

Fizemos então a junção (Pandas merge) entre a tabela de "gasto_partidos" e a tabela "parlamentares_partido", onde a coluna de união será a "sgPartido":

In [None]:
parlamentares_despesas = pd.merge(gasto_partidos, parlamentares_partido, on=['sgPartido'])

parlamentares_despesas = parlamentares_despesas.sort_values(by='Qtde_parlamentares', ascending=False)

parlamentares_despesas.to_csv('gasto_qtde_parlamentares.csv', index=False)

parlamentares_despesas

Como se tratam de grandezas em escalas diferentes (Total_gastos x Qtde_parlamentares), os dados precisam ser Normalizados (ajustados em uma escala comum), para isso utilizamos o método <b>MinMaxScaler</b> presente na biblioteca Sklearn. 

In [None]:
from sklearn.preprocessing import MinMaxScaler

scaler_01 = MinMaxScaler() 

partido_despesa_normalizado = scaler_01.fit_transform(parlamentares_despesas[['Total_gastos', 'Qtde_parlamentares']])

Após a normalização convertemos os dados gerados em dataframe, renomeando as colunas com os nomes originais:

In [None]:
df_partido_despesa_normalizado = pd.DataFrame(partido_despesa_normalizado)

df_partido_despesa_normalizado.rename(columns={0:'Total_gastos', 1:'Qtde_parlamentares_partido'}, inplace=True)

df_partido_despesa_normalizado.to_csv('gasto_parlamentar_normalizado.csv', index=False)

df_partido_despesa_normalizado['sgPartido'] = parlamentares_despesas['sgPartido']

#df_partido_despesa_normalizado.to_csv('gasto_partido_qtde_normalizado.csv', index=False)

df_partido_despesa_normalizado

Com os dados agora normalizados, aplicamos a função de correlação:

In [None]:
correlacao = df_partido_despesa_normalizado.corr()

correlacao

><b>OBSERVAÇÃO:</b> Nota-se uma forte correlação positiva entre o Total de gastos com a Quantidade de Parlamentares.

Em seguida plotamos o gráfico de Mapa de Calor, recomendado para exibição da correlação, onde as cores mais intensas confirmam a alta correlação entre as variáveis comparadas.
<br><b>NOTA:</b> Foi ajustada a escala da correlação conforme preconiza a Estatística Probabilística, com a escala variando de -1 a 1.

In [None]:
a = sns.heatmap(data = correlacao,
            vmin= -1, vmax=1,
            cmap='coolwarm', center=0, annot=True,
            linewidths=1, linecolor="yellow")

a.set_xticklabels(a.get_xmajorticklabels(), fontsize = 14, rotation = 0)
a.set_yticklabels(a.get_ymajorticklabels(), fontsize = 14)
print()

E finalizamos a avaliação com mais uma representação gráfica, desta vez a dispersão dos valores normalizados, com destaque para a linha de tendência no centro do gráfico.

In [None]:
ax = sns.pairplot(parlamentares_despesas, y_vars='Total_gastos', x_vars=['Qtde_parlamentares'], kind='reg')

ax.figure.set_size_inches(12,6)

ax.fig.suptitle('Dispersão entre as Variáveis', fontsize=20, y=1.1)

print()

<hr>
<a id="equipe"></a>

<h2>Equipe de Projeto</h2>

<h3>Para acessar o perfil no GitHub de membro da equipe clique na foto e você será redirecionado.</h3>
<table align="center">
    <tr align="center">        
    <td><a href="https://github.com/leticiafelippe"><img src="https://static.wixstatic.com/media/fa559d_7cd4e0d00dc6431e937b93efc00949c9~mv2.jpg/v1/fill/w_189,h_192,al_c,q_80,usm_0.66_1.00_0.01/LETICIA.webp"</a></td>
    <td><a href="https://github.com/Mestevam1976" target="_blank"><img src="https://static.wixstatic.com/media/fa559d_fa2cf4ccc63e4aa6b4139bd9fd83a54c~mv2.jpg/v1/crop/x_74,y_0,w_550,h_595/fill/w_189,h_192,al_c,q_80,usm_0.66_1.00_0.01/marcio.webp"></a></td>
    <td><a href="https://github.com/PHSFernandes"><img src="https://static.wixstatic.com/media/fa559d_32b5fb5b548d47abbbee5f77f35121c9~mv2.jpg/v1/fill/w_189,h_192,al_c,q_80,usm_0.66_1.00_0.01/PH.webp"</a></td>
    <td><a href="https://github.com/Reinaldos"><img src="https://static.wixstatic.com/media/fa559d_6a3934268c4d46d3901ed0e0324b45f0~mv2.jpg/v1/fill/w_189,h_192,al_c,q_80,usm_0.66_1.00_0.01/REINALDO.webp"</a></td>        
    </tr>    
    <tr align="center">
        <td><p align="center"><b>LETÍCIA FELIPPE</b></p></td>
        <td><p align="center"><b>MÁRCIO ESTEVAM DA SILVA</b></p></td>
        <td><p align="center"><b>PAULO H. S. FERNANDES</b></p></td>
        <td><p align="center"><b>REINALDO LEANDRO DE SOUSA</b></p></td>
                
</table>