# Análise dos reembolsos a senadores - 2017 e 2018

Análise dos dados de reembolso de cada senador da república nos anos de 2017 e 2018

Como obter os dados:
- Ir no site do Senado, Transparência, Cota Atividade OPS!
- No site do Senado escolher Dados Abertos, Senadores Adm, Cota Atividade, 2017

Arquivos:
- reembolso_senadores_2017.csv
- reembolso_senadores_2018.csv

In [None]:
# Vamos começar com 2017
# Exercicio. Você já consegue fazer sozinho? Vamos tentar? Vamos começar juntos!

# Primeiro passo: importacao
import pandas as pd

# Não precisa carregar o arquivo, o pandas já faz isso
arquivo = "reembolso_senadores_2017.csv"

# Importar para o pandas
# Cuidado com o delimitador, o enconding e com as linhas que não nos interessam (iremos pular a primeira linha)
# Já vamos converter a coluna VALOR_REEMBOLSADO no momento da carga. Leia a documentação
df = pd.read_csv(arquivo, delimiter=';', encoding='cp1252', skiprows=1, dtype={"VALOR_REEMBOLSADO": float}, decimal=',')

# Exibir as primeiras linhas
df.head()

In [None]:
# Vamos verificar o DataFrame
df.describe()

In [None]:
# Vamos verificar o tipo de cada campo.
# Object é quando o tipo do campo não foi definido pelo pandas e/ou será usado como string
# Podemos mudar o tipo dos campos se for preciso
df.dtypes

In [None]:
# Qual o valor total reembolsado
df['VALOR_REEMBOLSADO'].sum()

In [None]:
# Vamos verificar os senadores
df.SENADOR.unique()

In [None]:
# Quantos reembolsos por senador?
df.SENADOR.value_counts()

In [None]:
# Quanto cada senador recebeu de reembolso
df.groupby('SENADOR')['VALOR_REEMBOLSADO'].sum().sort_values(ascending=False)

In [None]:
# Quantos reembolsos por tipo de despesa?
df['TIPO_DESPESA'].value_counts()

In [None]:
# Quanto foi reembolsado por cada tipo de despesa
df.groupby('TIPO_DESPESA')['VALOR_REEMBOLSADO'].sum().sort_values(ascending=False)

In [None]:
# Vamos ver quanto cada senador gastou por mês por tipo de despesa
# Vamos pivotar!
# ATENÇÃO! Temos que lembrar que o pivot agrega os campos por média
# Mas podemos especificar a agregação por count ou por sum
# Leia a documentação
df.pivot_table(index={'SENADOR', "TIPO_DESPESA"}, columns="MES", values='VALOR_REEMBOLSADO', aggfunc='sum', fill_value=0, margins=True)