# A doação de partidos para seus cadidatos

Baixamos a [prestação de contas dos candidatos em 2016](http://www.tse.jus.br/hotSites/pesquisas-eleitorais/prestacao_contas_anos/2016.html) e seguimos com a seguinte pergunta: quanto os partidos políticos doaram para seus candidatos? É possível identificar uma diferença entre os valores doados para homens e para mulheres? Quais são os partidos que mais se destacam e porquê? Quais foram os candidados que mais se destacaram e o porquê? Essas são algumas das perguntas que a nossa análise procurou responder.

## Sexo invisível
A base de prestação de contas dos candidatos não possui a coluna "Sexo". Ou seja, apenas com essa base não é possível fazer as análises. Contudo, a base possui o nome e o número sequencial dos candidatos, algo que usaremos para importar os dados de sexo da base de candidaturas.

## Python: Pandas
Escolhemos o Pandas para fazer essa análise. Trata-se de um dos melhores módulos Python para análise de dados. O Pandas permite manipular os arquivos do Tribunal Superior Eleitoral com facilidade. Como são muitos arquivos e muito grandes, não é possível abri-los em ferramentas mais convencionais, como o Libre Office Calc.

Vamos começar, então, importando o Pandas para o nosso script. Se você não tem o Pandas instalado, basta digitar "pip install Pandas" no seu terminal.

In [1]:
# -*- coding: utf-8
import pandas as pd

Agora vamos usar a função "read_csv" do Pandas para abrir o arquivo "receitas_candidatos_2016_brasil.txt". Esse arquivo possui o consolidado da prestação de contas de todos os candidatos nas eleições de 2016. É um arquivo de quase 1Gb. Temos alguns parâmetros:

- delimiter: ";" (os arquivos brasileiros possuem o delimitador ";" em vez da ",")
- decimal: "," (preciamos informar que no formato numérico brasileiro a casa decimal é separada por vírgula)
- encoding: "latin1" (o padrão brasileiro de encoding de caracteres usado pelo governo equivale ao "latin1" em Python)
- low_memory=False (o Pandas tenta adivinhar qual é o tipo de dado em cada coluna para economizar memória - número, texto etc - como uma das colunas possui mais de um tipo de dado, precisamos dizer ao Pandas que ele vai precisar usar mais memória)

In [2]:
base = pd.read_csv(
    'data/receitas_candidatos_2016_brasil.txt', 
    delimiter=";", 
    decimal=",", 
    encoding="latin1", 
    low_memory=False)

Guardamos o arquivo na variável base e agora vamos exibir as 30 primeiras e 30 últimas linhas.

In [3]:
base


Unnamed: 0,Cód. Eleição,Desc. Eleição,Data e hora,CNPJ Prestador Conta,Sequencial Candidato,UF,Sigla da UE,Nome da UE,Sigla Partido,Numero candidato,...,Valor receita,Tipo receita,Fonte recurso,Especie recurso,Descricao da receita,CPF/CNPJ do doador originário,Nome do doador originário,Tipo doador originário,Setor econômico do doador originário,Nome do doador originário (Receita Federal)
0,220,Eleições Municipais 2016,24/10/201621:30:15,25552898000131,160000007179,PR,75353,CURITIBA,PDT,12000,...,500.0,Recursos de pessoas físicas,Outros Recursos,Depósito em espécie,#NULO,#NULO,#NULO,#NULO,#NULO,#NULO
1,220,Eleições Municipais 2016,24/10/201621:30:15,25552898000131,160000007179,PR,75353,CURITIBA,PDT,12000,...,500.0,Recursos de pessoas físicas,Outros Recursos,Depósito em espécie,#NULO,#NULO,#NULO,#NULO,#NULO,#NULO
2,220,Eleições Municipais 2016,24/10/201621:30:15,25552898000131,160000007179,PR,75353,CURITIBA,PDT,12000,...,500.0,Recursos de pessoas físicas,Outros Recursos,Depósito em espécie,#NULO,#NULO,#NULO,#NULO,#NULO,#NULO
3,220,Eleições Municipais 2016,24/10/201621:30:15,25552898000131,160000007179,PR,75353,CURITIBA,PDT,12000,...,500.0,Recursos de pessoas físicas,Outros Recursos,Depósito em espécie,#NULO,#NULO,#NULO,#NULO,#NULO,#NULO
4,220,Eleições Municipais 2016,24/10/201621:30:15,25552898000131,160000007179,PR,75353,CURITIBA,PDT,12000,...,1000.0,Recursos de pessoas físicas,Outros Recursos,Depósito em espécie,#NULO,#NULO,#NULO,#NULO,#NULO,#NULO
5,220,Eleições Municipais 2016,24/10/201621:30:15,25552898000131,160000007179,PR,75353,CURITIBA,PDT,12000,...,1000.0,Recursos de pessoas físicas,Outros Recursos,Depósito em espécie,#NULO,#NULO,#NULO,#NULO,#NULO,#NULO
6,220,Eleições Municipais 2016,24/10/201621:30:15,25552898000131,160000007179,PR,75353,CURITIBA,PDT,12000,...,5000.0,Recursos de pessoas físicas,Outros Recursos,Transferência eletrônica,#NULO,#NULO,#NULO,#NULO,#NULO,#NULO
7,220,Eleições Municipais 2016,24/10/201621:30:15,25552898000131,160000007179,PR,75353,CURITIBA,PDT,12000,...,1000.0,Recursos de pessoas físicas,Outros Recursos,Depósito em espécie,#NULO,#NULO,#NULO,#NULO,#NULO,#NULO
8,220,Eleições Municipais 2016,24/10/201621:30:15,25552898000131,160000007179,PR,75353,CURITIBA,PDT,12000,...,1000.0,Recursos de pessoas físicas,Outros Recursos,Depósito em espécie,#NULO,#NULO,#NULO,#NULO,#NULO,#NULO
9,220,Eleições Municipais 2016,24/10/201621:30:15,25552898000131,160000007179,PR,75353,CURITIBA,PDT,12000,...,2000.0,Recursos de pessoas físicas,Outros Recursos,Transferência eletrônica,#NULO,#NULO,#NULO,#NULO,#NULO,#NULO


Essa tabela tem muitas colunas que não precisamos usar na nossa análise. Vamos recuperar os nomes das colunas e depois vamos fazer um recorte para gerar uma base apenas com as colunas que queremos. Para recuperar as colunas de uma base, digite:

In [4]:
base.columns

Index([u'Cód. Eleição', u'Desc. Eleição', u'Data e hora',
       u'CNPJ Prestador Conta', u'Sequencial Candidato', u'UF', u'Sigla da UE',
       u'Nome da UE', u'Sigla  Partido', u'Numero candidato', u'Cargo',
       u'Nome candidato', u'CPF do candidato', u'CPF do vice/suplente',
       u'Numero Recibo Eleitoral', u'Numero do documento',
       u'CPF/CNPJ do doador', u'Nome do doador',
       u'Nome do doador (Receita Federal)', u'Sigla UE doador',
       u'Número partido doador', u'Número candidato doador',
       u'Cod setor econômico do doador', u'Setor econômico do doador',
       u'Data da receita', u'Valor receita', u'Tipo receita', u'Fonte recurso',
       u'Especie recurso', u'Descricao da receita',
       u'CPF/CNPJ do doador originário', u'Nome do doador originário',
       u'Tipo doador originário', u'Setor econômico do doador originário',
       u'Nome do doador originário (Receita Federal)'],
      dtype='object')

## Fatiando a base

Agora, vamos criar uma nova variável chamada "base_cortada" e vamos criar um novo DataFrame - o nome que o Pandas dá para as bases de dados que você manipula por meio do módulo - com as seguintes colunas:

- Sequencial Candidato (essa é a chave que vai nos ajudar a buscar os dados de gênero depois)
- Nome Candidato (nome para referência mais rápida)
- UF (estado do candidato)
- Nome da UE (cidade)
- Sigla Partido
- Cargo (Prefeito ou Vereador)
- Nome do doador (nome do diretório ou comissão que doou)
- Número partido doador (número da sigla registrado junto ao TSE)
- Número candidato doador (número do candidato doador, se aplicável)
- Valor receita (valor da doação)
- Tipo de receita (categoria que nos ajuda a identificar se a doação foi de pessoa física ou de um partido, por exemplo)
- Fonte receita (se aplicável)
- Especie recurso (depósito em espécie? transferência eletrônica? etc)

In [5]:
base_cortada = pd.DataFrame(base, columns=[
                    u"Sequencial Candidato", 
                    u"Nome Candidato", 
                    u"UF", 
                    u"Nome da UE", 
                    u"Sigla  Partido",
                    u"Cargo",
                    u"Nome do doador",
                    u"Número partido doador", 
                    u"Número candidato doador", 
                    u"Valor receita", 
                    u"Tipo receita", 
                    u"Fonte receita", 
                    u"Especie recurso"
                ])

Vamos ver como ficou a nossa nova base cortada:

In [6]:
base_cortada

Unnamed: 0,Sequencial Candidato,Nome Candidato,UF,Nome da UE,Sigla Partido,Cargo,Nome do doador,Número partido doador,Número candidato doador,Valor receita,Tipo receita,Fonte receita,Especie recurso
0,160000007179,,PR,CURITIBA,PDT,Vereador,LUIZ HENRIQUE TABORDA DOMINGOS,12,12000,500.0,Recursos de pessoas físicas,,Depósito em espécie
1,160000007179,,PR,CURITIBA,PDT,Vereador,ALESSANDRA EDUARDA PORNER BROERING,12,12000,500.0,Recursos de pessoas físicas,,Depósito em espécie
2,160000007179,,PR,CURITIBA,PDT,Vereador,WLADIMIR MAZZOLLA MORAIS,12,12000,500.0,Recursos de pessoas físicas,,Depósito em espécie
3,160000007179,,PR,CURITIBA,PDT,Vereador,RICARDO PERCEQUILO,12,12000,500.0,Recursos de pessoas físicas,,Depósito em espécie
4,160000007179,,PR,CURITIBA,PDT,Vereador,IVO ORLANDO PETRIS,12,12000,1000.0,Recursos de pessoas físicas,,Depósito em espécie
5,160000007179,,PR,CURITIBA,PDT,Vereador,LUIZ CELSO BRANCO,12,12000,1000.0,Recursos de pessoas físicas,,Depósito em espécie
6,160000007179,,PR,CURITIBA,PDT,Vereador,OSVALDIR BENATO,12,12000,5000.0,Recursos de pessoas físicas,,Transferência eletrônica
7,160000007179,,PR,CURITIBA,PDT,Vereador,GIOVANE MACHADO,12,12000,1000.0,Recursos de pessoas físicas,,Depósito em espécie
8,160000007179,,PR,CURITIBA,PDT,Vereador,GIOVANE MACHADO,12,12000,1000.0,Recursos de pessoas físicas,,Depósito em espécie
9,160000007179,,PR,CURITIBA,PDT,Vereador,GIOVANE MACHADO,12,12000,2000.0,Recursos de pessoas físicas,,Transferência eletrônica


Agora vamos salvar a base para um arquivo CSV usando a função "to_csv" do Pandas:

In [7]:
base_cortada.to_csv("receitas_GN.csv", encoding="utf-8")

## Buscando o sexo

Agora que temos a base que precisamos para fazer as análises, precisamos buscar o sexo de todos os candidatos. 

Vamos usar a coluna "Sequencial Candidato" na base que acabamos de criar e vamos compará-la com uma coluna de mesmo nome na base "consulta_cand_2016_brasil.txt".

Essa base foi criada unindo [todos os arquivos TXT do TSE](http://agencia.tse.jus.br/estatistica/sead/odsele/consulta_cand/consulta_cand_2016.zip) com um simples comando no terminal:

``cat *.txt > consulta_cand_2016_brasil.csv``

Você pode renomear depois para .txt (como abaixo) ou deixar .csv mesmo. Agora basta criarmos um novo DataFrame com a base que acabamos de definir:

In [8]:
candidatos = pd.read_csv(
    'data/consulta_cand_2016_brasil.txt', 
    delimiter=";", 
    decimal=",", 
    encoding="latin1",
    header=None,
    low_memory=False)

In [9]:
candidatos.columns

Int64Index([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
            17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33,
            34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45],
           dtype='int64')

Como percebemos acima, o arquivo de candidaturas não possui cabeçalho. Foi por isso que um dos parâmetros na hora de importar o arquivo foi "``header=None``". 

Com isso, o Pandas nomeou em sequência as colunas do 0 até o 45, totalizando 46 colunas.

Para a consulta de sexo dos candidados vamos renomear as colunas 10, 11 e 30. Assim, criaremos uma nova base apenas com os nomes, o número sequencial e o sexo dos candidatos. Vamos usar essa base para acrescentar a informação de sexo na nossa tabela de doações:

In [10]:
candidatos.rename(columns={10: "Nome Candidato", 11:"Sequencial Candidato", 30:"Sexo"}, inplace=True)

In [11]:
candidatos_sexo = pd.DataFrame(candidatos, columns=["Sequencial Candidato", "Nome Candidato", "Sexo"])

In [12]:
candidatos_sexo

Unnamed: 0,Sequencial Candidato,Nome Candidato,Sexo
0,10000000924,MARIA DAS GRAÇAS LIMA FERREIRA,FEMININO
1,10000000792,MARIA AUXILIADORA DIAS,FEMININO
2,10000000941,MAMED DANKAR NETO,MASCULINO
3,10000003498,JUCIANE DA SILVA PEIXOTO,FEMININO
4,10000000953,FRANCISCO RODRIGUES DOS SANTOS,MASCULINO
5,10000000965,DANIEL RIBEIRO DE MOURA,MASCULINO
6,10000000889,CLERTON GASPAR DE SOUZA,MASCULINO
7,10000000893,ANDRÉ LUIZ MELHORANÇA FILHO,MASCULINO
8,10000000897,MARIA MARCELA MESSIAS DE MELO,FEMININO
9,10000002682,DOMINGOS SAVIO MOREIRA DE ANDRADE,MASCULINO


Vamos salvar uma cópia desse arquivo no formato CSV. Assim você pode importar para o seu processador de planilhas favorito.

In [13]:
candidatos_sexo.to_csv("consulta_cand_2016_sexo.csv", encoding="utf-8")

## Unindo tabelas pelo número sequencial

Vamos unir as duas tabelas usando a coluna que elas possuem em comum: ``Sequencial Candidato``. À esquerda, vamos usar a nossa base cortada, à direita a base de candidatos com o sexo. O ponto de união das duas bases será a coluna ``Sequencial Candidato``.

O Pandas já faz o trabalho pra gente: onde o número sequencial na tabela com os sexos for X, por exemplo, ele vai acrescentar o valor do sexo automaticamente. Funciona como um VLOOKUP/PROCV ou index/match:

In [14]:
left = base_cortada
right = candidatos_sexo

merge = pd.merge(left,right, on="Sequencial Candidato")

## Dividindo entre prefeitos e vereadores

Os valores de doação para prefeitos e vereadores são muito diferentes.

Vamos criar uma base apenas com os cargos de prefeito e outra apenas com vereadores:

In [15]:
merge_filtrado = merge[merge['Tipo receita'] == u"Recursos de partido político"]
prefeitos = merge_filtrado[merge_filtrado['Cargo'] == u"Prefeito"]
vereadores = merge_filtrado[merge_filtrado['Cargo'] == u"Vereador"]

Agora geramos duas tabelas dinâmicas com os valores agregados.

# Quem recebeu mais: homens ou mulheres?

Nesse caso, queremos saber quanto os partidos doaram para mulheres e homens em cada localidade e quantas mulheres e homens estavam concorrendo em cada cidade.

In [16]:
tabela_final_prefeitos = prefeitos.pivot_table(index=[u'Número partido doador',
                         u'UF', 
                         u'Nome da UE'],
                  columns=[u'Sexo'],
                  values=['Valor receita', "Sequencial Candidato"], 
                  aggfunc=[sum, pd.Series.nunique])

tabela_final_vereadores = vereadores.pivot_table(index=[u'Número partido doador',
                         u'UF', 
                         u'Nome da UE'],
                  columns=[u'Sexo'],
                  values=['Valor receita', "Sequencial Candidato"], 
                  aggfunc=[sum, pd.Series.nunique])

In [17]:
tabela_final_prefeitos

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,sum,sum,sum,sum,nunique,nunique,nunique,nunique
Unnamed: 0_level_1,Unnamed: 1_level_1,Unnamed: 2_level_1,Valor receita,Valor receita,Sequencial Candidato,Sequencial Candidato,Valor receita,Valor receita,Sequencial Candidato,Sequencial Candidato
Unnamed: 0_level_2,Unnamed: 1_level_2,Sexo,FEMININO,MASCULINO,FEMININO,MASCULINO,FEMININO,MASCULINO,FEMININO,MASCULINO
Número partido doador,UF,Nome da UE,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3,Unnamed: 6_level_3,Unnamed: 7_level_3,Unnamed: 8_level_3,Unnamed: 9_level_3,Unnamed: 10_level_3
10,AC,ACRELÂNDIA,55394.00,,6.000001e+10,,6.0,,1.0,
10,AC,SENADOR GUIOMARD,,38058.00,,9.000002e+10,,9.0,,1.0
10,AM,MANAUS,,1060000.00,,1.200000e+11,,2.0,,1.0
10,AP,MACAPÁ,905000.00,,1.500000e+11,,4.0,,1.0,
10,BA,AMÉLIA RODRIGUES,,6478.50,,2.500000e+11,,5.0,,1.0
10,BA,LAJEDO DO TABOCAL,,20350.00,,1.500000e+11,,2.0,,1.0
10,CE,FORTALEZA,,777000.00,,2.400000e+11,,3.0,,1.0
10,GO,MONTE ALEGRE DE GOIÁS,,5000.00,,9.000000e+10,,1.0,,1.0
10,GO,NOVO GAMA,,145000.00,,4.500001e+11,,5.0,,1.0
10,GO,PORANGATU,,10000.00,,9.000000e+10,,1.0,,1.0


In [18]:
tabela_final_prefeitos.to_csv("tabela_final_prefeitos.csv", encoding="utf-8")
tabela_final_vereadores.to_csv("tabela_final_vereadores.csv", encoding="utf-8")

# Qual foi o valor máximo doado de uma vez só?

Também queremos saber quais foram os valores máximos doados por cada partido em cada um dos cargos.

Geramos outra tabela dinâmica, assim:

In [19]:
maximos_prefeitos = prefeitos.pivot_table(index=[u'Número partido doador'],
                            values=['Valor receita'],
                            columns=["Sexo"],
                            aggfunc=max)

maximos_vereadores = vereadores.pivot_table(index=[u'Número partido doador'],
                            values=['Valor receita'],
                            columns=["Sexo"],
                            aggfunc=max)

In [20]:
maximos_prefeitos.to_csv("maximos_prefeitos.csv", encoding = "utf-8")
maximos_vereadores.to_csv("maximos_vereadores.csv", encoding = "utf-8")

In [21]:
maximos_vereadores

Unnamed: 0_level_0,Valor receita,Valor receita
Sexo,FEMININO,MASCULINO
Número partido doador,Unnamed: 1_level_2,Unnamed: 2_level_2
10,30000.0,50000.0
11,90000.0,100000.0
12,22500.0,50000.0
13,200000.0,200000.0
14,150000.0,100000.0
15,50000.0,100000.0
16,4071.94,20000.0
17,22000.0,100000.0
18,2204.0,9000.0
19,15000.0,300000.0


Ainda é possível fazer muitas análises com essa base! Estamos só começando.

Se você gostaria de fazer algum comentário ou sugestão, entre em contato com a gente no contato@generonumero.media