# Nome da plataforma

### Introdução 

A plataforma ***MONIPOLITICS***, cujo esqueleto está contido neste arquivo, se trata de um ranking de atuação de deputados federais no último mandato (56°), 2019-2022. ***Nosso objetivo é oferecer uma plataforma que compare os dados dos deputados federais para descobrir onde cada um se localiza, dadas as suas informações dispostas no site da Câmara Legislativa, de forma que fique mais claro quais são os mais atuantes.*** Posteriormente, pretendia-se criar um índice que servisse como nota para cada deputado, a partir de uma média ponderada de seus atributos, disponíveis no website da Câmara Legislativa.


In [None]:
import pandas as pd
import numpy as np

### Base de dados

A base de dados (que chamamos de _df_legislativo_) foi criada pelos apresentadores: Júlia Amancio e José Egidio, além de outros três colegas, Samuel Melo, Thais Pinheiro e Vinicius Lopes, durante a cadeira de Métodos de Pesquisa e Mercado de Trabalho, do Prof. Dalson Figueiredo. Nela, estão contidos os atributos: nome, partido, estado, ano da observação, propostas legislativas de sua autoria e relatadas, votações nominais em plenário, discursos em plenário, além de presenças/ausências justificadas/ausências não justificadas em plenário e em comissões. Cada candidato possui 4 linhas de observação, uma referente a cada ano de mandato. Além disso, o requisito principal para que ele entrasse na base, além de estar neste último mandato, era ter o status de "em exercício". O arquivo foi montado no google spreadsheets e transcrito para o python através do formato csv.

In [None]:
from google.colab import files 
uploaded = files.upload()

Saving Base-formatada - AC.csv to Base-formatada - AC.csv


In [None]:
depfed_df = pd.read_csv('Base-formatada - AC.csv')

In [None]:
depfed_df

Unnamed: 0,nome,partido,uf,ano,pla,par,vnp,dp,pp,aup,aNj,pcom,ajcom,aNjcom
0,ANTÔNIA LUCILÉIA CRUZ RAMOS CÂMARA,REPUBLICANOS,AC,2019,0,0,0,0,0,0,0,0,0,0
1,ANTÔNIA LUCILÉIA CRUZ RAMOS CÂMARA,REPUBLICANOS,AC,2020,0,0,0,0,0,0,0,0,0,0
2,ANTÔNIA LUCILÉIA CRUZ RAMOS CÂMARA,REPUBLICANOS,AC,2021,0,0,0,0,0,0,0,0,0,0
3,ANTÔNIA LUCILÉIA CRUZ RAMOS CÂMARA,REPUBLICANOS,AC,2022,0,0,4,0,1,0,0,0,0,0
4,CYLMARA FERNANDES DA ROCHA GRIPP,MDB,AC,2019,257,3,324,22,110,0,3,226,1,43
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2045,TIAGO DIMAS BRAGA PEREIRA,PODEMOS,TO,2022,15,1,343,38,72,0,3,5,0,1
2046,VICENTE ALVES DE OLIVEIRA JUNIOR,PP,TO,2019,105,4,257,64,94,7,12,113,6,35
2047,VICENTE ALVES DE OLIVEIRA JUNIOR,PP,TO,2020,25,1,392,17,93,6,3,76,0,39
2048,VICENTE ALVES DE OLIVEIRA JUNIOR,PP,TO,2021,56,3,744,24,128,0,4,76,0,40


### Normalizando a base de dados
Após a visualização da base, foi notado que havia inconsistências nas nomenclaturas das categorias, portanto foi utilizado o método rename para alterá-las. Além disso, na coluna de partidos também havia diversos erros que foram percebidos através do método unique, o que resultou na correção através do método replace.

In [None]:
depfed_df = depfed_df.rename({'pla ': 'pla',
                              'par ': 'par',
                              'vnp ': 'vnp',
                              'dp ': 'dp',
                              'pp ': 'pp',
                              'aup ': 'aup',
                              'aNj ': 'aNj',
                              'pcom ': 'pcom',
                              'ajcom ': 'ajcom',
                              'aNjcom ': 'aNjcom'}, axis=1)

In [None]:
depfed_df['partido'].replace({'PSB ': 'PSB',
                              'PCdoB ': 'PCdoB',
                              'UNIÃO': 'UNIAO',
                              'UNIÃO ': 'UNIAO',
                              'PP ': 'PP',
                              'PROS ': 'PROS',
                              'REPUBLICANOS ': 'REPUBLICANOS',
                              'MDB ': 'MDB'})

0       REPUBLICANOS
1       REPUBLICANOS
2       REPUBLICANOS
3       REPUBLICANOS
4                MDB
            ...     
2045         PODEMOS
2046              PP
2047              PP
2048              PP
2049              PP
Name: partido, Length: 2050, dtype: object

In [None]:
from google.colab import files
depfed_df.to_csv('base_formatada.csv')
files.download('base_formatada.csv')

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

### Analisando a amostra

Abaixo seguem alguns dados interessantes dentro da amostra.

In [None]:
depfed_df.mean() #Média de valores na amostra.

  """Entry point for launching an IPython kernel.


ano       2020.499024
pla        122.269756
par          7.501463
vnp        392.306829
dp          30.996098
pp          90.486829
aup          5.217073
aNj          2.268780
pcom       115.934146
ajcom        6.809756
aNjcom      35.611220
dtype: float64

In [None]:
depfed_df['partido'].value_counts()/2050 #Proporção de partidos na Câmara.


PL               0.148293
PT               0.109268
PP               0.107317
PSD              0.091707
UNIÃO            0.086829
REPUBLICANOS     0.083902
MDB              0.068293
PSB              0.043902
PSDB             0.040976
PDT              0.037073
NOVO             0.015610
PSOL             0.015610
PSC              0.015610
SOLIDARIEDADE    0.015610
CIDADANIA        0.013659
PCdoB            0.013659
AVANTE           0.011707
UNIAO            0.011707
PODE             0.009756
PATRIOTA         0.009756
PV               0.007805
PROS             0.005854
PTB              0.005854
PODEMOS          0.005854
PSB              0.003902
REDE             0.003902
PP               0.003902
MDB              0.003902
UNIÃO            0.002927
PCdoB            0.001951
PROS             0.001951
REPUBLICANOS     0.001951
Name: partido, dtype: float64

In [None]:
depfed_df.loc[depfed_df['pp']==0, :] #79 casos nos quais o candidato não registrou nenhuma presença em plenário em determinado ano.

Unnamed: 0,nome,partido,uf,ano,pla,par,vnp,dp,pp,aup,aNj,pcom,ajcom,aNjcom
0,ANTÔNIA LUCILÉIA CRUZ RAMOS CÂMARA,REPUBLICANOS,AC,2019,0,0,0,0,0,0,0,0,0,0
1,ANTÔNIA LUCILÉIA CRUZ RAMOS CÂMARA,REPUBLICANOS,AC,2020,0,0,0,0,0,0,0,0,0,0
2,ANTÔNIA LUCILÉIA CRUZ RAMOS CÂMARA,REPUBLICANOS,AC,2021,0,0,0,0,0,0,0,0,0,0
20,LEONARDO CUNHA DE BRITO,PT,AC,2019,1,0,0,0,0,0,0,104,0,42
52,PEDRO TORRES BRANDÃO VILELA,PSDB,AL,2019,0,0,0,0,0,0,0,88,0,5
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2035,LÁZARO BOTELHO MARTINS,PP,TO,2020,0,0,0,0,0,0,0,1,0,0
2036,LÁZARO BOTELHO MARTINS,PP,TO,2021,0,0,0,0,0,0,0,2,0,0
2038,TIAGO DE PAULA ANDRINO,PSB,TO,2019,0,0,0,0,0,0,0,0,0,0
2039,TIAGO DE PAULA ANDRINO,PSB,TO,2020,0,0,0,0,0,0,0,5,0,1


In [None]:
media = depfed_df['pla'].mean()
entrada = input("Número de propostas legislativas de própria autoria do deputado:")

def avaliacao(x):
  if x >= media*2:
    print("O candidato propôs o dobro do que deputados fizeram nesse mandato!")
  elif x > media:
    print("O candidato propôs acima do comum entre deputados deste mandato.")
  elif x < media:
    print("O candidato está com um desempenho inferior ao comum dentre deputados deste mandato")

avaliacao(int(entrada))

#Algoritmo que poderia ser utilizado para auferir o desempenho geral dos deputados em cada categoria.
#Essas mensagens apareceriam através de pop-ups em comunhão com o javascript.


Número de propostas legislativas de própria autoria do deputado:40
O candidato está com um desempenho inferior ao comum dentre deputados deste mandato


In [None]:
depfed_df.groupby('ano')[['pp']].sum() #Quantidade de presença em plenário por ano.

Unnamed: 0_level_0,pp
ano,Unnamed: 1_level_1
2019,47332
2020,45883
2021,59745
2022,32538


### Próximos passos
Em primeiro lugar, incluir análise de conteúdo no perfil dos candidatos, de forma que um conjunto de palavras seja mostrado para indicar aos usuários as principais pautas trazidas pelo candidato em seus discursos no plenário e propostas. Esse tipo de coisa é alcançado através do auxílio de bibliotecas que ajudam a lidar com textos, como a re (regular expressions) e NLTK (Natural Language Toolkit), essa última conta com dezenas de submódulos para lidar com linguagem natural. O uso de API também é uma meta, uma vez que o Python possui boa integração com a web, além de frameworks, como o Django e Flask, que facilitam esse processo. Isso seria necessário para o cadastro de usuários e integração com o uso de SGBD, como Mysql, uma vez que a manutenção da base de dados de uma plataforma em crescimento como essa demandaria um rigor maior no banco de dados.