# Dados

https://dadosabertos.camara.leg.br/swagger/api.html

http://www2.camara.leg.br/transparencia/dados-abertos/dados-abertos-legislativo

https://github.com/vitorbaptista/dados-abertos-camara.gov.br

In [2]:
from IPython.display import display

In [3]:
%matplotlib inline
import pandas as pd

df = pd.read_csv('../data/proposicoes.csv', delimiter=';', error_bad_lines=False, warn_bad_lines=False, low_memory=False)

## Filtrar

Listar os tipos de proposiçoes que existem

In [4]:
with pd.option_context('display.max_rows', None, 'display.max_columns', 3):
    display(df['SIG_TIPO_PROPOSICAO'].value_counts())

PL     31334
PDC     9509
PEC     1934
PLP     1827
PRC     1042
MPV      716
Name: SIG_TIPO_PROPOSICAO, dtype: int64

Podemos ver que a quantidade de Projetos de Lei (PL) é muito maior que os demais. Nesse primeiro momento, iremos usar apenas os PLs.

In [7]:
pldf = df[df['SIG_TIPO_PROPOSICAO'] == 'PL']
pldf.describe()

Unnamed: 0,COD_TIPO_PARLAMENTAR,COD_PARLAMENTAR_ORIGEM,NUM_LEGISLATURA_APRESEN,NUM_SESSAO_LEGISLATIVA_APRESEN,COD_TIPO_SESSAO_LEGISLATIVA_APRESEN,NUM_LEGISLATURA_LEI,NUM_SESSAO_LEGISLATIVA_LEI,COD_TIPO_SESSAO_LEGISLATIVA_LEI,COD_PROPOSICAO_ORIGEM,ANO_PROPOSICAO,NUM_PROPOSICAO,COD_TIPO_NORMA_JURIDICA_ORIGEM,COD_PARTIDO_POLITICO,IND_ATIVO_TIPO_PROPOSICAO,IND_ATIVO_ORGAO,COD_ORGAO_ORIGEM,NUM_LEGISLATURA_VET_TOTAL,NUM_SESSAO_LEGISLATIVA_VET_TOTAL,COD_TIPO_SESSAO_LEGISLATIVA_VET_TOTAL
count,31334.0,31334.0,31334.0,31176.0,31176.0,31334.0,31184.0,31184.0,31300.0,31300.0,31300.0,31334.0,31334.0,31334.0,31334.0,31334.0,31334.0,31312.0,31312.0
mean,9006.730293,2772446.0,53.274526,2.135521,1.021747,1.093764,-0.87997,-0.93083,611948.3,2009.278818,3942.497125,0.490458,117.713985,1.0,-0.806536,1042.939682,-0.824631,-0.990898,-0.994954
std,2992.285839,2456919.0,1.448116,1.148178,0.151046,10.462207,0.674857,0.371075,542569.6,4.348569,2299.349261,7.376833,48.478392,0.0,0.586751,22380.917619,3.084349,0.188995,0.100334
min,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,-1.0,43633.0,2002.0,1.0,-1.0,-1.0,1.0,-1.0,-1.0,-1.0,-1.0,-1.0
25%,10000.0,522538.0,52.0,1.0,1.0,-1.0,-1.0,-1.0,309105.8,2005.0,1957.0,-1.0,110.0,1.0,-1.0,-1.0,-1.0,-1.0,-1.0
50%,10000.0,531071.0,53.0,2.0,1.0,-1.0,-1.0,-1.0,460619.0,2009.0,3913.5,-1.0,125.0,1.0,-1.0,-1.0,-1.0,-1.0,-1.0
75%,10000.0,5310564.0,54.0,3.0,1.0,-1.0,-1.0,-1.0,589325.2,2013.0,5931.0,-1.0,134.0,1.0,-1.0,-1.0,-1.0,-1.0,-1.0
max,20000.0,5310885.0,55.0,6.0,2.0,55.0,5.0,2.0,2089842.0,2016.0,8334.0,37.0,225.0,1.0,1.0,537796.0,55.0,4.0,1.0


Aqui a gente pode ver que os Projetos de Lei vão de 2002 a 2016.

Iremos usar esse recorte num primeiro momento. Num próximo momento podemos completar com dados mais antigos.

In [10]:
display(pldf['DES_APELIDO_ORGAO'].value_counts(normalize=True).head())

SENADO FEDERAL                   0.583146
PODER EXECUTIVO                  0.182052
LEGISLAÇÃO PARTICIPATIVA         0.061435
TRIBUNAL SUPERIOR DO TRABALHO    0.042136
SUPREMO TRIBUNAL FEDERAL         0.009328
Name: DES_APELIDO_ORGAO, dtype: float64

Uma coisa a se notar é que nos autores das proposiçoes está faltando os deputados federais.

Isso pode ocorrer pois o código de origem para os Deputados pode ser '-1'.

Podemos ver que a maior parte das PLs vem do valor -1, portanto, suponho que esses sejam os Deputados.

In [18]:
print(len(pldf[pldf.COD_ORGAO_ORIGEM == -1]))
print(len(pldf[pldf.COD_ORGAO_ORIGEM != -1]))

28221
3113


Daí, temos que verificar qual a quantidade de cada situação das proposições.

In [29]:
display(df['DES_SITUACAO_PROPOSICAO'].value_counts())

TRANSFORMADA EM NORMA                     9665
TRANSFORMADA EM NORMA COM VETO PARCIAL     352
PROPOSIÇÃO COM VETO TOTAL                  110
Name: DES_SITUACAO_PROPOSICAO, dtype: int64

In [28]:
with pd.option_context('display.max_rows', None, 'display.max_columns', None):
    display(pldf[['COD_PROPOSICAO_ORIGEM', 'DES_SITUACAO_PROPOSICAO']])

Unnamed: 0,COD_PROPOSICAO_ORIGEM,DES_SITUACAO_PROPOSICAO
0,133436.0,
1,132228.0,TRANSFORMADA EM NORMA
2,118055.0,
3,132141.0,
4,253807.0,
7,132465.0,
8,90542.0,
9,90556.0,
10,100013.0,
12,121341.0,


In [109]:
indexa = pd.read_csv('../data/indexacaoproposicoesconsideradas.csv', delimiter=';', error_bad_lines=False, warn_bad_lines=False, low_memory=False)

In [52]:
len(indexa)

38545

In [55]:
# o original tem 38998
(38998 - len(indexa))/38998 * 100

1.1615980306682394

In [65]:
index = indexa[['COD_PROPOSICAO_ORIGEM', 'TEX_INDEXACAO_PROPOSICAO', 'TEX_EMENTA_PROPOSICAO']]
index.columns

Index(['COD_PROPOSICAO_ORIGEM', 'TEX_INDEXACAO_PROPOSICAO',
       'TEX_EMENTA_PROPOSICAO'],
      dtype='object')

In [58]:
len(df)

46362

In [59]:
df2.head()

Unnamed: 0,DATAPRESENTACAOPROPOSICAO,DATTRANSFPROPOSICAOLEI,COD_TIPO_PARLAMENTAR,NOM_CIVIL_PARLAMENTAR,NOM_PARLAMENTAR,COD_SEXO,DES_TIPO_PARLAMENTAR,COD_PARLAMENTAR_ORIGEM,NUM_LEGISLATURA_APRESEN,NUM_SESSAO_LEGISLATIVA_APRESEN,...,NUM_LEGISLATURA_VET_TOTAL,NUM_SESSAO_LEGISLATIVA_VET_TOTAL,COD_TIPO_SESSAO_LEGISLATIVA_VET_TOTAL,DAT_INICIO_LEGISLATURA_VET_TOTAL,DAT_FIM_LEGISLATURA_VET_TOTAL,DAT_INICIO_SESSAO_LEGISLATIVA_VET_TOTAL,DAT_FIM_SESSAO_LEGISLATIVA_VET_TOTAL,DES_TIPO_SESSAO_LEGISLATIVA_VET_TOTAL,DAT_INICIAL_RECESSO_VET_TOTAL,DAT_FINAL_RECESSO_VET_TOTAL
0,16-09-2003,,10000,RONALDO VASCONCELLOS NOVAIS,RONALDO VASCONCELLOS,M,DEPUTADO,521183,52,1.0,...,-1,-1.0,-1.0,,,,,,,
1,09-09-2003,02-01-2006,10000,LUIZ ROBERTO DE ALBUQUERQUE,BETO ALBUQUERQUE,M,DEPUTADO,523221,52,1.0,...,-1,-1.0,-1.0,,,,,,,
2,03-06-2003,,10000,ELIMAR MÁXIMO DAMASCENO,ELIMAR MÁXIMO DAMASCENO,M,DEPUTADO,524137,52,1.0,...,-1,-1.0,-1.0,,,,,,,
3,09-09-2003,,10000,CARLOS FREDERICO THEODORO NADER,CARLOS NADER,M,DEPUTADO,522538,52,1.0,...,-1,-1.0,-1.0,,,,,,,
4,18-05-2004,,10000,CARLOS FREDERICO THEODORO NADER,CARLOS NADER,M,DEPUTADO,522538,52,2.0,...,-1,-1.0,-1.0,,,,,,,


In [61]:
columns = ['NOM_PARLAMENTAR', 'COD_SEXO', 'DES_TIPO_PARLAMENTAR', 'COD_PARLAMENTAR_ORIGEM', 'COD_PROPOSICAO_ORIGEM', 'ANO_PROPOSICAO', 'NUM_PROPOSICAO', 'NOM_PROPOSICAO', 'AREAS_TEMATICAS_APRESENTACAO', 'SIG_UF', 'TEX_REGIAO_GEOGRAFICA_AUTOR', 'NOM_UF', 'NOM_PARTIDO_POLITICO', 'COD_PARTIDO_POLITICO', 'SIG_PARTIDO_POLITICO', 'SIG_TIPO_PROPOSICAO']
df3 = df[columns]

In [69]:
dfj = df3.join(index.set_index('COD_PROPOSICAO_ORIGEM'), on='COD_PROPOSICAO_ORIGEM')

In [70]:
len(dfj)

46362

In [110]:
dfj.count()

NOM_PARLAMENTAR                 26594
COD_SEXO                        26594
DES_TIPO_PARLAMENTAR            26594
COD_PARLAMENTAR_ORIGEM          38455
COD_PROPOSICAO_ORIGEM           38455
ANO_PROPOSICAO                  38455
NUM_PROPOSICAO                  38455
NOM_PROPOSICAO                  38455
AREAS_TEMATICAS_APRESENTACAO    38455
SIG_UF                          26592
TEX_REGIAO_GEOGRAFICA_AUTOR     26592
NOM_UF                          26592
NOM_PARTIDO_POLITICO            26573
COD_PARTIDO_POLITICO            38455
SIG_PARTIDO_POLITICO            26573
SIG_TIPO_PROPOSICAO             38455
TEX_INDEXACAO_PROPOSICAO        38455
TEX_EMENTA_PROPOSICAO           38455
target                          38455
dtype: int64

In [111]:
dfj

Unnamed: 0,NOM_PARLAMENTAR,COD_SEXO,DES_TIPO_PARLAMENTAR,COD_PARLAMENTAR_ORIGEM,COD_PROPOSICAO_ORIGEM,ANO_PROPOSICAO,NUM_PROPOSICAO,NOM_PROPOSICAO,AREAS_TEMATICAS_APRESENTACAO,SIG_UF,TEX_REGIAO_GEOGRAFICA_AUTOR,NOM_UF,NOM_PARTIDO_POLITICO,COD_PARTIDO_POLITICO,SIG_PARTIDO_POLITICO,SIG_TIPO_PROPOSICAO,TEX_INDEXACAO_PROPOSICAO,TEX_EMENTA_PROPOSICAO,target
0,RONALDO VASCONCELLOS,M,DEPUTADO,521183,133436,2003.0,1989.0,PL 1989/2003,"INDÚSTRIA, COMÉRCIO E DEFESA DO CONSUMIDOR (UT...",MG,SUDESTE,MINAS GERAIS,PARTIDO TRABALHISTA BRASILEIRO,136,PTB,PL,"Normas, prazo, devolução, correspondência, cor...",Dispõe sobre o prazo para devolução de encomen...,394
1,BETO ALBUQUERQUE,M,DEPUTADO,523221,132228,2003.0,1923.0,PL 1923/2003,ARTE E CULTURA,RS,SUL,RIO GRANDE DO SUL,PARTIDO SOCIALISTA BRASILEIRO,125,PSB,PL,"Concessão, Município, Passo Fundo, (RS), títul...",Confere ao município de Passo Fundo o título d...,58
2,ELIMAR MÁXIMO DAMASCENO,M,DEPUTADO,524137,118055,2003.0,1165.0,PL 1165/2003,ARTE E CULTURA,SP,SUDESTE,SÃO PAULO,PARTIDO DE REEDIFICAÇÃO DA ORDEM NACIONAL,120,PRONA,PL,"Inscrição, Livro dos Heróis da Pátria, nome, M...",Inscreve o nome de Heitor Villa-Lobos no Livro...,58
3,CARLOS NADER,M,DEPUTADO,522538,132141,2003.0,1917.0,PL 1917/2003,TRIBUTAÇÃO,RJ,SUDESTE,RIO DE JANEIRO,PARTIDO DA FRENTE LIBERAL,106,PFL,PL,"Isenção, (IPI), alimentos, máquina, utensílios...",Dispõe sobre a isenção do Imposto sobre Produt...,504
4,CARLOS NADER,M,DEPUTADO,522538,253807,2004.0,3574.0,PL 3574/2004,SEGURANÇA PÚBLICA,RJ,SUDESTE,RIO DE JANEIRO,PARTIDO DA FRENTE LIBERAL,106,PFL,PL,"Autorização, Polícia Civil, Polícia Militar, u...","Autoriza o uso, pelas Polícias Civil e Militar...",493
5,CARLOS ABICALIL,M,DEPUTADO,521511,133035,2003.0,95.0,PLP 95/2003,"ECONOMIA, ADMINISTRAÇÃO FINANCEIRA E ORÇAMENTÁ...",MT,CENTRO-OESTE,MATO GROSSO,PARTIDO DOS TRABALHADORES,134,PT,PLP,"Alteração, Lei de Responsabilidade Fiscal, exc...",Acrescenta dispositivo à Lei Complementar nº 1...,327
6,OSVALDO BIOLCHI,M,DEPUTADO,525234,106594,2003.0,12.0,PEC 12/2003,EDUCAÇÃO,RS,SUL,RIO GRANDE DO SUL,PARTIDO DO MOVIMENTO DEMOCRÁTICO BRASILEIRO,111,PMDB,PEC,"Alteração, Constituição Federal, Educação, inc...",Dá nova redação ao art. 208 da Constituição Fe...,344
7,EDUARDO PAES,M,DEPUTADO,522541,132465,2003.0,1946.0,PL 1946/2003,"ADMINISTRAÇÃO PÚBLICA,INDÚSTRIA, COMÉRCIO E DE...",RJ,SUDESTE,RIO DE JANEIRO,PARTIDO DA SOCIAL DEMOCRACIA BRASILEIRA,128,PSDB,PL,"Proibição, órgão público, administração direta...",Proíbe a venda ou cessão de Informações cadast...,20
8,NEUTON LIMA,M,DEPUTADO,523792,90542,2002.0,7254.0,PL 7254/2002,TRIBUTAÇÃO,SP,SUDESTE,SÃO PAULO,PARTIDO DA FRENTE LIBERAL,106,PFL,PL,"Dispensa, pagamento, tributos, contribuição so...","Dispensa o pagamento de tributos, contribuiçõe...",504
9,RICARDO IZAR,M,DEPUTADO,523588,90556,2002.0,7255.0,PL 7255/2002,"INDÚSTRIA, COMÉRCIO E DEFESA DO CONSUMIDOR (UT...",SP,SUDESTE,SÃO PAULO,PARTIDO TRABALHISTA BRASILEIRO,136,PTB,PL,"Normas, identificação, qualidade, água, adição...",Dispõe sobre a identificação e os padrões de q...,394


In [112]:
dfj = dfj.dropna(subset=['TEX_INDEXACAO_PROPOSICAO'])

In [113]:
from sklearn import cross_validation
from sklearn.feature_selection import SelectPercentile, f_classif
from sklearn.feature_extraction.text import TfidfVectorizer
from nltk.corpus import stopwords
from string import punctuation

stopwords_pt = set(stopwords.words('portuguese') + list(punctuation))

dfj.COD_PARTIDO_POLITICO = pd.Categorical(dfj.COD_PARTIDO_POLITICO)
dfj['target'] = dfj.COD_PARTIDO_POLITICO.cat.codes

In [114]:
dfj.head()

Unnamed: 0,NOM_PARLAMENTAR,COD_SEXO,DES_TIPO_PARLAMENTAR,COD_PARLAMENTAR_ORIGEM,COD_PROPOSICAO_ORIGEM,ANO_PROPOSICAO,NUM_PROPOSICAO,NOM_PROPOSICAO,AREAS_TEMATICAS_APRESENTACAO,SIG_UF,TEX_REGIAO_GEOGRAFICA_AUTOR,NOM_UF,NOM_PARTIDO_POLITICO,COD_PARTIDO_POLITICO,SIG_PARTIDO_POLITICO,SIG_TIPO_PROPOSICAO,TEX_INDEXACAO_PROPOSICAO,TEX_EMENTA_PROPOSICAO,target
0,RONALDO VASCONCELLOS,M,DEPUTADO,521183,133436,2003.0,1989.0,PL 1989/2003,"INDÚSTRIA, COMÉRCIO E DEFESA DO CONSUMIDOR (UT...",MG,SUDESTE,MINAS GERAIS,PARTIDO TRABALHISTA BRASILEIRO,136,PTB,PL,"Normas, prazo, devolução, correspondência, cor...",Dispõe sobre o prazo para devolução de encomen...,23
1,BETO ALBUQUERQUE,M,DEPUTADO,523221,132228,2003.0,1923.0,PL 1923/2003,ARTE E CULTURA,RS,SUL,RIO GRANDE DO SUL,PARTIDO SOCIALISTA BRASILEIRO,125,PSB,PL,"Concessão, Município, Passo Fundo, (RS), títul...",Confere ao município de Passo Fundo o título d...,15
2,ELIMAR MÁXIMO DAMASCENO,M,DEPUTADO,524137,118055,2003.0,1165.0,PL 1165/2003,ARTE E CULTURA,SP,SUDESTE,SÃO PAULO,PARTIDO DE REEDIFICAÇÃO DA ORDEM NACIONAL,120,PRONA,PL,"Inscrição, Livro dos Heróis da Pátria, nome, M...",Inscreve o nome de Heitor Villa-Lobos no Livro...,12
3,CARLOS NADER,M,DEPUTADO,522538,132141,2003.0,1917.0,PL 1917/2003,TRIBUTAÇÃO,RJ,SUDESTE,RIO DE JANEIRO,PARTIDO DA FRENTE LIBERAL,106,PFL,PL,"Isenção, (IPI), alimentos, máquina, utensílios...",Dispõe sobre a isenção do Imposto sobre Produt...,4
4,CARLOS NADER,M,DEPUTADO,522538,253807,2004.0,3574.0,PL 3574/2004,SEGURANÇA PÚBLICA,RJ,SUDESTE,RIO DE JANEIRO,PARTIDO DA FRENTE LIBERAL,106,PFL,PL,"Autorização, Polícia Civil, Polícia Militar, u...","Autoriza o uso, pelas Polícias Civil e Militar...",4


In [117]:
features_train, features_test, labels_train, labels_test = cross_validation.train_test_split(dfj['TEX_EMENTA_PROPOSICAO'], dfj['target'], test_size=0.1, random_state=42)
vectorizer = TfidfVectorizer(sublinear_tf=True, max_df=0.5, stop_words=stopwords_pt)
features_train_transformed = vectorizer.fit_transform(features_train)
features_test_transformed = vectorizer.transform(features_test)

selector = SelectPercentile(f_classif, percentile=10)
selector.fit(features_train_transformed, labels_train)
features_train_transformed = selector.transform(features_train_transformed).toarray()
features_test_transformed = selector.transform(features_test_transformed).toarray()

  if hasattr(X, 'dtype') and np.issubdtype(X.dtype, np.float):
  if np.issubdtype(mask.dtype, np.int):


In [91]:
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score

clf = SVC(C=10000, kernel="rbf")
clf.fit(features_train_transformed, labels_train)
pred = clf.predict(features_test_transformed)

print(accuracy_score(pred, labels_test))

0.6068642745709828


In [118]:
from sklearn.naive_bayes import GaussianNB

clf = GaussianNB()
clf.fit(features_train_transformed, labels_train)
pred = clf.predict(features_test_transformed)

print(accuracy_score(pred, labels_test))

0.21944877795111806


In [119]:
from sklearn.tree import DecisionTreeClassifier

clf = DecisionTreeClassifier(min_samples_split=40)
clf.fit(features_train_transformed, labels_train)
pred = clf.predict(features_test_transformed)

print(accuracy_score(pred, labels_test))

0.32579303172126883
