In [13]:
import pandas as pd
import sqlalchemy as sa
import numpy as np
import matplotlib.pyplot as plt

In [14]:
connection = sa.create_engine("postgresql://docker:docker@localhost/tcc")
df_proposicoes = pd.read_sql(sa.text("select * from tcc.proposicoes;"),connection)
df_deputados = pd.read_sql(sa.text("select * from tcc.deputado;"),connection)
df_proposicoes_keywords = pd.read_sql(sa.text("select * from tcc.proposicoes_keywords"), connection)
df_autor_proposicoes = pd.read_sql(sa.text("select * from tcc.autor_proposicoes;"),connection)
df_partido = pd.read_sql(sa.text("select * from tcc.partido;"),connection)
df_proposicoes = df_proposicoes.rename(columns = {"id": "id_proposicao"})
df_proposicoes_keywords = df_proposicoes_keywords.rename(columns = {"proposicao_id": "id_proposicao"})

## Verificando a distribuição de deputados por partido

In [15]:
deputados_por_partido = df_deputados.groupby("partido")["id"].count()

In [16]:
deputados_por_partido.describe()

count     34.000000
mean      35.352941
std       34.847618
min        1.000000
25%        9.250000
50%       22.000000
75%       55.250000
max      117.000000
Name: id, dtype: float64

In [17]:
deputados_por_partido.quantile([.9, .8])

0.9    93.1
0.8    64.4
Name: id, dtype: float64

A quantidade de deputados esta bem distribuida por partidos

## Verificando se existem proposições sem autores

In [18]:
proposicoes_sem_autor = df_proposicoes.merge(df_autor_proposicoes, on = "id_proposicao", how = "left")

proposicoes_sem_autor = proposicoes_sem_autor[proposicoes_sem_autor.id_deputado.isna()]

proposicoes_sem_autor.size

91880

In [19]:
df_proposicoes

Unnamed: 0,id_proposicao,tipo,ano,ementa,ementa_detalhada,data_apresentacao,ultimo_relator_id,situacao,uri_documento
0,1198010,PL,2023,Altera redação de dispositivos do artigo 4° da...,Possibilita o uso de recursos do Fundo Naciona...,2015-04-01,204573.0,Aguardando Designação de Relator,https://www.camara.leg.br/proposicoesWeb/prop_...
1,2115253,PL,2023,Dispõe sobre a prestação de serviços postais a...,,2016-10-25,137070.0,Transformado em Norma Jurídica,https://www.camara.leg.br/proposicoesWeb/prop_...
2,2345485,PL,2023,Institui a Política Nacional de Longo Prazo.,,2022-12-30,,Retirado pelo Autor,https://www.camara.leg.br/proposicoesWeb/prop_...
3,2345487,MSC,2023,Submete à deliberação do Congresso Nacional o...,,2023-01-02,,Tramitação Finalizada,https://www.camara.leg.br/proposicoesWeb/prop_...
4,2345488,DOC,2023,ATA DA 30ª REUNIÃO EXTRAORDINÁRIA\nREALIZADA E...,,2022-12-29,,Arquivada,
...,...,...,...,...,...,...,...,...,...
60261,2416785,DOC,2023,Encaminha cópia do autógrafo do Decreto Legisl...,,2023-12-28,,,https://www.camara.leg.br/proposicoesWeb/prop_...
60262,2416786,DOC,2023,Encaminha cópia do autógrafo do Decreto Legisl...,,2023-12-28,,,https://www.camara.leg.br/proposicoesWeb/prop_...
60263,2416787,DOC,2023,Comunica remessa à sanção do PL 9073/2017 (Of ...,,2023-12-28,,,https://www.camara.leg.br/proposicoesWeb/prop_...
60264,2416788,ESB,2023,Insere o § 5º no art. 310 do Decreto-Lei nº 3....,,2023-12-21,,,https://www.camara.leg.br/proposicoesWeb/prop_...


Temos várias proposições sem autores registrados pois cadastramos apenas deputados, e existem diversos tipos de autores (Órgão do Poder Executivo, Plenário Virtual CN, ...)

Essas proposições não serão consideradas.  
As que serão consideradas são:  
'PL', 'EMC', 'RDF', 'SBT'

## Keywords das proposições

In [20]:
df_proposicoes_e_keywords = df_proposicoes.merge(df_proposicoes_keywords, on = "id_proposicao" )

In [21]:
df_proposicoes_e_keywords = df_proposicoes_e_keywords.groupby(by = "id_proposicao")["keyword"].apply(list)

In [22]:
df_proposicoes_e_keywords

id_proposicao
1198010    [alteracao, lei do fundo nacional de seguranca...
2115253    [criterio, contratacao, servico postal, orgao ...
2345485    [criacao, politica nacional de longo prazo (pn...
2345493    [poder executivo, organizacao administrativa, ...
2345494    [criacao, adicional complementar do programa a...
                                 ...                        
2414762    [aprovacao, radio comunitaria, carmopolis (se)...
2414763    [aprovacao, radiodifusao sonora em frequencia ...
2414764    [aprovacao, radiodifusao sonora em frequencia ...
2414765    [aprovacao, radio comunitaria, cocos (ba), bahia]
2415583    [organizacao administrativa, cargo efetivo, ca...
Name: keyword, Length: 4870, dtype: object

In [23]:
len(df_proposicoes_e_keywords[df_proposicoes_e_keywords.apply(lambda x: '' in x)])

0

In [29]:
len(df_proposicoes_e_keywords.keys().values)

4870

In [30]:
len(df_proposicoes)

60266

Apenas 4k de proposições tem keywords associadas