In [4]:
import basedosdados as bd
import pandas as pd

## Seleção do período:
- desde 2022-01-01, início do atual mandato da câmara de deputados
- até 2024-04-01, limite do dataset com acesso gratuito 

# Passo a passo

### Passo 1: Análise de texto de leis propostas

Cada linha da base de dados corresponde a uma proposição, que pode ser de variados tipos.
Algumas características da proposição, presente em colunas na tabela:
- ementa: descrição breve da proposição
- tipo: os que parecem ser mais relevantes são "Projeto de Lei" (recém proposto pelo parlamentar) ou "Redação Final" (depois de votado pela câmara, antes de ser sancionado como lei)
- teor_completo: URL para o arquivo de PDF que corresponde à ementa
- palavra_chave: o que seria um resultado possível da lemmatização

#### Processo de análise
1. Definição de qual texto vai ser utilizado para análise (seção a seguir)
2. Lemmatizar o texto (manter a raiz das palavras) e remover stopwords
3. Criar matriz de vetores para bag of words

#### Formas de analisar as leis propostas:

1. Usar o texto completo da proposição, seja do Projeto de Lei ou da Redação Final. Precisa fazer HTTPS request para acessar a URL.
2. Usar a ementa da proposição, uma descrição mais breve, de um parágrafo.
3. Usar a coluna palavra_chave, assim seria possível pular diretamente para o passo 3 do processo, já que essa campo já seria o resultado de uma lemmatização

### Passo 2: Correlação com temas das leis propostas e sua aprovação

Essa base de dados tem outras tabelas relacionadas à votação, também com o ID da proposição. Mas precisa investigar mais pra entender qual proposição representa a votação do PL antes de passar à sanção do presidente da república (último passo).



# Análise Exploratória

## Tipos de proposição 

In [7]:
# SQL query

list_types = '''
SELECT DISTINCT
  sigla,
  tipo,
FROM `basedosdados.br_camara_dados_abertos.proposicao_microdados` AS dados
WHERE (dados.data > '2022-01-01' AND dados.data < '2024-04-01')
'''

# Read query via 'Base dos dados' Google Cloud API
projects_list = bd.read_sql(list_types, billing_project_id='anpec-base-dos-dados')

print('**EXEMPLO DOS DIVERSOS TIPOS DE PROPOSIÇÃO (TOTAL: 235)**')
for n in projects_list['tipo'][:10]:
    print(n)

Downloading: 100%|█████████████████████████████████████████████████████████████████| 235/235 [00:00<00:00, 594.29rows/s]

**EXEMPLO DOS DIVERSOS TIPOS DE PROPOSIÇÃO (TOTAL: 235)**
Projeto de Decreto Legislativo
Recurso
Destaque de Emenda
Emenda na Comissão
Ofício do Congresso Nacional
Parecer Proferido em Plenário
Requerimento de Prejudicialidade
Requerimento de Audiência Pública
Solicitação de Informação ao TCU
Mensagem de Solicitação de urgência





- [Projeto de Lei](https://www.congressonacional.leg.br/legislacao-e-publicacoes/glossario-legislativo/-/legislativo/termo/projeto_de_lei_pl) - Proposição de uma lei ordinária, vai ser sancionado (aprovado) pelo presidente da república
- [Projeto de Lei Complementar](https://www.congressonacional.leg.br/legislacao-e-publicacoes/glossario-legislativo/-/legislativo/termo/lei_complementar_lc) - adiciona detalhes a uma lei já aprovada
- [Redação Final](https://www.congressonacional.leg.br/legislacao-e-publicacoes/glossario-legislativo/-/legislativo/termo/redacao_final) - texto do projeto de lei a ser votado pelo plenário da câmara

**Projeto de lei é a lei quando recém proposta, ainda precisando ser votada pela plenária da câmara e senado (quando se aplica). Redação final é o projeto já ajustado pela Câmara e Senado, antes de ir para sanção (aprovação) do Presidente da República**
Referências: [Processo legislativo](https://www.camara.leg.br/entenda-o-processo-legislativo/)

## Detalhamento do tipo 'Projeto de Lei'

In [8]:
# SQL query

query_projects = '''
SELECT DISTINCT
  sigla,
  tipo,
  ementa,
  ementa_detalhada,
  palavra_chave,
  situacao_ultimo_status,
  apreciacao_ultimo_status,
  url_teor_proposicao,
  id_proposicao
FROM `basedosdados.br_camara_dados_abertos.proposicao_microdados` AS dados
WHERE (dados.data > '2022-01-01' AND dados.data < '2024-04-01')
AND dados.tipo = 'Projeto de Lei'
'''

# Read query via 'Base dos dados' Google Cloud API
projects = bd.read_sql(query_projects, billing_project_id='anpec-base-dos-dados')

Downloading: 100%|██████████████████████████████████████████████████████████████| 8904/8904 [00:06<00:00, 1291.32rows/s]


In [9]:
# contagem de projetos de lei no período

projects[projects['tipo'] == "Projeto de Lei"]['tipo'].value_counts()

Projeto de Lei    8904
Name: tipo, dtype: int64

In [15]:
# exemplo de ementa

projects['ementa'][0]

'Altera a Lei nº 10.826, de 22 de dezembro de de 2003, que dispõe sobre registro, posse e comercialização de armas de fogo e munição, sobre o Sistema Nacional de Armas – Sinarm, define crimes e dá outras providências.'

In [16]:
# exemplo de texto completo do projeto de lei

project_url = projects['url_teor_proposicao'][0]
project_url

'https://www.camara.leg.br/proposicoesWeb/prop_mostrarintegra?codteor=2206154'

In [18]:
# a própria base de dados já tem um label com palavras chaves do projeto de lei

for n in projects['palavra_chave'][:1]:
    print(n)

Alteração, Estatuto do Desarmamento, expedição, Certificado de Registro de Arma de Fogo, autoridade competente, Sistema Nacional de Armas (Sinarm), Sistema de Gerenciamento Militar de Armas (SIGMA), documento, direito de propriedade, arma de fogo. _Requisito, aquisição, arma de fogo, comprovação, idoneidade, substituição, certidão de objeto e pé, quantidade. _ Certificado de Registro de Arma de Fogo, autorização, proprietário, transporte, arma de fogo, ausência, munição. _ Porte de arma, validade, território nacional, caráter pessoal, intransferibilidade. _Autorização, utilização, arma, acervo museológico, tiro esportivo, caça, coleção, defesa pessoa, Legítima defesa. _Competência, Ministério da Justiça e Segurança Pública, autorização, porte de arma, responsável legal, segurança, estrangeiro. _Classificação, arma, uso permitido. _Taxa, emissão, porte de arma. _Aquisição, arma, Comando militar de área.


## Detalhamento do tipo 'Redação Final'

In [19]:
# SQL query

query_writing = '''
SELECT DISTINCT
  sigla,
  tipo,
  ementa,
  ementa_detalhada,
  palavra_chave,
  situacao_ultimo_status,
  apreciacao_ultimo_status,
  url_teor_proposicao
FROM `basedosdados.br_camara_dados_abertos.proposicao_microdados` AS dados
WHERE (dados.data > '2022-01-01' AND dados.data < '2024-04-01')
AND dados.tipo = 'Redação Final'
'''

# Read query via 'Base dos dados' Google Cloud API
writing = bd.read_sql(query_writing, billing_project_id='anpec-base-dos-dados')

Downloading: 100%|██████████████████████████████████████████████████████████████| 1559/1559 [00:00<00:00, 1961.86rows/s]


In [20]:
# contagem de redações finais, menos do que projetos de lei, já que ela seria um estágio mais avançad

writing[writing['tipo'] == "Redação Final"]['tipo'].value_counts()

Redação Final    1559
Name: tipo, dtype: int64

In [12]:
# ementa da redação final não é uma descrição tão boa, em muitas linhas só é a referência a um projeto de lei

for n in writing['ementa'][92:97]:
    print(n)

Redação Final do PL 327/23
Redação final do PDL 599/21
Redação Final  do PL 119/2019
Dispõe sobre os procedimentos para a denominação de instituições públicas de ensino indígenas, quilombolas e do campo no território nacional.
Redação Final do PL 1199/22.


In [28]:
# Exemplo de texto da redação final

writing_url = writing['url_teor_proposicao'][2]
writing_url

'https://www.camara.leg.br/proposicoesWeb/prop_mostrarintegra?codteor=2214039'

In [24]:
# também o campo de palavras_chave da redação final está incompleto

for n in writing['palavra_chave'][:3]:
    print(n)

None
None
None


In [13]:
# status da proposta, não consegui encontrar algo que indique se o projeto de lei foi aprovado

writing['situacao_ultimo_status'].value_counts()

Aguardando Providências Internas             400
Pronta para Pauta                             77
Aguardando Leitura e Publicação                1
Aguardando Recebimento                         1
Aguardando Apreciação pelo Senado Federal      1
Name: situacao_ultimo_status, dtype: int64

# Processo de análise

## Forma de análise 1: Teste de extração da arquivo de PDF da Emenda Final

In [26]:
import io
import requests

In [29]:
r = requests.get(writing_url)
r.status_code

403

In [31]:
# Aparentemente o site da câmara nega o acesso

r = requests.get(writing_url)
r.content

b'<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">\n<html xmlns="http://www.w3.org/1999/xhtml" lang="pt-br" xml:lang="pt-br">\n<head>\n<meta http-equiv="Content-Type" content="text/html; charset=ISO-8859-1" />\n<title>Erro de acesso</title>\n<link rev="made" href="mailto:seseg@camara.leg.br" />\n<link href="https://www.camara.leg.br/proxy-error/pageError.css" rel="stylesheet" type="text/css" />\n</head>\n<body>\n\t<div id="geralError">\n\t\t<div id="barraCamara"></div>\n\t\t<div class="contentError">\n\t\t\t<div class="atencao">\n\t\t\t\t<h1>Desculpe-nos!</h1>\n\t\t\t</div>\n\t\t\t<div class="conteudo">\n\n\t<div class="conteudoBox">\n\t\t<p>Nossos sistemas autom&aacute;ticos de seguran&ccedil;a impediram que a opera&ccedil;&atilde;o fosse conclu&iacute;da.<p>\n\t\t<p>Isso pode ocorrer quando voc&ecirc; copia dados de outros sites e eles v&ecirc;m com conte&uacute;dos n&atilde;o permitidos.<p>\n\t\t<p>Voc&ecirc; p

In [33]:
'''
import PyPDF2
r = requests.get(writing_url)
f = io.BytesIO(r.content)

reader = PyPDF2.PdfReader(f)
pages = reader.pages
text = "".join([page.extract_text() for page in pages])
'''

'\nimport PyPDF2\nr = requests.get(writing_url)\nf = io.BytesIO(r.content)\n\nreader = PyPDF2.PdfReader(f)\npages = reader.pages\ntext = "".join([page.extract_text() for page in pages])\n'

<span style="color:red">A primeira forma de analisar o texto, com o teor completo da redação final apresentou esse roadblock de acesso</span>.


## Forma de análise 2: texto da ementa

In [34]:
projects.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8904 entries, 0 to 8903
Data columns (total 9 columns):
 #   Column                    Non-Null Count  Dtype 
---  ------                    --------------  ----- 
 0   sigla                     8904 non-null   object
 1   tipo                      8904 non-null   object
 2   ementa                    8904 non-null   object
 3   ementa_detalhada          367 non-null    object
 4   palavra_chave             7475 non-null   object
 5   situacao_ultimo_status    8525 non-null   object
 6   apreciacao_ultimo_status  8904 non-null   object
 7   url_teor_proposicao       8904 non-null   object
 8   id_proposicao             8904 non-null   object
dtypes: object(9)
memory usage: 626.2+ KB


In [35]:
law_description = projects[['id_proposicao','ementa']]
law_description.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8904 entries, 0 to 8903
Data columns (total 2 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   id_proposicao  8904 non-null   object
 1   ementa         8904 non-null   object
dtypes: object(2)
memory usage: 139.2+ KB


### Lemmatização

Lemmatization is a text pre-processing technique to break a word down to its root meaning to identify similarities.
<br> For example, a lemmatization algorithm would reduce the word better to its root word, or lemme, good.
<br> Although NLTK wordnet moddule supports other languages, including porutgues, from the Open Multilingual Wordnet, WordNetLemmatizer uses a english wordnet only (or as far as I could set up)

#### Libraries

*NLTK:* Although NLTK wordnet moddule supports other languages, including porutgues, from the Open Multilingual Wordnet, WordNetLemmatizer uses a english wordnet only.
<br>*Spacy:*: Spacy uses a ML approach, from a pre-defined corpus for specific languages. However it uses Numpy 2.0 which causes a dependecy error with Basedosdados (numpy==1.26) used here to fetch data.

In [None]:
'''
nlp = spacy.load('pt_core_news_sm',disable=["tagger", "parser","ner","tok2vek"])

def preprocessing_spacy(text):    
    
    doc = nlp.pipe(text)
    text = [token.lemma_ for token in doc if token.pos_ == 'NOUN' or token.pos_ == 'PROPN' and token.dep_ != 'punct']
    text = ' '.join(text)
    text= text.lower().strip()
    
    return text

test = law_description['ementa'][:2]

preprocessing_spacy(test)

print(doc.text)
for token in doc:
    print(token.text, token.pos_, token.dep_)

'''

In [None]:
'''
test = law_description.head(10)
test.info()

stopwords = set(nltk.corpus.stopwords.words('portuguese'))

def lemmatize_pipe(doc):
    lemma_list = [str(tok.lemma_).lower() for tok in doc
                 if tok.is_alpha and tok.text.lower() not in stopwords]
    return lemma_list

def proprocess_pipe(texts):
    preproc_pipe = []
    for doc in nlp.pipe(texts, batch_size=100): #batch size is one of the levels to optimize, larger for smaller docs
        preproc_pipe.append(lemmatize_pipe(doc))
    return preproc_pipe

%%time
test['lemmas'] = proprocess_pipe(test['ementa'])
test[['id_proposicao', 'ementa', 'lemmas']]
'''

<span style="color:red">A segunda forma de analisar o texto, com a lemmatização a partir do texto da ementa apresentou esse roadblock na escolha da library</span>.

## Forma de análise 3: Uso das palavras chaves

In [40]:
law_keywords = projects['palavra_chave']
law_keywords

0       Alteração, Estatuto do Desarmamento, expedição...
1       Política pública, prevenção, violência contra ...
2       Criação, Sistema de Logística Reversa de Resíd...
3       Alteração, Lei de Acesso à Informação, obrigat...
4       Critério, Licença compulsória, Patente de prod...
                              ...                        
8899                                                 None
8900                                                 None
8901                                                 None
8902                                                 None
8903    Critério, isenção, Empresa Brasileira de Pesqu...
Name: palavra_chave, Length: 8904, dtype: object

In [55]:
corpus = law_keywords.head(3)

In [56]:
corpus[1]

'Política pública, prevenção, violência contra a mulher. _Diretrizes, inclusão, conteúdo educativo, educação infantil, educação básica, ensino fundamental, ensino médio, direitos, mulher. _Poder público, campanha educativa, serviços públicos, orientação, mulher. _Alteração, Lei de Abuso de Autoridade (2019), tipicidade penal, crime, ausência, cumprimento, diretrizes, atendimento, mulher, vítima, violência. _Filmagem, fotografia, agressor, violência contra a mulher, flagrante delito. _Alteração, Lei de Execução Penal, critério, progressão de regime prisional, monitoração eletrônica, preso condenado, crime contra a mulher. _Alteração, Regime Jurídico Único dos Servidores Públicos Civis da União, critério, afastamento preventivo de servidor, crime contra a mulher, ambiente de trabalho.'

In [57]:
from sklearn.feature_extraction.text import CountVectorizer

vectorizer = CountVectorizer()

X = vectorizer.fit_transform(corpus)

feature_names = vectorizer.get_feature_names_out()

X_array = X.toarray()

X_array

print("Bag of Words Matrix: \n", X_array)

Bag of Words Matrix: 
 [[ 0  0  1  1  1  1  0  0  0  1  1  0  1  0  0  1  0  1 11  2  0  1  1  2
   0  0  1  1  1  2  0  1  1  0  1  1  0  0  0  0  0  0  0  0  0  1 18  2
   0  0  1  0  1  0  0  0  0  1  1  0  0  0  0  0  0  1  0  0  1  1  1  0
   0  1  0  0  0  0  5  0  0  1  1  0  0  0  0  1  0  1  1  1  0  0  0  2
   1  0  0  1  1  0  2  1  0  0  0  0  0  0  1  1  1  0  3  0  0  0  0  0
   0  0  0  1  1  1  1  0  0  1  0  2  0  1  0  0  0  2  0  0  0  1  1  2
   1  0  1  0  1  0  1  0  0  0  1  1  1  0  0  1  0]
 [ 1  3  0  0  0  0  1  1  1  0  0  1  0  1  1  0  1  0  0  0  1  1  1  0
   1  1  0  0  0  0  1  0  0  0  0  0  1  0  0  1  4  0  3  2  1  1  6  0
   0  1  0  0  0  1  1  0  0  0  0  1  1  1  2  1  0  0  0  2  0  0  0  0
   1  0  0  0  0  1  0  1  1  0  0  0  0  1  1  0  1  0  0  0  2  0  0  0
   0  1  7  0  0  1  0  0  0  0  1  0  2  0  0  0  0  1  0  0  0  1  1  1
   1  0  1  0  0  0  1  1  2  0  2  0  0  0  0  0  0  0  1  1  1  0  0  0
   0  0  0  1  0  1  0  0  0  1  0 

In [58]:
import pandas as pd

df = pd.DataFrame(data=X_array, columns=feature_names, index=corpus)

df.head(5)

Unnamed: 0_level_0,2019,_alteração,_aquisição,_autorização,_classificação,_competência,_diretrizes,_filmagem,_poder,_requisito,...,têxteis,têxtil,união,uso,utilização,validade,violência,vítima,área,único
palavra_chave,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
"Alteração, Estatuto do Desarmamento, expedição, Certificado de Registro de Arma de Fogo, autoridade competente, Sistema Nacional de Armas (Sinarm), Sistema de Gerenciamento Militar de Armas (SIGMA), documento, direito de propriedade, arma de fogo. _Requisito, aquisição, arma de fogo, comprovação, idoneidade, substituição, certidão de objeto e pé, quantidade. _ Certificado de Registro de Arma de Fogo, autorização, proprietário, transporte, arma de fogo, ausência, munição. _ Porte de arma, validade, território nacional, caráter pessoal, intransferibilidade. _Autorização, utilização, arma, acervo museológico, tiro esportivo, caça, coleção, defesa pessoa, Legítima defesa. _Competência, Ministério da Justiça e Segurança Pública, autorização, porte de arma, responsável legal, segurança, estrangeiro. _Classificação, arma, uso permitido. _Taxa, emissão, porte de arma. _Aquisição, arma, Comando militar de área.",0,0,1,1,1,1,0,0,0,1,...,0,0,0,1,1,1,0,0,1,0
"Política pública, prevenção, violência contra a mulher. _Diretrizes, inclusão, conteúdo educativo, educação infantil, educação básica, ensino fundamental, ensino médio, direitos, mulher. _Poder público, campanha educativa, serviços públicos, orientação, mulher. _Alteração, Lei de Abuso de Autoridade (2019), tipicidade penal, crime, ausência, cumprimento, diretrizes, atendimento, mulher, vítima, violência. _Filmagem, fotografia, agressor, violência contra a mulher, flagrante delito. _Alteração, Lei de Execução Penal, critério, progressão de regime prisional, monitoração eletrônica, preso condenado, crime contra a mulher. _Alteração, Regime Jurídico Único dos Servidores Públicos Civis da União, critério, afastamento preventivo de servidor, crime contra a mulher, ambiente de trabalho.",1,3,0,0,0,0,1,1,1,0,...,0,0,1,0,0,0,3,1,0,1
"Criação, Sistema de Logística Reversa de Resíduos Têxteis, logística reversa, resíduo têxtil, embalagem do produto, posterioridade, descarte, participação, fabricante, empresa importadora, distribuidor, comerciante, consumidor, definição, objeto da lei, finalidade, conservação, preservação, meio ambiente, estruturação, implementação, Sistema de logística reversa, obrigações, responsabilidade, penalidade, disposição final. _Alteração, Lei de resíduos sólidos, obrigatoriedade, estruturação, implementação, Sistema de logística reversa, resíduo têxtil, embalagem do produto.",0,1,0,0,0,0,0,0,0,0,...,1,2,0,0,0,0,0,0,0,0


## próximos passos

1. Limpar palavras chave para matriz de vetores
2. Método bag of words