# Como trabalhar com leis em Python

Recentemente estou envolvida em um projeto que prevê a análise de leis federais brasileiras usando python. Nesse primeiro momento, vou apresentar como podemos importar leis federais no python e utilizar as subdivisões da própria estrutura do texto para indexizar o conteúdo da lei.

## Por que dividir uma lei em pedaços menores?

Leis são documentos jurídicos e técnicos que normatizam e orientam diferentes aspectos da vida cotidiana. Por diversas razões estudiosos querem analisar e comparar o conteúdo de diferentes leis. 
<br><br>
Uma maneira de faze-lo é por meio da leitura minuciosa da lei em questão, mas qualquer pessoa que já tenha trabalhado direta ou indiretamente com legislações sabe que nem tudo. que está escrito é relevante em todos os casos. Digamos que você more em um condomínio e o síndico deseja proibir que moradores tenham animais de estimação nas unidades do condomínio. Para saber se o síndico pode fazer isso ou não, você deve consultar as leis 4.591/64 (Lei de Condomínios) e 10406/2002 (Novo Código Civil). Essas duas leis são gigantescas e versam sobre diversas matérias, mas tudo o que você quer saber está em provavelmente um ou dois parágrafos dentro de artigos específicos. 
<br><br>
Desta forma, muitas vezes não queremos estudar uma lei inteira, apenas uma parte da lei, de forma que, quando consideramos em transformar aquelas informaçnoes em dados, devemos saber a relevância ou o peso que cada conjunto de informações tem.
<br><br>

## Estrutura de um projeto de lei

[Este texto](https://www.politize.com.br/estrutura-das-leis-entenda/) do Guilhermo Glassman para o Politize-se explica de forma muito didática o que quer dizer cada parte da estrutura de uma lei. Resumo aqui de maneira bem rápida:

- **Entidade de origem:** indica se a lei é federal, estadual ou municipal
- **Referência da lei e data de criação**
- **Tipo de lei:** ordinária, complementar, medida provisória, emenda constitucional, decret legislativo e resolucão
- **Ementa:** Resumo do que é tratado na lei
- **Preâmbulo:** Justificativa ou contexto no qual a lei foi criada
- **Conteúdo:**
  * Título
  * Capítulo
  * Artigo:
    * Caput: Cabeça do artigo, texto que vem logo depois de "Artigo 1°", por exemplo, orienta o queas demais subdivisões vão falar
    * Parágrafos: Destacam aspectos importantes do artigo que não estão expressos no caput
    * Incíseos: Descrevem hipóteses em que a regra é aplicada
    * Alínea: Subdivisões dos incisos
  
Desta forma, sabemos que se procurarmos palavras-chave em leis, elas terão um peso e uma interpretaçnao de acordo com a parte da estrutura em que ela foi mencionada. 

## Leis e padrões

Aqui quero trabalhar com legislação federal. Felizmente, leis federais estão disponíveis integralmente em formato aberto sempre em sua última versão (considerando que essa lei tenha sido alterada por dispositivos futuros) e sua formatação não costuma conter erros, de maneira que podemos aproveitar a pontuação que demarca cada uma das camadas de um projeto de lei como expressões regulares para subdivisão em diferentes objetos.

## Mão na massa: Lei de Acesso à Informação

Vou trabalhar aqui com uma lei que conheço muito bem que é a Lei de Acesso à Informacão (LAI), que consultei inúmeras vezes quando trabalhava na [Transparência Brasil](www.transparencia.org.br) . A Lei 12.527/2011 está disponível [nesse link](http://www.planalto.gov.br/ccivil_03/_ato2011-2014/2011/lei/l12527.htm) . 

### 1. Importar o texto

Normalmente eu faria um scrap da página do governo com o ``requests.get`` , mas por alguma razão eu obtive diversas vezes um erro de conexão que impedia o scrap, e mesmo instalando pacotes de segurança o erro persistia. Como eu consigo realizar nessa máquina o scrap de outras páginas, o problema parece ser do lado do site do palácio do planalto. (Se alguém encontrar um fix para esse erro, entre em contato comigo) <br><br>
Como no meu projeto eu irei trabalhar com algumas poucas leis, eu posso me dar ao luxo de imprimir a página como pdf manualmente e importar no Python com o ``pdfminer``, que irá retornar uma grande string contendo toda a lei. 

In [1]:
import pdfminer
from pdfminer.high_level import extract_text

In [2]:
# Transformando a minha lei em uma STRING

lai = extract_text('lai.pdf')
print(lai)

L12527

15/01/2021 16:03

Presidência da República
Casa Civil
Subchefia para Assuntos Jurídicos

LEI Nº 12.527, DE 18 DE NOVEMBRO DE 2011.

Regula  o  acesso  a  informações  previsto  no  inciso  XXXIII
do art. 5º , no inciso II do § 3º do art. 37 e no § 2º do art.
216  da  Constituição  Federal;  altera  a  Lei  nº  8.112,  de  11
de  dezembro  de  1990;  revoga  a  Lei  nº  11.111,  de  5  de
maio  de  2005,  e  dispositivos  da  Lei  nº  8.159,  de  8  de
janeiro de 1991; e dá outras providências.

Mensagem de veto

Vigência

Regulamento

Lei:

A  PRESIDENTA  DA  REPÚBLICA  Faço  saber  que  o  Congresso  Nacional  decreta  e  eu  sanciono  a  seguinte

CAPÍTULO I

DISPOSIÇÕES GERAIS

Art. 1º Esta Lei dispõe sobre os procedimentos a serem observados pela União, Estados, Distrito Federal e
Municípios, com o fim de garantir o acesso a informações previsto no inciso XXXIII do art. 5º , no inciso II do § 3º do
art. 37 e no § 2º do art. 216 da Constituição Federal.

Parágrafo único. Sub

In [3]:
# Verificando o tipo de string:

type(lai)

str

Vamos primeiro brincar um pouco, verificando alguns aspectos do texto da lei.

In [4]:
#ocorrência da palavra Transparência:

print("transparência" in lai)

True


In [5]:
# Ver se a palavra dinossauro não está presente na LAI

print("dinossauro" not in lai)

True


### Outras subdivisões

Como vocês podem ver comparando com a lei original, o arquivo importado contém todos os caracteres e informações contidas no PDF, com a excessão das figuras (por exemplo, brasão). Temos os seguintes símbolos:

- A primeire expressão **"Lei:"** determina o início do conteúdo
- A última expressão **"Brasília,"** (início do local e data) demarcao fim do conteúdo.
- **Art.** para artigo/caput
- **§ ou 'Parágrafo único.'** para parágrafo
- **(I -;II -;III -; IV - ...)** para incísos
- **(a -,b -,c - ...)** para alíneas


A partir desses síibolos devemos onstruir expressões regulares de forma orientar a subdivisão do conteúdo. devemos ter em mente as seguintes hipóteses de erro:

1. Pode haver um typo e o espaçamento esperado entre um símbolo e um travessão não ocorrem (ex: *I-* ao invés de *I -*)
2. No decorrer do texto da lei, outros artigos, parágrafos e leis são citadas, e não queremos que o texto divida ai. (Vamos precisar que ele considere o fato de ter pulado uma linha).

### Criando uma lista com todos os artigos

Para fins de anáise, digamos que eu queria criar uma lista em que cada elemento da lista seja um artigo, contendo seus respectivos parágrafos, incísos e alíneas.

In [7]:
import re
lai_art = re.split(r'\n\nArt. ', lai)

lai_art[1]

'1º Esta Lei dispõe sobre os procedimentos a serem observados pela União, Estados, Distrito Federal e\nMunicípios, com o fim de garantir o acesso a informações previsto no inciso XXXIII do art. 5º , no inciso II do § 3º do\nart. 37 e no § 2º do art. 216 da Constituição Federal.\n\nParágrafo único. Subordinam-se ao regime desta Lei:\n\nI  -  os  órgãos  públicos  integrantes  da  administração  direta  dos  Poderes  Executivo,  Legislativo,  incluindo  as\n\nCortes de Contas, e Judiciário e do Ministério Público;\n\nII - as autarquias, as fundações públicas, as empresas públicas, as sociedades de economia mista e demais\n\nentidades controladas direta ou indiretamente pela União, Estados, Distrito Federal e Municípios.'

O elemento 0 são o preâmbulo, responsável, etc. os nossos artigos começam a partir do elemento 1. Como a nossa regex está precedida de dois pulares de linha (\n\n) garantimos que nenhuma menção à palavra Artigo no texto seja confundida com o início de um artigo.
A lei tem 47 artigos (+ preâmbulo = 48), vamos validar:

In [8]:
print(len(lai_art), type(lai_art))

48 <class 'list'>


#### Organizando um dataframe com caputs, incisos e alíneas

Digamos que para fins analíticos eu deseje separar o que é caput do que é inciso ou alínea, então eu terei um dataframe com o seguinte formado:

| conteudo | tipo |
| ----------- | ----------- |
| Aplicam-se as disposições desta Lei, no que couber (...) | caput |
| A publicidade a que estão submetidas as entidades (...) | parágrafo |

In [9]:
# Pegar dentro de cada artigo,
# criar variável para citar artigo
# criar variável para enumerar tipo
# ir limpando de dentro dos artigos cada uma das coisas

import pandas as pd

In [46]:
type(lai_art)

list

In [51]:
###### preciso limpar as variáveis do lado de dentro e as tabelas dos caputs está feita

caput = pd.DataFrame({'conteudo': [], 
                   'tipo': [], 
                   'artigo_referencia': [] })

teste = lai_art

for i in teste:
    i = re.sub(r"\n\nParágrafo único.*", " ", i, flags = re.DOTALL)
    i = re.sub(r"\n\n§  .*", " ", i, flags = re.DOTALL)
    a = i[0:4]
    a = re.sub(r'\s.*&\s', '', a)
    cap = pd.DataFrame({'conteudo': [i], 
                        'tipo': 'caput', 
                        'artigo_referencia': ['Art. ' + a] })
    caput = pd.concat([caput , cap], axis = 0, sort=False)

caput

Unnamed: 0,conteudo,tipo,artigo_referencia
0,L12527\n\n15/01/2021 16:03\n\nPresidência da R...,caput,Art. L125
0,1º Esta Lei dispõe sobre os procedimentos a se...,caput,Art. 1º E
0,"2º Aplicam-se as disposições desta Lei, ...",caput,Art. 2º
0,3º Os procedimentos previstos nesta Lei ...,caput,Art. 3º
0,"4º Para os efeitos desta Lei, considera-se:\n\...",caput,Art. 4º P
0,5º É dever do Estado garantir o direit...,caput,Art. 5º
0,6º Cabe aos órgãos e entidades do pode...,caput,Art. 6º
0,7º O acesso à informação de que trata esta Lei...,caput,Art. 7º O
0,8º É dever dos órgãos e entidades públ...,caput,Art. 8º
0,9º O acesso a informações públicas será assegu...,caput,Art. 9º O


In [None]:
Agora vamos deixar a grafia um pouco mais legível, substituindo os \n\n por espaços

In [144]:
lai_art

lai_art = [re.sub(r'\n\n', ' ', i) for i in lai_art]
lai_art = [re.sub(r'\n', ' ', i) for i in lai_art]
lai_art = [re.sub(r'\s\s', ' ', i) for i in lai_art]

#Assume-se que não há quebra de linha no meio de uma palavra

lai_art[7]

'7º O acesso à informação de que trata esta Lei compreende, entre outros, os direitos de obter: I - orientação sobre os procedimentos para a consecução de acesso, bem como sobre o local onde poderá ser encontrada ou obtida a informação almejada; II - informação contida em registros ou documentos, produzidos ou acumulados por seus órgãos ou entidades, recolhidos ou não a arquivos públicos; III - informação produzida ou custodiada por pessoa física ou entidade privada decorrente de qualquer vínculo com seus órgãos ou entidades, mesmo que esse vínculo já tenha cessado; IV - informação primária, íntegra, autêntica e atualizada; V - informação sobre atividades exercidas pelos órgãos e entidades, inclusive as relativas à sua política, VI - informação pertinente à administração do patrimônio público, utilização de recursos públicos, licitação, organização e serviços; contratos administrativos; e VII - informação relativa: a) à implementação, acompanhamento e resultados dos programas, projetos