<a href="https://colab.research.google.com/github/joaoppadua/adi_4277/blob/main/adi_4277.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Notebook to clean and work with data from ADI 4277

In [1]:
!pip install stanza

Collecting stanza
  Downloading stanza-1.2.3-py3-none-any.whl (342 kB)
[?25l[K     |█                               | 10 kB 25.3 MB/s eta 0:00:01[K     |██                              | 20 kB 8.0 MB/s eta 0:00:01[K     |██▉                             | 30 kB 6.6 MB/s eta 0:00:01[K     |███▉                            | 40 kB 6.5 MB/s eta 0:00:01[K     |████▉                           | 51 kB 4.9 MB/s eta 0:00:01[K     |█████▊                          | 61 kB 5.4 MB/s eta 0:00:01[K     |██████▊                         | 71 kB 5.1 MB/s eta 0:00:01[K     |███████▋                        | 81 kB 5.7 MB/s eta 0:00:01[K     |████████▋                       | 92 kB 4.8 MB/s eta 0:00:01[K     |█████████▋                      | 102 kB 5.0 MB/s eta 0:00:01[K     |██████████▌                     | 112 kB 5.0 MB/s eta 0:00:01[K     |███████████▌                    | 122 kB 5.0 MB/s eta 0:00:01[K     |████████████▌                   | 133 kB 5.0 MB/s eta 0:00:01[K    

In [2]:
#Import modules
import re, nltk, os, stanza
from nltk import RegexpTokenizer
stanza.download('pt')

Downloading https://raw.githubusercontent.com/stanfordnlp/stanza-resources/main/resources_1.2.2.json:   0%|   …

2021-09-25 18:01:03 INFO: Downloading default packages for language: pt (Portuguese)...


Downloading http://nlp.stanford.edu/software/stanza/1.2.2/pt/default.zip:   0%|          | 0.00/209M [00:00<?,…

2021-09-25 18:01:44 INFO: Finished downloading models and saved to /root/stanza_resources.


In [3]:
#Mount Google Drive
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


First, we need do clean the data from headers and stuff. Let's write a function for that (adapted from Diego Feijo: https://github.com/diego-feijo?tab=repositories)

In [4]:
def remove_headers(text):
    '''Function to clean "acórdão" from as much textual noise as possible
      Input: string
      Output: string'''
    presentation_pattern = re.compile(r'Supremo Tribunal Federal\s+Coordenadoria de Análise de Jurisprudência\s+Dje nº \d+ Divulgação \d+\/\d+\/\d+\s+Publicação \d+\/\d+\/\d+\sEmentário nº \d+-\d\s+\d+\/\d+\/\d+\s+')
    name_pattern = re.compile(r'AÇÃO DIRETA DE INCONSTITUCIONALIDADE \d\.\d+ DISTRITO FEDERAL')
    ref_pattern = re.compile(r'\nADI 4\.277\s')
    req_pattern = re.compile(r'REQTE.+')
    int_pattern = re.compile(r'INTDO.+')
    adv_pattern = re.compile(r'ADV.+')
    date_pattern =re.compile(r'\n\d+\/\d+\/\d+\s')
    header_pattern1 = re.compile(r'(^documento pode ser acessado .*?^Inteiro Teor .*?$|^\d*\nDocumento assinado digitalmente conforme.*?$|(^[A-Z]+ \d+ [A-Z]+)* / (AC|AM|AP|RS|SC|PR|RJ|SP|ES|MG|BA|SE|AL|PE|PI|CE|RN|PA|MA|RO|RR|MA|PB|TO|MS|MT|GO|DF)$)', flags=re.UNICODE | re.DOTALL | re.MULTILINE)
    header_pattern2 = re.compile(r'(^documento pode ser acessado .*?$|^Documento assinado digitalmente conforme.*?$)', flags=re.UNICODE | re.DOTALL | re.MULTILINE)
    case_number = re.compile(r'(\n\n[A-Z]+ \d+ [A-Z]+)* / (AC|AM|AP|RS|SC|PR|RJ|SP|ES|MG|BA|SE|AL|PE|PI|CE|RN|PA|MA|RO|RR|MA|PB|TO|MS|MT|GO|DF)\n\n', flags=re.UNICODE | re.DOTALL | re.MULTILINE)
    page_number = re.compile(r'(\n)?\d{3}\n', flags=re.UNICODE | re.DOTALL | re.MULTILINE)
    text = re.sub(presentation_pattern, '', text)
    text = re.sub(name_pattern, '', text)
    text = re.sub(ref_pattern, '', text)
    text = re.sub(req_pattern, '', text)
    text = re.sub(int_pattern, '', text)
    text = re.sub(adv_pattern, '', text)
    text = re.sub(date_pattern, '', text)
    text = re.sub(header_pattern1, '', text)
    text = re.sub(header_pattern2, '', text)
    text = re.sub(case_number, '', text)
    text = re.sub(page_number, '', text)
    return text

Now we need to load the data

In [5]:
FILEPATH = 'drive/MyDrive/coding/python/local_repo/adi_4277/'
FILENAME = 'adi_4277.txt'
with open(os.path.join(FILEPATH, FILENAME), 'r', errors='ignore') as f:
    data_raw = f.read()

In [6]:
data_sans_headers = remove_headers(data_raw)

In [51]:
#data_sans_headers
len(data_sans_headers.split())

76357

Now, clean and tokenize the texts. First, we'll write a function. Then, we will apply it to the pre-cleaned data (with most of headers, page markers and other textual noise extracted).

In [8]:
def clean_text(text):
  ''' Cleans a pre-cleaned string, normalize and tokenize it'''
  tokenized = RegexpTokenizer(r'\w+').tokenize(text)
  tokens = [token.lower() for token in tokenized if token.isalpha()]
  return tokens

In [9]:
tokens = clean_text(data_sans_headers)

In [10]:
#Check to see if it worked
len(tokens), tokens[:50]

(74957,
 ['plenário',
  'relator',
  'min',
  'ayres',
  'britto',
  'procuradora',
  'geral',
  'da',
  'república',
  'presidente',
  'da',
  'república',
  'congresso',
  'nacional',
  'conectas',
  'direitos',
  'humanos',
  'associação',
  'brasileira',
  'de',
  'gays',
  'lésbicas',
  'e',
  'transgêneros',
  'abglt',
  'marcela',
  'cristina',
  'fogaça',
  'vieira',
  'e',
  'outro',
  'a',
  's',
  'associação',
  'de',
  'incentivo',
  'à',
  'educação',
  'e',
  'saúde',
  'de',
  'são',
  'paulo',
  'fernando',
  'quaresma',
  'de',
  'azevedo',
  'e',
  'outro',
  'a'])

Everything seems fine. Now, let's stem the data and build a generator and a Stanza pipeline

In [11]:
nlp = stanza.Pipeline('pt')
nlp_text = nlp(data_sans_headers)

2021-09-25 18:04:00 INFO: Loading these models for language: pt (Portuguese):
| Processor | Package |
-----------------------
| tokenize  | bosque  |
| mwt       | bosque  |
| pos       | bosque  |
| lemma     | bosque  |
| depparse  | bosque  |

2021-09-25 18:04:00 INFO: Use device: cpu
2021-09-25 18:04:00 INFO: Loading: tokenize
2021-09-25 18:04:00 INFO: Loading: mwt
2021-09-25 18:04:00 INFO: Loading: pos
2021-09-25 18:04:01 INFO: Loading: lemma
2021-09-25 18:04:01 INFO: Loading: depparse
2021-09-25 18:04:01 INFO: Done loading processors!
To keep the current behavior, use torch.div(a, b, rounding_mode='trunc'), or for actual floor division, use torch.div(a, b, rounding_mode='floor'). (Triggered internally at  /pytorch/aten/src/ATen/native/BinaryOps.cpp:467.)
  return torch.floor_divide(self, other)


In [12]:
lemmas = [word.lemma for sent in nlp_text.sentences for word in sent.words]
freqdist = nltk.FreqDist(lemmas)
freqdist['literal']

11

In [13]:
bigrams = nltk.bigrams(lemmas)
#next(bigrams)

In [14]:
literal_bigram = [(w1, w2) for w1, w2 in bigrams if w1 == 'literal' or w2 == 'literal']
literal_bigram

[('mesmo', 'literal'),
 ('literal', ','),
 ('seu', 'literal'),
 ('literal', 'categorização'),
 ('previsão', 'literal'),
 ('literal', '('),
 ('interpretação', 'literal'),
 ('literal', 'de'),
 ('expressão', 'literal'),
 ('literal', 'não'),
 ('expressão', 'literal'),
 ('literal', 'de'),
 ('expressão', 'literal'),
 ('literal', 'de'),
 ('expressão', 'literal'),
 ('literal', 'de'),
 ('sentido', 'literal'),
 ('literal', 'de'),
 ('expressão', 'literal'),
 ('literal', 'não'),
 ('expressão', 'literal'),
 ('literal', 'de')]

Now we will creat a nltk.Text object and print a concordance line for the word 'literal'.

In [15]:
conc_text = nltk.Text(tokens)
conc_text.concordance('literal')

Displaying 10 of 10 matches:
te como se dá já de forma até mesmo literal com ordenamentos jurídicos da comun
 do art da constituição donde a sua literal categorização com base da sociedade
eterossexuais por força da previsão literal entre homem e mulher assiste razão 
o tribunal federal df interpretação literal do texto constitucional se isso não
o em casamento adi logo a expressão literal não deixa nenhuma dúvida de que nós
es eles resultam tanto da expressão literal da lei quanto da chamada vontade do
igurar violência contra a expressão literal do texto bittencourt carlos alberto
vel dentro dos limites da expressão literal do texto rp rel min octavio gallott
o em casamento adi logo a expressão literal não deixa dúvida alguma de que nós 
como pecado nefando ou na expressão literal daqueles textos legislativos como c


As we can see, the concordance lines table does not elucidate much. It shows sentences where the idea of a "literal" intepretation or expression is a proviso on the creative interpretation that the Constitution might also allow. The prevalence of 10 in almost 75,000 tokens also does not suggest that the concept is very relevant. 

In [17]:
#Looking at another word associated with the semantic field of limits to creative intepretation
conc_text.concordance('limites')

Displaying 25 of 26 matches:
genhosa de todas busca submeter nos limites da razoabilidade e da proporcionali
os os entes da federação dentro dos limites de suas competências e nem poderia 
a república a questão transcende os limites territoriais daquela unidade federa
a disposições testamentárias e seus limites legais não podem compartilhar a pro
or desse direito que transcende aos limites intersubjetivos de um litígio entre
lhida para se viver não esbarra nos limites do direito principalmente porque o 
a expressão que se estende além dos limites da atividade política ou do espaço 
a do dispositivo em foco diante dos limites formais e materiais que a própria l
ica dos magistrados cessa diante de limites objetivos do direito posto em outra
ante quando se trata de estabelecer limites entre uma interpretação extensivain
estender a aplicação de um texto há limites a esta extensão que são atingidos t
onstituição no presente caso e seus limites em síntese o pedido das ações é par
 se indagar

Now, let's look at how prevalent is the lemma "literal" vis-à-vis the other words of the same POS

In [38]:
test_text = nlp('literal')
pos_ = [word.pos for sent in test_text.sentences for word in sent.words]
pos_

['ADJ']

In [39]:
adjectives = [word.lemma for sent in nlp_text.sentences for word in sent.words if word.pos == 'ADJ']

In [40]:
adjectives[:50]

['parcial',
 'constitucional',
 'implícito',
 'contrário',
 'jurídico',
 '3º',
 'constitucional',
 'normativo',
 'geral',
 'negativo',
 'sexual',
 'direto',
 'humano',
 'elevado',
 'normativo',
 'sexual',
 'natural',
 'empírico',
 'pétreo',
 'não-reducionista',
 'especial',
 'constitucional',
 'coloquial',
 'proverbial',
 'doméstico',
 'formal',
 'heteroafetivo',
 'homoafetivo',
 'família',
 'heteroafetivo',
 'cartorário',
 'civil',
 'religioso',
 'privado',
 'adulto',
 'civil',
 'necessário',
 'tricotômico',
 'familiar',
 'principal',
 'institucional',
 'fundamental',
 'privado',
 '5º',
 'heteroafetivo',
 'homoafetivo',
 'igual',
 'subjetivo',
 'autonomizada',
 'central']

In [41]:
num_adjs = len(adjectives)
num_adjs, len(set(adjectives))

(7009, 1234)

In [42]:
normalized_literal = freqdist['literal'] / num_adjs
normalized_literal

0.0015694107575973748

In [44]:
freqdist_adjs = nltk.FreqDist(adjectives)
most_common_adjs = freqdist_noun.most_common()
most_common_adjs[0]

('constitucional', 322)

In [48]:
ratio_adjs = most_common_adjs[0][1] / freqdist_adjs['literal']
ratio_adjs

29.272727272727273

Compared to the most commons adjective, "constitucional", "literal" is over 29 times less likely to appear in a modifier slot. So there is limited attention to the concept conveyed by literal interpretaions or the literal interpretation as a limit to other types of constitutional sense making procedures. 