## Preliminar: Jupyter notebook

O jupyter notebook é uma interface mais amigável e flexível para o *prompt* tradicional do python.

![Imagem](prompt.png)

A interface do jupyter é organizada em células, em qual cada célula contém parte do código a ser rodado

In [1]:
print('célula 1')

print('Hello World!')

célula 1
Hello World!


In [2]:
print('Célula 2')

Célula 2


Para rodar a célula, basta apertar shift + enter (roda e move para a próxima célula) ou alt + enter (roda e cria uma nova célula)

# Curso de programação para juristas

## Python

### Vantagens

Python é uma linguagem de alto nível com sintaxe *próxima* a linguagens naturais. Em python, operações que normalmente pareceriam "estranhas" em linguagens tradicionais, são facilmente compreensíveis.

E.g. (java)
```
public class HelloWorld {

    public static void main(String[] args) {
        // Prints "Hello, World" to the terminal window.
        System.out.println("Hello, World");
    }
```

Em python, esse código fica da seguinte maneira:

In [3]:
print("Hello, World!")

Hello, World!


## Abstração

O "alto nível" se refere ao nível em relação a base mais concreta ― os bits (zeros e uns) que são diretamente processados pelo processador. Por esse motivo, em relação às linguagens de "baixo nível", ou mais *concretas*, python é uma linguagem *abstrata*.

## Tipos padrão


### Strings
```
texto = "We are the knights who say Ni!"
```
https://www.youtube.com/watch?v=zIV4poUZAQo

### Integer (números inteiros)
```
valor = 10

novo_valor = valor + 10
```

### Float (números quebrados - decimais)

```
valor = 10.5

novo_valor = valor + 0.5
```

### Booleanos 

```
True
False
```
Úteis para *if statement*.


### Listas

```
spam_list = ["HAM", "SPAM", "EGGS", "SPAM", 10] 
```

### Dicionários

```
breakfast_menu = {
            'first_option': 'Spam',
            'second_option': ['Spam', 'Ham'],
            'third_option': 100 * ['Spam']
}
```

### None
```
None
```

## Funções

Funções em python, assim como na matemática, funcionam como uma "Caxinha" que recebe uma entrada e retorna um resultado. A entrada e a saída da função pode ser qualquer coisa, inclusive nada (None).

![funcao](funcao.png)

As funções são identificadas da seguinte forma:

```
exemplo_funcao(entrada)
```

Podemos definir nossas próprias funções da seguinte forma:

```
def exemplo_funcao(entrada):
    bla bla
    bla bla
    return saída
```

## If/else Statements

*If Statements* verificam afirmações e operações booleanas.

e.g.

In [4]:
if True:
    print('É verdade!')

É verdade!


In [5]:
if False:
    print('Olha a cobra!')
else:
    print('É mentira!')

É mentira!


In [6]:
if True or False:
    print('Olha a cobra!')
else:
    print('É mentira!')

Olha a cobra!


Em última análise, todas operações e tipos retornam *True* ou *False*, que é avaliada pelo if.

## For loops

*For Loops* passam por cada elemento de uma lista e executam um bloco de código. e.g.

In [7]:
spam_list = ["HAM", "SPAM", "EGGS", "SPAM"] 

for i in spam_list:
    print(i)

HAM
SPAM
EGGS
SPAM


In [8]:
for i in range(0, 10):
    print('SPAM!')

SPAM!
SPAM!
SPAM!
SPAM!
SPAM!
SPAM!
SPAM!
SPAM!
SPAM!
SPAM!


In [9]:
spam = "SPAM!"
for i in range(0, 10):
    spam = spam + "!"
    print(spam)

SPAM!!
SPAM!!!
SPAM!!!!
SPAM!!!!!
SPAM!!!!!!
SPAM!!!!!!!
SPAM!!!!!!!!
SPAM!!!!!!!!!
SPAM!!!!!!!!!!
SPAM!!!!!!!!!!!


## EXERCÍCIO (10m)

Brinquem com a lingugagem. Escrevam qualquer coisa e vejam o que dá certo.

Tentem somar, diminuir, dividir e multiplicar os diversos tipos.

e.g. 

*O que acontece quando eu somo uma string com um float?*



## Métodos

Os objetos em python podem ter **métodos**, que são (grossamente falando) funções embutidas nos objetos.

e.g.

In [10]:
monty = "Nobody expects the Spanish Inquisition"

In [11]:
monty.lower()

'nobody expects the spanish inquisition'

In [12]:
monty.upper()

'NOBODY EXPECTS THE SPANISH INQUISITION'

In [13]:
monty.upper() + "!!!!!!"

'NOBODY EXPECTS THE SPANISH INQUISITION!!!!!!'

In [14]:
monty.replace('Spanish', 'Portuguese')

'Nobody expects the Portuguese Inquisition'

In [15]:
monty.split(' ')

['Nobody', 'expects', 'the', 'Spanish', 'Inquisition']

In [16]:
monty

'Nobody expects the Spanish Inquisition'

## Usando bibliotecas

"Bibliotecas" ou "módulos" externos são cógido já escrito que podemos incluir em nosso próprio código. 
Uma das grandes vantagens de se utilizar python são essas "bibliotecas, que são criadas para os mais diversos fins.

Incluir uma biblioteca em nosso código é fácil. Basta digitar:

```
include nome_da_biblioteca
```

Usaremos a biblioteca string como exemplo. 



## EXERCÍCIO - Processamento de texto

### Limpando o texto

In [17]:
texto_cru = open('acordao_base.txt')

In [18]:
texto = texto_cru.read()

In [19]:
texto = texto.lower()

Com *replace*, podemos tirar todas as quebras de linha, representadas por '\n'

In [20]:
texto = texto.replace('\n', '')

Com a biblioteca "string", podemos pegar todas as pontuações existentes, para então tirá-las do texto.

Para pegar uma parte específica de uma biblioteca, podemos utilizar a seguinte estrutura:

```
from nome_da_biblioteca import parte_específica
```

E.g.

In [21]:
from string import punctuation

In [22]:
print(punctuation)

!"#$%&'()*+,-./:;<=>?@[\]^_`{|}~


Assim como uma lista, podemos passar por cada caracter de uma *string* com um *for loop*.

Queremos tirar todas as pontuações do texto, como nós podemos fazer isso? 
*dica: para verificar se algum caractere está em "punctionation" podemos usar algo como "if char in punction: ..."*

In [23]:
novo_texto = ""
for i in texto:
    if i not in punctuation:
        novo_texto = novo_texto + i
    else:
        novo_texto = novo_texto + ' '

In [24]:
novo_texto = novo_texto.replace('  ', ' ')

Agora, precisamos transformar uma string em uma lista de palavras. O método "split", corta a *string* em cada espaço branco (" "): 

In [25]:
lista_de_palavras = novo_texto.split()

In [26]:
print(lista_de_palavras)

['superior', 'tribunal', 'de', 'justiçaagint', 'no', 'agravo', 'em', 'recurso', 'especial', 'nº', '741', '519', 'df', '2015', '0166109', '5', 'relatoragravanteadvogadosagravadoadvogado', 'ministro', 'antonio', 'carlos', 'ferreira', 'esave', 'veículos', 'ltda', 'jonas', 'keslley', 'gonçalves', 'umbelino', 'df025661jecy', 'kenne', 'gonçalves', 'umbelino', 'e', 'outro', 's', 'df044340', 'ki', 'maquinas', 'industria', 'e', 'comercio', 'ltda', 'lincoln', 'de', 'oliveira', 'e', 'outro', 's', 'df007626ementaprocessual', 'civil', 'agravo', 'interno', 'no', 'agravo', 'em', 'recursoespecial', 'reintegração', 'de', 'posse', 'benfeitorias', 'indenizáveis', 'laudopericialhomologado', 'decisãodevidamentefundamentada', 'ausência', 'de', 'nulidade', 'reexame', 'do', 'conjuntofático', 'probatório', 'dos', 'autos', 'inadmissibilidade', 'incidênciada', 'súmula', 'n', '7', 'stj', 'decisão', 'mantida', '1', 'inexiste', 'afronta', 'aos', 'arts', '458', 'e', '535', 'do', 'cpc', '1973', 'quando', 'a', 'corte'

Uma vez que nós separamos cada palavra em um elemento de uma lista, podemos retirar as palavras com pouco conteúdo semântico, como "ou", "e" e "do". Para isso, temos que pegar um arquivo de fora do python, com palavras desse gênero, para usar como base. O arquivo pode ser incorporado ao nosso programa da seguinte forma: 

In [27]:
with open('stopwords.txt') as f:
    stopwords = f.read()
    lista_de_stopwords = stopwords.split('\n')

Podemos passar por cada palavra da lista do nosso texto (lista_de_palavras), verificar se ela está na lista de stopwords e, caso não esteja, colocamos ela em uma nova lista 

In [28]:
nova_lista_texto = []

for i in lista_de_palavras:
    if i not in lista_de_stopwords:
        nova_lista_texto.append(i)

In [29]:
print(nova_lista_texto)

['superior', 'tribunal', 'de', 'justiçaagint', 'no', 'agravo', 'em', 'recurso', 'especial', 'nº', '741', '519', 'df', '2015', '0166109', '5', 'relatoragravanteadvogadosagravadoadvogado', 'ministro', 'antonio', 'carlos', 'ferreira', 'esave', 'veículos', 'ltda', 'jonas', 'keslley', 'gonçalves', 'umbelino', 'df025661jecy', 'kenne', 'gonçalves', 'umbelino', 'e', 'outro', 's', 'df044340', 'ki', 'maquinas', 'industria', 'e', 'comercio', 'ltda', 'lincoln', 'de', 'oliveira', 'e', 'outro', 's', 'df007626ementaprocessual', 'civil', 'agravo', 'interno', 'no', 'agravo', 'em', 'recursoespecial', 'reintegração', 'de', 'posse', 'benfeitorias', 'indenizáveis', 'laudopericialhomologado', 'decisãodevidamentefundamentada', 'ausência', 'de', 'nulidade', 'reexame', 'do', 'conjuntofático', 'probatório', 'dos', 'autos', 'inadmissibilidade', 'incidênciada', 'súmula', 'n', '7', 'stj', 'decisão', 'mantida', '1', 'inexiste', 'afronta', 'aos', 'arts', '458', 'e', '535', 'do', 'cpc', '1973', 'quando', 'a', 'corte'

Agora o texto está bem mais limpo! Começamos o processo de contagem. 
Dica: Podemos usar um dicionário

In [30]:
dicionario_freq  = {}

for i in nova_lista_texto:
    if i in dicionario_freq.keys():
        dicionario_freq[i] += 1
    if i not in dicionario_freq.keys():
        dicionario_freq[i] = 1

In [31]:
dicionario_freq

{'superior': 10,
 'tribunal': 19,
 'de': 146,
 'justiçaagint': 4,
 'no': 38,
 'agravo': 34,
 'em': 51,
 'recurso': 26,
 'especial': 28,
 'nº': 4,
 '741': 5,
 '519': 5,
 'df': 5,
 '2015': 7,
 '0166109': 5,
 '5': 9,
 'relatoragravanteadvogadosagravadoadvogado': 4,
 'ministro': 18,
 'antonio': 9,
 'carlos': 9,
 'ferreira': 6,
 'esave': 6,
 'veículos': 6,
 'ltda': 12,
 'jonas': 6,
 'keslley': 6,
 'gonçalves': 12,
 'umbelino': 12,
 'df025661jecy': 6,
 'kenne': 6,
 'e': 89,
 'outro': 12,
 's': 12,
 'df044340': 6,
 'ki': 6,
 'maquinas': 6,
 'industria': 6,
 'comercio': 6,
 'lincoln': 6,
 'oliveira': 6,
 'df007626ementaprocessual': 2,
 'civil': 5,
 'interno': 12,
 'recursoespecial': 5,
 'reintegração': 2,
 'posse': 3,
 'benfeitorias': 10,
 'indenizáveis': 4,
 'laudopericialhomologado': 2,
 'decisãodevidamentefundamentada': 2,
 'ausência': 6,
 'nulidade': 7,
 'reexame': 8,
 'do': 96,
 'conjuntofático': 2,
 'probatório': 9,
 'dos': 18,
 'autos': 18,
 'inadmissibilidade': 3,
 'incidênciada': 2,
 

In [32]:
sorted(dicionario_freq.items(), key=lambda x: x[1])

[('acórdãoa', 1),
 ('nostermos', 1),
 ('5ª', 1),
 ('região', 1),
 ('gallottivotaram', 1),
 ('brasília', 1),
 ('outubro', 1),
 ('2017', 1),
 ('julgamento', 1),
 ('ferreirarelatordocumento', 1),
 ('df007626relatórioo', 1),
 ('relatoria', 1),
 ('mantevea', 1),
 ('neste', 1),
 ('alega', 1),
 ('verdade', 1),
 ('amparo', 1),
 ('especulações', 1),
 ('teóricas', 1),
 ('retóricas', 1),
 ('negando', 1),
 ('jurisdicionalbuscada', 1),
 ('dês', 1),
 ('deprova', 1),
 ('sim', 1),
 ('valoração', 1),
 ('ocorreu', 1),
 ('maneira', 1),
 ('adequada', 1),
 ('pelaqual', 1),
 ('pode', 1),
 ('alterado', 1),
 ('súm', 1),
 ('reitera', 1),
 ('teses', 1),
 ('defendidas', 1),
 ('recursos', 1),
 ('anteriores', 1),
 ('requerendo', 1),
 ('reforma', 1),
 ('mensurações', 1),
 ('condenada', 1),
 ('aindenizar', 1),
 ('realizadas', 1),
 ('nem', 1),
 ('pede', 1),
 ('reconsideração', 1),
 ('remessa', 1),
 ('re', 1),
 ('fazimento', 1),
 ('debenfeitorias', 1),
 ('particularesem', 1),
 ('públicas', 1),
 ('apresentou', 1),
 ('8