<a id=aula10></a>
# Índice

#### - [Introdução](#intro)

#### - [Encoding](#encoding)

#### - [Resumo](#resumo)

#### - [Exercícios](#exercicio)


# Aula 9 - Elementos avançados de strings


<a id=encoding></a>
## Encoding

Texto precisa ser guardado pelo computador de alguma forma e sabemos que computadores não falam nenhuma das línguas que nós, seres humanos, costumamos usar. Assim, os caracteres que compõem a linguagem natural são representados pela máquina através de **encodings**.

Durante muito tempo, o encoding padrão usado por quase todos os programas e linguagens de programação era o American Standard Code for Information Interchange, ou ASCII. Esse encoding, em sua forma mais básica, **não inclui caracteres especiais** como acentos e cedilhas, o que sempre levou a problemas com línguas latinas, como o português.

Uma série de encodings foram criados para resolver esse problema. Assim, por exemplo, os encodings Latin-1, Latin-9 e Windows-1252 incluem todos os símbolos usados na língua portuguesa e costumam ser bem-sucedidos ao tentar decodificar documentos produzidos no Brasil.

Se o conjunto restrito de caracteres ASCII já representava um problema para o português, imagine o que ele representava para línguas como o chinês, ou o japonês, que incluem caracteres completamente alheios ao alfabeto latino. Pensando em todas essas idiossincrasias, foi criada uma nova família de encodings padrão, chamada Unicode. O principal membro dessa família é o encoding UTF-8, que é o padrão do Python e é capaz de representar praticamente qualquer caractere.

Essa pequena história é importante, porque ainda vamos encontrar arquivos que não foram adaptados ao padrão UTF-8. O código abaixo faz download de um exemplo que preparamos de antemão: uma sentença do Tribunal de Justiça do Rio de Janeiro que usa Latin-1 como encoding.

<blockquote>
   
OBS.: Não vamos entrar na sintaxe usada para fazer o download dos arquivos, mas fiz comentários ao código que podem ser úteis para aqueles que tiverem curiosidade.
   
</blockquote>

In [2]:
import requests

#essa url faz o download do arquivo do google drive daquele id
google_url = "https://drive.google.com/uc?export=download&id="
file_id = "1JJ4Qf1gt1o2tTryhUFuCfloqFBJYkqdC"

tjrj_1 = requests.get(google_url + file_id).content #a primeira parte (requests.get()) visita a URL, .content acessa o conteúdo da resposta.

`tjrj_1` é do tipo `bytes`. Precisamos transformá-lo em uma string para ler a resposta. Vamos tentar fazer isso usando a função `str()`.

In [21]:
print(str(tjrj_1))

b'\tTrata-se de reclama\xe7\xe3o atrav\xe9s da qual a parte autora pleiteia a condena\xe7\xe3o da reclamada a cumprir uma obriga\xe7\xe3o de fazer e pagar indeniza\xe7\xe3o por danos morais. Resumidamente, alegou que reside no distrito de Porto Velho do Cunha e, j\xe1 h\xe1 algum tempo, o servi\xe7o de fornecimento de energia el\xe9trica vem sendo prestado de forma deficiente. Disse que freq\xfcentemente h\xe1 interrup\xe7\xf5es. Solicitou reparos junto a reclamada. Houve at\xe9 reuni\xf5es com os representantes da reclamada, mas as falhas permanecem. Ressaltou toda sorte de transtornos e findou requerendo a condena\xe7\xe3o da reclamada a normalizar, de uma vez por todas, o fornecimento de energia, bem como pagar indeniza\xe7\xe3o por danos morais. \n\n\tA decis\xe3o de fls. 15 deferiu a antecipa\xe7\xe3o da tutela. \n\n\tRealizou-se AIJ, na qual a r\xe9 apresentou contesta\xe7\xe3o escrita, acompanhada de documentos. \n\n\tA quest\xe3o consiste em determinar se os fatos constituem mo

De certa forma, fomos bem-sucedidos. Mas por que temos sequências estranhas de caracteres como 'reclama\\xe7\\xe3o'? Por causa da história que contamos acima: o encoding utilizado pelo TJRJ na hora de criar o arquivo, provavelmente, não era UTF-8.

Vamos tentar confirmar essa hipótese **decodificando** o conteúdo do arquivo. Assim como podemos **codificar** caracteres em determinados formatos que o computador pode ler, podemos também **decodificar** esses formatos, transformando-os novamente em caracteres. O fato de que `str(tjrj_1)` não imprimiu nenhum caractere especial é sinal de que houve alguma falha na decodificação.

Para decodificar objetos do tipo `bytes`, precisamos usar o método `.decode()`. Por padrão, a chamada do método sem nenhum argumento utiliza o encoding UTF-8, que não consegue dar conta do nosso arquivo:

In [2]:
tjrj_1_text = tjrj_1.decode()

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xe7 in position 20: invalid continuation byte

Note que o erro é bastante informativo: `UnicodeDecodeError: 'utf-8' [...] can't decode byte`. Por conta dessa inconsistência no uso de encodings capazes de representar caracteres que não constavam da lista ASCII, é comum receber esse tipo de erro ao ler arquivos brasileiros. Uma boa alternativa é decodificar usando um dos outros encodings que apontamos acima. Vamos tentar o enconding latin-9:

In [3]:
tjrj_1_text = tjrj_1.decode(encoding = "latin9")

In [24]:
print(tjrj_1_text)

	Trata-se de reclamação através da qual a parte autora pleiteia a condenação da reclamada a cumprir uma obrigação de fazer e pagar indenização por danos morais. Resumidamente, alegou que reside no distrito de Porto Velho do Cunha e, já há algum tempo, o serviço de fornecimento de energia elétrica vem sendo prestado de forma deficiente. Disse que freqüentemente há interrupções. Solicitou reparos junto a reclamada. Houve até reuniões com os representantes da reclamada, mas as falhas permanecem. Ressaltou toda sorte de transtornos e findou requerendo a condenação da reclamada a normalizar, de uma vez por todas, o fornecimento de energia, bem como pagar indenização por danos morais. 

	A decisão de fls. 15 deferiu a antecipação da tutela. 

	Realizou-se AIJ, na qual a ré apresentou contestação escrita, acompanhada de documentos. 

	A questão consiste em determinar se os fatos constituem motivo para a imposição de indenização por danos morais. 

	Rápida pesquisa de jurisprudência das Turmas

Pronto! Agora conseguimos ler a sentença de forma confortável. Podemos usar alguns dos métodos de strings para analisar o texto.

<a id=metodos></a>
# Métodos de strings

Assim como listas e dicionários, strings também possuem métodos que podem ser usados para aumentar a funcionalidade desse tipo de objeto. Podemos ver uma lista dos métodos de strings nesse link: https://docs.python.org/3/library/stdtypes.html#string-methods

Já usamos alguns métodos de string acima, como replace. Apenas como um teste, vamos excluir todos os espaços do texto acima:

In [25]:
tjrj_sem_string = tjrj_1_text.replace(" ", "")
print(tjrj_sem_string)

	Trata-sedereclamaçãoatravésdaqualaparteautorapleiteiaacondenaçãodareclamadaacumprirumaobrigaçãodefazerepagarindenizaçãopordanosmorais.Resumidamente,alegouqueresidenodistritodePortoVelhodoCunhae,jáháalgumtempo,oserviçodefornecimentodeenergiaelétricavemsendoprestadodeformadeficiente.Dissequefreqüentementeháinterrupções.Solicitoureparosjuntoareclamada.Houveatéreuniõescomosrepresentantesdareclamada,masasfalhaspermanecem.Ressaltoutodasortedetranstornosefindourequerendoacondenaçãodareclamadaanormalizar,deumavezportodas,ofornecimentodeenergia,bemcomopagarindenizaçãopordanosmorais.

	Adecisãodefls.15deferiuaantecipaçãodatutela.

	Realizou-seAIJ,naqualaréapresentoucontestaçãoescrita,acompanhadadedocumentos.

	Aquestãoconsisteemdeterminarseosfatosconstituemmotivoparaaimposiçãodeindenizaçãopordanosmorais.

	RápidapesquisadejurisprudênciadasTurmasRecursaisdoEstadodoRiodeJaneirodemonstraquearespostaénegativa.Asdecisõesrecentesrevelamque,aindaquesetratedeserviçoessencial,ainterrupçãobreveporfalhaso

Essa decisão parece tratar de direito do consumidor. Para verificar essa hipótese da maneira mais simples possível, basta usar a sintaxe `in`:

In [26]:
"consumo" in tjrj_1_text

True

Podemos fazer a mesma coisa através de um método que retorna a localização, ou seja, não só *se* "consumo" aparece em `tjrj_1_text`, mas *onde* essa substring aparece.

<blockquote>

OBS.: substring é um termo utilizado bastante nas discussões a respeito de tratamento de texto. Seu significado é bastante intuitivo, mas faz sentido definir substring: se uma string de caracteres A está contida em uma string maior B, A é uma substring de B. Esse é o sentido no qual usaremos o termo no presente curso.

</blockquote>

In [49]:
tjrj_1_text.find("consumo")

1482

Como você pode perceber, o resultado do método `.find()` é estranho... Afinal, que diabos é 1482?

Trata-se da posição na qual a palavra "consumo" começa. Podemos imprimir a palavra inteira usando esse índice como início e `1482 + len("consumo")` como fim:

In [52]:
tjrj_1_text[1482:(1482 + len("consumo"))]

'consumo'

Mas essa informação parece fácil de adquirir sem a necessidade de programar. Seria mais interessante saber quantas vezes a string "consum" (para incluir termos como consumerista) aparece no texto, o que podemos fazer com o método `.count()`:

In [53]:
tjrj_1_text.count("consum")

11

Esse subconjunto de letras aparece 11 vezes nessa decisão! Um excelente indicador de que estamos diante de um texto que trata de direito do consumidor.

Mas o que aconteceu com `.find()`? Por que o método nos deu apenas UM único índice e não 11? Porque ele sempre retorna apenas a posição do primeiro resultado encontrado. Se quisermos saber a posição de todos os casos de "consum", teremos que fazer isso dentro de um loop. Uma última informação importante para entender o loop é que o método `.find()`, na verdade, toma 3 argumentos: a substring a ser procurada, o índice inicial da procura e o indíce final da procura. O for abaixo explora essa estrutura para recomeçar a busca a partir de cada encontro, gerando uma lista com todas as instâncias em que "consum" aparece no texto da sentença.

In [5]:
indexes_list = []

for instance in range(tjrj_1_text.count("consum")):
    if not indexes_list:
        new_index = tjrj_1_text.find("consum")
    else:
        new_index = tjrj_1_text.find("consum", max(indexes_list) + len("consum"), len(tjrj_1_text))
    indexes_list.append(new_index)
    
print(indexes_list)

[1482, 3629, 4239, 4360, 5388, 9262, 9371, 10886, 12634, 13212, 14298]


Encontrar certos padrões em textos jurídicos tem utilidade prática. O requisito do prequestionamento no caso dos recursos extraordinários, por exemplo, exige que a matéria constitucional tenha sido enfrentada nas instâncias inferiores. Será que isso aconteceu nessa sentença? Podemos ver quantas vezes a palavra "constituição" aparece nela (aqui, é perigoso usar 'const', pense nos verbos constituir e constranger, partes importantes do vocabulário civilista):

In [29]:
tjrj_1_text.count("constituição")

0

Nenhuma vez! Parece que esse recurso extraordinário não seria admitido...

Precisamos tomar cuidado: `.count()` e `.replace()` usam um método de identificação de padrões estrito. Se mudarmos a capitalização (escrevermos em maiúsculas, por exemplo), a estratégia já falha:

In [30]:
test_string = "Constituição"
test_string.count("constituição")

0

Para lidar com esse problema, é comum padronizarmos os textos para que eles fiquem inteiramente em minúsculas. Como sempre, o Python nos ajuda bastante: basta usarmos o método `.lower()`:

In [31]:
test_string.lower().count("constituição")

1

<blockquote>
    
OBS.: Pela primeira vez, estamos chamando dois métodos seguidos, sem guardar o resultado em uma variável intermediária. Isso é perfeitamente válido em Python. Só precisamos lembrar que o programa vai interpretar as coisas da esquerda para a direita: primeiro, ele vai transformar todas as maiúsculas em `test_string` para minúsculas e aí sim fazer a contagem. Caso usássemos a ordem inversa, o programa não funcionaria: afinal, `.count()` retorna um objeto do tipo `int`, que não possui o método `.lower()`. É necessário ter cuidado com o encadeamento de métodos, porque isso pode tornar seu código confuso e difícil de ler.
    
</blockquote>

Vamos contar novamente a quantidade de vezes que "consum" aparece, depois de realizar a transformação para minúsculas:

In [33]:
tjrj_1_text.lower().count("consum")

12

Encontramos uma menção a mais! Será que nosso prequestionamento funciona melhor dessa forma?

In [34]:
tjrj_1_text.lower().count("constituição")

0

Aparentemente não...

Outra coisa interessante que podemos fazer com strings é separá-las e extrair informações a partir disso. Um exemplo é a numeração única do CNJ. Segundo a [resolução 65/2008](http://www.cnj.jus.br///images/atos_normativos/resolucao/resolucao_65_16122008_04032013165912.pdf), os números do CNJ respondem ao seguinte padrão:

<br>
<center> NNNNNNN-DD.AAAA.J.TR.OOOO </center>
<br>

Onde N = o número do processo, DD = dígito verificador, AAAA = ano de protocolo, J = ramo da justiça, TR = tribunal e OOOO = órgão julgador.

Isso significa que, a partir do número do CNJ, podemos obter várias informações importantes a respeito de um tribunal. Perceba também que quase todas as informações são separadas por ".". Podemos usar isso a nosso favor com o método `.split()`. Ele toma como argumento uma string e retorna uma lista que separa a string principal a cada ocorrência do caractere especial. Vamos pegar um dos processos citados na sentença acima para experimentar com `.split()`:

In [36]:
num_cnj = "0005467-10.2011.8.19.0053"

In [37]:
info_cnj = num_cnj.split(".")

In [38]:
print(info_cnj)

['0005467-10', '2011', '8', '19', '0053']


Podemos perceber que `info_cnj` é uma lista que contém 5 elementos: cada uma das partes principais do número único do CNJ é um elemento da lista. O primeiro elemento é um identificador de cada processo (número + dígito verificador), o segundo é o ano de protocolo, e assim por diante. Para extrair o ano do processo, basta, portanto, extrairmos o segundo elemento da lista e transformá-lo em um número inteiro:

In [39]:
ano_proc = int(info_cnj[1])

<a id=resumo></a>
# Resumo

Strings são um objeto poderoso em Python, mas podemos encontrar alguns desafios:

* muito embora Unicode seja o novo padrão, ainda temos muito arquivos que foram criados usando outros encodings. Precisamos estar atentos para o tipo de erro que identifica esse problema e preparados para encontrar o encoding adequado ao nosso arquivo.
* `.replace()` é um método de strings que pode ser usado para realizar substituições rápidas em textos longos.
* `.find()` serve para identificarmos em que locais acontecem certas substrings.
* `.count()` serve para contarmos o número de ocorrências de uma determinada substring dentro de um texto.
* `.lower()` trata o texto, facilitando o uso de métodos como `.replace()` e `.count()'.
* `.split()` pode ser usado para extrair informações de textos gerados de maneira padronizada.

Naturalmente, esses não são todos os métodos suportados por strings, mas sem dúvidas são alguns dos mais importantes e úteis para as interações entre direito e ciência de dados.

Podemos ver mais sobre strings e todos os seus métodos na documentação oficial do Python: [https://docs.python.org/3/library/stdtypes.html#string-methods](https://docs.python.org/3/library/stdtypes.html#string-methods)



<a id=exercicio></a>
# Exercício

Vamos encontrar todos os processos citados pela decisão acima? Crie um dicionário chamado `citacoes_tjrj`, onde cada chave é um processo citado pela decisão guardada em `tjrj_1_text`. O valor associado a cada uma dessas chaves deve ser um dicionário contendo as seguintes informações a respeito do processo:

1) o ID (definido como NNNNNNN-DD) - nome da chave = "id"; <br>
2) o ano de protocolo - nome da chave = "ano"; <br>
3) o código do ramo da justiça - nome da chave = "cod_just"; <br>
4) o código do tribunal - nome da chave = "cod_trib"; <br>
5) o código do órgão competente para o julgamento - nome da chave = "org_julg". <br>

<blockquote>

DICA: a substring ".8.19" acontece em todas as citações, já que todas as citações são a julgados de um mesmo tribunal da justiça estadual (o TJRJ). Adapte o loop que criamos acima com `.find()` para extrair os números CNJ que vão servir como chaves de `citacoes_tjrj` - preste atenção: números do CNJ têm 25 caracteres incluindo pontos e traços e ".8.19" não são o começo do número. Após, use `.split()` para popular o dicionário.

</blockquote>

In [7]:
#implemente sua resposta aqui


In [None]:
from correcoes import aula10_ex1
aula10_ex1(tjrj_1_text, citacoes_tjrj)

# Exercício extra

Uma outra maneira interessante de dividir a nossa sentença é por parágrafos. A string "\n" representa uma nova linha em Python e pode ser usada para identificar a separação entre diferentes parágrafos.

Com base nessa informação, use as técnicas que aprendemos nesta aula para popular um dicionário chamado `paragrafos` contendo, para cada parágrafo, uma tupla com dois elementos: o seu número de caracteres e a quantidade de vezes que a substring "consum" aparece dentro dele. As chaves deste dicionário devem ser o índice do parágrafo, **iniciando-se do número 1**.

<blockquote>
    Atenção! A direção da barra importa. A string que representa nova linha é "\n" e não "/n".
</blockquote>

In [10]:
#seu código aqui



In [None]:
from correcoes import exercicio_extra8
exercicio_extra8(paragrafos, tjrj_1_text)