# Uma introdução à Expressões Regulares

As expressões regulares (*regular expressions*, em inglês) são uma ferramenta poderosa quando trabalhamos com dados textuais.

Para introduzir sua relevância vamos partir de um exemplo simples, mas que ilustra bem a limitação de trabalhar com strings diretamente.

Suponha que você deseja desenvolver uma ferramenta para checar o resultado de decisões judiciais. Seu objetivo é identificar se uma decisão é favorável ou não ao pedido do autor. Ainda que não possamos saber exatamente como o juiz irá redigir sua decisão, usamos um conjunto limitado de termos que nos permitem identificar o resultado. Por exemplo, o dispositivo da decisão informará se o pedido ou recurso é "procedente"/"improcedente" ou "deferido"/"indeferido".

Uma ideia inicialmente promissora seria checar se a string contém a palavra "procedente" ou "deferido". Isso pode ser facilmente feito com o uso do operador `in` do Python:

In [29]:
decisao_improcedencia = """Sendo assim, em face das razões expostas, com fundamento nos 
poderes processuais outorgados ao Relator da causa (RTJ 139/53 – 
RTJ 168/174), e considerando, ainda, os precedentes firmados pelo 
Plenário desta Suprema Corte, julgo IMPROCEDENTE a presente ação de 
mandado de segurança, restando prejudicado, em consequência, o exame 
dos embargos de declaração opostos pelo impetrante."""

print(decisao_improcedencia)

Sendo assim, em face das razões expostas, com fundamento nos 
poderes processuais outorgados ao Relator da causa (RTJ 139/53 – 
RTJ 168/174), e considerando, ainda, os precedentes firmados pelo 
Plenário desta Suprema Corte, julgo IMPROCEDENTE a presente ação de 
mandado de segurança, restando prejudicado, em consequência, o exame 
dos embargos de declaração opostos pelo impetrante.


Agora vamos fazer nosso teste:

In [30]:
"IMPROCEDENTE" in decisao_improcedencia

True

Um primeiro resultado promissor. O operador in checa se uma string está contida da outra. Você consegue imaginar algum problema com essa abordagem?

Vamos testar com uma nova string:

In [31]:
"PROCEDENTE" in decisao_improcedencia

True

Parece que temos um problema. O termo "procedente" também está contido na decisão. Isso acontece porque as operações com strings são feitas caracter a caracter, o Python não identifica palavras inteiras. Teríamos o mesmo problema com o termo "deferido".

Poderíamos pensar em formas de resolver esse problema. Por exemplo, dividindo o texto em palavras, mas vamos ver que as expressões regulares são uma ferramenta mais poderosa e flexível para resolver esse tipo de problema. Aprendendo suas regras, podemos lidar com esses casos e outros com códigos mais eficientes.

Vamos começar importando a biblioteca `re` do Python, e vendo como poderíamos lidar com o problema usando a função `search`, que busca pela expressão criada em uma string.

In [32]:
import re
identificador_procedencia = re.compile(r"PROCEDENTE")

re.search(identificador_procedencia, decisao_improcedencia)

<re.Match object; span=(233, 243), match='PROCEDENTE'>

Primeiro, parece que ainda temos o mesmo problema e não tivemos nenhum ganho. Nosso código apenas ficou mais complicado.

Mas agora que criamos nossa primeira regex vamos poder resolver o rpoblema facilmente.

Antes disso, uma breve explicação do código.

Primeiro, compilamos a expressão regular com a função `re.compile`. Isso divide nossa tarefa em 2 partes, primeiro criar o objeto da regex e depois usá-lo para buscar em strings.

Quando escrevemos uma regex é importasnte semrpe adicionarmos o prefixo `r` antes da string. Isso evita que o Python interprete caracteres especiais como parte da string. Além do texto, podemos usar sequência de escape para representar grupos de caracteres ou estabeler detalhes de como essa string deve aparecer.

Por exemplo, `\d` representa qualquer dígito (algarismo), `\w` qualquer caractere alfanumérico, e `\s` qualquer espaço em branco. Podemos usar também letras maiúsculas para representar o oposto, por exemplo `\D` representa qualquer caractere que não seja um dígito.

No nosso caso, podemos usar a expressar regular `r"\bprocedente\b"` para buscar a palavra "procedente" como uma palavra inteira. O `\b` representa uma borda de palavra, ou seja, o início ou fim de uma palavr. O módulo identifica automaticamente os limites de palavra para nós! Assim, iremos procurar apenas a palavra "procedente" e não qualquer string que contenha essa palavra.

In [33]:
identificador_procedencia = re.compile(r"\bPROCEDENTE\b")

re.search(identificador_procedencia, decisao_improcedencia)

A princípio podemos achar que tivemos algo ainda pior. Isso acontece pois o método `search` retorna um objeto `Match` que contém informações sobre a posição da string encontrada. Porém, quando ele não encontrada nada ele retorna um objeto `None`. Esse objeto não é exibido pelo Jupyter!

Então o fato da célular não exibir nenhum output significa que nosso código funcionou corretamente, e não encontramos a palavra "procedente" na string como desejávamos!

Agora, vamos criar a expressão para identificar a decisão como improcedente. Vamos introduzir outra ferramenta de expressões regulares: as flags, em especial a flag `re.IGNORECASE` ou `re.I`.

Isso permite que a expressão que criamos ignore a diferença entre letras maiúsculas e minúsculas. Assim, podemos buscar por "improcedente" ou "IMPROCEDENTE" ou "ImPrOcEdEnTe" sem nos preocuparmos com a formatação:

In [34]:
id_improcedencia = re.compile(r"\bimprocedente\b", re.I)

re.search(id_improcedencia, decisao_improcedencia)

<re.Match object; span=(231, 243), match='IMPROCEDENTE'>

Podemos observar no objeto `match` que a expressão encontrada foi `IMPROCEDENTE`. O span nos informa a posição inicial e final da string encontrada.

Outra parte importante no uso de regex é definir padrões. Para isso precisamos fazer uso mais extenso da sintaxe do módulo:

## Lista de expressões regulares:

 Tipos de caracteres:
- `.` - Qualquer caractere exceto nova linha

- `\d` - Dígito (0-9)

- `\D` - Qualquer coisa que não seja um dígito (0-9)

- `\w` - "Word Character" (a-z, A-Z, 0-9, _)

- `\W` - Qualquer coisa que não seja um "Word Character"

- `\s` - Espaços em branco (espaço, tab, nova linha)

- `\S` - Qualquer coisa que não seja um espaço em branco

 Limites/Posição:
- `\b` - Limite de palavra

- `\B` - Meio de palavra

- `^` - Início de uma string

- `$` - Fim de uma string

Quantificadores de caracter ou grupo:
- `*` - 0 ou mais
- `+` - 1 ou mais
- `?` - 0 ou 1 vez
- `{3}` - Exatamente 3
- `{3,4}` - De 3 a 4 {mínimo, máximo}


Uma lista completa (em inglês) desses caracteres e da sintaxe de Regex pode ser encontrada na documentação do módulo: [https://docs.python.org/3/library/re.html#regular-expression-syntax](https://docs.python.org/3/library/re.html#regular-expression-syntax)


## Usando padrões

Imaginemos que queremos criar uma expressão regular que identifique e extraia qualquer CPF de um texto. O padrão de um CPF é `XXX.XXX.XXX-XX`, onde `X` é um dígito de 0 a 9.

Vamos ignorar que existe uma verificação de digita para verificar se um CPF é válido. Nosso objetivo é apenas identificar o padrão.

Podemos criar um padrão para isso. Uma primeira forma é manter todo padrão substituindo o número por `\d`, que irá representar qualquer algarismo:


In [35]:
re_cpf1 = re.compile(r"\d\d\d\.\d\d\d\.\d\d\d-\d\d")

Um ponto importante é que precisamos escapar o `.` com uma barra invertida `\`, pois o ponto é um caractere especial em regex (que representa qualquer caractere). Se não fizermos isso, o ponto será interpretado como qualquer caractere, e não como um ponto literal!

Agora podemos testar nossa expressão regular em uma string:

In [36]:
um_cpf = "123.456.789-00"

algo_parecido_com_cpf = "123.45A.789-00"

qualificacao_processual = """
Tício da Silva, brasileiro, casado, advogado,
inscrito no CPF sob o n.º 754.456.057-03 [...]"""


In [37]:
print(re.search(re_cpf1, um_cpf))
print(re.search(re_cpf1, algo_parecido_com_cpf))
print(re.search(re_cpf1, qualificacao_processual))

<re.Match object; span=(0, 14), match='123.456.789-00'>
None
<re.Match object; span=(73, 87), match='754.456.057-03'>


Podemos ver que realmente isso só nos retorna o match quando a expressão segue o padrão do CPF. Outras casos que poderíamos registrar do mesmo modo são precedentes ou número do CNJ. Vamos abordar isso na próxima seção, integrando a expressão regular ao Pandas.

Para sua prática, abaixo temos formas diferentes de identificar o mesmo padrão de CPF. Tente explicar o funcionamento de cada uma delas. Para te ajudar, use o site www.regex101.com, que explica a expressão regular e deixa você testá-la com multiplas strings ao mesmo tempo.

Deixamos um link preparado com alguns exemplos em: [https://regex101.com/r/oYI2nF/1](https://regex101.com/r/oYI2nF/1)



In [38]:
cpf_alternativo = re.compile(r"\d{3}\.\d{3}\.\d{3}-\d{2}")
alternativa2 = re.compile(r"(\d{3}\.){2}\d{3}-\d{2}")
alternativa3 = re.compile(r"[0-9]{3}\.[0-9]{3}\.[0-9]{3}-[0-9]{2}")

Caso você queira se aprofundar um pouco mais no uso do pacote RE no python, você pode checar esse notebook que aborda em mais detalhes o uso de expressões regulares: [Expressões Regulares no Python: https://github.com/joseluizn/progr-adv-fgvdireitorio/blob/main/apostila/Apostila%20-%20Programa%C3%A7%C3%A3o%20para%20Advogados%20-%20Aula%2010%20e%20Aula%2011.ipynb](https://github.com/joseluizn/progr-adv-fgvdireitorio/blob/main/apostila/Apostila%20-%20Programa%C3%A7%C3%A3o%20para%20Advogados%20-%20Aula%2010%20e%20Aula%2011.ipynb)

# Expressões regulares no Pandas

*Recomendamos que você use o site [regex101.com](https://regex101.com/) para testar suas expressões regulares e acompanhar as expressões regulares apresentadas aqui quando tiver uma dúvida. O site é muito útil, lembre-se apenas de selecionar o modo Python do lado esquerdo.*

Para usar expressões regulares dentro do pandas, precisar acessar os métodos que lidam com strings. Essas funcionalidades são flexíveis e permitem fazer buscas tanto por strings literais quanto por expressões regulares.

Assim, vamos sempre trabalhar diretamente com a coluna de texto relevante, já que vamos fazer buscas em strings. Sempre que selecionarmos uma coluna, devemos seguir com a indicação de que estamos lidando com strings, usando o `.str` e então o método que desejamos aplicar.

Abaixo listamos alguns dos métodos mais relevantes, para uma listagem completa consulte a lista de métodos para strings no Pandas: [https://pandas.pydata.org/docs/reference/series.html#string-handling](https://pandas.pydata.org/docs/reference/series.html#string-handling)

- [`str.contains()`](https://pandas.pydata.org/docs/reference/api/pandas.Series.str.contains.html): Verifica se uma string contém uma string ou expressão regular. Retorna uma série booleana (True/False). Nós utilizamos esse método em nossa primeira aula para identificar casos de cloroquina nas compras do governo federal;
- [`str.count()`](https://pandas.pydata.org/docs/reference/api/pandas.Series.str.count.html): Conta o número de ocorrências de uma string ou expressão regular;
- [`str.extractall()`](https://pandas.pydata.org/docs/reference/api/pandas.Series.str.extractall.html): Extrai todas as ocorrências de uma expressão regular em uma série;

Vamos começar nossa aula explorando um pouco mais o método `contains`, que permite checar se uma expressão está presente na coluna. Vamos, antes disso, introduzir nosso próximo caso de estudo.

## Ementas do Supremo Tribunal Federal

Para explorar o uso de expressões regulares nessas aulas, separamos um dataset contendo emendas de decisões do Supremo Tribunal Federal que mencionam liberdade de expressão, ou remoção de conteúdo. O dataset foi retirado da busca de jurisprudência do STF: https://jurisprudencia.stf.jus.br/pages/search

Vamos começar carregando o conjunto de dados.

In [39]:
import re
import pandas as pd

df = pd.read_csv("https://github.com/joseluizn/cdj-fgvdireitorio/raw/refs/heads/main/notebooks/dados/lib_expressao_11_24.csv")

df.info(2)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 729 entries, 0 to 728
Data columns (total 6 columns):
 #   Column              Non-Null Count  Dtype 
---  ------              --------------  ----- 
 0   Titulo              729 non-null    object
 1   Relator             728 non-null    object
 2   Data de publicação  727 non-null    object
 3   Data de julgamento  728 non-null    object
 4   Órgão julgador      729 non-null    object
 5   Ementa              729 non-null    object
dtypes: object(6)
memory usage: 34.3+ KB


Vamos começar com uma estrutura simples para identificar se alguma ementa menciona a ADPF 130, que é a ação que julgou a constitucionalidade da Lei de Imprensa. Vamos usar a expressão regular `r"ADPF 130"` para buscar essa expressão. Por enquanto, nossa expressão identifica exatamente como escrevemos. Mas mudaremos isso em breve.

Vamos salvar o resultado na coluna `cita_adpf130` e verificar quantas ementas mencionam essa ação.

Para isso podemos usar o método já conhecido `str.contains`, vamos inicialmente apenas contar quantos casos o citam:

In [40]:
df["Ementa"].str.contains(r"ADPF 130").sum()

np.int64(106)

Uma observação antes de continuar: Podemos somar uma coluna de booleanos para obter o número de casos que são verdadeiros mesmo sem converter explicitamente para `int` ou `float`. Isso acontece pois o Python interpreta `True` como 1 e `False` como 0. Assim, ao somar uma coluna de booleanos, obtemos o número de de linhas nas quais a variável é verdadeira.


Além disso, vale checarmos os argumentos padrão do método:

1. `case=True` - O que significa que por padrão a função diferencia entre maiúsculas e minúsculas. Se quisermos ignorar essa diferença, podemos passar `case=False`;
2. `regex=True` - Por padrão, a função interpreta o que passamos como uma expressão regular. Isso significa que nas primeiras aulas o que informamos foi interpretado como uma expressão regular. Se quisermos buscar por uma string literal, devemos passar `regex=False`.


Vamos compilar uma regex para alterar 2 comportamentos:

1. Ignorar a diferença entre maiúsculas e minúsculas, usando a flag `re.IGNORECASE` ou `re.I`;
2. Substituir o caractere de espaço por `\s`, que representa qualquer espaço em branco, incluindo espaços, tabulações e quebras de linha. Isso permite identificar por exemplo se a numeração ficar numa linha separada da sigla da classe.

Vamos também salvar o resutlado na coluna `cita_adpf_130`.

In [41]:
lei_imprensa = re.compile(r"ADPF\s130", re.I)

df["cita_adpf_imprensa"] = df["Ementa"].str.contains(lei_imprensa).astype(int)

# ATENÇÃO: o sum foi removido após o contains.
df["cita_adpf_imprensa"].sum()

np.int64(106)

Não tivemos nenhum ganho. Mas isso nos coloca em um caminho para criar uma regex muito mais poderosa.

#### Exercício

Antes de prosseguirmos, crie uma expressão regular e identifique o número de linhas que mencionam a ADI 3937.

In [42]:
# seu código aqui


### Expandindo os casos extraídos.

Vamos agora identificar se as ementas mencionam uma ADI qualquer.

Isso nos leva a um problema inicial, como fazer se não sabemos o número da ADI? Por sorte, podemos resolver isso facilmente com regex, em vez de buscar pelo número vamos buscar por uma sequência de algarismos com `\d`, vamos adicionar o quantificador `+` para indicar que queremos um ou mais dígitos, já que nem todos os casos terão o mesmo tamanho de numeração.

In [43]:
busca_adi = re.compile(r"ADI\s\d+", re.I)

df["Ementa"].str.contains(busca_adi).sum()

np.int64(39)

Parece que 39 casos mencionam uma ADI. Contudo, você consegue identificar algum problema com o que fizemos até agora? Estamos identificando todas as formas de escrever ADIs e sua numeração?

Responda se a expressão atual teria algum problema com os dois casos abaixo:

- "ADI 4.567"
- "ADI nº 4.567"
- "ADI n. 4.567"

Você pode visualizar esses exemplos nesse link: [https://regex101.com/r/qiDBGq/1](https://regex101.com/r/qiDBGq/1)

Para lidar com essas limitações precisamos de duas alterações. Em primeiro lugar, para identificar corretamente a numeração da ADI, vamos buscar tanto por `\d` quanto por `\.`, literalmente. Assim, garantimos que vamos identificar corretamente números com milhares. Para fazer isso, podemos informar que queremos o conjunto de caracteres `[\d\.]*\d`, que representa qualquer dígito ou ponto 0 ou mais vezes, seguido de um dígito (já que a numeração sempre terá um digito no fim).

Além disso, vamos adicionar uma parte da expressão regular que pode identificar tanto o "nº" quanto o "n." como separadores. Contudo, esse grupo deve ser opcional, já que nem todas as citações vão usar essa formatação. Para isso, vamos adicionar o grupo `(\sn.?)?` que representa um espaço, seguido de "n" e um ponto, e o ponto é opcional. Isso garante que a expressão regular vai identificar tanto "nº" quanto "n." como separadores.

In [44]:
adi_correta = re.compile(r"ADI(\sn.)?\s[\d\.]*\d", re.I)

df["Ementa"].str.contains(adi_correta).sum()

  df["Ementa"].str.contains(adi_correta).sum()


np.int64(52)

Obs: O código acima gera um Aviso (`UserWarning`), você pode ignorá-lo.

Identificamos mais 13 casos que citam ADIns, 33% de melhora!

Vamos agora alterar nossa expressão para mais uma melhora em nossa expressão. Além de identificar ADI, vamos agora ser capazes de identificar qualquer ação de Controle Concentrado.

Para isso precisamos usar mais um recurso dentro de um outro grupo (identificado por `()`). Vamos usar o operador `|` para indicar que queremos buscar por uma expressão ou outra. Assim, vamos buscar criar um grupo para a sigla que busca por ADI ou ADPF ou ADC ou ADO. Vamos substituir o trecho `ADI` por `(ADI|ADPF|ADC|ADO)`.


In [45]:
re_cont_concentrado = re.compile(r"(ADI|ADPF|ADO|ADC)(\sn.)?\s[\d\.]*\d", re.I)
df["Ementa"].str.contains(re_cont_concentrado).sum()

  df["Ementa"].str.contains(re_cont_concentrado).sum()


np.int64(176)

Um achado até agora: Parece que a maioria dos casos que citam controle concentrado mencionam a ADPF 130.

Encontramso 165 casos que citam ADIs, 105 que citam a ADPF e 165 que citam qualquer ação de controle concentrado. Atenção que um mesmo caso pode cair em mais de uma categoria.

Se mudarmos o método do `contains` para `count`, podemos ver quantas citações cada ementa faz:

In [46]:
df["n_cits_cont_concentrado"] = df["Ementa"].str.count(re_cont_concentrado)

df["n_cits_cont_concentrado"].describe()

count    729.000000
mean       0.534979
std        1.191406
min        0.000000
25%        0.000000
50%        0.000000
75%        0.000000
max       10.000000
Name: n_cits_cont_concentrado, dtype: float64

In [47]:
df["n_cits_cont_concentrado"].sum()

np.int64(390)

Obtivemos uma quantidade de informações interessante. A grande maioria das ementas não parece citar casos passados desse tipo de jurisdição. Contudo, algumas ementas citam mais de uma vez esses casos, chegando até 10 citações.

Vamos agora dar mais um passo em nosso uso de expressões regulares no pandas: vamos extrair as citações a esses casos usando o método `str.extractall`.

In [48]:
df['Ementa'].str.extractall(re_cont_concentrado)

Unnamed: 0_level_0,Unnamed: 1_level_0,0,1
Unnamed: 0_level_1,match,Unnamed: 2_level_1,Unnamed: 3_level_1
2,0,ADPF,
4,0,ADPF,
4,1,ADPF,
4,2,ADPF,nº
4,3,ADPF,
...,...,...,...
681,2,ADPF,
681,3,ADI,
681,4,ADI,
681,5,ADI,


Uma reação inicial que poderíamos ter é de que nossso código tem um problema. Afinal, além do formato ligeiramente estranho resultante, não temos o número de fato da ação.

Isso se deve ao funcionamento do `extractall`. 

Primeiro, ele retorna um DataFrame com um índice (número ao lado esquerdo das linhas) que indica a linha original de onde o resultado foi obtido. Linhas sem match identificado são ignoradas.

Ainda, ele retorna um `DataFrame` com uma coluna para cada grupo de captura que criamos, delimitado pelos parênteses `()`.

Assim, se quisermos extrair o número em nosso resultado, podemos adicionar a parte que captura o número da ação dentro de um grupo de captura:

Vamos salvar esse resultado em uma nova variável.

In [49]:
extracao_concentrado = re.compile(r"(ADI|ADPF|ADO|ADC)(\sn.)?\s([\d\.]*\d)", re.I)

precedentes = df['Ementa'].str.extractall(extracao_concentrado)

precedentes.head(3)

Unnamed: 0_level_0,Unnamed: 1_level_0,0,1,2
Unnamed: 0_level_1,match,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2,0,ADPF,,130
4,0,ADPF,,130
4,1,ADPF,,130


Com esse resultado, incluindo algumas manipulações, poderíamos juntar as informações com o DataFrame original para criar um novo conjunto de dados sobre os casos citados. Isso é assunto para a próxima aula.

Um ponto importante é que se você olhar o resultado, poderá ver que a ADPF 130 parece ser citada múltiplas vezes na ementa do caso da linha de id `4`. Isso acontece já que o mesmo texto pode mencionar o caso múltiplas vezes.

Isso pode ou não ser relevante para o resultado que queremos alcançar. Caso queiramos contar o número de casos no qual a ação foi citada, deveríamos resolver isso antes de contar as citações.

Um último exemplo fazendo um uso um pouco mais elaborado das expressões regulares nos permite lidar com dois problemas dos dados acima:

1. Queremos identificar os casos que usam a sinalização de número (nº ou n.), mas essa informação não é importante em nosso resultado;
2. Podemos identificar as colunas por um nome já junto a extração.

Para fazer isso precisamos de um recurso de manipulação dos grupos de regex.

Para lidar com o ponto 1, poderíamos introduzir a expressão `?:` no início do grupo de captura que identifica a sinalização de número. Isso faz com que o grupo não seja retornado no resultado. Assim, podemos identificar a sinalização de número sem precisar incluí-la no resultado.

Veja:

In [50]:
entracao_sem_n = re.compile(r"(ADI|ADPF|ADO|ADC)(?:\sn.)?\s([\d\.]*\d)", re.I)

df['Ementa'].str.extractall(entracao_sem_n)


Unnamed: 0_level_0,Unnamed: 1_level_0,0,1
Unnamed: 0_level_1,match,Unnamed: 2_level_1,Unnamed: 3_level_1
2,0,ADPF,130
4,0,ADPF,130
4,1,ADPF,130
4,2,ADPF,130
4,3,ADPF,130
...,...,...,...
681,2,ADPF,101
681,3,ADI,2.396
681,4,ADI,2.656
681,5,ADI,3.937


Para ter os dados ainda mais limpos, poderíamos também usar grupos nomeados. Para isso, temos que sinalizar de forma semelhante o grupo que desejamos nomear: `(?P<name>...)`, onde `name` é o nome que queremos dar ao grupo.

Vamos modificar nossa expressão regular uma última vez:

In [55]:
cont_conc_nomeado = re.compile(r"(?P<sigla>ADI|ADPF|ADO|ADC)(?:\sn.)?\s(?P<num>[\d\.]*\d)", re.I)

precs_nomeados = df['Ementa'].str.extractall(cont_conc_nomeado)

precs_nomeados.head(3)

Unnamed: 0_level_0,Unnamed: 1_level_0,sigla,num
Unnamed: 0_level_1,match,Unnamed: 2_level_1,Unnamed: 3_level_1
2,0,ADPF,130
4,0,ADPF,130
4,1,ADPF,130


### Desafio

Um aspecto importante desse merge que fizemos foi que ele resultou em uma alteração da unidade de análise no `DataFrame`. Antes, cada linha representava uma decisão colegiada do STF.

E agora qual a unidade de análise?

Uma opção comum nos estudos elaborados na FGV Direito Rio com citação a decisões passadas e remover menções duplicadas a um mesmo processo oriundas de uma mesma decisão.

Poderíamos alcançar isso com a seguinte linha de código:

```python
df_com_cits = df_com_cits.drop_duplicates(subset=["Titulo", 0])
# ou equivalente
df_com_cits.drop_duplicates(subset=["Titulo", 0], inplace=True)
```

Qual é a unidade de análise resultante desse processo? O que estaríamos contando em cada caso se contarmos o número de linhas contendo ADPF 130 na coluna `0`?

#### Exercício

Renomeie as colunas `"match"` e `0` do DataFrame `df_com_cits`. Você deve usar o método `rename`.


# Juntando os dois conjuntos de dados

Podemos agora preparar os dados para criar um conjunto com cada observação.

Primeiro, vamos criar uma nova coluna com todo o nome do processo por escrito. Para isso vamos somar a coluna de `sigla` e `num` com um espaço entre elas.

Vamos, em seguida, remover o ponto da numeração, para evitar diferentes grafias da mesma informação.

In [60]:
precs_nomeados["num"] = precs_nomeados["num"].str.replace(".", "")

precs = precs_nomeados["sigla"] + " " + precs_nomeados["num"]

print(type(precs))

precs.head(3)

<class 'pandas.core.series.Series'>


   match
2  0        ADPF 130
4  0        ADPF 130
   1        ADPF 130
dtype: object

Nossa variável `precs` se trata de um objeto series, para contornar isso podemos resetar o índice. Contudo, queremos manter o índice original, já que é a ligação com o DataFrame original.

Assim, podemos passar o argumento `level="match"` para manter o índice original e resetar apenas a parte do índice que foi criada pelo `extractall`.

In [63]:
precs_df = precs.reset_index(level="match")

print(type(precs_df))

precs_df.head(3)

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,match,0
2,0,ADPF 130
4,0,ADPF 130
4,1,ADPF 130


Pronto agora podemos usar o `merge` para juntar os dois conjuntos de dados.

In [None]:
df_com_cits = pd.merge(
    df,
    precs_df,
    left_index=True,
    right_index=True,
)

df_com_cits.head(3)

Unnamed: 0,Titulo,Relator,Data de publicação,Data de julgamento,Órgão julgador,Ementa,cita_adpf_imprensa,n_cits_cont_concentrado,match,0
2,Rcl 63151 MC-Ref,LUIZ FUX,05/12/23,21/11/23,Primeira Turma,EMENTA: REFERENDO NA MEDIDA CAUTELAR NA RECLAM...,1,1,0,ADPF 130
4,Rcl 20757 AgR,NUNES MARQUES,08/02/22,06/12/21,Segunda Turma,Ementa: RECLAMAÇÃO. VEDAÇÃO DE REPUBLICAÇÃO DE...,1,4,0,ADPF 130
4,Rcl 20757 AgR,NUNES MARQUES,08/02/22,06/12/21,Segunda Turma,Ementa: RECLAMAÇÃO. VEDAÇÃO DE REPUBLICAÇÃO DE...,1,4,1,ADPF 130


: 

# Conclusão

Nessa aula, aprendemos a usar expressões regulares no Pandas para extrair informações de textos. Vimos como podemos usar essa ferramenta para identificar linhas que contenham determinado padrão, o que pode ser relevante para classificar as linhas (criando novas variáveis), contar o número de ocorrências por linha, e até mesmo gerar um novo conjunto de dados para cada informação identificada na linha.

Expressões regulares são um recurso muito poderoso para trabalhar com texto, em especial para informações padronizadas. Pense que poderíamos usá-las para identificar datas, diversos números de documentos como CPF, RJ, ou CNPJ, ou extrair informações sobre processos citados em um texto.