# Busca e Substituição de Padrões em Textos

### Semana 13 | EaD

# Introdução

Python oferece algumas opções para a busca de padrões em textos e possivelmente suas substituições por outros textos. Quando editamos textos frequentemente executamos ferramentas de pesquisar e substituir padrões em textos.

## `String.replace()`

O método `String.replace()` substitui uma substring específica com alguma outra.

**Sintaxe**

```python
string.replace(str_ant,str_sub,cont)
```
`str_ant`: string anterior

`str_sub`: string a ser substituída

`cont`: controla quantas aplicações (opcional)

**Exemplos**

Quando a contagem não está explícita, o Python substitui todas ocorrências do padrão na string.

In [None]:
"o brasil tá lascado!".replace("brasil", "Brasil")

'o Brasil tá lascado!'

In [None]:
"o brasil brasil tá lascado!".replace("brasil", "Brasil")

'o Brasil Brasil tá lascado!'

In [None]:
"o brasil brasil tá lascado! brasil".replace("brasil", "Brasil")

'o Brasil Brasil tá lascado! Brasil'

*Contagem explícita*

Busca e substitui somente a 1a ocorrência de `"r"`.

In [None]:
"O rato roeu a roupa do rei de roma".replace("r", "R", 1)

'O Rato roeu a roupa do rei de roma'

Busca e substitui as duas primeiras ocorrência de `"r"`.

In [None]:
"O rato roeu a roupa do rei de roma".replace("r", "R", 2)

'O Rato Roeu a roupa do rei de roma'

Busca e substitui as 15 primeiras ocorrências de `"r"`.

In [None]:
"O rato roeu a roupa do rei de roma".replace("r", "R", 15)

'O Rato Roeu a Roupa do Rei de Roma'

In [None]:
"O rato roeu a roupa do rei de roma 0".replace(r"[0-9]", "R", 15)

'O rato roeu a roupa do rei de roma 0'

**Exercícios de fixação**

Implemente a função a seguir que receba uma string e remova todos os caracteres de espaço ` `.

In [None]:
def rem_esp(str_num):
    # str_num = transforme o str_num com o string.replace() e o retorne transformado
    return str_num.replace(" ", "")

str_num = "12 344 666"
rem_esp(str_num)

'12344666'

Implemente a função a seguir que remove todos os caracteres de nova linha `\n` do texto e os substituem por uma caractere de espaço ` `.

In [None]:
def rem_nl(texto):
    # texto = transforme o texto com o string.replace() e o transformado
    return texto.replace("\n", " ")

texto = "Parágrafo 1. blá blá blá.\n\nParágrafo 2. ti ti ti.\n\n\n"
rem_nl(texto)

'Parágrafo 1. blá blá blá.  Parágrafo 2. ti ti ti.   '

Implemente uma função que utilize o `String.replace()` para remover dígitos de 0-9?

In [None]:
def rem0_9(str_num):
    # Utilizando o replace, remova os dígitos de 0-9 da string
    for n in range(10):
      str_num = str_num.replace(str(n), "")
    return str_num

str_num = "nesta string não nos importamos com os dígitos0123456789, mas somente com caracteres do alfabeto"
rem0_9(str_num)

'nesta string não nos importamos com os dígitos, mas somente com caracteres do alfabeto'

Implemente uma função que substitua todas as duplas de aspas duplas `""` de uma string de texto por um caractere de aspas duplas `"`. O caractere de escape `\` indica ao Python que o símbolo faz parte do texto e não deve ser interpretado como um comando.

In [None]:
def rm_aspas(uma_str):
    return uma_str.replace("\"\"", "\"")

texto = "...e então o pastor disse-lhes: \"\"não temam, pois estarei convosco\"\"."
rm_aspas(texto)

'...e então o pastor disse-lhes: "não temam, pois estarei convosco".'

**Exercícios de fixação**

Explique com suas palavras porque o caractere de aspas duplas `"` necessita de escape.

Porque se não assim que o Python encontrasse o primeiro caractere de aspas ele iria interpretar como se fosse o fim da string.

Que outro(s) caractere(s) necessita(m) de escape no uso de strings (comuns)?

\n, \t

## `String.strip()`

Remove todos os caracteres passados como parâmetros do começo ao fim da string.

**Sintaxe**

```python
string.strip(caracteres)
```

**Exemplos**

O `strip()` aplicado a seguir remove todos os caracters `\n` do começo e fim da string, mas não faz nada com os `\n` entre os parágrafos.

In [None]:
"\n\n\n.. \n\tParágrafo 1. Texto texto texto\n\n\n\nParágrafo 2. Mais textos. \n\n\n".strip("\n")

'.. \n\tParágrafo 1. Texto texto texto\n\n\n\nParágrafo 2. Mais textos. '

Neste outro exemplo, todos os caracteres listados como argumentos são extraídos do começo e fim da string.

In [None]:
"\n\n\n.. \n\tParágrafo 1. Texto texto texto\n\n\n\nParágrafo 2. Mais textos. \n\n\n".strip("\n .\t")

'Parágrafo 1. Texto texto texto\n\n\n\nParágrafo 2. Mais textos'

**Exercício de fixação**

Explique o resultado do `strip()` apresentado a seguir.

In [None]:
",,,,,rrtggg.......banana.....rrrr".strip("r.,rtg")

'banana'

O Strip remove cada um dos caracteres passados no começo e no fim da string aplicada.

**`String.lstrip()`**

Opcionalmente, pode-se extrair somente de um lado da string. O `String.lstrip()` extrai apenas do lado esquerdo da string.

In [None]:
"\n\nTexto texto texto\n\n\n\n".lstrip("\n")

'Texto texto texto\n\n\n\n'

**`String.rstrip()`**

Para extrair apenas do um lado direito da string, utilize o `String.rstrip()`.

In [None]:
"\n\nTexto texto texto\n\n\n\n".rstrip("\n")

'\n\nTexto texto texto'

## Regex

## `re.sub()`

**Sintaxe**

```python
re.sub(regex, str_sub, string)
```

No entanto, embora o método `String.replace()` seja muito bom para encontrar strings específicas dentro de um texto. Por exemplo, podemos utilizar o `String.replace()` para encontrar o número `"1"`, mas o que fazer para substituir os caracteres de a-z e A-Z? O método manual é muito trabalho para este caso e inviável para vários outros. 

As expressões regulares entram em cena. A biblioteca Python que implementa o uso de expressões regulares chama-se `re`, contração de *`r`egular `e`xpressions*.

In [None]:
# Digite o seguinte comando para utilizar expressões regulares em Python
import re

### Substituição de duas ou mais ocorrências de um padrão por outro

Suponha o seguinte texto.

In [None]:
texto = "Coluna1\n\n\nColuna2\n\n\nColuna3"
print(texto)

Coluna1


Coluna2


Coluna3


Se minha intenção é transformar este texto em uma linha de um arquivo `.csv.`, preciso tratar os caracteres `\n`, uma vez que cada `\n` indica uma nova linha. Um `.csv.` tradicional é separado por `;`. Assim, vamos trocar cada trio de `\n` por um `;`.

In [None]:
import re
# O sinal de + após o \n indica que um ou mais \n serão substituídos pela str_sub
texto = re.sub("\n+", ";", "Coluna1\n\n\nColuna2\n\n\nColuna3")
print(texto)

Coluna1;Coluna2;Coluna3


**Exercício de fixação**

Utilizando uma combinação de métodos vistos anteriormente, transforme o texto a seguir de tal forma que o resultado seja igual ao do exemplo anterior.

In [None]:
import re

def prep_texto(linha):
    # Transforme a string nesta parte do código
    linha = linha.strip("\t\n")
    linha = re.sub("\n+", ";", linha)
    return linha

linha = "\t\t\nColuna1\n\n\nColuna2\n\n\nColuna3\n\n\n"
prep_texto(linha)

'Coluna1;Coluna2;Coluna3'

### Substituição de dois ou mais caracteres com escape

Como substituir uma ou mais aspas duplas por uma única ocorrência utilizando o método `re.sub()` em um texto qualquer?

In [None]:
# Implemente o padrão de busca e a string de substituição
re.sub("\"+", "\"", "O jogador saiu de campo dizendo: \"\"\"quando o jogo está a mil, a naftalina sobe\"\"\".")

'O jogador saiu de campo dizendo: "quando o jogo está a mil, a naftalina sobe".'

Explique porque o caractere `[` necessita de escape em uma expressão regular.

Porque o [ é um metacaractere e nós escapamos-no para suprimir seu significado.

Como remover as ocorrências do caractere `[` no padrão de busca do método `re.sub()`?

In [None]:
# Implemente o padrão de busca e a string de substituição 
re.sub("[\[|\]]", "", "e então ele disse: [se não comprar nada o desconto é maior] Julius Rock")

'e então ele disse: se não comprar nada o desconto é maior Julius Rock'

### Substituição com mais de um padrão de busca

O uso de regex permite o uso de mais de um padrão de busca. Neste caso, usa-se o caractere pipe `|`, que costuma ser lido como `ou`.

In [None]:
re.sub("\n|\t", "", "\n\n\t\nNão sabendo que era impossível foi lá e soube\n\n\n\t\t")

'Não sabendo que era impossível foi lá e soube'

**Exercício de fixação**

Como remover as ocorrências do caractere `[` e do `]` e do no padrão de busca do método `re.sub()`?

In [None]:
re.sub("\[|\]", "", "Beber, [ter um livro, escrever uma árvore] e plantar um filho")

'Beber, ter um livro, escrever uma árvore e plantar um filho'

### Caractere Estrela

Explique este resultado. Numa expressão regular, o que significam o caractere `.` e a estrela `*`?

In [None]:
re.sub(".*", "", "O que o lápis escreveu a borracha apagou.")

''

Nas Expressões Regulares o ponto é um metacaractere que casa com qualquer coisa, a estrela é um multiplicador que nesse caso faz o ponto casar-se com todos os caracteres, do contrário, ele só se casaria com o primeiro.

Explique porque a sring retorna vazia?

In [None]:
re.sub("\[.*\]", "", "[1];[2];[3]")

''

Porque ponto e estrela quando colocados dentro do colchetes são literais.

Explique porque o uso do caractere coringa `\d` limita o padrão de busca.

In [None]:
re.sub("\[\d\]", "", "Fulano [1], Ciclano [2] e Beltrano [3]")

'Fulano , Ciclano  e Beltrano '

O que é necessário acrescentar ao padrão de busca para que todas as referências sejam removidas?

In [None]:
re.sub("\[\d+\]", "", "Fulano [1], Ciclano [2] e Beltrano [33]")

'Fulano , Ciclano  e Beltrano '

É necessário acrecentar-se um sinal de + para que se remova todas as sequências de números dentro do conchetes.

Como modificar o padrão de busca para que todas as referências sejam removidas, assumindo que dentro dos colchetes podem aparecer um único dígito `\d` ou uma única letra de `a-z`? Dica: é necessário agrupar o padrão de busca.

In [None]:
re.sub("\[(\d|[a-z])\]", "", "Fulano [1], Ciclano [2] e Beltrano [a]")

'Fulano , Ciclano  e Beltrano '

## Modularizando código em funções

As funções são excelentes para agruparmos transformações comuns a várias casos. Por exemplo, suponha que temos duas strings de texto e duas transformações em cada uma delas.

In [None]:
str_1 = "\t\t\nPaís\n\n\nCasos\n\n\nMortes\n\n\n"
str_2 = "\t\t\nBrasil\n\n\n1000\n\n\n100\n\n\n"

str_1 = str_1.strip("\n\t")
str_1 = re.sub("\n+", ";", str_1)

str_2 = str_2.strip("\n\t")
str_2 = re.sub("\n+", ";", str_2)

print(str_1)
print(str_2)

País;Casos;Mortes
Brasil;1000;100


As funções fazem com que essas transformações fiquem mais gerais, isto é, possam ser aplicadas em quaisquer strings que necessitem destas mesmas tranformações.

In [None]:
str_1 = "\t\t\nPaís\n\n\nCasos\n\n\nMortes\n\n\n"
str_2 = "\t\t\nBrasil\n\n\n1000\n\n\n100\n\n\n"

def prep_linha(linha):
    linha = linha.strip("\n\t")
    linha = re.sub("\n+", ";", linha)
    return linha

print(prep_linha(str_1))
print(prep_linha(str_2))

# Novos casos podem utilizar a mesma função
str_3 = "\t\t\nEUA\n\n\n2000\n\n\n200\n\n\n"
print(prep_linha(str_3))

País;Casos;Mortes
Brasil;1000;100
EUA;2000;200
