# Pesquisando, Dividindo e Substituindo Texto

Nas seções anteriores, dominamos os fundamentos das expressões regulares. Agora, vamos ver como podemos usar esse conhecimento para realizar algumas tarefas comuns.

## Compilando uma Regex

Anteriormente, usávamos funções abreviadas como `match`, `fullmatch` e `search` do pacote `re`. Embora sejam adequadas para correspondências pontuais, haverá situações em que você desejará reutilizar uma expressão regular. Uma expressão regular, na verdade, precisa ser compilada como um miniprograma, o que significa que pode ser caro configurá-la e usá-la. É por isso que, quando você pretende usar uma expressão regular várias vezes, é necessário compilá-la e salvá-la.

Abaixo, compilamos uma expressão regular que procura sites que podem ser `http` ou `https` e terminar com `.com`, `.org` ou `.gov`.

In [None]:
import re

web_pattern = re.compile(r'(https?://)?(www\.)?([a-z0-9]+)\.(com|org|gov)')

Agora podemos usar este objeto `Pattern` compilado e reutilizável para várias tarefas. Podemos, por exemplo, passá-lo para um argumento `pattern` no lugar de uma string. Dessa forma, `fullmatch` não perderá tempo compilando.

In [None]:
re.fullmatch(pattern=web_pattern, string="https://www.anaconda.com") != None 

## Escaneando um Documento

Se importarmos um documento para uma string, podemos usar a função `finditer()` em um objeto `Pattern` para encontrar vários [objetos `Match`](https://docs.python.org/3/library/re.html#re.Match) nesse documento. Podemos pegar esses resultados e iterá-los em um loop `for`.

In [None]:
urls = """
Aqui estão alguns sites:

https://www.yawmanflight.com
http://microsoft.com
https://youtube.com
https://www.anaconda.com

Estes são sites não comerciais:
https://www.python.org
https://whitehouse.gov 
"""

matches = web_pattern.finditer(urls)

for match in matches:
    print(match[0])



Algo interessante é que `match[0]` retornará a correspondência completa. Mas os índices posteriores retornarão a correspondência do grupo indexada por cada par de parênteses `( )`. Por exemplo, o quarto grupo de parênteses `(com|org|gov)` em nosso padrão retornará esse domínio web. Podemos acessá-lo usando `match[4]`.

In [None]:
matches = web_pattern.finditer(urls)

for match in matches:
    print(match[4])

Leia mais na [documentação do objeto Match](https://docs.python.org/3/library/re.html#re.Match) para saber mais sobre outros métodos disponíveis.

## Divisão

Expressões regulares podem oferecer alguns recursos interessantes quando se trata de dividir dados.

Vamos carregar o famoso conjunto de dados Iris de aprendizado de máquina. Embora normalmente usemos o Pandas para carregar dados tabulares (que discutiremos na próxima seção), vamos aprender alguns truques do zero.

In [None]:
import urllib.request

urllib.request.urlretrieve(
    r"https://raw.githubusercontent.com/thomasnield/machine-learning-demo-data/master/classification/iris.csv",
    "iris.csv"
)

filename = 'iris.csv' 
file = open(filename, encoding="utf-8")
text = file.read()
file.close()
print(text)

Então, carregamos todo o conjunto de dados em uma única string `text`. É comum dividir em novas linhas seguidas por valores separados por vírgula para cada linha.

In [None]:
for row in text.split("\n"):
    print(row.split(","))

Mas e se quiséssemos separar apenas a última coluna com as espécies? Existe a oportunidade de usar uma expressão regular como separador. Podemos usar `,` seguido por um sufixo `(?=[a-z]+$)` para corresponder apenas a vírgulas seguidas por caracteres alfabéticos minúsculos `[a-z]+` e, em seguida, um `$` de fim de string.

In [None]:
split_pattern = re.compile(r",(?=[a-z]+$)")

for row in text.split("\n"):
    print(re.split(split_pattern, row))

Perfeito! Com expressões regulares, você pode dividir strings em separadores muito mais elaborados e orientados por contexto.

## Substituindo

Vamos retornar ao nosso exemplo anterior com os sites.

In [None]:
urls = """
Aqui estão alguns sites: 

https://www.yawmanflight.com
http://microsoft.com
https://youtube.com
https://www.anaconda.com

Estes são sites não comerciais:
https://www.python.org
https://whitehouse.gov 
"""

matches = web_pattern.finditer(urls)

for match in matches:
    print(match[0])

Digamos que queremos limpar o documento e substituir `http` por `https`. Obviamente, não queremos substituir o `http` que já existe em strings `https` existentes, portanto, garantiremos que ele não seja seguido por um "s". Isso pode ser feito usando um sufixo `(?=[^s])`.

In [None]:
fix_https = re.sub(pattern="http(?=[^s])", 
                   repl="https", 
                   string=urls)
print(fix_https)

Observe que existem [parâmetros adicionais](https://docs.python.org/3/library/re.html#re.sub) para sinalizadores, bem como o `count`, que é o número máximo de substituições a serem feitas.

Agora, digamos que queremos injetar um `www.` onde ele está ausente. Para isso, precisamos do que chamamos de **look ahead negativo**, que é um sufixo que *não queremos que corresponda* para se qualificar. Qualificaremos duas barras `//` que não são seguidas por `www.`, que podem ser expressas como `(?!www)`.

In [None]:
fix_www = re.sub(pattern="//(?!www)", 
                   repl="//www.", 
                   string=fix_https)
print(fix_www)

## Exercício

Divida a string abaixo para separar por vírgulas, mas somente se as vírgulas existirem entre dois dígitos. Substitua o ponto de interrogação `?` pela expressão regular abaixo.

In [None]:
import re

split_pattern = re.compile(?)

re.split(pattern=split_pattern, string="6.1,2.9,4.7,1.4,versicolor")

### RESPOSTA A BAIXO

|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
v 

In [None]:
import re

split_pattern = re.compile("(?<=[0-9]),(?=[0-9])")

re.split(pattern=split_pattern, string="6.1,2.9,4.7,1.4,versicolor")