## Início e Fim de Linhas e Strings

Aprenderemos como qualificar o início e o fim de linhas e strings, que são chamadas de **âncoras**. Ao longo do caminho, entenderemos as nuances entre correspondências completas e parciais, e como as âncoras também podem ajudar nisso.

## Full Match contra Match

Vamos usar as funções `match()`, `search()` e `fullmatch()` da biblioteca de expressões regulares `re`.

In [1]:
from re import match, search, fullmatch

### fullmatch()

Aprendemos como fazer uma correspondência completa usando a função `fullmatch()`. A expressão regular `[0-9][A-Z]` abaixo não corresponderá a `5BA` porque a string contém um caractere estranho.

In [2]:
fullmatch(pattern="[0-9][A-Z]", string="5BA") != None

False

### match()

Mas o que acontece se usarmos a função `match()`?

In [3]:
match(pattern="[0-9][A-Z]", string="5BA") != None

True

Curiosamente, agora corresponde. Deve ser porque funciona com correspondências parciais e encontrou `5B`. E se dermos a ela uma string `A5B`? Ela deveria corresponder a `5B` se corresponder parcialmente?

In [4]:
match(pattern="[0-9][A-Z]", string="A5B") != None

False

Espere, isso não funciona. O motivo é que `match()` só fará correspondências parciais no início da string. Se você pretende encontrar uma correspondência parcial *em qualquer lugar* da string, precisa usar `search()`.

### search()

Se você pensou que `match()` retornaria uma correspondência parcial em qualquer lugar da string em vez de apenas no início, provavelmente você queria usar `search()`. Não confunda os dois, e na prática é muito mais provável que você use `search()`.

In [7]:
search(pattern="[0-9][A-Z]", string="A5B") != None

True

Portanto, use `search()` quando pretende procurar correspondências parciais *em qualquer lugar* da string. Você também pode qualificar o *início da string* `^` para obter o mesmo resultado que `match()` usando o `search()`. Aprenderemos sobre o *início da string* e o *fim da string* a seguir.

In [8]:
search(pattern="^[0-9][A-Z]", string="A5B") != None

False

In [9]:
search(pattern="^[0-9][A-Z]", string="5BA") != None

True

## Início de String e Linha

Como vimos no exemplo anterior, podemos qualificar um *início de string* usando o operador circunflexo `^`. Logicamente, é mais comum usar esse operador no início de uma expressão regular. Se eu quisesse corresponder apenas a um dígito que é o primeiro caractere de uma string, usaria a expressão regular `^[0-9]`.

In [10]:
search(pattern="^[0-9]", string="7 Apple Macbooks") != None

True

In [11]:
search(pattern="^[0-9]", string="iPhone 8") != None

False

Quando você tem várias linhas em sua string, pode ser interessante alterar o comportamento de `^` para que ele qualifique o início de uma linha em vez do início de uma string. Você pode usar a flag `re.MULTILINE` para fazer isso.

In [13]:
import re 

receipt = """
7 Apple Macbooks
iPhone 8
3 iPad Airs
"""

search(pattern="^[0-9]", string=receipt, flags=re.MULTILINE) != None

'7'

Acima, houve duas correspondências, então ele se qualifica apenas como verdadeiro. Você pode estar se perguntando como podemos retornar várias correspondências parciais de um documento ou string de várias linhas. Aprenderemos como fazer isso em uma seção posterior.

O exemplo abaixo não resultará em nenhuma correspondência, pois nenhuma linha começa com um dígito.

In [14]:
receipt = """
Apple Macbook Air 
iPhone 8
iPad Mini 3
"""

search(pattern="^[0-9]", string=receipt, flags=re.MULTILINE) != None

False

## Fim de String e Linha

Você também pode qualificar o final de uma string ou linha de maneira semelhante usando o `$`. Logicamente, ele será colocado no final da sua expressão regular, e não no início, pois corresponde ao final da string.

In [15]:
search(pattern="[0-9]$", string="iPhone 8") != None

True

In [16]:
search(pattern="[0-9]$", string="7 Apple Macbooks") != None

False

Também podemos corresponder dígitos no final da linha, em vez do final da string, usando `re.MULTILINE`.

In [17]:
receipt = """
Apple Macbook Air 
iPhone 8
iPad Mini 3
"""

search(pattern="[0-9]$", string=receipt, flags=re.MULTILINE) != None

True

In [18]:
import re 

receipt = """
7 Apple Macbooks
3 iPad Airs
"""

search(pattern="[0-9]$", string=receipt, flags=re.MULTILINE) != None

False

## Forçando Correspondências Completas com ^ e \$

Para forçar uma correspondência completa em uma expressão regular, você sempre pode usar `fullmatch()`. Mas pode ser útil ter a expressão regular para expressar um requisito de correspondência completa, mesmo quando usada em um contexto de correspondência parcial. Isso é feito simplesmente usando o início da string `^` e o fim da string `$`. Abaixo, forçamos uma correspondência completa com uma regex `^[0-9][A-Z]$`. Isso basicamente significa "apenas um dígito seguido por uma letra maiúscula pode existir entre o início e o fim da string". Essa lógica é efetivamente uma correspondência completa.

In [19]:
search(pattern="^[0-9][A-Z]$", string="A5B") != None

False

In [20]:
search(pattern="^[0-9][A-Z]$", string="5B") != None

True

> Quando armazenei expressões regulares em um banco de dados para construir mecanismos de regras de negócios, segui essa prática para que as pessoas soubessem que a regex pretende ser usada como uma correspondência completa. Ao alternar entre plataformas como SQL ou Java, é útil ter uma regex construída dessa maneira também para que você não use indevidamente uma função de correspondência parcial pensando que ela faz a correspondência completa. Se você pretende fazer uma correspondência completa, acredito que seja uma boa prática a ser adotada. No entanto, evitarei impor isso no restante deste curso e usarei apenas `fullmatch()` quando pretendo fazer uma correspondência completa.

É claro que você pode usar esse padrão para fazer uma "correspondência completa" do conteúdo de cada linha usando `re.MULTLINE`.

In [21]:
import re 

my_doc = """
7HD
H7A
5MD
"""

search(pattern="^[0-9][A-Z][A-Z]$", string=my_doc, flags=re.MULTILINE) != None

True

Observe abaixo como `4HAU` não é correspondido com `^[0-9][A-Z][A-Z]$` porque força uma correspondência completa em cada linha, não parcial.

In [22]:
import re 

my_doc = """
4HAU
H7A
YHH
"""

search(pattern="^[0-9][A-Z][A-Z]$", string=my_doc, flags=re.MULTILINE) != None

False

## Exercício

Escreva uma expressão regular abaixo que determine se há linhas que começam com um código de companhia aérea de duas letras. Substitua o ponto de interrogação `?` abaixo.

DICA: lembre-se de que `\s` é um padrão de expressão regular para um espaço e não se esqueça de usar uma string bruta `r"minha expressão regular"`, pois haverá uma barra invertida.

In [None]:
from re import search

flights = """
WN 672 
    ABQ HOU
DL 78
    ATL PHX
"""

search(pattern=?, string=flights, flags=re.MULTILINE) != None

### RESPOSTA A BAIXO

|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
v 

In [None]:
from re import search


flights = """
WN 672 
    ABQ HOU
DL 78
    ATL PHX
"""

search(pattern=r"^[A-Z][A-Z]\s", string=flights, flags=re.MULTILINE) != None