<h1 align="center"><font color="pink">PREgEx</font></h1>

<font color="yellow">Data Scientist.: Dr. Eddy Giusepe Chirinos Isidro</font>

Links de estudo:

* [pip install pregex](https://pypi.org/project/pregex/)

* [mathdatasimplified](https://mathdatasimplified.com/)

<font color="orange">`PRegEx` é um pacote Python que permite construir padrões RegEx de uma forma mais amigável. Para instalar o `PREgEx`, digite:</font>

```
pip install pregex
```

# <font color="red">Capturar URLs</font>

In [2]:
from pregex.core.classes import AnyButWhitespace # Para corresponder a qualquer caractere, exceto caracteres de espaço em branco
from pregex.core.quantifiers import OneOrMore # Para corresponder ao padrão fornecido uma ou mais vezes
from pregex.core.operators import Either # Para corresponder a qualquer um dos padrões fornecidos

text = "Você pode me encontrar através GitHub https://github.com/khuyentran1401"

pre = (
    "https://"
    + OneOrMore(AnyButWhitespace()) # Corresponde a um ou mais caracteres que não são caracteres de espaço em branco
    + Either(".com", ".org")
    + OneOrMore(AnyButWhitespace())
)


In [5]:
pre.get_matches(text)

['https://github.com/khuyentran1401']

# <font color="red">HTTP ou HTTPS</font>

In [8]:

from pregex.core.quantifiers import Optional

text = "Você pode me encontrar através GitHub https://github.com/khuyentran1401"

pre = (
    "http"
    + Optional("s")
    + "://"
    + OneOrMore(AnyButWhitespace())
    + Either(".com", ".org")
    + OneOrMore(AnyButWhitespace())
)
pre.get_matches(text)

['https://github.com/khuyentran1401']

# <font color="red">Corresponder URL sem esquema</font>

In [9]:
text = "Você pode me encontrar através do meu site mathdatasimplified.com/ or GitHub https://github.com/khuyentran1401"

at_least_one_character_except_white_space = OneOrMore(AnyButWhitespace())
optional_scheme = Optional("http" + Optional("s") + "://")
domain_choice = Either(".com", ".org")

pre = (
    optional_scheme
    + at_least_one_character_except_white_space
    + domain_choice
    + at_least_one_character_except_white_space
)

pre.get_matches(text)

['mathdatasimplified.com/', 'https://github.com/khuyentran1401']

# <font color="red">Capturar um endereço de e-mail</font>

In [11]:
text = "Meu e-amil é abcd@gmail.com e o outro é eddy_peru@hotmail.io"

pre = (
    OneOrMore(AnyButWhitespace())
    + "@"
    + OneOrMore(AnyButWhitespace())
    + Either(".com", ".org", ".io", ".net")
)

pre.get_matches(text)

['abcd@gmail.com', 'eddy_peru@hotmail.io']

# <font color="gree">Exemplo completo</font>

In [12]:
from pregex.core.classes import AnyLetter, AnyDigit, AnyFrom
from pregex.core.quantifiers import Optional, AtLeastAtMost
from pregex.core.operators import Either
from pregex.core.groups import Capture
from pregex.core.pre import Pregex

# Defina subpadrões principais:
http_protocol = Optional('http' + Optional('s') + '://')

www = Optional('www.')

alphanum = AnyLetter() | AnyDigit()

domain_name = \
    alphanum + \
    AtLeastAtMost(alphanum | AnyFrom('-', '.'), n=1, m=61) + \
    alphanum

tld = '.' + Either('com', 'org')

ip_octet = AnyDigit().at_least_at_most(n=1, m=3)

port_number = (AnyDigit() - '0') + 3 * AnyDigit()


# Combine subpadrões:
pre: Pregex = \
    http_protocol + \
    Either(
        www + Capture(domain_name) + tld,
        3 * (ip_octet + '.') + ip_octet + ':' + port_number
    )


<font color="orange">Podemos então buscar facilmente o padrão RegEx subjacente da instância Pregex resultante.</font>

In [16]:
YELLOW = "\033[0;33m"
GREEN = "\033[0;32m"
WHITE = "\033[0;37m"
RED = "\033[0;31m"
RESET= "\033[m"

In [17]:
regex = pre.get_pattern()

print(f"{YELLOW}{regex}{RESET}") # Este é o padrão que acabamos de construir. Caramba!

[0;33m(?:https?:\/\/)?(?:(?:www\.)?([\da-zA-Z][a-z\-\dA-Z.]{1,61}[\da-zA-Z])\.(?:com|org)|(?:\d{1,3}\.){3}\d{1,3}:[1-9]\d{3})[m


<font color="orange">Além de ter acesso ao seu padrão subjacente, podemos usar uma instância Pregex para encontrar correspondências dentro de um trecho de texto. Vejamos o seguinte exemplo:</font>

In [18]:
text = "text--192.168.1.1:8000--text--http://www.wikipedia.org--text--https://youtube.com--text"

In [19]:
matches = pre.get_matches(text)

matches

['192.168.1.1:8000', 'http://www.wikipedia.org', 'https://youtube.com']

<font color="orange">Da mesma forma, podemos invocar o método `“get_captures”` da instância para obter quaisquer grupos capturados.</font>

In [21]:
groups = pre.get_captures(text)

groups

[(None,), ('wikipedia',), ('youtube',)]