# **Correspondência de Padrões**

**Observação:** POSIX.2 regex possuí dois tipos de sintaxe (flavors) para trabalhar com expressôes regulares. A extendida e a básica (obsoleta). A extendida tem metacaracteres ``` () e {} ``` que podem ser passadas dentro das aspas em uma busca por expressão regulares. Enquanto a sintaxe básica exige que os metacaracteres sejam sejam designados com as barras invertidas ```\(\) e \{\}```. Vamos generalizar para usar a sintaxe extendida usando a flag *-E* nos comandos.

In [1]:
# Criando um arquivo para ir realizando testes 
echo "#Arquivode exemplosparapráticade
#Regex

# Emails válidos
usuario@exemplo.com
email.test@domain.org
primeiro_ultimo@empresa.co
email+alias@gmail.com

# Emails inválidos
usuario@@exemplo.com
email..test@domain.org
usuario@.com
email-sem-arroba.com

# Telefones válidos
+55 11 91234-5678
(11) 91234-5678
11 91234-5678
+1 800-123-4567

# Telefones inválidos
12345678
(11 91234-5678
11 91234-56789

# Endereços IP válidos
192.168.0.1
255.255.255.255\?*
10.0.0.1
172.16.254.1

# Endereços IP inválidos
192.168.0.256
256.255.255.255
10.0.0
172.16.254.999

# Datas válidas
2025-01-28
28/01/2025
01/28/2025

# Datas inválidas
2025-13-28
28-01-2025
31/02/2025

# URLs válidas
https://www.google.com
http://example.org
www.meusite.com
ftp://ftp.exemplo.com

# URLs inválidas
htp://www.google.com
http:/example.org
meusite,com
ftp:/ftp.exemplo.com

# Códigos Postais (Brasil)
01001-000
12345-678

# Códigos Postais inválidos
12345678
12-345

# Números válidos
123
0.456
-789
+0.12

# Números inválidos
123abc
- 456
+ 0.12

# Palavras válidas (alfabéticas apenas)
regex
funcionalidade
pratica

# Palavras inválidas
regex123
123regex
_funçáo

abcdxyzad
acdan
dahdjk1abcslklsad
abv
ABCADBACCATG
\n
bcdkhg
joão comeu mamão usando sua mão
jdaidkdd*fla" > regex.txt

## Comandos

### **grep**

*(Global Regular Expression Print)*

Busca por padrões de texto em arquivos ou na entrada padrão.

```grep [flags] "Padrão" arquivo.txt```

**Flags**
* **-i:** Ignoraa diferença entre as maiúsculas e minúsculas;
* **-v:** Inverte a busca (exibe as linhas que não contém o padrão;
* **-c:** Retorna o número de ocorrências do padrão;
* **-n:** Mostra o número da linha onde o padrão foi encontrado;
* **-o:** Exibe apenas o trecho da linha que corresponde ao padrão;
* **-E:** Usa a versão estendidas (equivalente a ```egrep```);
* **-r:** Busca recursivamente em diretórios (***-R***);

**Exemplos:**

```
# Encontrar todas as linhas que contêm "erro" (-i = insentive)
grep -i "erro" logs.txt

# Contar quantas linhas contêm "falha"
grep -c "falha" sistema.log

# Exibir apenas os números em um arquivo
grep -o '[0-9]+' dados.txt
```

### **sed**

*(Stream Editor)*

É usado para buscar, substituir, excluir ou modificar texto de maneira eficiente.

```sed [flag] 'COMANDO' arquivo.txt```

**Flags**
* **-i:** Edita o arquivo original (--in-place);
* **-f:** Passa um script para ser executado (--file=script.sh);
* **-e:** Permite executar multiplos comandos, scripts (--expression=script);
* **-n:** Silencia a saída (--quiet);
* **-E:** Usa a versão estendidas, também pode ser a flag **-r** (--regexp-extended);
* **-s:** Considera os arquivos ao invés de como uma única longa string; (***-R***);

**Exemplos**

```
# Substituir a palavra erro por corrigido;
sed 's/erro/corrigido/g' arquivo.txt

# Remover todas as linhas vázias;
sed '/^$/d' arquivo .txt

# Deixar apenas os números em uma linha.
echo "abc123dff456" | sed 's[^0-9]//g'

### **awk**

*Advanced Text Processing*

O ```awk``` é uma linguagem poderosa para manipulação de texto baseada em padrões e colunas.

```awk [flag] 'CONDICAO {AÇÃO}' arquivos.txt```

**Flags**
* **-F:** Delimitador que define o separação (por padrão, é espaço).
* **-v:** var=VALOR: Define váriaveis para serem usadas no script.
* **NR** Número da linha atual;
* **NF** Número total de colunas e linhas.

**Obs:** Tem tantas outras flags que vale a pena dar uma lida na documentação.

**Exemplos**

```
# Exibir apenas a primeira coluna de um arquivo CSV
awk -F, '{print $1}' dados.csv

# Somar todos os valores da segunda coluna
awk '{soma += $2} END {print soma}' arquivo.txt

# Filtrar linhas em que a terceira coluna é maior que 100
awk '$3 > 100' dados.txt
```
  

## **Expressões Regulares**

Expressões Regulares (regex) é a linguagem padrão utilizada para buscar padrões, combinar e manipular texto. Em bash, usamos em conjunto com outras ferramentas como **grep**, **sed**, **awk** e em estruturas condicionais como ```[[  ]]```.

O regex é uma ótima ferramenta para:
* Extrair partes de textos;
* Criar váriaveis com informações encontradas em um texto;
* Limpar e formatar textos e dados;
* Tratar documentos como dados;
* Web scraping;

Expressões regulares são contruídas de três formas:
* Caracteres literais que correspondem com eles mesmos;
* Classes de caracteres que corresponde com tipos de dados;
* Modificadores que operam tanto com um quanto com outro;

Qualquer caractere em um padrão, exceto os caracteres de padrões especiais (***metacaracteres***).



| Metacaractere                    | Função                      |
|:--------------------------------:|:----------------------------|
| .                                | Corresponde com qualquer frase. Ou melhor, qualquer caractere menos linhas novas (\n); |
| ^                                | Corresponde com o ínicio de uma linha                      |
| $                                | Corresponde com o final de uma linha                       |
| ( )                              | "Átomo": expressão regular encapsulada nos parenteses é correspondida literalmente. |
| [ ]                              | Define um conjunto de caracteres a serem correspondidos em quantas instâncias houver. |
| { }                              | Define a repetição de busca de alguma expressão ou classe |
| \                                | Anula o efeito dos metacaracteres                          |

### **Conjuntos e Classes**

| Operadores          |    Descrição     |
|:-------------------:|:-----------------|
| [abc]             | Corresponde com qualquer caractere presente nos colchetes.                          |
| [a-d]             | Abreviação da comando anterior. Corresponderá todos os caracteres dentro do alcance.|
| [^abc]            | Corresponderá com qualquer caractere que não está na lista (*negação*)              |
| [^a-d]            | Corresponderá com qualquer caractere que não esteja listado no alcance.             |


In [2]:
# Exemplos usando grep.
# Encontrar todos as linhas com valores numéricos em um documento.

grep -E [0-9] regex.txt

+[01;31m[K5[m[K[01;31m[K5[m[K [01;31m[K1[m[K[01;31m[K1[m[K [01;31m[K9[m[K[01;31m[K1[m[K[01;31m[K2[m[K[01;31m[K3[m[K[01;31m[K4[m[K-[01;31m[K5[m[K[01;31m[K6[m[K[01;31m[K7[m[K[01;31m[K8[m[K
([01;31m[K1[m[K[01;31m[K1[m[K) [01;31m[K9[m[K[01;31m[K1[m[K[01;31m[K2[m[K[01;31m[K3[m[K[01;31m[K4[m[K-[01;31m[K5[m[K[01;31m[K6[m[K[01;31m[K7[m[K[01;31m[K8[m[K
[01;31m[K1[m[K[01;31m[K1[m[K [01;31m[K9[m[K[01;31m[K1[m[K[01;31m[K2[m[K[01;31m[K3[m[K[01;31m[K4[m[K-[01;31m[K5[m[K[01;31m[K6[m[K[01;31m[K7[m[K[01;31m[K8[m[K
+[01;31m[K1[m[K [01;31m[K8[m[K[01;31m[K0[m[K[01;31m[K0[m[K-[01;31m[K1[m[K[01;31m[K2[m[K[01;31m[K3[m[K-[01;31m[K4[m[K[01;31m[K5[m[K[01;31m[K6[m[K[01;31m[K7[m[K
[01;31m[K1[m[K[01;31m[K2[m[K[01;31m[K3[m[K[01;31m[K4[m[K[01;31m[K5[m[K[01;31m[K6[m[K[01;31m[K7[m[K[01;31m[K8[m[K
([01;31m

In [3]:
# Usando a flag -o para encontrar apenas os números
grep -E -o [0-9] regex.txt | tr -d '\n' # Pipe para evitar que cada número seja impresso em uma nova linha

55119123456781191234567811912345678180012345671234567811912345678119123456789192168012552552552551000117216254119216802562562552552551000172162549992025012828012025012820252025132828012025310220250100100012345678123456781234512304567890121234560121231231


#### **Classes**

Existem conjuntos de caracteres que já estão definidos em classes para agilizar algumas buscas. A sintaxe é [:CLASS:]. Onde classe pode ser qualquer* um dos valores. Lembrando que a sintaxe [:CLASS:] tem que ir dentro do [] para buscar um conjunto da classe.
| Classe| Descrição |
|-------|-----------|
| "alnum"| Classe dos (?). |
| "alpha"| Classe dos alfanuméricos. |
| "ascii"| Classe dos ascii ((?) não funcionou, acredito que seja por conta do meu teclado estar em uft8 (?)). |
| "blank"| Encontra frases, linhas que possuem espaço(s) em sua composição.|
| "cntrl"| (?) Também não funcionou, eu pensei que poderia ser caracteres de controle, como nova linha e etc). |
| "digit"| Retorna todas as linhas com números em sua composição. |
| "graph"| (?). No meu teste imprimiu o texto inteiro do arquivo. |
| "lower"| Retorna todas as minúsculas. |
| "upper"| Corresponde com as maiúsculas. | 
| "print"| (?). Também retornou o arquivo todo. |
| "punct"| Corresponde com os símbolos no texto. |
| "space"| (?). Qual a diferença do space para o blank? | 
| "word" | (?). Não funcionou. Talvez não funciona com o grep? |
|"xdigit"| Classe que corresponderá com todos os digitos hexadecimais. |

In [24]:
# Alguns dos erros eu entendo que possa ser da decodificação do texto, utf8, ascii e etc.
# Outros o GPT me contou que pode ser problema da impressão do terminal
# E que alguns funcionam no pacote perl.
# Enfim, se alguém estiver lendo isso e souber me elucidar essa questão eu agradeceria.

In [25]:
# Não sei
#grep -E '[[:cntrl:]]' regex.txt

In [26]:
grep -E '[[:xdigit:]]' regex.txt

#[01;31m[KA[m[Krquivo[01;31m[Kd[m[K[01;31m[Ke[m[K [01;31m[Ke[m[Kx[01;31m[Ke[m[Kmplosp[01;31m[Ka[m[Kr[01;31m[Ka[m[Kpráti[01;31m[Kc[m[K[01;31m[Ka[m[K[01;31m[Kd[m[K[01;31m[Ke[m[K
#R[01;31m[Ke[m[Kg[01;31m[Ke[m[Kx
# [01;31m[KE[m[Km[01;31m[Ka[m[Kils váli[01;31m[Kd[m[Kos
usu[01;31m[Ka[m[Krio@[01;31m[Ke[m[Kx[01;31m[Ke[m[Kmplo.[01;31m[Kc[m[Kom
[01;31m[Ke[m[Km[01;31m[Ka[m[Kil.t[01;31m[Ke[m[Kst@[01;31m[Kd[m[Kom[01;31m[Ka[m[Kin.org
prim[01;31m[Ke[m[Kiro_ultimo@[01;31m[Ke[m[Kmpr[01;31m[Ke[m[Ks[01;31m[Ka[m[K.[01;31m[Kc[m[Ko
[01;31m[Ke[m[Km[01;31m[Ka[m[Kil+[01;31m[Ka[m[Kli[01;31m[Ka[m[Ks@gm[01;31m[Ka[m[Kil.[01;31m[Kc[m[Kom
# [01;31m[KE[m[Km[01;31m[Ka[m[Kils inváli[01;31m[Kd[m[Kos
usu[01;31m[Ka[m[Krio@@[01;31m[Ke[m[Kx[01;31m[Ke[m[Kmplo.[01;31m[Kc[m[Kom
[01;31m[Ke[m[Km[01;31m[Ka[m[Kil..t[01;31m[Ke[m[Kst@[01;31m[Kd[m[K

In [6]:
# Apenas pra mostrar que podemos combinar a busca de classes com outros caracteres
# Encontrar qualquer linha com digito, ponto final ou vírgula.
grep [[:digit:],.] regex.txt

usuario@exemplo[01;31m[K.[m[Kcom
email[01;31m[K.[m[Ktest@domain[01;31m[K.[m[Korg
primeiro_ultimo@empresa[01;31m[K.[m[Kco
email+alias@gmail[01;31m[K.[m[Kcom
usuario@@exemplo[01;31m[K.[m[Kcom
email[01;31m[K.[m[K[01;31m[K.[m[Ktest@domain[01;31m[K.[m[Korg
usuario@[01;31m[K.[m[Kcom
email-sem-arroba[01;31m[K.[m[Kcom
+[01;31m[K5[m[K[01;31m[K5[m[K [01;31m[K1[m[K[01;31m[K1[m[K [01;31m[K9[m[K[01;31m[K1[m[K[01;31m[K2[m[K[01;31m[K3[m[K[01;31m[K4[m[K-[01;31m[K5[m[K[01;31m[K6[m[K[01;31m[K7[m[K[01;31m[K8[m[K
([01;31m[K1[m[K[01;31m[K1[m[K) [01;31m[K9[m[K[01;31m[K1[m[K[01;31m[K2[m[K[01;31m[K3[m[K[01;31m[K4[m[K-[01;31m[K5[m[K[01;31m[K6[m[K[01;31m[K7[m[K[01;31m[K8[m[K
[01;31m[K1[m[K[01;31m[K1[m[K [01;31m[K9[m[K[01;31m[K1[m[K[01;31m[K2[m[K[01;31m[K3[m[K[01;31m[K4[m[K-[01;31m[K5[m[K[01;31m[K6[m[K[01;31m[K7[m[K[01;31m[K8[m[K
+

### **Correspondência pela posição**

In [7]:
grep -E '(abc)' regex.txt

123[01;31m[Kabc[m[K
[01;31m[Kabc[m[Kdxyzad
dahdjk1[01;31m[Kabc[m[Kslklsad


In [8]:
# Foi dito que podemos usar os os metacaracteres ^ e $ para fazer a ancoragem.
# Para exemplificar:

grep -E ^[abc] regex.txt # Buscando qualquer palavra que comece em a, b, ou c

[01;31m[Ka[m[Kbcdxyzad
[01;31m[Ka[m[Kcdan
[01;31m[Ka[m[Kbv
[01;31m[Kb[m[Kcdkhg


In [9]:
grep -E ^abc regex.txt # Buscando todas as ocorrencias que comecem em abc literalmente

[01;31m[Kabc[m[Kdxyzad


In [10]:
grep -E ^[^abc] regex.txt # Buscando todos as linhas que comecem com qualquer valor que não seja a, b ou c.

# Isso que me pega um pouco no regex, o ^ funciona como ancoragem fora do conjunto definido [ ].
# Porém, dentro dos colchetes ele funciona como negação do conjunto.



[01;31m[K#[m[KArquivode exemplosparapráticade
[01;31m[K#[m[KRegex
[01;31m[K#[m[K Emails válidos
[01;31m[Ku[m[Ksuario@exemplo.com
[01;31m[Ke[m[Kmail.test@domain.org
[01;31m[Kp[m[Krimeiro_ultimo@empresa.co
[01;31m[Ke[m[Kmail+alias@gmail.com
[01;31m[K#[m[K Emails inválidos
[01;31m[Ku[m[Ksuario@@exemplo.com
[01;31m[Ke[m[Kmail..test@domain.org
[01;31m[Ku[m[Ksuario@.com
[01;31m[Ke[m[Kmail-sem-arroba.com
[01;31m[K#[m[K Telefones válidos
[01;31m[K+[m[K55 11 91234-5678
[01;31m[K([m[K11) 91234-5678
[01;31m[K1[m[K1 91234-5678
[01;31m[K+[m[K1 800-123-4567
[01;31m[K#[m[K Telefones inválidos
[01;31m[K1[m[K2345678
[01;31m[K([m[K11 91234-5678
[01;31m[K1[m[K1 91234-56789
[01;31m[K#[m[K Endereços IP válidos
[01;31m[K1[m[K92.168.0.1
[01;31m[K2[m[K55.255.255.255\?*
[01;31m[K1[m[K0.0.0.1
[01;31m[K1[m[K72.16.254.1
[01;31m[K#[m[K Endereços IP inválidos
[01;31m[K1[m[K92.168.0.256
[01;31m[K2[m[K5

In [11]:
grep -E [.com]$ regex.txt # Analogamente ao caso anterior, iria buscar as linhas terminadas em algum caractere do conjunto

usuario@exemplo.co[01;31m[Km[m[K
primeiro_ultimo@empresa.c[01;31m[Ko[m[K
email+alias@gmail.co[01;31m[Km[m[K
usuario@@exemplo.co[01;31m[Km[m[K
usuario@.co[01;31m[Km[m[K
email-sem-arroba.co[01;31m[Km[m[K
https://www.google.co[01;31m[Km[m[K
www.meusite.co[01;31m[Km[m[K
ftp://ftp.exemplo.co[01;31m[Km[m[K
htp://www.google.co[01;31m[Km[m[K
meusite,co[01;31m[Km[m[K
ftp:/ftp.exemplo.co[01;31m[Km[m[K
123ab[01;31m[Kc[m[K
_funçá[01;31m[Ko[m[K
joão comeu mamão usando sua mã[01;31m[Ko[m[K


In [12]:
grep -E .com$ regex.txt # Irá buscar todas as linhas terminadas em .com literalmente

usuario@exemplo[01;31m[K.com[m[K
email+alias@gmail[01;31m[K.com[m[K
usuario@@exemplo[01;31m[K.com[m[K
usuario@[01;31m[K.com[m[K
email-sem-arroba[01;31m[K.com[m[K
https://www.google[01;31m[K.com[m[K
www.meusite[01;31m[K.com[m[K
ftp://ftp.exemplo[01;31m[K.com[m[K
htp://www.google[01;31m[K.com[m[K
meusite[01;31m[K,com[m[K
ftp:/ftp.exemplo[01;31m[K.com[m[K


### **Repetições e agrupamentos**

Supomos que queremos detectar número ou emails. Teremos que constantemente estar lidando com repetições ou conjuntos de caracteres.




| Operador | Descrição |
|:--------:|-----------|
|    *     | Corresponde com nenhuma ou mais instâncias do caractere/expressão anterior.   |
|    ?     | Corresponde nenhuma ou uma instâncias do caractere/expressão anterior.        |
|    +     | Corresponde com uma ou mais instâncias do caractere/expressão anterior.       |
|  {n,m}   | Corresponde à um alcance de ocorrências, de n até m.             |
|    \|    | Corresponde com o caracteres/expressão à díreita ou esquerda do símbolo pipe. |


In [13]:
# Alguns exemplos de repetições

# Diferente de [[:digit:]] sem o asterisco, devolveu o arquivo inteiro, mas somente os números foram destacados
grep -E '[[:digit:]]?' regex.txt

#Arquivode exemplosparapráticade
#Regex

# Emails válidos
usuario@exemplo.com
email.test@domain.org
primeiro_ultimo@empresa.co
email+alias@gmail.com

# Emails inválidos
usuario@@exemplo.com
email..test@domain.org
usuario@.com
email-sem-arroba.com

# Telefones válidos
+[01;31m[K5[m[K[01;31m[K5[m[K [01;31m[K1[m[K[01;31m[K1[m[K [01;31m[K9[m[K[01;31m[K1[m[K[01;31m[K2[m[K[01;31m[K3[m[K[01;31m[K4[m[K-[01;31m[K5[m[K[01;31m[K6[m[K[01;31m[K7[m[K[01;31m[K8[m[K
([01;31m[K1[m[K[01;31m[K1[m[K) [01;31m[K9[m[K[01;31m[K1[m[K[01;31m[K2[m[K[01;31m[K3[m[K[01;31m[K4[m[K-[01;31m[K5[m[K[01;31m[K6[m[K[01;31m[K7[m[K[01;31m[K8[m[K
[01;31m[K1[m[K[01;31m[K1[m[K [01;31m[K9[m[K[01;31m[K1[m[K[01;31m[K2[m[K[01;31m[K3[m[K[01;31m[K4[m[K-[01;31m[K5[m[K[01;31m[K6[m[K[01;31m[K7[m[K[01;31m[K8[m[K
+[01;31m[K1[m[K [01;31m[K8[m[K[01;31m[K0[m[K[01;31m[K0[m[K-[01;31m[K1[

In [14]:
# Não entendi muito bem como funciona o alcance (?)
# Na teoria deveria retornar de 3 a 5 ocorrencias
grep -E '[[:digit:]]{5}-[[:digit:]]{4}' regex.txt

+55 11 [01;31m[K91234-5678[m[K
(11) [01;31m[K91234-5678[m[K
11 [01;31m[K91234-5678[m[K
(11 [01;31m[K91234-5678[m[K
11 [01;31m[K91234-5678[m[K9


In [15]:
grep -E '[[:digit:]]{,3}' regex.txt

#Arquivode exemplosparapráticade
#Regex

# Emails válidos
usuario@exemplo.com
email.test@domain.org
primeiro_ultimo@empresa.co
email+alias@gmail.com

# Emails inválidos
usuario@@exemplo.com
email..test@domain.org
usuario@.com
email-sem-arroba.com

# Telefones válidos
+[01;31m[K55[m[K [01;31m[K11[m[K [01;31m[K912[m[K[01;31m[K34[m[K-[01;31m[K567[m[K[01;31m[K8[m[K
([01;31m[K11[m[K) [01;31m[K912[m[K[01;31m[K34[m[K-[01;31m[K567[m[K[01;31m[K8[m[K
[01;31m[K11[m[K [01;31m[K912[m[K[01;31m[K34[m[K-[01;31m[K567[m[K[01;31m[K8[m[K
+[01;31m[K1[m[K [01;31m[K800[m[K-[01;31m[K123[m[K-[01;31m[K456[m[K[01;31m[K7[m[K

# Telefones inválidos
[01;31m[K123[m[K[01;31m[K456[m[K[01;31m[K78[m[K
([01;31m[K11[m[K [01;31m[K912[m[K[01;31m[K34[m[K-[01;31m[K567[m[K[01;31m[K8[m[K
[01;31m[K11[m[K [01;31m[K912[m[K[01;31m[K34[m[K-[01;31m[K567[m[K[01;31m[K89[m[K

# Endereços IP válidos
[01

In [16]:
# Encontrando tudo que esteja entre parenteses
# Lembrando dos backslashes para tratar os metacaracteres literalmente
grep -E "\(.*\)" regex.txt

[01;31m[K(11)[m[K 91234-5678
# Códigos Postais [01;31m[K(Brasil)[m[K
# Palavras válidas [01;31m[K(alfabéticas apenas)[m[K


In [17]:
# Exemplo usando pipe
# Estamos encontrando ou a expressão a direita, ou á a esquerda.
# Lembrando que precisamos usar com aspas para funcionar e o parenteses não ser tratado como parte da sintaxe regex

grep -E "(http|ftp)" regex.txt

[01;31m[Khttp[m[Ks://www.google.com
[01;31m[Khttp[m[K://example.org
[01;31m[Kftp[m[K://[01;31m[Kftp[m[K.exemplo.com
[01;31m[Khttp[m[K:/example.org
[01;31m[Kftp[m[K:/[01;31m[Kftp[m[K.exemplo.com


In [18]:
# A forma básica (obsoleta) também funciona com o uso dos backslashs
grep -E -o \('http|ftp'\) regex.txt

[01;31m[Khttp[m[K
[01;31m[Khttp[m[K
[01;31m[Kftp[m[K
[01;31m[Kftp[m[K
[01;31m[Khttp[m[K
[01;31m[Kftp[m[K
[01;31m[Kftp[m[K


In [19]:
# Exemplos de aplicações mais complexas
# Queremos encontrar todos os números de telefones que comecem com 1 ou não

grep -E '(1-)?[[:digit:]]{3}-[[:digit:]]{3}-[[:digit:]]{4}' regex.txt

# (1-)? : Corresponde com 1 ou nenhuma ocorrencia de 1-
# [[:digit:]]{3} : Corresponde com quaisquer 3 digitos em sequencia


+1 [01;31m[K800-123-4567[m[K


In [20]:
touch file2.txt
echo "Here is my number: 919-543-3300.
hi John, good to meet you
They bought 731 bananas
Please call 1.919.554.3800
I think he said it was 337.4355" > file2.txt

In [21]:
cat file2.txt

Here is my number: 919-543-3300.
hi John, good to meet you
They bought 731 bananas
Please call 1.919.554.3800
I think he said it was 337.4355


In [22]:
# buscando o número de telefone certo
grep '(1-)?[[:digit:]]{3}-[[:digit:]]{4}' file2.txt


: 1

In [27]:
# Esse erro ocorre porque {} não faz parte da sintaxe estendida, por isso a necessidade de uma flag -E, ou...
egrep '(1-)?[[:digit:]]{3}-[[:digit:]]{4}' file2.txt

Here is my number: 919-[01;31m[K543-3300[m[K.


In [28]:
# Se quisermos buscar independentemente se estiver separado por - ou .
egrep '(1[-.])?[[:digit:]]{3}[-.][[:digit:]]{4}' file2.txt

Here is my number: 919-[01;31m[K543-3300[m[K.
Please call 1.919.[01;31m[K554.3800[m[K
I think he said it was [01;31m[K337.4355[m[K


### **Greedy Matchings**

A correspondência de padrões é "gananciosa" porque por padrão, a maior string correspondente é escolhida.

Vamos supor que estamos trabalhando com arquivos html e queremos encontrar as tags do html

In [29]:
echo 'Do an internship <b> in place </b> of <b> one </b> course.' >> file2.txt

# Podemos fazer
grep -o "<.*>" file2.txt

[01;31m[K<b> in place </b> of <b> one </b>[m[K


In [30]:
# Para ter uma correspondência não gananciosa, que iria nos retornar somente as tags
# A tag -P ativa a sintaxe perl, que também é uma forma de trabalhar com expressões regulares
grep -P -o "<.*?>" file2.txt

# Desafio: Resolver esse problema sem usar "?".
# Dica: Existe algum tipo de caractere que não queremos que estejam dentro das tags?

[01;31m[K<b>[m[K
[01;31m[K</b>[m[K
[01;31m[K<b>[m[K
[01;31m[K</b>[m[K


### **Condicionais**

Como foi mencionado no ínicio, podemos usar ```[[ ]]``` para usar regex com estruturas condicionais. Por exemplo:

```
# Verificar se umas string só contem números.

read -p "Digite um número: " input
if [[ "$input" =~ ^[0-9]+$ ]]; then # O Símbolo =~ é usado para fazer comparações com expressões regulares
    echo "É um número!"
else
    echo "Não é um número!"
fi
```

*Dicas:*
* Não use aspas duplas no regex porque pode gerar interpretações erroneas
* As expressões devem seguir a sintaxe extendida do regex

```if [[ "$texto" =~ "[0-9]" ]]; then  # ERRADO! Regex tratada como string literal```

Se for preciso capturar partes de um regex, podemos usar ```BASH_REMATCH```:

```
if [[ "2024-01-31" =~ ([0-9]{4})-([0-9]{2})-([0-9]{2}) ]]; then
    echo "Ano: ${BASH_REMATCH[1]}, Mês: ${BASH_REMATCH[2]}, Dia: ${BASH_REMATCH[3]}"
fi
```

### **Globs x Regex**

globstar shell option: Permite usar ** da mesma forma que * para corresponder em um contexto de nomes de arquivos e diretórios. Entre outros wildcards.

https://computing.stat.berkeley.edu/tutorial-using-bash/file-management#3-filename-matching-globbing


In [31]:
# Ia fazer uma seção falando disso, mas o assunto é extenso e merece ser estudado com mais detalhes.

# **Exercícios**

**1-** Explicar o que a expressão a seguir irá corresponder.
```$ grep '^[^T]*is.*$' file1.txt```

**2-** Verifique se foi passado um email válido;

**3-** Encontre as linhas vazias em um arquivo;

**4-** Encontre todas as palavras que comecem com a letra E;

**5-** Crie um script que válide senhas de acordo com os critérios:

* Pelo  menos 8 caracteres;

* Pelo menos uma letra maiúscula;

* Pelo menos um número;

**6-** Remover comentários de um script.

In [32]:
# 1
# Qualquer ocorrencia de uma linha que não comece com T e seguido de quaisquer sequencia de caracteres que terminem em is.
grep -E '^[^T]*is.*$' regex.txt

[01;31m[K# Códigos Postais (Brasil)[m[K
[01;31m[K# Códigos Postais inválidos[m[K


A explicação do [regex101](https://regex101.com/) para a expressão foi:

```^``` asserts position at start of a line;

Match a single character not present in the list below ```[^T]```;

```*``` matches the previous token between zero and unlimited times, as many times as possible, giving back as needed (*greedy*);

```T``` matches the character T with index 8410 (5416 or 1248) literally (*case sensitive*);

```is``` matches the characters is literally (*case sensitive*);

```.``` matches any character (*except for line terminators*);

```*``` matches the previous token between zero and unlimited times, as many times as possible, giving back as needed (*greedy*);

```$``` asserts position at the end of a line.

# **Referências**

https://regex101.com/

https://computing.stat.berkeley.edu/tutorial-using-bash/regex.html

https://www.gnu.org/software/bash/manual/bash.html#Pattern-Matching


In [33]:
# Eu usei ajuda do GPT para entender alguns comandos e conceitos, propor exercicios e criar os arquivos de teste.

In [34]:
# Manual no bash
man 7 regex

[4mregex[24m(7)               Miscellaneous Information Manual               [4mregex[24m(7)

[1mNAME[0m
       regex - POSIX.2 regular expressions

[1mDESCRIPTION[0m
       Regular  expressions ("RE"s), as defined in POSIX.2, come in two forms:
       modern REs (roughly those of [1megrep[22m(1); POSIX.2 calls  these  "extended"
       REs)  and  obsolete  REs (roughly those of [1med[22m(1); POSIX.2 "basic" REs).
       Obsolete REs mostly exist for backward compatibility in some  old  pro‐
       grams;  they will be discussed at the end.  POSIX.2 leaves some aspects
       of RE syntax and semantics open; "(!)" marks decisions on these aspects
       that may not be fully portable to other POSIX.2 implementations.

       A (modern) RE is one(!) or more nonempty(!) [4mbranches[24m, separated by '|'.
       It matches anything that matches one of the branches.

       A branch is one(!) or more [4mpieces[24m, concatenated.  It  matches  a  match
       for the first, 

In [35]:
# grep
grep --help

Usage: grep [OPTION]... PATTERNS [FILE]...
Search for PATTERNS in each FILE.
Example: grep -i 'hello world' menu.h main.c
PATTERNS can contain multiple patterns separated by newlines.

Pattern selection and interpretation:
  -E, --extended-regexp     PATTERNS are extended regular expressions
  -F, --fixed-strings       PATTERNS are strings
  -G, --basic-regexp        PATTERNS are basic regular expressions
  -P, --perl-regexp         PATTERNS are Perl regular expressions
  -e, --regexp=PATTERNS     use PATTERNS for matching
  -f, --file=FILE           take PATTERNS from FILE
  -i, --ignore-case         ignore case distinctions in patterns and data
      --no-ignore-case      do not ignore case distinctions (default)
  -w, --word-regexp         match only whole words
  -x, --line-regexp         match only whole lines
  -z, --null-data           a data line ends in 0 byte, not newline

Miscellaneous:
  -s, --no-messages         suppress error messages
  -v, --invert-match        select no

In [36]:
# sed
sed --help

Usage: sed [OPTION]... {script-only-if-no-other-script} [input-file]...

  -n, --quiet, --silent
                 suppress automatic printing of pattern space
      --debug
                 annotate program execution
  -e script, --expression=script
                 add the script to the commands to be executed
  -f script-file, --file=script-file
                 add the contents of script-file to the commands to be executed
  --follow-symlinks
                 follow symlinks when processing in place
  -i[SUFFIX], --in-place[=SUFFIX]
                 edit files in place (makes backup if SUFFIX supplied)
  -l N, --line-length=N
                 specify the desired line-wrap length for the `l' command
  --posix
                 disable all GNU extensions.
  -E, -r, --regexp-extended
                 use extended regular expressions in the script
                 (for portability use POSIX -E).
  -s, --separate
                 consider files as separate rather than as a single,
       

In [37]:
# awk
awk --help

Usage: mawk [Options] [Program] [file ...]

Program:
    The -f option value is the name of a file containing program text.
    If no -f option is given, a "--" ends option processing; the following
    parameters are the program text.

Options:
    -f program-file  Program  text is read from file instead of from the
                     command-line.  Multiple -f options are accepted.
    -F value         sets the field separator, FS, to value.
    -v var=value     assigns value to program variable var.
    --               unambiguous end of options.

    Implementation-specific options are prefixed with "-W".  They can be
    abbreviated:

    -W version       show version information and exit.
    -W compat        pre-POSIX 2001.
    -W dump          show assembler-like listing of program and exit.
    -W help          show this message and exit.
    -W interactive   set unbuffered output, line-buffered input.
    -W exec file     use file as program as well as last option.
    -W 

In [38]:
# Apagando os arquivos criados
rm file2.txt regex.txt
neofetch

[?25l[?7l[0m[34m[1m           `.:/ossyyyysso/:.
        .:oyyyyyyyyyyyyyyyyyyo:`
      -oyyyyyyyo[37m[0m[1mdMMy[0m[34m[1myyyyyyysyyyyo-
    -syyyyyyyyyy[37m[0m[1mdMMy[0m[34m[1moyyyy[37m[0m[1mdmMMy[0m[34m[1myyyys-
   oyyys[37m[0m[1mdMy[0m[34m[1msyyyy[37m[0m[1mdMMMMMMMMMMMMMy[0m[34m[1myyyyyyo
 `oyyyy[37m[0m[1mdMMMMy[0m[34m[1msyysoooooo[37m[0m[1mdMMMMy[0m[34m[1myyyyyyyyo`
 oyyyyyy[37m[0m[1mdMMMMy[0m[34m[1myyyyyyyyyyys[37m[0m[1mdMMy[0m[34m[1msssssyyyo
-yyyyyyyy[37m[0m[1mdMy[0m[34m[1msyyyyyyyyyyyyyys[37m[0m[1mdMMMMMy[0m[34m[1msyyy-
oyyyysoo[37m[0m[1mdMy[0m[34m[1myyyyyyyyyyyyyyyyyy[37m[0m[1mdMMMMy[0m[34m[1msyyyo
yyys[37m[0m[1mdMMMMMy[0m[34m[1myyyyyyyyyyyyyyyyyysosyyyyyyyy
yyys[37m[0m[1mdMMMMMy[0m[34m[1myyyyyyyyyyyyyyyyyyyyyyyyyyyyy
oyyyyysos[37m[0m[1mdy[0m[34m[1myyyyyyyyyyyyyyyyyy[37m[0m[1mdMMMMy[0m[34m[1msyyyo
-yyyyyyyy[37m[0m[1mdMy[0m[34m[1msyyyyyyyyyyyyyys[37m[0m[1mdMMMMMy[