# <span style="color:#336699">CAP394 - Introduction to Data Science [<img src="./img/logo.png" alt="CAP394 - Introduction to Data Science" style="height: 35px;" align="right">](http://www.lac.inpe.br/~rafael.santos/cap394.html)</span>
<hr style="border:2px solid #0077b9;">

# <span style="color:#336699">Expressões Regulares</span>


[<img src="https://upload.wikimedia.org/wikipedia/commons/1/1c/Kleene.jpg" alt="Stephen Cole Kleene" style="height: 175px;" align="right">](https://en.wikipedia.org/wiki/Regular_expression)

Professores:
- Rafael Santos
- Gilberto Ribeiro de Queiroz

Colaboradores:
- Rolf Simões
- Vitor Gomes

# Introdução
<hr style="border:1px solid #0077b9;">

Uma expressão regular (regex) provê uma forma concisa e flexível de identificar cadeias de caracteres de interesse, como caracteres particulares, palavras ou padrões de caracteres. O termo deriva do trabalho do matemático norte-americano Stephen Cole Kleene (foto). Expressões regulares são escritas numa linguagem formal que pode ser interpretada por um processador de expressão.

Fontes: https://docs.python.org/3.7/library/re.html, http://wiki.portugal-a-programar.pt/dev_geral:python:regex, https://en.wikipedia.org/wiki/Regular_expression

Para Python está disponível o módulo `re` para o processamento de expressões regulares. Esse módulo é importado da seguinte forma:

In [3]:
import re

# 2. Busca simples por uma string
<hr style="border:1px solid #0077b9;">

O método **re.search** verifica se uma string (ou padrão) existe em outra string.O uso básico é feito da seguinte forma:

In [11]:
texto = 'Introduction to Data Science'
match = re.search('Data', texto)
if match:
    print('Achou !')
else:
    print('Não Achou !')

print("Objeto: ", ocorrencia)

Achou !
Objeto:  <_sre.SRE_Match object; span=(16, 20), match='Data'>


O **MatchObject** possui métodos para acessar informações sobre a ocorrência encontrada:

In [24]:
texto = 'Introduction to Data Science'
match = re.search('Data', texto)
if match:
    print("Achou: '{}', '{}', {}-{}".format(match.string, match.re, match.start(), match.end()))

Achou: 'Introduction to Data Science', 're.compile('Data')', 16-20


Recomenda-se o uso do **compile** quando o padrão for usado várias vezes:

In [27]:
palavras = ["Introduction", "to", "Data", "Science"]
padrao = re.compile('Data')

for palavra in palavras:
    match = re.search(padrao, palavra)
    if match:
        print("Achei: {}".format(palavra))

Achei: Data


# 2.1. Exemplo de busca em um arquivo CSV
<hr style="border:1px solid #0077b9;">

Lendo o arquivo de padrões:

In [29]:
import csv
records = []
with open('dados/defpatterns.missing.csv','r') as fcsv:
    csvreader = csv.DictReader(fcsv)

    for row in csvreader:
        records.append(row)

Procurando pela palavra 'floresta' na coluna 'padrao':

In [31]:
padrao = re.compile('floresta')
floresta = []
for record in records:
    if re.search(padrao, record['padrao']):
        floresta.append(record)
print("Encontrei {} registros de floresta".format(len(floresta)))

Encontrei 993 registros de floresta


# 2.2. Uso de operadores especiais na busca por caracteres
<hr style="border:1px solid #0077b9;">

Os **[ ]** servem para indicar alternativas. Por exemplo [ae] procura por **a** ou **e**:

In [40]:
pattern = re.compile("[ae]")
palavras = ["Introduction", "Data", "Science"]

for palavra in palavras:
    match = re.search(pattern, palavra)
    if match:
        print(palavra)
    

Data
Science


**Como saber qual letra foi encontrada em cada ocorrência?**

É possível usar **( )** para definir **groups** de busca:

In [42]:
pattern = re.compile("([ae])")
palavras = ["Introduction", "Data", "Science"]

for palavra in palavras:
    match = re.search(pattern, palavra)
    if match:
        print("{}: {}-{}, {}".format(palavra, match.start(), match.end(), match.groups()))

Data: 1-2, ('a',)
Science: 3-4, ('e',)


Mas o **search** somente mostra a primeira ocorrência. Para encontrar todas, é possível usar o **re.findall()**:

In [48]:
pattern = re.compile("([aet])")
palavras = ["Introduction", "Data", "Science"]

for palavra in palavras:
    ocorrencias = re.findall(pattern, palavra)
    if len(ocorrencias):
        print(palavra, ocorrencias)

Introduction ['t', 't']
Data ['a', 't', 'a']
Science ['e', 'e']


O **re.findall()** retorna um `list` com as ocorrências. Para obter todas as ocorrências através de objetos **MatchObject**, use **re.finditer**.

In [54]:
pattern = re.compile("([aet])")
palavras = ["Introduction", "Data", "Science"]

for palavra in palavras:
    ocorrencias = re.finditer(pattern, palavra)
    for ocorrencia in ocorrencias:
        print("{}: {}, {}-{}".format(palavra, ocorrencia.group(), ocorrencia.start(), ocorrencia.end()))

Introduction: t, 2-3
Introduction: t, 8-9
Data: a, 1-2
Data: t, 2-3
Data: a, 3-4
Science: e, 3-4
Science: e, 6-7


**Para buscar uma faixa de caracteres**:

In [72]:
pattern = re.compile("([a-d])")
palavras = ["Introduction", "Data", "Science"]

for palavra in palavras:
    ocorrencias = re.finditer(pattern, palavra)
    for ocorrencia in ocorrencias:
        print("{}: {}, {}-{}".format(palavra, ocorrencia.group(), ocorrencia.start(), ocorrencia.end()))

Introduction: d, 5-6
Introduction: c, 7-8
Data: a, 1-2
Data: a, 3-4
Science: c, 1-2
Science: c, 5-6


**E se eu quiser encontrar uma sequência de caracteres específica?**

In [73]:
pattern = re.compile("(c[it])") # um c seguido por um i ou um t
palavras = ["Introduction", "Data", "Science"]

for palavra in palavras:
    ocorrencias = re.finditer(pattern, palavra)
    for ocorrencia in ocorrencias:
        print("{}: {}, {}-{}".format(palavra, ocorrencia.group(), ocorrencia.start(), ocorrencia.end()))

Introduction: ct, 7-9
Science: ci, 1-3


**E para buscar sequência qualquer de 3 caracteres iniciadas por c?**

In [76]:
pattern = re.compile("(c[a-z]{2})") # um c seguido por duas letras entre a e z
palavras = ["Introduction", "Data", "Science"]

for palavra in palavras:
    ocorrencias = re.finditer(pattern, palavra)
    for ocorrencia in ocorrencias:
        print("{}: {}, {}-{}".format(palavra, ocorrencia.group(), ocorrencia.start(), ocorrencia.end()))

Introduction: cti, 7-10
Science: cie, 1-4


**Para buscar uma sequencia inicia em c e não sequida por um i?**

In [77]:
pattern = re.compile("(c[^i])") # um c não seguido por um i
palavras = ["Introduction", "Data", "Science"]

for palavra in palavras:
    ocorrencias = re.finditer(pattern, palavra)
    for ocorrencia in ocorrencias:
        print("{}: {}, {}-{}".format(palavra, ocorrencia.group(), ocorrencia.start(), ocorrencia.end()))

Introduction: ct, 7-9
Science: ce, 5-7


Existem alguns atalhos para facilitar a busca por tipos de caracteres ou sequências específicas:
- **\d**: um dígito. Equivale a [0-9]
- **\D**: um não dígito. Equivale a [^0-9]
- **\s**: um espaço. Equivale a [ \t\n\r\f\v]
- **\S**: um não espaço. Equivale a [^ \t\n\r\f\v]
- **\w**: um caracter. Equivale a [a-zA-Z0-9_]
- **\W**: um não caracter. Equivale a [^a-zA-Z0-9_]
- **^**: começo de linha
- **$**: final de linha
- **{[x],y}**: indica o número mínimo (x) e/ou máximo de caracteres. O mínimo é opcional
- **+**: um ou mais caracteres
- **\***: nenhum ou muitos caracteres
- **?**: opcional
- **.**: qualquer caracter
- **|**: ou

Alguns exemplos usando esses atalhos:

In [3]:
textos = ["Introduction to Data Science", "CAP 394","CAP 394 - Data Science",  "Introduction to Data Mining", "Introduction to Data " ]
display(textos)

['Introduction to Data Science',
 'CAP 394',
 'CAP 394 - Data Science',
 'Introduction to Data Mining',
 'Introduction to Data ']

Procurar por sequencias do tipo: "**Data ALGO**"

In [5]:
pattern = re.compile("(Data[\s][\w]*)")  # ver diferenca com *

for texto in textos:
    ocorrencias = re.finditer(pattern, texto)
    for ocorrencia in ocorrencias:
        print(texto)
        print("\t{}, {}-{}".format(ocorrencia.group(), ocorrencia.start(), ocorrencia.end()))

NameError: name 're' is not defined

Procurar grupos que possuam números:

In [117]:
pattern = re.compile("([\d]+)")  # ver diferenca com *

for texto in textos:
    ocorrencias = re.finditer(pattern, texto)
    for ocorrencia in ocorrencias:
        print(texto)
        print("\t{}, {}-{}".format(ocorrencia.group(), ocorrencia.start(), ocorrencia.end()))

CAP 394
	394, 4-7
CAP 394 - Data Science
	394, 4-7


Comecem com **Intro**:

In [120]:
pattern = re.compile("^(Intro)")  # ver diferenca com *

for texto in textos:
    ocorrencias = re.finditer(pattern, texto)
    for ocorrencia in ocorrencias:
        print(texto)
        print("\t{}, {}-{}".format(ocorrencia.group(), ocorrencia.start(), ocorrencia.end()))

Introduction to Data Science
	Intro, 0-5
Introduction to Data Mining
	Intro, 0-5
Introduction to Data 
	Intro, 0-5


Quebrar uma frase em palavras:

In [178]:
pattern = re.compile("([\w]+\s)|([\w]+$)")
ocorrencias = re.finditer(pattern, 'Introduction to Data Science')
for ocorrencia in ocorrencias:
    print(texto)
    print("\t{}, {}-{}".format(ocorrencia.group(), ocorrencia.start(), ocorrencia.end()))

Introduction to Data 
	Introduction , 0-13
Introduction to Data 
	to , 13-16
Introduction to Data 
	Data , 16-21
Introduction to Data 
	Science, 21-28


# Regex online
<hr style="border:1px solid #0077b9;">
Este [site](https://regex101.com/) permite testar expressões regulares com visualização.