### Expressões Regulares são padrões mais complexos que queremos encontrar ou fazer certa tarefa em dados de texto. A biblioteca re é usada para esse tipo de situação. Existem diversas funções para expressões regulares:
1. re.findall()
2. re.split()
3. re.sub()

### A função findall é usada para encontrar textos que dão match com o padrão da expressão regular:
![image.png](attachment:image.png)

In [1]:
import re

## A função split é usada para fazer um split de texto e retornar uma listas de strings baseado em uma expressão regular:
![image.png](attachment:image.png)

## A função sub substitui palavras que tem determinado padrão baseado na expressão regular por uma string:
![image.png](attachment:image.png)

## Metacaracteres são caracteres especiais que servem para identificar vários padrões. Vou colocar os mais importantes que podem ser úteis nas tarefas:
- \s : Espaço em branco
- \S : Não espaço em branco
- \d : Dígito
- \D : Não dígito
- \w : Letra
- \W : Não letra
- .  : Qualquer caractere

In [2]:
re.findall(r"User\d", "The winners are: User9, UserN, User8")

['User9', 'User8']

In [3]:
re.findall(r"User\D", "The winners are: User9, UserN, User8")

['UserN']

In [4]:
re.findall(r"User\w", "The winners are: User9, UserN, User8")

['User9', 'UserN', 'User8']

In [5]:
re.findall(r"\W\d", "This skirt is on sale, only $5 today!")

['$5']

In [6]:
re.findall(r"Data\sScience", "I enjoy learning Data Science")

['Data Science']

In [8]:
re.findall(r"ice\Scream", "I really like ice-cream")

['ice-cream']

In [18]:
my_links = "Just check out this link: www.amazingpics.com. It has amazing photos!"
re.findall(r"www.+com", my_links)

['www.amazingpics.com']

### Quantificadores são formas de contar algum padrão específico em uma expressão regular:
- {Número} : Serve para especificar o número exato de repetições de certo padrão
- {Número mínimo, Número máximo} : Serve para especificar um número de repetições entre o número mínimo e o número máximo
- \+ : Um ou mais vezes de um certo padrão
- \* : Zero ou mais vezes de um certo padrão
- ? : Zero ou uma vez de um certo padrão

In [9]:
password = "password1234 senha1 senha2 password123"

In [10]:
re.findall(r"\w{8}\d{4}", password)

['password1234']

In [11]:
text = "Date of start: 4-3. Date of registration: 10-04."
re.findall(r"\d+-\d+", text)

['4-3', '10-04']

In [12]:
my_string = "The concert was amazing! @ameli!a @joh&&n @mary90"
re.findall(r"@\w+\W*\w+", my_string)

['@ameli!a', '@joh&&n', '@mary90']

In [13]:
text = "The color of this image is amazing. However, the colour blue could be brighter."
re.findall(r"colou?r", text)

['color', 'colour']

In [14]:
phone_number = "John: 1-966-847-3131 Michelle: 54-908-42-42424"
re.findall(r"\d{1,2}-\d{3}-\d{2,3}-\d{4,}", phone_number)

['1-966-847-3131', '54-908-42-42424']

### Uma importante observação é que o quantificador é aplicado exatamente no padrão à esquerda:
![image.png](attachment:image.png)

In [17]:
text = "appleeeapple"
re.findall(r"apple+", text)

['appleee', 'apple']

### Existem duas funções muito úteis: re.search() e re.match(). Funcionam similarmente ao re.findall() porém com uma diferença de retornar também as posições que dão match na string. A re.match só funciona se o padrão estiver no começo da string e a re.search() funciona em toda a string.

In [None]:
re.search(r"\d{4}", "4506 people attend the show")

In [None]:
re.match(r"\d{4}", "4506 people attend the show")

In [None]:
re.search(r"\d+", "Yesterday, I saw 3 shows")

In [None]:
re.match(r"\d+","Yesterday, I saw 3 shows")

### Podemos especificar um metacaracter usando \ antes dele para especificar algo literal

In [19]:
my_string = "I love the music of Mr.Go. However, the sound was too loud."
print(re.split(r".\s", my_string))

['', 'lov', 'th', 'musi', 'o', 'Mr.Go', 'However', 'th', 'soun', 'wa', 'to', 'loud.']


In [20]:
print(re.split(r"\.\s", my_string))

['I love the music of Mr.Go', 'However, the sound was too loud.']


### Parei no OR operator