# ReGex
## - Utilizar para localizar frases que tem (ou não tem) padrões específicos
## - nativo no python
## - basta importar o módulo re
## - já vem embutido no pandas




---
# Objetivo da aula de hoje:
## conhecer a função re.search()
## conhecer a função re.findall()
## conhecer os principais metacaracteres


In [None]:
import pandas as pd
import re

## Melhor maneira de entender: analisar um texto na prática:
- parte fácil no começo
- partes bacanas no final

In [None]:
Construcao = '''
Amou daquela vez como se fosse a última
Beijou sua mulher como se fosse a última
E cada filho seu como se fosse o único
E atravessou a rua com seu passo tímido
Subiu a construção como se fosse máquina
Ergueu no patamar quatro paredes sólidas
Tijolo com tijolo num desenho mágico
Seus olhos embotados de cimento e lágrima
Sentou pra descansar como se fosse sábado
Comeu feijão com arroz como se fosse um príncipe
Bebeu e soluçou como se fosse um náufrago
Dançou e gargalhou como se ouvisse música
E tropeçou no céu como se fosse um bêbado
E flutuou no ar como se fosse um pássaro
E se acabou no chão feito um pacote flácido
Agonizou no meio do passeio público
Morreu na contramão atrapalhando o tráfego
'''

In [None]:
df = pd.DataFrame(data = Construcao.split('\n'), columns = ['versos'])[1:-1]
df

Unnamed: 0,versos
1,Amou daquela vez como se fosse a última
2,Beijou sua mulher como se fosse a última
3,E cada filho seu como se fosse o único
4,E atravessou a rua com seu passo tímido
5,Subiu a construção como se fosse máquina
6,Ergueu no patamar quatro paredes sólidas
7,Tijolo com tijolo num desenho mágico
8,Seus olhos embotados de cimento e lágrima
9,Sentou pra descansar como se fosse sábado
10,Comeu feijão com arroz como se fosse um príncipe


### - fórmulas do re que utilizaremos:

#### - re.search(\<padrao\>, \<string\>) - diz se a frase tem ou não o padrão, e onde

#### - re.findall(\<padrao\>, \<string\>) - localiza todas as repetições

### -> vamos usar re.findall() primariamente nesses exercícios


In [None]:
# Localizar os versos que tem a palavra 'última'
df.versos.apply(lambda x: re.search('última',x))

1     <_sre.SRE_Match object; span=(33, 39), match='...
2     <_sre.SRE_Match object; span=(34, 40), match='...
3                                                  None
4                                                  None
5                                                  None
6                                                  None
7                                                  None
8                                                  None
9                                                  None
10                                                 None
11                                                 None
12                                                 None
13                                                 None
14                                                 None
15                                                 None
16                                                 None
17                                                 None
Name: versos, dtype: object

In [None]:
# Localizar a palavra última
df.versos.apply(lambda x: re.findall('última',x))

1     [última]
2     [última]
3           []
4           []
5           []
6           []
7           []
8           []
9           []
10          []
11          []
12          []
13          []
14          []
15          []
16          []
17          []
Name: versos, dtype: object

### Antes de começarmos:
#### Eu quero filtrar os versos com a palavra última.
#### O que eu devo fazer?


In [None]:
filtro = df.versos.str.contains('última')
df[filtro]


Unnamed: 0,versos
1,Amou daquela vez como se fosse a última
2,Beijou sua mulher como se fosse a última


---
### Metacaracteres

. = qualquer caractere

In [None]:
# localizar bebado... ou é bêbado?
df.versos.apply(lambda x: re.findall('b.bado',x))

1           []
2           []
3           []
4           []
5           []
6           []
7           []
8           []
9           []
10          []
11          []
12          []
13    [bêbado]
14          []
15          []
16          []
17          []
Name: versos, dtype: object

In [None]:
# Cuidado: . pode localizar espaços
df.versos.apply(lambda x: re.findall('.bêbado',x))

1            []
2            []
3            []
4            []
5            []
6            []
7            []
8            []
9            []
10           []
11           []
12           []
13    [ bêbado]
14           []
15           []
16           []
17           []
Name: versos, dtype: object

In [None]:
# Cuidado: fim da frase não é um caractere normal
df.versos.apply(lambda x: re.findall('bêbado.',x))

1     []
2     []
3     []
4     []
5     []
6     []
7     []
8     []
9     []
10    []
11    []
12    []
13    []
14    []
15    []
16    []
17    []
Name: versos, dtype: object

---
#### ^ = início da frase
![](https://i.imgur.com/PL2B0dM.png)

In [None]:
# localizar frases que começam com 'a'
df.versos.apply(lambda x: re.findall('^a',x, re.IGNORECASE))

#... ué, por que veio vazio? 

1     [A]
2      []
3      []
4      []
5      []
6      []
7      []
8      []
9      []
10     []
11     []
12     []
13     []
14     []
15     []
16    [A]
17     []
Name: versos, dtype: object

In [None]:
# Combinar ^ e .:
# localizar frases que começam com Amou, ou amou, ou emou, ou algo assim
df.versos.apply(lambda x: re.findall('^.mou', x))

1     [Amou]
2         []
3         []
4         []
5         []
6         []
7         []
8         []
9         []
10        []
11        []
12        []
13        []
14        []
15        []
16        []
17        []
Name: versos, dtype: object

---
#### $ - fim da frase

In [None]:
df.versos.apply(lambda x: re.findall('a$', x))

1     [a]
2     [a]
3      []
4      []
5     [a]
6      []
7      []
8     [a]
9      []
10     []
11     []
12    [a]
13     []
14     []
15     []
16     []
17     []
Name: versos, dtype: object

---
#### + = localizar 1 ou mais repetições


In [None]:
# localizar palavras que tem um ou mais 'r'  
df.versos.apply(lambda x: re.findall('r+', x))

1                []
2               [r]
3                []
4            [r, r]
5               [r]
6      [r, r, r, r]
7                []
8               [r]
9            [r, r]
10          [rr, r]
11              [r]
12              [r]
13              [r]
14           [r, r]
15               []
16               []
17    [rr, r, r, r]
Name: versos, dtype: object

In [None]:
# o pandas consegue reconhecer esses metacaracteres
filtro = df.versos.str.contains('r+')
df[filtro]

# quais frases estão faltando? (de cabeça!)

Unnamed: 0,versos
2,Beijou sua mulher como se fosse a última
4,E atravessou a rua com seu passo tímido
5,Subiu a construção como se fosse máquina
6,Ergueu no patamar quatro paredes sólidas
8,Seus olhos embotados de cimento e lágrima
9,Sentou pra descansar como se fosse sábado
10,Comeu feijão com arroz como se fosse um príncipe
11,Bebeu e soluçou como se fosse um náufrago
12,Dançou e gargalhou como se ouvisse música
13,E tropeçou no céu como se fosse um bêbado


---
#### * = localizar 0 ou mais repetições
![](https://i.imgur.com/PL2B0dM.png) 

In [None]:
# localizar palavras que tem um ou mais 'r'  
df.versos.apply(lambda x: re.findall('r*', x))

# apareceu um monte de vírgulas! o que aconteceu!
# que alternativas existem pra resolver?
# df.versos.str.len()

1                []
2               [r]
3                []
4            [r, r]
5               [r]
6      [r, r, r, r]
7                []
8               [r]
9            [r, r]
10          [rr, r]
11              [r]
12              [r]
13              [r]
14           [r, r]
15               []
16               []
17    [rr, r, r, r]
Name: versos, dtype: object

---
#### {} = especificar quantas repetições
#### ex: {1}, 1 repetição
#### {2}, 2 repetições
#### {1,2}, 1 ou 2 repetições
#### {1,} 1 ou + repetições

In [None]:
# Jeito inteligente de buscar pássaro
df.versos.apply(lambda x: re.findall('pássaro',x))


1            []
2            []
3            []
4            []
5            []
6            []
7            []
8            []
9            []
10           []
11           []
12           []
13           []
14    [pássaro]
15           []
16           []
17           []
Name: versos, dtype: object

In [None]:
# Jeito burro de buscar pássaro
df.versos.apply(lambda x: re.findall('pás{2}aro',x))


1            []
2            []
3            []
4            []
5            []
6            []
7            []
8            []
9            []
10           []
11           []
12           []
13           []
14    [pássaro]
15           []
16           []
17           []
Name: versos, dtype: object

In [None]:
# Vocês conseguem pensar em outro jeito de achar pássaro?
df.versos.apply(lambda x: re.findall('pás{1,}aro',x))

1            []
2            []
3            []
4            []
5            []
6            []
7            []
8            []
9            []
10           []
11           []
12           []
13           []
14    [pássaro]
15           []
16           []
17           []
Name: versos, dtype: object

---
#### [ ] = especificar caracteres

In [None]:
# tem a palavra última ou último?
df.versos.apply(lambda x: re.findall('últim[ao]',x))

1     [última]
2     [última]
3           []
4           []
5           []
6           []
7           []
8           []
9           []
10          []
11          []
12          []
13          []
14          []
15          []
16          []
17          []
Name: versos, dtype: object

In [None]:
# ver palavras que tem uma dessas letras: abcdefghijklmno
df.versos.apply(lambda x: re.findall('[a-o]+',x))

1           [mo, da, ela, e, como, e, fo, e, a, l, ima]
2          [eijo, a, m, lhe, como, e, fo, e, a, l, ima]
3             [cada, filho, e, como, e, fo, e, o, nico]
4                [a, a, e, o, a, a, com, e, a, o, mido]
5               [bi, a, con, o, como, e, fo, e, m, ina]
6                [g, e, no, a, ama, a, o, a, ede, lida]
7          [ijolo, com, ijolo, n, m, de, enho, m, gico]
8      [e, olho, embo, ado, de, cimen, o, e, l, g, ima]
9          [en, o, a, de, can, a, como, e, fo, e, bado]
10    [ome, feij, o, com, a, o, como, e, fo, e, m, n...
11        [ebe, e, ol, o, como, e, fo, e, m, n, f, ago]
12      [an, o, e, ga, galho, como, e, o, i, e, m, ica]
13         [o, e, o, no, c, como, e, fo, e, m, b, bado]
14              [fl, o, no, a, como, e, fo, e, m, a, o]
15    [e, acabo, no, ch, o, fei, o, m, aco, e, fl, c...
16               [goni, o, no, meio, do, a, eio, blico]
17       [o, e, na, con, am, o, a, a, alhando, o, fego]
Name: versos, dtype: object

---
#### \ = Caracteres de escape
#### \s = espaço; 
#### \w = caracteres, números e _
#### \d = números

In [None]:
# Localizar as letras separadas
df.versos.apply(lambda x: re.findall('\w',x))

1     [A, m, o, u, d, a, q, u, e, l, a, v, e, z, c, ...
2     [B, e, i, j, o, u, s, u, a, m, u, l, h, e, r, ...
3     [E, c, a, d, a, f, i, l, h, o, s, e, u, c, o, ...
4     [E, a, t, r, a, v, e, s, s, o, u, a, r, u, a, ...
5     [S, u, b, i, u, a, c, o, n, s, t, r, u, ç, ã, ...
6     [E, r, g, u, e, u, n, o, p, a, t, a, m, a, r, ...
7     [T, i, j, o, l, o, c, o, m, t, i, j, o, l, o, ...
8     [S, e, u, s, o, l, h, o, s, e, m, b, o, t, a, ...
9     [S, e, n, t, o, u, p, r, a, d, e, s, c, a, n, ...
10    [C, o, m, e, u, f, e, i, j, ã, o, c, o, m, a, ...
11    [B, e, b, e, u, e, s, o, l, u, ç, o, u, c, o, ...
12    [D, a, n, ç, o, u, e, g, a, r, g, a, l, h, o, ...
13    [E, t, r, o, p, e, ç, o, u, n, o, c, é, u, c, ...
14    [E, f, l, u, t, u, o, u, n, o, a, r, c, o, m, ...
15    [E, s, e, a, c, a, b, o, u, n, o, c, h, ã, o, ...
16    [A, g, o, n, i, z, o, u, n, o, m, e, i, o, d, ...
17    [M, o, r, r, e, u, n, a, c, o, n, t, r, a, m, ...
Name: versos, dtype: object

In [None]:
# Localizar as palavras: combinando \w e +
df.versos.apply(lambda x: re.findall('\w{3,}',x))

1             [Amou, daquela, vez, como, fosse, última]
2            [Beijou, sua, mulher, como, fosse, última]
3                [cada, filho, seu, como, fosse, único]
4            [atravessou, rua, com, seu, passo, tímido]
5             [Subiu, construção, como, fosse, máquina]
6           [Ergueu, patamar, quatro, paredes, sólidas]
7           [Tijolo, com, tijolo, num, desenho, mágico]
8            [Seus, olhos, embotados, cimento, lágrima]
9         [Sentou, pra, descansar, como, fosse, sábado]
10    [Comeu, feijão, com, arroz, como, fosse, prínc...
11              [Bebeu, soluçou, como, fosse, náufrago]
12           [Dançou, gargalhou, como, ouvisse, música]
13                 [tropeçou, céu, como, fosse, bêbado]
14                      [flutuou, como, fosse, pássaro]
15               [acabou, chão, feito, pacote, flácido]
16                   [Agonizou, meio, passeio, público]
17           [Morreu, contramão, atrapalhando, tráfego]
Name: versos, dtype: object

---
#### ( | ) = localizar um ou outro
#### ex: '(última|única)' = acha um ou o outro

In [None]:
df.versos.apply(lambda x: re.findall('como se fosse um (bêbado|pássaro)',x))

1            []
2            []
3            []
4            []
5            []
6            []
7            []
8            []
9            []
10           []
11           []
12           []
13     [bêbado]
14    [pássaro]
15           []
16           []
17           []
Name: versos, dtype: object

In [None]:
# se não existir o padrão, não vem nada!
df.versos.apply(lambda x: re.findall('como se tiveesse  um (bêbado|pássaro)',x))

1     []
2     []
3     []
4     []
5     []
6     []
7     []
8     []
9     []
10    []
11    []
12    []
13    []
14    []
15    []
16    []
17    []
Name: versos, dtype: object

![](https://i.imgur.com/zClNtMb.png) 

#### Quero localizar todas as proparoxítonas.
#### Quero também saber se as proparoxítonas são singular ou plural
#### Também quero saber se são masculinas ou femininas 
#### Quantos jeitos vocês conseguem pensar? 

In [None]:
# df.versos.apply(lambda x: re.findall('\s(\w+)$',x))
df.versos.apply(lambda x: re.findall('[a-z]*[áéíóúâêîôû][a-z]+s$',x))

1            []
2            []
3            []
4            []
5            []
6     [sólidas]
7            []
8            []
9            []
10           []
11           []
12           []
13           []
14           []
15           []
16           []
17           []
Name: versos, dtype: object

Clique duas vezes aqui para ver algumas soluções
<font color='white'> 
>df.versos.apply(lambda x: re.findall('\w{0,}[áéíóúê]\w{0,}$',x))
>df.versos.apply(lambda x: re.findall('\w*[áéíóúê]\w*$',x))
>df.versos.apply(lambda x: re.findall('\w*[áéíóúê][a-z]+$',x))
</font>

<!-- df.versos.apply(lambda x: re.findall('\w*[áéíóú]\w*$',x)) -->