<a href="https://colab.research.google.com/github/srgari/Jupyter-Notebook-Labs/blob/master/aula_light__construcao.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# ReGex
## - Utilizar para localizar frases que tem (ou não tem) padrões específicos
## - nativo no python
## - basta importar o módulo re
## - já vem embutido no pandas


In [None]:
import pandas as pd
import re

## Melhor maneira de entender: analisar um texto na prática:
- parte fácil no começo
- partes bacanas no final

In [None]:
Construcao = '''
Amou daquela vez como se fosse a última
Beijou sua mulher como se fosse a última
E cada filho seu como se fosse o único
E atravessou a rua com seu passo tímido
Subiu a construção como se fosse máquina
Ergueu no patamar quatro paredes sólidas
Tijolo com tijolo num desenho mágico
Seus olhos embotados de cimento e lágrima
Sentou pra descansar como se fosse sábado
Comeu feijão com arroz como se fosse um príncipe
Bebeu e soluçou como se fosse um náufrago
Dançou e gargalhou como se ouvisse música
E tropeçou no céu como se fosse um bêbado
E flutuou no ar como se fosse um pássaro
E se acabou no chão feito um pacote flácido
Agonizou no meio do passeio público
Morreu na contramão atrapalhando o tráfego
'''

In [None]:
df = pd.DataFrame(data = Construcao.split('\n'), columns = ['versos'])[1:-1]
df

### - fórmulas do re que utilizaremos:

#### - re.search(\<padrao\>, \<string\>) - diz se a frase tem ou não o padrão, e onde

#### - re.findall(\<padrao\>, \<string\>) - localiza todas as repetições

### -> vamos usar re.findall() primariamente nesses exercícios


In [None]:
# Localizar os versos que tem a palavra 'última'
df.versos.apply(lambda x: re.search('última',x))

In [None]:
# Localizar a palavra última
df.versos.apply(lambda x: re.findall('última',x))

### Antes de começarmos:
#### Eu quero filtrar os versos com a palavra última.
#### O que eu devo fazer?


In [None]:
filtro = df.versos.str.contains('última')
df[filtro]


---
### Metacaracteres

. = qualquer caractere

In [None]:
# localizar bebado... ou é bêbado?
df.versos.apply(lambda x: re.findall('b.bado',x))

In [None]:
# Cuidado: . pode localizar espaços
df.versos.apply(lambda x: re.findall('.bêbado',x))

In [None]:
# Cuidado: fim da frase não é um caractere normal
df.versos.apply(lambda x: re.findall('bêbado.',x))

---
#### ^ = início da frase
![](https://i.imgur.com/PL2B0dM.png)

In [None]:
# localizar frases que começam com 'a'
df.versos.apply(lambda x: re.findall('^a',x))

#... ué, por que veio vazio? 

In [None]:
# Combinar ^ e .:
# localizar frases que começam com Amou, ou amou, ou emou, ou algo assim
df.versos.apply(lambda x: re.findall('^.mou', x))

---
#### $ - fim da frase

In [None]:
df.versos.apply(lambda x: re.findall('a$', x))

---
#### + = localizar 1 ou mais repetições


In [None]:
# localizar palavras que tem um ou mais 'r'  
df.versos.apply(lambda x: re.findall('r+', x))

In [None]:
# o pandas consegue reconhecer esses metacaracteres
filtro = df.versos.str.contains('r+')
df[filtro]

# quais frases estão faltando? (de cabeça!)

---
#### * = localizar 0 ou mais repetições
![](https://i.imgur.com/PL2B0dM.png) 

In [None]:
# localizar palavras que tem um ou mais 'r'  
df.versos.apply(lambda x: re.findall('r*', x))

# apareceu um monte de vírgulas! o que aconteceu!
# que alternativas existem pra resolver?

---
#### {} = especificar quantas repetições
#### ex: {1}, 1 repetição
#### {2}, 2 repetições
#### {1,2}, 1 ou 2 repetições
#### {1,} 1 ou + repetições

In [None]:
# Jeito inteligente de buscar pássaro
df.versos.apply(lambda x: re.findall('pássaro',x))


In [None]:
# Jeito burro de buscar pássaro
df.versos.apply(lambda x: re.findall('pás{2}aro',x))


In [None]:
# Vocês conseguem pensar em outro jeito de achar pássaro?
df.versos.apply(lambda x: re.findall('pás{}aro',x))

---
#### [ ] = especificar caracteres

In [None]:
# tem a palavra última ou último?
df.versos.apply(lambda x: re.findall('últim[ao]',x))

In [None]:
# ver palavras que tem uma dessas letras: abcdefghijklmno
df.versos.apply(lambda x: re.findall('[a-o]+',x))

---
#### \ = Caracteres de escape
#### \s = espaço; 
#### \w = caracteres, números e _
#### \d = números

In [None]:
# Localizar as letras separadas
df.versos.apply(lambda x: re.findall('\w',x))

In [None]:
# Localizar as palavras: combinando \w e *
df.versos.apply(lambda x: re.findall('\w+',x))

---
#### ( | ) = localizar um ou outro
#### ex: '(última|única)' = acha um ou o outro

In [None]:
df.versos.apply(lambda x: re.findall('como se fosse um (bêbado|pássaro)',x))

In [None]:
# se não existir o padrão, não vem nada!
df.versos.apply(lambda x: re.findall('como se tiveesse  um (bêbado|pássaro)',x))

![](https://i.imgur.com/zClNtMb.png) 

#### Quero localizar todas as proparoxítonas.
#### Quero também saber se as proparoxítonas são singular ou plural
#### Também quero saber se são masculinas ou femininas 
#### Quantos jeitos vocês conseguem pensar? 

Clique duas vezes aqui para ver algumas soluções
<font color='white'>  
>df.versos.apply(lambda x: re.findall('\w{0,}[áéíóú]\w{0,}$',x))
>df.versos.apply(lambda x: re.findall('\w*[áéíóú]\w*$',x))
>df.versos.apply(lambda x: re.findall('\w*[áéíóú][a-z]+$',x))
</font>