# Quantificadores

Os quantificadores são o número de vezes que você deseja que um padrão seja correspondido para realmente contar como uma correspondência. <br>
O quantificador mais básico é a expressão de e{m,n}, em que 'e' é a expressão ou caractere que estamos combinando, 'm' é o número mínimo de vezes que você deseja que ele seja correspondido, e 'n' é o número máximo de vezes que o item pode ser correspondido.

##### ATENÇÃO: 
Nesse caso, não pode haver espaço entre m e n, isto é e{m,n} é diferente de e{m, n}

In [1]:
import re

In [8]:
notas = "ACAAAABCBCBAA"

# Quantas vezes esse aluno teve uma sequência consecutiva de A? 

re.findall('A{2,10}', notas)
# 2 é o nosso mínimo e 10 é o nosso máximo

['AAAA', 'AA']

Perceba que temos daus sequências, uma em que o aluno tirou quatro 'A's seguidos e uma em que ele tirou dois 'A's seguidos. 

In [9]:
# Podemos tentar fazer isso usando valores únicos e apenas repetindo o padrão.

re.findall('A{1,1}A{1,1}', notas)

['AA', 'AA', 'AA']

Como pode ver, isso é diferente do primeiro exemplo. O primeiro padrão procura uma combinação de dois 'A's até dez 'A's em uma linha. Dessa forma, ele vê quatro 'A's como uma sequência. <br>
O segundo padrão é procurar dois 'A's consecutivos. Ele vê dois 'A's seguidos imediatamente por mais dois 'A's.

Dizemos que o processador regex começa no início da string e consome variáveis que correspondem aos padrões da mesma forma que consome.

In [10]:
# É importante notar que a sintaxe do quantificador regex não permite que você se desvie do padrão {m,n}, ou seja, se você tiver um espaço entre as chaves obterá um resultado vazio.

re.findall('A{2, 10}', notas)

[]

In [12]:
# Como já vimos, se não incluirmos um quantificador quando o padrão for {1,1}, podemos colocar os caracteres de forma consecutiva. 

re.findall('AA', notas)

['AA', 'AA', 'AA']

In [None]:
# Se você tem um número entre chaves, ele é considerado o valor m e o valor n, então:

re.findall('A{2}', notas)

# indica que o 2 é o valor mínimo e o valor máximo.

['AA', 'AA', 'AA']

In [14]:
# Usando isso, podemos encontrar uma tendência decrescente nas notas de um aluno, por exemplo:

re.findall('A{1,10}B{1,10}C{1,10}', notas)

['AAAABC']

Isso é um pouco complicado, porque incluímos um máximo, que era arbitrariamente grande (parece gambiarra).

Existem outros três quantificadores usados como abreviatura que poderíamos pensar em usar aqui.
- Um asterisco '*', que é usado para combinar zero ou mais vezes.
- Um ponto de interrogação '?' para coincidir uma ou mais vezes. 
- Um sinal de mais '+' para coincidir uma ou mais vezes.

In [18]:
# Exemplo mais complexo: 
with open('datasets/ferpa.txt', 'r') as dados: 
    # Vamos ler isso em uma variável chamada wiki
    wiki = dados.read()


print(wiki)
    

Overview[edit]
FERPA gives parents access to their child's education records, an opportunity to seek to have the records amended, and some control over the disclosure of information from the records. With several exceptions, schools must have a student's consent prior to the disclosure of education records after that student is 18 years old. The law applies only to educational agencies and institutions that receive funds under a program administered by the U.S. Department of Education.

Other regulations under this act, effective starting January 3, 2012, allow for greater disclosures of personal and directory student identifying information and regulate student IDs and e-mail addresses.[2] For example, schools may provide external companies with a student's personally identifiable information without the student's consent.[2]

Examples of situations affected by FERPA include school employees divulging information to anyone other than the student about the student's grades or behavior,

In [None]:
# Ao examinar esse documento, uma das coisas que notamos é que todos os cabeçalhos têm a palavra 'edit' entre colchetes
# Se quiséssemos obter uma lista de todos os cabeçalhos deste artigo, poderíamos fazer isso usando re.findal()

re.findall('[a-zA-Z]{1,100}\[edit\]', wiki)
# Estamos procurando uma palavra que possui de a-zA-Z que tenha de 1 até 100 dessas letras seguida por [edit]. 
# MAS POR QUE DAS '\' ?
# R: Lembrando que existem caracteres especiais, como '\n', então se coloca uma '\' antes do caractere especial, que nesse caso são os '[]' para indicar ao interpretador do Python que aquilo não é para ser um caractere especial. 

['Overview[edit]', 'records[edit]', 'records[edit]']

In [None]:
# Isso não funcionou muito bem. Tem como deixar mais compacto.

# Vamos melhorar isso de forma iterativa.
# Primeiro, podemos usar \w para combinar qualquer letra, incluindo dígitos e números. 

re.findall('[\w]{1,100}\[edit\]', wiki)
# O '\w' substituiu qualquer letra de a-zA-Z e números. 


['Overview[edit]', 'records[edit]', 'records[edit]']

O '\w' é um metacaractere e indica um padrão especial de qualquer letra ou dígito. Na verdade, existem vários metacaractere (olhe a tabela da aula 9, lá tem alguns dos mais usados)

### ATENÇÃO: 
- Pesquise sobre a documentação dos metacaracteres

In [27]:
# Há outros três quantificadores que podemos usar para encurtar a sintaxe do curly brace. Podemos usar o '*' para combinar zero ou mais vezes.

re.findall('[\w]*\[edit\]', wiki)

['Overview[edit]', 'records[edit]', 'records[edit]']

In [29]:
# Agora que reduzimos o regex, vamos melhorá-lo um pouco mais. Podemos adicionar espaços usando o caractere de espaço. 

re.findall('[\w ]*\[edit\]', wiki)

['Overview[edit]',
 'Access to public records[edit]',
 'Student medical records[edit]']

In [None]:
# Isso nos gerou uma lista de títulos de seções na página da Wikipedia. Agora podemos criar uma lista de títulos fazendo uma iteração e aplicando outra regex

for titulo in re.findall('[\w ]*\[edit\]', wiki):
    # Vamos pegar o resultado intermediário, dividir sempre que aparecer um colchetes e pegar o primeiro resultado
    #print(re.split('[\[]', titulo)[0])
    titulo = str(titulo).split('[')
    print(titulo[0])

Overview
Access to public records
Student medical records


Dessa forma, pegamos apenas os títulos reais