<p style="text-align:right;font-size:0.9em">
Grau d'Enginyeria Informàtica. Algorísmica. Curs 2017-2018
</p>

<h1 style="padding:0.5em 0;font:Garamond;font-size:1-5em;color:#F90;background-color:#005">
Sessió de problemes 7: Algorismes de text 1 - Expressions regulars
</h1>

# Expressions regulars

Les expressions regulars són una manera de descriure un conjunt de cadenes de caràcters que segueixen un patró determinat.

### Construcció d'expressions
Per indicar el patró se segueixen unes pautes donades:

+ Inclusió d'un caràcter en un rang donat [x-y]. Per ex. L'expressió regular [a-z] descriu totes les cadenes de caràcters amb un caràcter que es correspon amb les lletres abcd...uvwxyz
+ Inclusió d'un caràcter en una seqüència donada [xyz]. Per ex. L'expressió regular [123] descriu totes les cadenes de caràcters amb el nombre 1, o el nombre 2 o el nombre 3.
+ Exclusió [^x]. Per ex. L'expressió regular [^5] descriu totes les cadenes de caràcters que no contenen el caràcter "5"
+ Metacaràcters
    + \d Qualsevol dígit, equivalent a [0-9].
    + \D Qualsevol caràcter no dígit, equivalent a [^0-9].
    + \s Qualsevol caràcter en blanc, equivalent a [ \t\n\r\f\v].
    + \S Qualsevol caràcter no blanc, equivalent a [^ \t\n\r\f\v].
    + \w Qualsevol caràcter alfanumèric, equivalent a [a-zA-Z0-9_].
    + \W Qualsevol caràcter no alfanumèric, equivalent a [^a-zA-Z0-9_].
+ Repetició (amb quantificadors): 
    + \* 0 o n repeticions. Per ex.ca*t descriu ct, cat, caat, caaat,...
    + \+ 1 o n repeticions. Per ex.ca+t descriu cat, caat, caaat, ...
    + {x} x repeticions exactament. Per ex. ca{2}t descriu caat
+ Alternativa
    + Amb la barra | indiquem que volem una o l'altra expressió. Per ex. c(a|e)t descriu cat i cet
    
### Concatenació d'expressions
+ Les diferentes expressions es poden concatenar simplement posant-les una darrera l'altra
+ A vegades ens caldrà agrupar-les amb parèntesi per indicar a qui afecta un determinat quantificador

## Com usar expressions regulars a Python

Per usar les expressions regulars a Python ens cal importar el mòdul re

import re

patro = r"el patró aquí"

després "compilem" el patró
p = re.compile(patro) 

un cop compilat podem cercar el patró a la cadena amb search()

In [1]:
#veiem un exemple:

import re
def check_expression(patro, text):
    patrocompilat = re.compile(patro)

    if patrocompilat.search(text):
        print("Fantàstic!")
    else:
        print("Glups!")
        

check_expression(r"ase", "Una frase qualsevol")

check_expression(r"abc", "Una frase qualsevol")

Fantàstic!
Glups!


si en una expressió regular volem fer servir un caràcter "reservat", afegim una barra al davant

In [3]:
check_expression(r"ase\.", "Una frase. Una altra frase")

check_expression(r"altra\.", "Una frase. Una altra frase")

Fantàstic!
Glups!


Per buscar text que comenci o acabi per un cert string, afegim els caràcters __^__ i __$__:

In [4]:
check_expression(r"^Una", "Una frase qualsevol")

check_expression(r"^frase", "Una frase qualsevol")

print()

check_expression(r"vol$", "Una frase qualsevol")

check_expression(r"frase$", "Una frase qualsevol")

Fantàstic!
Glups!

Fantàstic!
Glups!


Per buscar en un rang, usem  __[ ]__ on: __\d__ és [0-9], __\w__ és [a-zA-Z0-9]:

In [5]:
check_expression(r"2[0-5]", "25-32-67")

check_expression(r"[3-7][4-6]", "25-32-67")

check_expression(r"\d-\d-\d", "25-32-67")

check_expression(r"\w-\d", "aaaa-9999-aaaa-9999")

Fantàstic!
Glups!
Glups!
Fantàstic!


Alguns caràcters importants:
1. Per indicar __un caràcter qualsevol__, un punt: __.__ 
2. Per indicar __qualsevol nombre de repeticions__ d'un caràcter (pot ser 0), asterisc: __*__
3. Per indicar __com a mínim una repetició__ d'un caràcter, suma: __+__
4. Per indicar que un caràcter __pot no aparèixer__, interrogant: __?__

Podem aplicar-ho també a una expressió sencera, que posarem entre parèntesis

In [7]:
check_expression(r"2.-", "25-32-67")
check_expression(r"7.", "25-32-67")
print()
check_expression(r"abb*", "abaaab")
print()
check_expression(r"abb+", "abaaab")
check_expression(r"(ab)+", "abaaab")
print()
check_expression(r"abb?a", "abaaab")

Fantàstic!
Glups!

Fantàstic!

Glups!
Fantàstic!

Fantàstic!


Com hem vist, els parèntesis ens marquen que __tot__ ha de complir. Podem usar un _or_ lògic: __|__:

In [8]:
check_expression(r"(una)|(Una)", "Una frase qualsevol")

Fantàstic!


Les claus __{ }__ les usem per indicar que alguna expressió es __repeteix__:

In [9]:
check_expression(r"(\w{3}-){5}\w{3}", "123-456-789-aaa-bbb-ccc")

Fantàstic!


També podem marcar que es repeteixi en un "rang de cops" fent __{min, max}__

In [10]:
check_expression(r"(\w{3}-){5,7}", "123-456-789-aaa-bbb-ccc")
check_expression(r"(\w{3}-){5,7}", "123-456")

# Compte aquest últim! Pot semblar que sigui fals ja que es repeteix 8 cops
# Però li hem dit que com a mínim n'hi hagin 5,6 o 7 (que si que hi són)
check_expression(r"(\w{3}-){5,7}", "123-456-789-aaa-bbb-ccc-ddd-888")

Fantàstic!
Glups!
Fantàstic!


A banda de search, podem usar altres operadors amb les cadenes i l'expressió regular:

+ match() : determina si l'expressió regular encaixa amb el principi de la cadena
+ findall(): busca tots els encaixos amb el patró i els retorna com una llista
+ group(): torna la cadena que encaixa amb el patró
+ start(): torna la posició inicial de la cadena que encaixa amb el patró
+ end(): torna la posició final de la cadena que encaixa amb el patró
+ span(): torna una tupla amb la posició inicial i final de la cadena que encaixa amb el patró

## Exemples

In [1]:
import re
regex = r"([a-zA-Z]+) (\d+)"
if re.search(regex, "June 24"):
    match = re.search(regex, "June 24")
    print("Match at index %s, %s" % (match.start(), match.end()))
    print("Full match: %s" % (match.group()))
else:
    print("The regex pattern does not match. :(")

Match at index 0, 7
Full match: June 24


In [2]:
import re
line = "He is a German called Mayer."
if re.search(r"M[ae][iy]er",line): print("I found one!")

I found one!


In [3]:
line = "He is a German called Meier."
if re.search(r"M[ae][iy]er",line): print("I found one!")

I found one!


In [4]:
import re
mo = re.search("[0-9]+", "Customer number: 232454, Date: February 12, 2011")
print(mo.group())
print(mo.span())
print(mo.start())
print(mo.end())
print(mo.span()[0])
print(mo.span()[1])

232454
(17, 23)
17
23
17
23


## Exercici 1: Comprovar si un nom d'usuari és correcte. Per a ser-ho ha de complir:

1. Ser una cadena de més de 5 lletres que no contingui números
2. Seguida d'un número d'una sola xifra
3. Seguida del signe _@_
4. Seguit d'una de les paraules: _alumnes, alumni, docent, admin_
6. Seguit d'un punt: .
7. Seguit de la paraula: _ub.edu_

Per exemple:<br><br>
mpiclup7@alumnes.ub.edu<br>

In [None]:
# Escriure aquí el patró
regex =r" write your pattern here "

texts=["mpiclup7@alumnes.ub.edu",        # Fantàstic!
       "mp7@alumnes.ub.edu",             # Glups!
       "mpiclup74@alumnes.ub.edu",       # Glups!
       "mpiclup7@docent.ub.edu",         # Fantàstic!
       "m78picl7@alumnes.ub.edu",        # Glups!
       "mpiclup7@alumni.ub.edu",         # Fantàstic!
       "mpiclup7@alumnes.ub.edu.ub.edu", # Glups!
       "mpiclup7@admin.ub.edu",          # Fantàstic!
       "mpiclup7admin.ub.edu",           # Glups!
       "mpiclup7@admin.ub.ub.edu"]       # Glups!

for t in texts:
    check_expression(regex,t)

__Solució__:
<regex =r"[a-zA-Z]{6}\d@((alumn((es)|i))|(docent)|(admin))(\.ub\.edu)$">

Doble clic per veure'm

## Exercici 2. Resoldre el problema de la col.lecció CodisPostalsUK

<p style="text-align:right;font-size:0.9em">
&copy;Jordi Vitrià i Mireia Ribera
</p>