# Emparejar y buscar

[Pablo A. Haya](https://pablohaya.com)

Hay veces que queremos poner en foco en si un cadena de texto cumple o no determina expresión regular. 

La función `re.match()` exige que la expresión regular se cumpla desde el comienzo de la cadena. Esta función es habitual utilizarla como parte de una estructura `if:...else:` de manera que se tomen distintas acciones dependiendo si cumple o no la expresión regular.

En el siguiente ejemplo se comprueba si todas las letras de una palabra están en mayúsculas.

In [2]:
import re

if re.match(r"[A-Z]+","PABLITO"):
    print("Todas mayúsculas")
else:
    print("No todas mayúsculas")

Todas mayúsculas


**Prueba tú mismo**. La misma expresión regular que el último ejemplo con las cadenas `"PABLITO clavó"`.

Si queremos asegurar que la expresión también se cumpla hasta el final de la cadena tenemos que añadir el símbolo `$` al final de la misma.

In [3]:
if re.match(r"[A-Z]+$","PABLITO clavó"):
    print("Todas mayúsculas")
else:
    print("No todas mayúsculas")

No todas mayúsculas


Por ejemplo, si queremos detectar si una palabra termina en punto se nos podría ocurrir.

In [4]:
if re.match(r"\w+.$", "clavito."):
    print("Termina en punto")
else:
    print("No termina en punto")

Termina en punto


**Prueba tú mismo**. A comprobar si `"clavito"` termina en punto o no.

Hay que recordar que el `.` es un símbolo con un significado especial que hace referencia a cualquier caracter. De este manera, `\w+` empareja con `"clavit"`, y el `.` con la `o`. Es preciso incluir `\.` para especificar que nos referimos al caracter `.`, y distinguirlo del símbolo. 

**Prueba tú mismo**. A modificar la expresión regular para que `"clavito"` se detecte como que no termina en punto.

En otros lenguajes de programación es preciso incluir un marcador de principio de cadena `^` que en el caso de `Python` está implícito en la función `re.match()`. Así, `re.match(r"[A-Z]+$","PABLITO")` es equivalente `re.match(r"^[A-Z]+$","PABLITO")`.

La función `re.search()` busca la primera aparición que cumpla la expresión regular. Es similar a `re.match()` pero sin exigir que tenga que comenzar desde el principio del texto.

El siguiente ejemplo busca y empareja la primera aparición de una palabra que empieze por `cla` 

In [5]:
trabalenguas = "Pablito clavó un clavito, ¿qué clavito clavo Pablito?"

m = re.search(r"cla\w+", trabalenguas)
if m:
    print(m.group())

clavó


En caso de encontrar una cadena que empareje la expresión regular, es posible localizar donde empieza y donde acaba mediante los métodos `start()`, y `end()`, los cuales indican el número de caracteres desde el principio de la cadena.

In [6]:
print(m.start())
print(m.end())

8
13


Se puede comprobar que estos métodos devuelven los índices que delimitan la cadena encontrada dentro del texto. 

In [16]:
trabalenguas[m.start():m.end()]  

'clavó'

Utilizando estos índices, se encontrar todas las aparaciones que cumple la expresión regular aunque el código tiene cierta complejidad

In [20]:
trabalenguas = "Pablito clavó un clavito, ¿qué clavito clavo Pablito?"

m = re.search(r"cla\w+", trabalenguas) 
while (m):
    print(trabalenguas,"=>", m.group())
    trabalenguas = trabalenguas[m.end():]
    m = re.search(r"cla\w+", trabalenguas) 

Pablito clavó un clavito, ¿qué clavito clavo Pablito? => clavó
 un clavito, ¿qué clavito clavo Pablito? => clavito
, ¿qué clavito clavo Pablito? => clavito
 clavo Pablito? => clavo


## Ejercicios

**1. Ejercicio** Dado el siguiente listado de términos separados por comas:

```
1,20,300,999,-123,+54,1.0,1.238994,-4.534,+0.34,9.,.2,a33,64b
```

Define una expresión regular que reconozca si es un número natural. Para probar esta expresión regular con cada término, dividelo primero, y aplica la expresión regular por separado a cada uno. 

_Pista_: El resultado tiene que ser:

```
1 : ok
20 : ok
300 : ok
999 : ok
-123 : fallo
+54 : fallo
1.0 : fallo
1.238994 : fallo
-4.534 : fallo
+0.34 : fallo
9. : fallo
.2 : fallo
a33 : fallo
64b : fallo
```

In [None]:
import re

#numeros = ["1", "20","300","999","-123", "+54", "1.0", "1.238994", "-4.534", "+0.34", "9.", ".2", "a33", "64b"]
numeros = "1,20,300,999,-123,+54,1.0,1.238994,-4.534,+0.34,9.,.2,a33,64b".split(",")
for n in numeros:
    if re.match(r"\d+$", n):
        print(n, ": OK")
    else:
        print(n, ": fallo")

**2. Ejercicio** ¿Cómo modificarías la expresión regular anterior para reconocer números enteros negativos también? 

_Pista_: Fijarse en qué el número `-123` ahora si que cumple

In [19]:
import re

numeros = ["1", "20","300","999","-123", "+54", "1.0", "1.238994", "-4.534", "+0.34", ".2", "a33", "64b"]
for n in numeros:
    if re.match(r"-?\d+$", n):
        print(n, ": OK")
    else:
        print(n, ": fallo")

1 : OK
20 : OK
300 : OK
999 : OK
-123 : OK
+54 : err
1.0 : err
1.238994 : err
-4.534 : err
+0.34 : err
.2 : err
a33 : err
64b : err


**3. Ejercicio** Y si queremos reconocer también el símbolo `+`. 

_Pista_: Ejemplos de números que deberías reconocer hasta el momento con la misma expresión regular: 3934, -723, +10

In [26]:
import re

numeros = ["1", "20","300","999","-123", "+54", "1.0", "1.238994", "-4.534", "+0.34", "9.", ".2", "a33", "64b"]
for n in numeros:
    if re.match(r"[+-]?\d+$", n):
        print(n, ": OK")
    else:
        print(n, ": fallo")

1 : OK
20 : OK
300 : OK
999 : OK
-123 : OK
+54 : OK
1.0 : err
1.238994 : err
-4.534 : err
+0.34 : err
9. : err
.2 : err
a33 : err
64b : err


**4. Ejercicio** Ampliar la expresión regular anterior para que reconozca número decimales.

In [1]:
import re

numeros = ["1", "20","300","999","-123", "+54", "1.0", "1.238994", "-4.534", "+0.34", "9.", ".2", "a33", "64b"]
for n in numeros:
    if re.match(r"[+-.]?\d+([.]\d*)?$", n):
        print(n, ": OK")
    else:
        print(n, ": fallo")

1 : OK
20 : OK
300 : OK
999 : OK
-123 : OK
+54 : OK
1.0 : OK
1.238994 : OK
-4.534 : OK
+0.34 : OK
9. : OK
.2 : OK
a33 : fallo
64b : fallo


**5. Ejercicio** Realizar una expresión regular que reconozca fraciones enteras. Pruebala con la siguiente lista de términos:

```
1/2,2/3,3/4,12/12,1/123,123 / 2,+5/6,-3/5,2/,/1,a2/1,2/1a,2/4/4
```

_Pista_: El resultado tendría que ser

```
1/2 : OK
2/3 : OK
3/4 : OK
12/12 : OK
1/123 : OK
123 / 2 : OK
+5/6 : OK
-3/5 : OK
2/ : err
/1 : err
a2/1 : err
2/1a : err
2/4/4 : err
```

In [34]:
import re

#numeros = ["1/2", "2/3","3/4","12/12","1/123", "123 / 2", "a2/1", "2/1a"]
numeros = "1/2,2/3,3/4,12/12,1/123,123 / 2,+5/6,-3/5,2/,/1,a2/1,2/1a,2/4/4".split(",")
for n in numeros:
    if re.match(r"[+-]?\d+\s?/\s?\d+$", n):
        print(n, ": OK")
    else:
        print(n, ": fallo")

1/2 : OK
2/3 : OK
3/4 : OK
12/12 : OK
1/123 : OK
123 / 2 : OK
+5/6 : OK
-3/5 : OK
2/ : err
/1 : err
a2/1 : err
2/1a : err
2/4/4 : err


**6. Ejercicio** Realizar una expresión regular que reconozca fecha. Pruébala con la siguiente lista de términos:

```
4/7/2014,04/07/2014,4-7-2014,4.7.2014,04/Jul/2014
```

que tienen que ser reconocidos todos como fecha.

In [58]:
fechas = "4/7/2014,04/07/2014,4-7-2014,4.7.2014,04/Jul/2014".split(",")
for n in fechas:
    if re.match(r"\d{1,2}[./-][0-9A-Za-z]{1,3}[./-]\d{4}$", n):
        print(n, ": OK")
    else:
        print(n, ": fallo")

4/7/2014 : OK
04/07/2014 : OK
4-7-2014 : OK
4.7.2014 : OK
04/Jul/2014 : OK


**7. Ejercicio** Realizar una expresión regular que reconozca un porcentaje. Pruébala con el siguiente listado de términos:

```
1%,10%,10 %, 3.4%,-3.405%,13.87 %,%74
```

_Pista_: Debería emparejar todos excepto el último

In [61]:
import re

numeros = ["1%", "10%", "10 %", "3.4%", "-3.405%", "13.87 %", "%74"]
for n in numeros:
    if re.match(r"[+-]?(\d)+([.]\d*)?\s?%$", n):
        print(n, ": OK")
    else:
        print(n, ": fallo")

1% : OK
10% : OK
10 % : OK
3.4% : OK
-3.405% : OK
13.87 % : OK
%74 : err


**8. Ejercicio** Realizar una expresión regular que reconozca siglas separadas por puntos, y pruébala con el siguiente listado.

```
U.S.A.,U.S.A,EE.UU.,E.U,E.U.,USA
```

_Pista_: deberían emperajar todos excepto el último

In [68]:
import re

tokens = ["U.S.A.", "U.S.A", "EE.UU.","E.U", "E.U.","USA"]
for t in tokens:
    if re.match(r"\w+\.(\w\.?)+$", t):
        print(t, ": OK")
    else:
        print(t, ": fallo")

U.S.A. : OK
U.S.A : OK
EE.UU. : OK
E.U : OK
E.U. : OK
USA : err
