<img style="float: left;;" src='Figures/alinco.png' /></a>

# Introducción: Expresiones Regulares
___


Las expresiones regulares (a veces llamadas regex para abreviar) permiten al usuario buscar cadenas usando casi cualquier tipo de regla que se le ocurra. Por ejemplo, buscar todas las letras mayúsculas en una cadena o buscar un número de teléfono en un documento.

Las expresiones regulares son conocidas por su sintaxis aparentemente extraña. Esta extraña sintaxis es un subproducto de su flexibilidad. Las expresiones regulares deben poder filtrar cualquier patrón de cadena que pueda imaginar, por lo que tienen un formato de patrón de cadena complejo.

Las expresiones regulares se manejan usando la biblioteca ** re ** incorporada de Python. Consulte [los documentos] (https://docs.python.org/3/library/re.html) para obtener más información.

Empecemos con explicar como se buscarían patrones básicos de texto en una cadena!

## Búsqueda de patrones básicos

Imaginemos que tenemos la siguiente cadena:

In [1]:
text = 'and to assume among the powers of theearth, the separate and equal station to which the Laws of Nature'

Comenzaremos tratando de averiguar si la cadena "the" está dentro de la cadena de texto. Ahora podríamos hacer esto rápidamente con:

In [2]:
'the' in text

True

Pero mostremos el formato de las expresiones regulares, porque más adelante buscaremos patrones que no tengan una solución tan simple.

In [3]:
import re

In [4]:
patron = 'the'

In [5]:
match = re.search(patron, text)

In [6]:
match.span()

(20, 23)

In [7]:
match.start(), match.end()

(20, 23)

Ahora hemos visto que re.search () tomará el patrón, escaneará el texto y luego devolverá un objeto Match. Si no se encuentra ningún patrón, se devuelve None (en Jupyter Notebook esto solo significa que no se genera nada debajo de la celda).

Echemos un vistazo más de cerca a este objeto Match.

In [8]:
text[match.start():match.end()]

'the'

Notice the span, there is also a start and end index information.

Pero qué pasa si los patrones ocurren más de una vez?

In [9]:
text

'and to assume among the powers of theearth, the separate and equal station to which the Laws of Nature'


Observe que solo coincide con la primera instancia. Si quisiéramos una lista de todas las coincidencias, podemos usar el método .findall ():

In [10]:
matchs = re.findall('the', text)

In [11]:
matchs

['the', 'the', 'the', 'the']

Para obtener objetos coincidentes reales, use el iterador:

In [12]:
for match in re.finditer('the', text):
    print(match.span())

(20, 23)
(34, 37)
(44, 47)
(84, 87)


Si desea el texto real que coincida, puede usar el método .group ().

In [13]:
match.group()

'the'

# Patrones

Hasta ahora hemos aprendido a buscar una cadena básica. ¿Qué pasa con ejemplos más complejos? ¿Como intentar encontrar un número de teléfono en una gran cadena de texto? ¿O una dirección de correo electrónico?

Podríamos usar el método de búsqueda si conocemos el teléfono o el correo electrónico exactos, pero ¿y si no lo sabemos? Podemos conocer el formato general y podemos usarlo junto con expresiones regulares para buscar en el documento cadenas que coincidan con un patrón particular.

Aquí es donde la sintaxis puede parecer extraña al principio, pero tómate tu tiempo con esto; a menudo es solo cuestión de buscar el código del patrón.

¡Vamos a empezar!

## Identificadores de caracteres en Patrones

Los caracteres como un dígito o una sola cadena tienen diferentes códigos que los representan. Puede usarlos para crear una cadena de patrón. Observe cómo estos hacen un uso intensivo de la barra invertida \. Debido a esto, al definir una cadena de patrón para una expresión regular, usamos el formato:

     r'mypattern '
    
colocar la r delante de la cadena permite que Python comprenda que \ en la cadena del patrón no están destinadas a ser barras de escape.

A continuación puede encontrar una tabla con todos los identificadores posibles:

<table ><tr><th>Character</th><th>Description</th><th>Example Pattern Code</th><th >Exammple Match</th></tr>

<tr ><td><span >\d</span></td><td>A digit</td><td>file_\d\d</td><td>file_25</td></tr>

<tr ><td><span >\w</span></td><td>Alphanumeric</td><td>\w-\w\w\w</td><td>A-b_1</td></tr>



<tr ><td><span >\s</span></td><td>White space</td><td>a\sb\sc</td><td>a b c</td></tr>



<tr ><td><span >\D</span></td><td>A non digit</td><td>\D\D\D</td><td>ABC</td></tr>

<tr ><td><span >\W</span></td><td>Non-alphanumeric</td><td>\W\W\W\W\W</td><td>*-+=)</td></tr>

<tr ><td><span >\S</span></td><td>Non-whitespace</td><td>\S\S\S\S</td><td>Yoyo</td></tr></table>

Por ejemplo:


In [14]:
text = "Mi número de teléfono es: 408-333-1234"

In [18]:
patron = r'\d\d\d-\d\d\d-\d\d\d\d'

In [19]:
phone = re.search(patron, text)

In [20]:
phone.group()

'408-333-1234'

Note la repetición de \d. Eso es un poco molesto, especialmente si estamos buscando cadenas de números muy largas. Exploremos los posibles cuantificadores.

## Cuantificadores

Ahora que conocemos las designaciones de caracteres especiales, podemos usarlas junto con los cuantificadores para definir cuántos esperamos.

<table ><tr><th>Character</th><th>Description</th><th>Example Pattern Code</th><th >Exammple Match</th></tr>

<tr ><td><span >+</span></td><td>Occurs one or more times</td><td>	Version \w-\w+</td><td>Version A-b1_1</td></tr>

<tr ><td><span >{3}</span></td><td>Occurs exactly 3 times</td><td>\D{3}</td><td>abc</td></tr>



<tr ><td><span >{2,4}</span></td><td>Occurs 2 to 4 times</td><td>\d{2,4}</td><td>123</td></tr>



<tr ><td><span >{3,}</span></td><td>Occurs 3 or more</td><td>\w{3,}</td><td>anycharacters</td></tr>

<tr ><td><span >\*</span></td><td>Occurs zero or more times</td><td>A\*B\*C*</td><td>AAACC</td></tr>

<tr ><td><span >?</span></td><td>Once or none</td><td>plurals?</td><td>plural</td></tr></table>

Reescribamos nuestro patrón usando estos cuantificadores:

In [21]:
patron = r'\d{3}-\d{3}-\d{4}'

In [22]:
re.search(patron, text)

<re.Match object; span=(26, 38), match='408-333-1234'>

## Grupos

¿Y si quisiéramos hacer dos tareas, buscar números de teléfono, pero también poder extraer rápidamente su código de área (los primeros tres dígitos)? Podemos utilizar grupos para cualquier tarea general que implique agrupar expresiones regulares (para luego desglosarlas).

Usando el ejemplo del número de teléfono, podemos separar grupos de expresiones regulares usando paréntesis:

In [23]:
phone_pattern = re.compile(r'(\d{3})-(\d{3})-(\d{4})')

In [24]:
results= re.search(phone_pattern,text)

In [25]:
# Todo el resultado
results.group()

'408-333-1234'

In [29]:
results.group(0)

'408-333-1234'

In [26]:
# Can then also call by group position.
# remember groups were separated by parentheses ()
# Something to note is that group ordering starts at 1. Passing in 0 returns everything
results.group(1)

'408'

In [27]:
results.group(2)

'333'

In [28]:
results.group(3)

'1234'

In [30]:
# We only had three groups of parentheses
results.group(4)

IndexError: no such group

In [46]:
tel = 'mi nuevo numero de telefono es: +52-33160-27-392, +15-65874-28-387'

In [47]:
patron = r'(\+52)-(\d{5})-(\d{2})-(\d{3})'

In [48]:
patron_tel = re.compile(patron)

In [49]:
results= re.search(patron_tel,tel)

In [50]:
results

<re.Match object; span=(32, 48), match='+52-33160-27-392'>

In [51]:
results.group()

'+52-33160-27-392'

In [52]:
results.group(1), results.group(2)

('+52', '33160')

## Sintaxis adicional de expresiones regulares

### Operador Or ( | )

Utilice el operador de tubería para tener una declaración ** o **. Por ejemplo

In [53]:
re.search(r"man|woman", "This man was here")

<re.Match object; span=(5, 8), match='man'>

In [54]:
re.search(r"man|woman", "This woman was here")

<re.Match object; span=(5, 10), match='woman'>

### El carácter comodín

Utilice un "comodín" como ubicación que coincidirá con cualquier personaje colocado allí. Puede usar un simple punto **. ** para esto. Por ejemplo:

In [55]:
re.findall(r'.at', 'The cat is in the hat sat here')

['cat', 'hat', 'sat']

In [56]:
re.findall(r".at", "The bat went splat")

['bat', 'lat']

Observe cómo solo coincidimos con las primeras 3 letras, eso se debe a que necesitamos un **. ** para cada letra comodín. O utilice los cuantificadores descritos anteriormente para establecer sus propias reglas.

In [57]:
re.findall(r"...at","The bat went splat")

['e bat', 'splat']

Sin embargo, esto todavía lleva al problema de agarrar más de antemano. Realmente solo queremos palabras que terminen con "en".

In [59]:
re.findall(r'\S+at', 'The bat went splat')

['bat', 'splat']

### Empieza por y termina por

Podemos usar ** ^ ** para señalar que comienza con, y ** $ ** para señalar que termina con:

In [60]:
re.findall(r'\d$', "Esto termina con un número 2")

['2']

In [61]:
re.findall(r'^\d', '1 este texto inicia con un número')

['1']

Tenga en cuenta que esto es para toda la cadena, no para palabras individuales.

### Exclusión
Para excluir caracteres, podemos usar el símbolo ** ^ ** junto con un conjunto de corchetes ** [] **. Todo lo que esté dentro de los corchetes está excluido. Por ejemplo:

In [62]:
frase = "aquí hay 3 numeros 34 cracteres y 10 palabras en este texto"

In [64]:
l = re.findall(r'[^\d]', frase)
l

['a',
 'q',
 'u',
 'í',
 ' ',
 'h',
 'a',
 'y',
 ' ',
 ' ',
 'n',
 'u',
 'm',
 'e',
 'r',
 'o',
 's',
 ' ',
 ' ',
 'c',
 'r',
 'a',
 'c',
 't',
 'e',
 'r',
 'e',
 's',
 ' ',
 'y',
 ' ',
 ' ',
 'p',
 'a',
 'l',
 'a',
 'b',
 'r',
 'a',
 's',
 ' ',
 'e',
 'n',
 ' ',
 'e',
 's',
 't',
 'e',
 ' ',
 't',
 'e',
 'x',
 't',
 'o']

In [65]:
''.join(l)

'aquí hay  numeros  cracteres y  palabras en este texto'


Para volver a juntar las palabras, use un signo + 

In [66]:
l = re.findall(r'[^\d]+', frase)
l

['aquí hay ', ' numeros ', ' cracteres y ', ' palabras en este texto']

Podemos usar esto para eliminar la puntuación de una oración.

In [67]:
test_frase = 'Esto es una cadena de caracteres! Pero tiene signos de puntuación. Removerlo?'

In [69]:
l2 = re.findall(r'[^!.? ]+', test_frase)
l2

['Esto',
 'es',
 'una',
 'cadena',
 'de',
 'caracteres',
 'Pero',
 'tiene',
 'signos',
 'de',
 'puntuación',
 'Removerlo']

In [70]:
' '.join(l2)

'Esto es una cadena de caracteres Pero tiene signos de puntuación Removerlo'

## Soportes para agrupamiento

Como mostramos anteriormente, podemos usar corchetes para agrupar opciones, por ejemplo, si quisiéramos encontrar palabras con guiones:

In [72]:
text = 'Encontrar las palabras con-guiones in esta sentencia. Pero sin saber que tan larga-es la palabra'

In [73]:
re.findall(r'[\w]+-[\w]+', text)

['con-guiones', 'larga-es']

## Paréntesis para múltiples opciones

Si tenemos varias opciones para hacer coincidir, podemos usar paréntesis para enumerar estas opciones. Por ejemplo:

In [74]:
texto1="Hello, would you like some catfish?"
texto2='Hello, would you like to take a catnap?'
texto3="Hello, have you seen this caterpillar?"

In [76]:
re.search(r'cat(fish|nap|claw)', texto1)

<re.Match object; span=(27, 34), match='catfish'>

In [77]:
re.search(r'cat(fish|nap|claw)', texto2)

<re.Match object; span=(32, 38), match='catnap'>

In [78]:
re.search(r'cat(fish|nap|claw)', texto3)


Para obtener información completa sobre todos los posibles patrones, consulte:https://docs.python.org/3/howto/regex.html

In [79]:
becquer = """Podrá nublarse el sol eternamente; 
Podrá secarse en un instante el mar; 
Podrá romperse el eje de la tierra 
como un débil cristal. 
¡todo sucederá! Podrá la muerte 
cubrirme con su fúnebre crespón; 
Pero jamás en mí podrá apagarse 
la llama de tu amor."""

In [80]:
becquer

'Podrá nublarse el sol eternamente; \nPodrá secarse en un instante el mar; \nPodrá romperse el eje de la tierra \ncomo un débil cristal. \n¡todo sucederá! Podrá la muerte \ncubrirme con su fúnebre crespón; \nPero jamás en mí podrá apagarse \nla llama de tu amor.'

In [81]:
re.subn(r'\b(P|p)odrá\b', "Puede", becquer)

('Puede nublarse el sol eternamente; \nPuede secarse en un instante el mar; \nPuede romperse el eje de la tierra \ncomo un débil cristal. \n¡todo sucederá! Puede la muerte \ncubrirme con su fúnebre crespón; \nPero jamás en mí Puede apagarse \nla llama de tu amor.',
 5)