# Descripción general de expresiones regulares

Las expresiones regulares (a veces llamadas regex para abreviar) permiten al usuario buscar cadenas utilizando casi cualquier tipo de regla que puedan surgir. Por ejemplo, buscar todas las letras mayúsculas en una cadena o buscar un número de teléfono en un documento.

Las expresiones regulares son conocidas por su sintaxis aparentemente extraña. Esta extraña sintaxis es un subproducto de su flexibilidad. Las expresiones regulares deben poder filtrar cualquier patrón de cadena que pueda imaginar, por lo que tienen un formato de patrón de cadena complejo.

¡Comencemos explicando cómo buscar patrones básicos en una cadena!

## Búsqueda de patrones básicos

Imaginemos que tenemos la siguiente cadena:

In [1]:
texto = "El número de teléfono de la persona es 408-555-1234. ¡Llame pronto!"

Comenzaremos tratando de averiguar si la cadena "teléfono" está dentro de la cadena de texto. Ahora podríamos hacer esto rápidamente con:

In [2]:
'teléfono' in texto

True

Pero mostremos el formato de las expresiones regulares, porque más adelante buscaremos patrones que no tengan una solución tan simple.

In [3]:
import re

In [4]:
patron = 'teléfono'

In [5]:
re.search(patron,texto)

<re.Match object; span=(13, 21), match='teléfono'>

In [6]:
patron = "NO EN TEXTO"

In [7]:
re.search(patron,texto)

Ahora hemos visto que re.search () tomará el patrón, escaneará el texto y luego devolverá un objeto Match. Si no se encuentra ningún patrón, se devuelve None (en Jupyter Notebook esto solo significa que no se genera nada debajo de la celda).

Echemos un vistazo más de cerca a este objeto Match.

In [8]:
patron = 'teléfono'

In [9]:
match = re.search(patron,texto)

In [10]:
match

<re.Match object; span=(13, 21), match='teléfono'>

Observe el intervalo, también hay una información de índice de inicio y finalización.

In [11]:
match.span()

(13, 21)

In [12]:
match.start()

13

In [13]:
match.end()

21

Pero, ¿y si el patrón ocurre más de una vez?

In [14]:
texto = "mi teléfono es un teléfono nuevo"

In [15]:
match = re.search("teléfono",texto)

In [16]:
match.span()

(3, 11)

Observe que solo coincide con la primera instancia. Si quisiéramos una lista de todas las coincidencias, podemos usar el método .findall ():

In [17]:
matches = re.findall("teléfono",texto)

In [18]:
matches

['teléfono', 'teléfono']

In [19]:
len(matches)

2

Para obtener objetos coincidentes reales, use el iterador:

In [20]:
for match in re.finditer("teléfono",texto):
    print(match.span())

(3, 11)
(18, 26)


Si desea el texto real que coincide, puede utilizar el método .group ().

In [21]:
match.group()

'teléfono'

# Patrones

Hasta ahora hemos aprendido a buscar una cadena básica. ¿Qué pasa con ejemplos más complejos? ¿Como intentar encontrar un número de teléfono en una gran cadena de texto? ¿O una dirección de correo electrónico?

Podríamos usar el método de búsqueda si conocemos el teléfono o el correo electrónico exactos, pero ¿y si no lo sabemos? Podemos conocer el formato general y podemos usarlo junto con expresiones regulares para buscar en el documento cadenas que coincidan con un patrón en particular.

Aquí es donde la sintaxis puede parecer extraña al principio, pero tómate tu tiempo con esto, a menudo es solo una cuestión de buscar el código del patrón.

¡Empecemos!

## Identificadores para caracteres en patrones

Los caracteres como un dígito o una sola cadena tienen diferentes códigos que los representan. Puede usarlos para crear una cadena de patrón. Observe cómo estos hacen un uso intensivo de la barra invertida \. Debido a esto, al definir una cadena de patrón para una expresión regular, usamos el formato:

     r'mispatrones '
    
colocar la r delante de la cadena permite que Python comprenda que \ en la cadena del patrón no están destinadas a ser barras de escape.

A continuación puede encontrar una tabla con todos los identificadores posibles:

<table ><tr><th>Caracterr</th><th>Descripcion</th><th>Ejemplo Codigo Patron</th><th >Ejemplo Match</th></tr>

<tr ><td><span >\d</span></td><td>Un digito</td><td>file_\d\d</td><td>archivo_25</td></tr>

<tr ><td><span >\w</span></td><td>Alfanumerico</td><td>\w-\w\w\w</td><td>A-b_1</td></tr>



<tr ><td><span >\s</span></td><td>Blanco espacio</td><td>a\sb\sc</td><td>a b c</td></tr>



<tr ><td><span >\D</span></td><td>Un no digito</td><td>\D\D\D</td><td>ABC</td></tr>

<tr ><td><span >\W</span></td><td>No alfanumerico</td><td>\W\W\W\W\W</td><td>*-+=)</td></tr>

<tr ><td><span >\S</span></td><td>No blanco espacio</td><td>\S\S\S\S</td><td>Yoyo</td></tr></table>

Por ejemplo:

In [22]:
texto = "Mi numero de telefono es 408-555-1234"

In [23]:
teléfono = re.search(r'\d\d\d-\d\d\d-\d\d\d\d',texto)

In [24]:
teléfono.group()

'408-555-1234'

Note la repetición de \ d. Eso es un poco molesto, especialmente si estamos buscando cadenas de números muy largas. Exploremos los posibles cuantificadores.

## Cuantificadores

Ahora que conocemos las designaciones de caracteres especiales, podemos usarlas junto con los cuantificadores para definir cuántos esperamos.

<table ><tr><th>Caracter</th><th>Descripcion</th><th>Ejemplo Codigo Patron</th><th >Ejemplo Match</th></tr>

<tr ><td><span >+</span></td><td>Ocurre una o mas veces</td><td>	Version \w-\w+</td><td>Version A-b1_1</td></tr>

<tr ><td><span >{3}</span></td><td>Ocurre exactamente 3 veces</td><td>\D{3}</td><td>abc</td></tr>



<tr ><td><span >{2,4}</span></td><td>Ocurre 2 a 4 veces</td><td>\d{2,4}</td><td>123</td></tr>



<tr ><td><span >{3,}</span></td><td>Ocurre 3 o mas</td><td>\w{3,}</td><td>cualquiercaracter</td></tr>

<tr ><td><span >\*</span></td><td>Ocurre cero o mas veces</td><td>A\*B\*C*</td><td>AAACC</td></tr>

<tr ><td><span >?</span></td><td>Un vez o ninguna</td><td>plural?</td><td>plural</td></tr></table>

Reescribamos nuestro patrón usando estos cuantificadores:

In [25]:
re.search(r'\d{3}-\d{3}-\d{4}',texto)

<re.Match object; span=(25, 37), match='408-555-1234'>

## Grupos

¿Y si quisiéramos hacer dos tareas, buscar números de teléfono, pero también poder extraer rápidamente su código de área (los primeros tres dígitos)? Podemos usar grupos para cualquier tarea general que implique agrupar expresiones regulares (para luego desglosarlas).

Usando el ejemplo del número de teléfono, podemos separar grupos de expresiones regulares usando paréntesis:

In [26]:
patron_teléfono = re.compile(r'(\d{3})-(\d{3})-(\d{4})')

In [27]:
resultados = re.search(patron_teléfono,texto)

In [28]:
# El resultado entero
resultados.group()

'408-555-1234'

In [29]:
# Entonces también puede llamar por posición de grupo.
# recuerde que los grupos fueron separados por paréntesis ()
# Algo a tener en cuenta es que el orden de grupo comienza en 1. Pasar 0 devuelve todo
resultados.group(1)

'408'

In [30]:
resultados.group(2)

'555'

In [31]:
resultados.group(3)

'1234'

In [32]:
# Solo teníamos tres grupos de paréntesis
resultados.group(4)

IndexError: no such group

## Sintaxis adicional de expresiones regulares
### Operador OR |
Utilice el operador de tubería para tener una declaración **OR**. Por ejemplo

In [33]:
re.search(r"hombre|mujer","Este hombre estuvo aqui")

<re.Match object; span=(5, 11), match='hombre'>

In [34]:
re.search(r"hombre|mujer","Esta mujer estuvo aqui.")

<re.Match object; span=(5, 10), match='mujer'>

### El carácter comodín

Utilice un "comodín" como ubicación que coincidirá con cualquier personaje colocado allí. Puede usar un punto **.** simple para esto. Por ejemplo:

In [35]:
re.findall(r"ato","El gato del sombrero se sentó aquí.")

['ato']

In [36]:
re.findall(r".ago","El murciélago se fue a aplastar")

['lago']

Observe cómo solo coincidimos con las primeras 3 letras, eso se debe a que necesitamos un **. ** para cada letra comodín. O utilice los cuantificadores descritos anteriormente para establecer sus propias reglas.

In [37]:
re.findall(r"...ar","El murciélago se fue a aplastar")

['astar']

Sin embargo, esto todavía lleva al problema de agarrar más de antemano. Realmente solo queremos palabras que terminen con "at".

In [38]:
# Uno o más espacios que no son espacios en blanco que terminan con 'ar'
re.findall(r'\S+ar',"El murciélago se fue a aplastar")

['aplastar']

### Empieza por y termina por

Podemos usar **^** para señalar que comienza con, y **$** para señalar que termina con:

In [39]:
# Termina con un numero
re.findall(r'\d$','Esto termina con un numero 2')

['2']

In [40]:
# Empieza con un numero
re.findall(r'^\d','1 es el numero mas solitario.')

['1']

Tenga en cuenta que esto es para toda la cadena, no para ### 

Exclusión

Para excluir caracteres, podemos usar el símbolo **^** junto con un conjunto de corchetes **[]**. Todo lo que esté dentro de los corchetes está excluido. Por ejemplo: palabras individuales.

In [41]:
frase = "hay 3 números 34 dentro de 5 esta oración"

In [42]:
re.findall(r'[^\d]',frase)

['h',
 'a',
 'y',
 ' ',
 ' ',
 'n',
 'ú',
 'm',
 'e',
 'r',
 'o',
 's',
 ' ',
 ' ',
 'd',
 'e',
 'n',
 't',
 'r',
 'o',
 ' ',
 'd',
 'e',
 ' ',
 ' ',
 'e',
 's',
 't',
 'a',
 ' ',
 'o',
 'r',
 'a',
 'c',
 'i',
 'ó',
 'n']

Para volver a juntar las palabras, use un signo +

In [43]:
re.findall(r'[^\d]+',frase)

['hay ', ' números ', ' dentro de ', ' esta oración']

Podemos usar esto para eliminar la puntuación de una oración.

In [44]:
frase_prueba = '¡Esto es una cadena! Pero tiene puntuación. ¿Cómo podemos eliminarlo?'

In [45]:
re.findall('[^!.? ]+',frase_prueba)

['¡Esto',
 'es',
 'una',
 'cadena',
 'Pero',
 'tiene',
 'puntuación',
 '¿Cómo',
 'podemos',
 'eliminarlo']

In [46]:
limpia = ' '.join(re.findall('[^!.? ]+',frase_prueba))

In [47]:
limpia

'¡Esto es una cadena Pero tiene puntuación ¿Cómo podemos eliminarlo'

## Soportes para agrupamiento

Como mostramos anteriormente, podemos usar corchetes para agrupar opciones, por ejemplo, si quisiéramos encontrar palabras con guiones:

In [48]:
texto = 'Encuentra solo las palabras con guión en esta oración. Pero no sabes cuanto tiempo son '

In [49]:
re.findall(r'[\w]+-[\w]+',texto)

[]

## Paréntesis para múltiples opciones
Si tenemos varias opciones para hacer coincidir, podemos usar paréntesis para enumerar estas opciones. Por ejemplo:

In [50]:
# Busque palabras que comiencen con gato y terminen con una de estas opciones: 'pez', 'siesta' o 'garra'
texto = 'Hola, ¿te gustaría un poco de bagre?'
textodos = "Hola, ¿te gustaría tomar una siesta?"
textotres = "Hola, ¿has visto esta oruga?"

In [51]:
re.search(r'gato(pez|siesta|garra)',texto)

In [52]:
re.search(r'gato(pez|siesta|garra)',textodos)

In [53]:
# Ninguno retornado
re.search(r'gato(pez|siesta|garra)',textotres)

### Conclusión

¡Excelente trabajo! Para obtener información completa sobre todos los patrones posibles, consulte: https://docs.python.org/3/howto/regex.html

____