<img style="float: left;;" src='Figures/alinco.png' /></a>

# Introducción: Expresiones Regulares
___


Las expresiones regulares (a veces llamadas regex para abreviar) permiten al usuario buscar cadenas usando casi cualquier tipo de regla que se le ocurra. Por ejemplo, buscar todas las letras mayúsculas en una cadena o buscar un número de teléfono en un documento.

Las expresiones regulares son conocidas por su sintaxis aparentemente extraña. Esta extraña sintaxis es un subproducto de su flexibilidad. Las expresiones regulares deben poder filtrar cualquier patrón de cadena que pueda imaginar, por lo que tienen un formato de patrón de cadena complejo.

Las expresiones regulares se manejan usando la biblioteca ** re ** incorporada de Python. Consulte [los documentos] (https://docs.python.org/3/library/re.html) para obtener más información.

Empecemos con explicar como se buscarían patrones básicos de texto en una cadena!

## Búsqueda de patrones básicos

Imaginemos que tenemos la siguiente cadena:

Comenzaremos tratando de averiguar si la cadena "teléfono" está dentro de la cadena de texto. Ahora podríamos hacer esto rápidamente con:

Pero mostremos el formato de las expresiones regulares, porque más adelante buscaremos patrones que no tengan una solución tan simple.

Ahora hemos visto que re.search () tomará el patrón, escaneará el texto y luego devolverá un objeto Match. Si no se encuentra ningún patrón, se devuelve None (en Jupyter Notebook esto solo significa que no se genera nada debajo de la celda).

Echemos un vistazo más de cerca a este objeto Match.

Notice the span, there is also a start and end index information.

Pero qué pasa si los patrones ocurren más de una vez?


Observe que solo coincide con la primera instancia. Si quisiéramos una lista de todas las coincidencias, podemos usar el método .findall ():

Para obtener objetos coincidentes reales, use el iterador:

Si desea el texto real que coincida, puede usar el método .group ().

# Patrones

Hasta ahora hemos aprendido a buscar una cadena básica. ¿Qué pasa con ejemplos más complejos? ¿Como intentar encontrar un número de teléfono en una gran cadena de texto? ¿O una dirección de correo electrónico?

Podríamos usar el método de búsqueda si conocemos el teléfono o el correo electrónico exactos, pero ¿y si no lo sabemos? Podemos conocer el formato general y podemos usarlo junto con expresiones regulares para buscar en el documento cadenas que coincidan con un patrón particular.

Aquí es donde la sintaxis puede parecer extraña al principio, pero tómate tu tiempo con esto; a menudo es solo cuestión de buscar el código del patrón.

¡Vamos a empezar!

## Identificadores de caracteres en Patrones

Los caracteres como un dígito o una sola cadena tienen diferentes códigos que los representan. Puede usarlos para crear una cadena de patrón. Observe cómo estos hacen un uso intensivo de la barra invertida \. Debido a esto, al definir una cadena de patrón para una expresión regular, usamos el formato:

     r'mypattern '
    
colocar la r delante de la cadena permite que Python comprenda que \ en la cadena del patrón no están destinadas a ser barras de escape.

A continuación puede encontrar una tabla con todos los identificadores posibles:

<table ><tr><th>Character</th><th>Description</th><th>Example Pattern Code</th><th >Exammple Match</th></tr>

<tr ><td><span >\d</span></td><td>A digit</td><td>file_\d\d</td><td>file_25</td></tr>

<tr ><td><span >\w</span></td><td>Alphanumeric</td><td>\w-\w\w\w</td><td>A-b_1</td></tr>



<tr ><td><span >\s</span></td><td>White space</td><td>a\sb\sc</td><td>a b c</td></tr>



<tr ><td><span >\D</span></td><td>A non digit</td><td>\D\D\D</td><td>ABC</td></tr>

<tr ><td><span >\W</span></td><td>Non-alphanumeric</td><td>\W\W\W\W\W</td><td>*-+=)</td></tr>

<tr ><td><span >\S</span></td><td>Non-whitespace</td><td>\S\S\S\S</td><td>Yoyo</td></tr></table>

Por ejemplo:


Note la repetición de \d. Eso es un poco molesto, especialmente si estamos buscando cadenas de números muy largas. Exploremos los posibles cuantificadores.

## Cuantificadores

Ahora que conocemos las designaciones de caracteres especiales, podemos usarlas junto con los cuantificadores para definir cuántos esperamos.

<table ><tr><th>Character</th><th>Description</th><th>Example Pattern Code</th><th >Exammple Match</th></tr>

<tr ><td><span >+</span></td><td>Occurs one or more times</td><td>	Version \w-\w+</td><td>Version A-b1_1</td></tr>

<tr ><td><span >{3}</span></td><td>Occurs exactly 3 times</td><td>\D{3}</td><td>abc</td></tr>



<tr ><td><span >{2,4}</span></td><td>Occurs 2 to 4 times</td><td>\d{2,4}</td><td>123</td></tr>



<tr ><td><span >{3,}</span></td><td>Occurs 3 or more</td><td>\w{3,}</td><td>anycharacters</td></tr>

<tr ><td><span >\*</span></td><td>Occurs zero or more times</td><td>A\*B\*C*</td><td>AAACC</td></tr>

<tr ><td><span >?</span></td><td>Once or none</td><td>plurals?</td><td>plural</td></tr></table>

Reescribamos nuestro patrón usando estos cuantificadores:

## Grupos

¿Y si quisiéramos hacer dos tareas, buscar números de teléfono, pero también poder extraer rápidamente su código de área (los primeros tres dígitos)? Podemos utilizar grupos para cualquier tarea general que implique agrupar expresiones regulares (para luego desglosarlas).

Usando el ejemplo del número de teléfono, podemos separar grupos de expresiones regulares usando paréntesis:

## Sintaxis adicional de expresiones regulares

### Operador Or ( | )

Utilice el operador de tubería para tener una declaración ** o **. Por ejemplo

### El carácter comodín

Utilice un "comodín" como ubicación que coincidirá con cualquier personaje colocado allí. Puede usar un simple punto **. ** para esto. Por ejemplo:

Observe cómo solo coincidimos con las primeras 3 letras, eso se debe a que necesitamos un **. ** para cada letra comodín. O utilice los cuantificadores descritos anteriormente para establecer sus propias reglas.

Sin embargo, esto todavía lleva al problema de agarrar más de antemano. Realmente solo queremos palabras que terminen con "en".

### Empieza por y termina por

Podemos usar ** ^ ** para señalar que comienza con, y ** $ ** para señalar que termina con:

Tenga en cuenta que esto es para toda la cadena, no para palabras individuales.

### Exclusión
Para excluir caracteres, podemos usar el símbolo ** ^ ** junto con un conjunto de corchetes ** [] **. Todo lo que esté dentro de los corchetes está excluido. Por ejemplo:


Para volver a juntar las palabras, use un signo + 

Podemos usar esto para eliminar la puntuación de una oración.

## Soportes para agrupamiento

Como mostramos anteriormente, podemos usar corchetes para agrupar opciones, por ejemplo, si quisiéramos encontrar palabras con guiones:

## Paréntesis para múltiples opciones

Si tenemos varias opciones para hacer coincidir, podemos usar paréntesis para enumerar estas opciones. Por ejemplo:


Para obtener información completa sobre todos los posibles patrones, consulte:https://docs.python.org/3/howto/regex.html