# Expresiones regulares

## Buscar y reemplazar

Un ejemplo común del uso de expresiones regulares (regex) es buscar y reemplazar. Por ejemplo, los editores de palabras como Microsoft Word incorporan esta característica. 

Existen algunas limitaciones de *buscar y reemplazar*.

```text
The cat chased the mouse. The cat caught the mouse.
```

Si se desea cambia *cat* por *dog*

```text
The dog chased the mouse. The dog caught the mouse.
```



In [2]:
import re
text = "The cat chased the mouse. The cat caught the mouse."

new_text = text.replace('cat', 'dog')
new_text

'The dog chased the mouse. The dog caught the mouse.'

Qué pasa si aplicamos `replace` a una sentencia más compleja:

In [3]:
text = "The cat chased the mouse deep down into the catacombs. The cat would reach a state of catharsis if it were to catch that mouse."

new_text = text.replace('cat', 'dog')
new_text

'The dog chased the mouse deep down into the dogacombs. The dog would reach a state of dogharsis if it were to dogch that mouse.'

El resultado no es el esperado, por que *cat* terminan correspondiendo no solo con *cat*, si no con toda palabra con *cat* en ella, incluyendo *catharsis* y *catacombs*.

Otro problema, con formatos de fechas:

```text
12/24/2012, $50.00
12/25/2012, $50.00
12/28/2012, $102.00
1/2/2012, $90.00
1/3/2012, $250.00
1/10/2012, $150.00
1/14/2012, $10.00
2/1/2012, $42.00
```

Considerar que la última fecha debe ser: *2/1/2013*. Reemplazar 2012 por 2013 no funcionaría por que se necesita cambiar solo el año que sigue después de enero.

Las expresiones regulares nos permiten trabajar con patrones, por lo que no estamos limitados solo a buscar correspondencias con *cat*, se puede buscar patrones que correspondan con:

- *cat* cuando esta al principio de la palabra
- *cat* cuando esta al final de la palabra
- *cat* cuando es una sola palabra
- *cat* cuando aparezca más de tres veces en una sola sentencia.

> En el primer ejemplo, se necesita encontrar *cat* como una sola palabra y no como parte de otras palabras, como *catharsis*.

> En el segundo ejemplo, el número *2012* es precedido por *1/*, *uno u otros dos números, y un /*.

**Con regex podemos resolver estos problemas. **

El poder de  regex es encontrar si y donde los patrones ocurren. Si tuvieramos un millón de facturas y no se pueden poner en un Excel y necesitamos filtrar rápidamente las cantidades de seis cifras, o se tiene un pdf de 500 páginas y se necesita resaltar los sustantivos propios, nombres de personas y lugares. Mediante patrones tenemos la posibilidad esos patrones.

## Word bondaries



In [4]:
message = "hi world, it's hip to have big thighs"

new_message = message.replace('hi', 'hello')
new_message

"hello world, it's hellop to have big thelloghs"

El reemplazo literal de *hi* no funciona, por qué no queremos reemplazar *hi*, queremos reemplzar *hi* cuando se encuentra sola la palabra, no como parte de otra palabra, como es el caso de *thighs*.

El *word bondarie* o limite de palabra se refiere a tanto el principio y final de una palabra. Una palabra es una secuencia de uno o más caracteres alfanuméricos, incluyendo de la A a la Z (minúsculas y mayúsculas), y cualquier otros digíto numérico.

Por lo que un *word bondarie* o límite de palabra puede ser espacio, punto o signo de exclamación; o el principio o fin de una linea (por ejemplo, tecla de retorno).

Por lo tanto `dog`, `a`, `37signal`, y `_` son todas palabras. La frase `upside-down` en realidad consiste en dos palabras, como el guión no es un límite palabra (termina la palabra `upside` y procede a la palabra `down`). La sintaxis de regex para coincidir con un límite de palabra es `\b` (El uso de minúsculas o mayúsculas importa, no es lo mismo `\b` que `\B`).



In [8]:
message = "hi world, it's hip to have big thighs"

re.sub(r'\bhi', 'hello', message)

"hello world, it's hellop to have big thighs"

In [9]:
message = "hi world, it's hip to have big thighs"

re.sub(r'\bhi\b', 'hello', message)

"hello world, it's hip to have big thighs"

## Escape `\`

En el ejemplo de `\b` no es literalmente la `b` si no es tipo especial de símbolo. El uso de `\` puede ser utilizado como símbolo de escape.

In [10]:
text = "The cat chased the mouse deep down into the catacombs. The cat would reach a state of catharsis if it were to catch that mouse."

re.sub(r'\bcat\b', 'dog', text)

'The dog chased the mouse deep down into the catacombs. The dog would reach a state of catharsis if it were to catch that mouse.'