<img src="../files/misc/logo.png" width=300/>
<h1 style="color:#872325"> Regular Expressions (Regex)</h1>

[Regex](https://docs.python.org/3.4/library/re.html#module-re) o *Regular Expression* es un texto que describe un patrón de busqueda dentro de un *corpus* (conjunto de texto). 

Un *regex* nos ayuda a encontrar patrones dentro de un texto tanto para búsqueda como remplazo de texto. En ocasiones, métodos como `str.replace` no son suficientes para un objecivo, en esos casos usamos *regex*.

En Python, la librería para usar *regular expressions* es `re`.

Formalmente, una expresión regular es
> una notación algebráica para caraterizar un conjunto de strings

In [1]:
import re

Como un ejemplo para motivar su uso, consideremos el cuento *The Egg* por Andy Weir.

In [2]:
%%bash
head -6 ../files/lec05/egg.txt

The Egg
By: Andy Weir
 
You were on your way home when you died.
It was a car accident. Nothing particularly remarkable, but fatal nonetheless. You left behind a wife and two children. It was a painless death. The EMTs tried their best to save you, but to no avail. Your body was so utterly shattered you were better off, trust me.
And that’s when you met me.


In [3]:
# Leemos cuento y lo guardamos dentro de la variable "egg"
with open("../files/lec05/egg.txt", "r", encoding="utf-8") as f:
    egg = f.read()

Para encontrar un string mediante `re` usamos el método `.search`

In [4]:
re.search("human", egg)

<re.Match object; span=(2372, 2377), match='human'>

### Syntaxis básica de Regex

El verdadero poder de *regex* es poder encontrar patrones de búsqueda sin declarar explícitamente qué es lo que se está buscando. Pensemos, por ejemplo, que quisieramos encontrar dentro de un texto las palabras *niño*, *niña*, *niños* o *niñas*. Hacerlo solamente con python sería una tarea ardua. Con regex, expresar la busqueda de este conjunto de palabras sería de la siguiente manera: `niñ[oa]s?`.

Del ejemplo anterior, `[oa]` expresa un conjunto de donde se elige `a` u `o`; `s?` expresa que `s` es un carácter opcional. Al igual que Python, *regex* tiene una sintáxis. La sintáxis básica es la que sigue:

1. `.` Encuentra cualquier carácter
2. `\s` Cualquier espacio en blanco
3. `\S` Cualquiera que no sea espacios en blanco
4. `\w` Cualquier carácter alfanumérico (`a`,..,`z`,`A`,..,`Z`,`0`,..,`9`)
5. `\W` Cualquier carácter no alfanumérico
6. `(...)` Agrupa términos
7. `(xxx|yyy)` Encuentra `xxx` o `yyy`.
8. `Machines?` `s` es opcional (Encuentra `Machine` o `Machines`)
9. `x*` Encuentra 0 o más repeticiones de `x`: ` `, `x`, `xxxxx...xxx`
10. `x+` Encuentra 1 o más repeticiones de `x`: , `x`, `xxxxx...xxx`
10. `[a-z]` encuentra cualquier letra minúscula (de `a` a la `z`)
11. `x{4}` encuentra exactamente 4 repeticiones de `x`
12. `x{1,4}` encuentra de 1 a 4 repeticiones de `x`
13. `x{2, }` encuentra 2 o más repeticiones de `x`
14. `^smth` encuentra `smth` al principio del string.
15. `x[^abc]` encuentra cualquier conjunto de caracterés que no contenga ninguna `a`, `b` o `c` como segunda posicion. E.g., `xd`, `xe`, `x.`, `x-`
16. `(?:aaa|bbb)` agrupa `aaa` o `bbb` sin regresarlo como un patrón encontrado. *capture but don't retrieve*.

#### Dos Funciones de `re`
`re.search(patron, string)`: Regresa la primera ocurrencia de buscar `patron` dentro de `string`. Regresa `None` si no encuentra.

`re.findall(patron, string)`: Regresa una lista de todas ocurrencias en `string` buscando `patron`.

`re.sub(patron, remplazo, string)`

In [5]:
re.search(r"The E\..", egg)

In [6]:
re.findall("fel\w", egg)

['felt', 'fell']

In [7]:
re.findall("\w+tr\w+", egg)

['strode', 'stretched']

In [8]:
re.findall("\w*tr\w+", egg)

['tried', 'trust', 'truck', 'strode', 'stretched']

In [9]:
re.findall(r"[Yy]ou\s\w+", egg)[:5]

['You were', 'you died', 'You left', 'you were', 'you met']

In [10]:
re.findall(r"[Yy]ou\s(\w+)", egg)[:5]

['were', 'died', 'left', 'were', 'met']

In [12]:
re.findall("^(?:You|I) (?:[a-z]+ ?)+\.", egg, re.M)

['You were on your way home when you died.',
 'You looked around.',
 'You looked at me with fascination.',
 'You followed along as we strode through the void.',
 'I stopped walking and took you by the shoulders.',
 'I looked you in the eye.',
 'You stared blankly at me.',
 'You fell silent.',
 'You thought for a long time.']

## Lookaheads
Un _lookahead_ en regex es una sequencia de texto que queremos (o no) capturar si alguna condición se cumple. En Python podemos distinguir entre cuatro tipos de lookaheads:


* Positive Lookahead `(?=...)`: hacemos un match del texto si `...` se encuentra en la siguiente posición del texto
* Negative lookahead `(?!...)`: hacemos un match del texto si `...` **no** se encuentra en la siguiente posición del texto
* Positive lookbehind `(?<=...)`: hacemos un match del texto si `...` precede al resto del patrón a encontrar
* Negative lookbehind `(?<!...)`: hacemos un match del texto si `...` **no** precede al resto del patrón a encontrar

In [13]:
# Positive Lookahead
re.findall("'.+'(?= (?:You|I) asked)", egg)

["'What... what happened?'",
 "'What is this place?'",
 "'Are you god?'",
 "'So what’s the point, then?'",
 "'Seriously?'",
 "'Why?'"]

In [14]:
# Negative lookahead
re.findall("[yY]our(?!self)[\s\w]+", egg)

['your way home when you died',
 'Your body was so utterly shattered you were better off',
 'your main concern is for your family',
 'Your kids will remember you as perfect in every way',
 'Your wife will cry on the outside',
 'your marriage was falling apart',
 'your past lives',
 'Your soul is more magnificent',
 'your finger in a glass of water to see if it',
 'your immense consciousness',
 'your universe',
 'your next life',
 'your way']

<h2 style="color:teal">Ejemplo</h2>

Analizando código fuente

In [15]:
import re
import requests

url = "https://raw.githubusercontent.com/psf/requests/master/requests/sessions.py"
r = requests.get(url)
reqtxt = r.text

1. Encontemos todas las funciones definidas dentro del código fuente

In [16]:
m1 = re.findall("(?<=def )\w+", reqtxt)
m1

['merge_setting',
 'merge_hooks',
 'get_redirect_target',
 'should_strip_auth',
 'resolve_redirects',
 'rebuild_auth',
 'rebuild_proxies',
 'rebuild_method',
 '__init__',
 '__enter__',
 '__exit__',
 'prepare_request',
 'request',
 'get',
 'options',
 'head',
 'post',
 'put',
 'patch',
 'delete',
 'send',
 'merge_environment_settings',
 'get_adapter',
 'close',
 'mount',
 '__getstate__',
 '__setstate__',
 'session']

2. Encontremos todas las llamdas a la función `get` con sus respectivos argumentos

In [17]:
m2 = re.findall("get\(.+\)", reqtxt)
m2

["get('response')",
 "get('response')",
 'get(self, resp)',
 'get(old_parsed.scheme, None), None)',
 'get(resp)',
 'get(resp)',
 "get('no_proxy')",
 "get(scheme, environ_proxies.get('all'))",
 "get('https://httpbin.org/get')",
 "get('https://httpbin.org/get')",
 'get(self, url, **kwargs)',
 "get('stream')",
 "get('no_proxy')",
 "get('REQUESTS_CA_BUNDLE')",
 "get('CURL_CA_BUNDLE'))"]

3. Encontremos todas las llamadas a la función `get` exluyendo el momento de su definición, i.e., no queremos hacer match en `def get(...`

In [18]:
m3 = re.findall("(?<!def )get\(.+\)", reqtxt)
m3

["get('response')",
 "get('response')",
 'get(self, resp)',
 'get(old_parsed.scheme, None), None)',
 'get(resp)',
 'get(resp)',
 "get('no_proxy')",
 "get(scheme, environ_proxies.get('all'))",
 "get('https://httpbin.org/get')",
 "get('https://httpbin.org/get')",
 "get('stream')",
 "get('no_proxy')",
 "get('REQUESTS_CA_BUNDLE')",
 "get('CURL_CA_BUNDLE'))"]

4. Encuentra el momento de la definición `get`, i.e., queremos hacer match en `def get(...`

In [19]:
m4 = re.findall("(?<=def )get\(.+\)", reqtxt)
m4

['get(self, url, **kwargs)']

<h2 style="color:crimson">Ejercicios</h2>

1. Dado el string `S1 = "aaa aba aca a.a a+a aaa"`, encuentra todas las ocurrencias de conjunto de carácteres cuyo primer y tercer es `a` y el segundo carácter, ningun espacio en blanco o `a`

---

2. En el inglés, un verbo regular en pasado participio termina con `ed`, e.g., *lived*, *gained*, *asked*. Encuentra todos los verbos regulares en pasado participio dentro de Egg.

---

3. Del ejercicio 2 anterior, cuenta el número de veces que se dice cada verbo. Hint: usa la clase `Counter` dentro de la librería `collections`

---

4. Encuentra todas las ocurrencias dentro de la variable `egg` que empiecen con `the` ó `The` seguido de cualquier número de número de palabras y termine con `of`. E.g., `the meaning of`, `The grand adventures of`, `the big parade of`.

---

5. Dentro del texto egg se escribe explicitamente lo que dice el narrador de la siguiente forma `"'...,'  I said"`. Encuentra todas las oraciones en las que enfatiza lo que haya dicho. Por ejemplo, para `"'Now you’re getting it,' I said"`, deberíamos recabar `"'Now you’re getting it,'"`