https://medium.com/swlh/understanding-regular-expressions-in-python-21410c64a6f2


# Regular Expressions
Utilizaremos las expresiones regulares para buscar patrones dentro de un string. Un simple `str1 in str2` es muy útil, pero no nos sirve si estamos buscando formatos de mails, teléfonos, caracteres a buscar dentro de otras palabras...

Para ello utilizaremos la librería de Python `re` (regular expression), cuyas principales funciones serían las siguientes:

##### search
Search devuelve un objeto de tipo *match* en el caso de encontrar el patrón contenido en cualquier parte del string. De lo contrario, devolverá *None*
```Python
re.search()
```

##### match
Match también acertará si el string empieza con el patrón en cuestión. No es el más utilizado ya que eso lo podemos hacer fácilmente con `search`
```Python
re.match()
```

##### findall
Devuelve una lista con todos los aciertos del patrón en el string
```Python
re.findall()
```

##### split
Devuelve una lista donde se ha dividido el string, según el patrón indicado. Como el `split()` del string
```Python
re.split()
```

##### sub
Reemplaza uno o más matches con otro string
```Python
re.sub()
```

In [4]:
import re

s="I am looking for a pattern in this string"
search = re.search(r"pattern", s)
print(search)
print(re.search(r"patternnnnn", s))

<re.Match object; span=(19, 26), match='pattern'>
None


In [6]:
"pattern" in s

True

Nos dice cuál ha sido el match, y de dónde a dónde ha ido tal match.

El mismo código se puede escribir de la misma manera mediante metacaracteres. En el siguiente ejemplo, vamos a buscar todo patrón que empiece por `p`, que la siguiente letra a `p` está comprendida entre `a`-`z` y el `+` indica que esas letras pueden estar más de una vez. Evidentemente, esto puede dar match con otros patrones.

In [7]:
s="I am pandas looking for a pattern in this string"

search=re.search("p[a-z]+",s)
print(search)

<re.Match object; span=(5, 11), match='pandas'>


# Metacaracteres

**Empezar/Acabar**
- `^` Empieza por ese string
- `$` Acaba por ese string

**Match de caracteres**
- `.` Match de cualquier caracter
- `\` caracteres especiales
    - `\A`, `\Z` inicio/fin con ese string
    - `\s`, `\S` Espacio o no espacio, respectivamente
    - `\t`, `\n`, `\r` Tabulación, salto de línea y return
    - `\d`, `\D` Digito o no digito respectivamente
    - `\w`, `\W` Carácter alfanumerico o no caracter alfanumerico respectivamente
    - `^.[$()|*+?` Caracteres propios de las expresiones regulares
- `()` Grupos de caracteres

**Match de varias opciones de caracteres**
- `|` *Or* para busqueda de varias posibilidades
- `[abc]` match de cualquier caracter dentro de los corchetes
- `[^abc]` match de cualquier caracter fuera de los corchetes
- `[a-z]` match de rango de caracteres

**Repeticiones**
- `*`: String seguido de 0 o más ocurrencias de un patrón
- `?` Cero o una única repetición
- `+` Una o más repeticiones
- `{m, n}` Match de m a n repeticiones de un caracter

**Otros**
- `|` match de RegEx `a` or RegEx `b`
- HTML
- Deteccion de mail
- Devuelve todas las ocurrencias
- Números de telefono
- Nombre de usuario
- Pin cajeros

## Empezar/Acabar
### `^` Empieza por
Match de todo string que empiece por el patrón

In [10]:
s = "I am looking for a pattern in this string"
print(re.search(r"I",s))
print(re.search(r"^I",s))
print(re.search(r"^I am",s))
print(re.search(r"am",s))

<re.Match object; span=(0, 1), match='I'>
<re.Match object; span=(0, 1), match='I'>
<re.Match object; span=(0, 4), match='I am'>
<re.Match object; span=(2, 4), match='am'>


### `$` Acaba por
Match de todo string que acabe por el patrón

In [11]:
s = "I am looking for a pattern in this string"
print(re.search(r"$I",s))
print(re.search(r"g$",s))
print(re.search(r"ing$",s))

None
<re.Match object; span=(40, 41), match='g'>
<re.Match object; span=(38, 41), match='ing'>


## Match Caracteres
### `.` Punto
Me vale cualquier caracter

In [18]:
s="patterntolook"
search = re.search(r"pattern..look", s)
print(search)
re.search(r"pattern..look", "patternyylook")
re.search(r"pattern..look", "patternyyylook")

<re.Match object; span=(0, 13), match='patterntolook'>


Combinando `^`, `$`  y `.`: *todo string que empiece por patron1 y acabe con patron2*

In [20]:
s = "I am looking for a pattern in this string"
search = re.search(r"^I a.*ing$", s)
print(search)

<re.Match object; span=(0, 41), match='I am looking for a pattern in this string'>


### `\` caracteres especiales
Tenemos varias opciones:
- `\A`, `\Z` inicio/fin con ese string
- `\s`, `\S` indica espacio o no espacio respectivamente
- `\t`, `\n`, `\r` para tabulación, salto de línea y return respectivamente
- `\d`, `\D` Digito o no digito respectivamente
- `\w`, `\W` Carácter alfanumerico o no caracter alfanumerico respectivamente
- `^.[$()|*+?` Caracteres propios de las expresiones regulares

#### `\A`, `\Z` inicio/fin con ese string

In [25]:
s = "I am looking for a pattern in this string"
print(re.search(r"\AI am looking", s))
print(re.search(r"this string\Z", s))
print(re.search(r"this string\Z otras cosas", s))

<re.Match object; span=(0, 12), match='I am looking'>
<re.Match object; span=(30, 41), match='this string'>
None


In [29]:
s1 = "string"
s2 = "string\n"
print(re.search(r"string\Z", s1))
print(re.search(r"string\Z", s2))
print(re.search(r"string$", s2))

<re.Match object; span=(0, 6), match='string'>
None
<re.Match object; span=(0, 6), match='string'>


#### `\s`, `\S` Espacio en blanco

In [31]:
s = "I am looking for a pattern in this string"
print(re.search(r"this\sstring", s))
print(re.search(r"this\s\S\Sring", s))

<re.Match object; span=(30, 41), match='this string'>
<re.Match object; span=(30, 41), match='this string'>


#### `\t`, `\n`, `\r` Tabulación, salto de línea y return

In [32]:
print(re.search(r"\n", "\nlinea 1"))

<re.Match object; span=(0, 1), match='\n'>


#### `\d`, `\D` Digito

In [34]:
print(re.search(r"street \d", "Liverpool street 9"))
print(re.search(r"street\D\d", "Liverpool street 9"))

<re.Match object; span=(10, 18), match='street 9'>
<re.Match object; span=(10, 18), match='street 9'>


#### `\w`, `\W` Carácter alfanumerico
Numero y letras en mayúsculas o minúsculas (y guión bajo) `[0-9a-zA-Z_]`

In [38]:
print(re.search(r"street \w", "Liverpool street 9"))
print(re.search(r"\wiverpool ", "Liverpool street 9"))
print(re.search(r"Liverp\w1 ", "Liverp_1"))

<re.Match object; span=(10, 18), match='street 9'>
<re.Match object; span=(0, 10), match='Liverpool '>
None


#### `^.[$()|*+?` Caracteres propios de las expresiones regulares

In [41]:
s = "Simple operation: (300$ + 400$)*2"
print(re.search(r"\(300\$ \+ 400\$\)", s))

<re.Match object; span=(18, 31), match='(300$ + 400$)'>


### `()` Grupos de caracteres
Muy útil junto con la sentencia or: `|`

In [44]:
s = "I am looking for a pattern in this string"
print(re.search(r"l(oo)king", s))
print(re.search(r"l(o)+king", s))

<re.Match object; span=(5, 12), match='looking'>
<re.Match object; span=(5, 12), match='looking'>


## Match de varias opciones de caracteres

### `|` *Or* para busqueda de varias posibilidades
Como si fuese un `or`, encuentra este caracter o cojunto de caracteres, dentro de varias posibilidades

In [46]:
s="patterntolook"
print(re.search(r"pattern(.)olook", s)) #Demasiado genérico
print(re.search(r"pattern(t|e|v|c)olook", s))

<re.Match object; span=(0, 13), match='patterntolook'>
<re.Match object; span=(0, 13), match='patterntolook'>


### `[]` Corchetes
La diferencia con `|` es que con los corchetes puedo establecer diferentes rangos

In [48]:
s = "I am looking for a pattern in this string"
print(re.search(r"loo[jkh]ing", s))
print(re.search(r"loo(k|e|v|c)ing", s))

<re.Match object; span=(5, 12), match='looking'>
<re.Match object; span=(5, 12), match='looking'>


In [53]:
print(re.search(r"loo[^jkh]ing", s))
print(re.search(r"loo^[jkh]ing", s))
print(re.search(r"loo[k]ing", s))

None
None
<re.Match object; span=(5, 12), match='looking'>


In [56]:
print(re.search(r"loo[j-l]ing", s))
print(re.search(r"loo[a-z]ing", s))
print(re.search(r"loo[0-9]ing", s))
print(re.search(r"loo[0-9j-l]ing", s))
print(re.search(r"loo[akoj-l]ing", s))

<re.Match object; span=(5, 12), match='looking'>
<re.Match object; span=(5, 12), match='looking'>
None
<re.Match object; span=(5, 12), match='looking'>
<re.Match object; span=(5, 12), match='looking'>


## Repeticiones
### `*` Cero o más repeticiones
Del carácter anterior al `*`

In [59]:
print(re.search(r"foo-*bar", "foo-bar"))
print(re.search(r"foo-*bar", "foobar"))
print(re.search(r"foo-*bar", "foo------bar"))

<re.Match object; span=(0, 7), match='foo-bar'>
<re.Match object; span=(0, 6), match='foobar'>
<re.Match object; span=(0, 12), match='foo------bar'>


In [61]:
print(re.search(r"fo(o-)*bar", "foobar"))
print(re.search(r"fo(o-)*bar", "foo-bar"))

None
<re.Match object; span=(0, 7), match='foo-bar'>


### `?` Cero o una única repetición
Del carácter anterior al `?`

In [66]:
print(re.search(r"foo-?bar", "foo-bar"))
print(re.search(r"foo-?bar", "foo--bar"))
print(re.search(r"foo-?bar", "foobar"))
print(re.search(r"fo(o-)?bar", "foo-bar"))
print(re.search(r"fo(o-)?bar", "foobar"))

<re.Match object; span=(0, 7), match='foo-bar'>
None
<re.Match object; span=(0, 6), match='foobar'>
<re.Match object; span=(0, 7), match='foo-bar'>
None


### `+` Más de una repetición
Buscamos letras de la `a` a la `z`, justo después de `pattern`. ¿Cuántas? Más de una

In [70]:
s = "I am looking for a pattern in this string"
print(re.search(r"pat+ern", s))
print(re.search(r"pattern[a-z\s]+", s))

<re.Match object; span=(19, 26), match='pattern'>
<re.Match object; span=(19, 41), match='pattern in this string'>


In [69]:
s="patterntolook"
print(re.search(r"pattern[a-z]+", s))

<re.Match object; span=(0, 13), match='patterntolook'>


### {m, n} Match de m a n repeticiones
Buscamos un caracter, o patrón que se repite seguidamente, entre m y n veces
- `{m}` m repeticiones
- `{m,}` al menos m repeticiones
- `{m,n}` de m a n repeticiones

In [74]:
print(re.search(r"x-{3}x", "x---x"))
print(re.search(r"(x-){3}x", "x---x"))
print(re.search(r"x-{3,}x", "x---x"))
print(re.search(r"x-{2,4}x", "x---x"))

<re.Match object; span=(0, 5), match='x---x'>
None
<re.Match object; span=(0, 5), match='x---x'>
<re.Match object; span=(0, 5), match='x---x'>


### `\b`, `\B`

In [76]:
s1 = "The cat scattered his food all over the room."
s2 = "The scattered his food all over the room."
s3 = "The scattered his food all over the room cat."

print(re.search(r"\bcat\b", s1))
print(re.search(r"\bcat\b", s2))
print(re.search(r"\bcat\b", s3))

<re.Match object; span=(4, 7), match='cat'>
None
<re.Match object; span=(41, 44), match='cat'>


## Otros
### | Match de RegEx `a` or RegEx `b`

In [2]:
import re
lista = ['a10', 'A100', 'A10', 'A0', 'A1', 'A9', 'J4', 'K4', 'A10', 'C10', 'A11']
[x for x in lista if re.search(r"^[A-Ja-j][1,9]$|^[A-Ja-j]10$", x)]

['a10', 'A10', 'A1', 'A9', 'A10', 'C10']

In [3]:
lista = ['a10', 'A100', 'A10', 'A0', 'A1', 'A9', 'J4', 'K4', 'A10', 'C10', 'A11']
[x for x in lista if re.search(r"^[A-Ja-j](10|[1,9])$", x)]

['a10', 'A10', 'A1', 'A9', 'A10', 'C10']

### HTML

In [74]:
s = "This is a <div> simple div</div> test"
print(re.findall(r"<div>(.*)</div>", s))

[' simple div']


### Deteccion de mail

In [77]:
email_address = 'Please contact us at: support@thebridge.com\n for any question'
print(re.search(r"[\w\.\-]+@[A-za-z\-\.]+\.[A-Za-z]+", email_address))

<re.Match object; span=(22, 39), match='support@thebridge'>


#### Devuelve todas las ocurrencias

In [81]:
email_address = "Please contact us at: support.data@data-science.com, xyz@thebridge.com"

print(re.findall(r"[\w\.\-]+@[A-za-z\-\.]+\.[A-Za-z]+", email_address))

['support.data@data-science.com', 'xyz@thebridge.com']


#### Números de telefono

In [73]:
numeros = ['34-739-941-941', '344-278-870-242', '34-999-876-292', '34-(345-8877-949', '34_905-089-682']
[x for x in numeros if re.search(r"^[0-9]+-[\d]", x)]

['34-739-941-941', '344-278-870-242', '34-999-876-292']

#### Nombre de usuario
Crea una expresion regular que valide si el nombre de usuario está bien escrito. Caracteres permitidos:
- solo minuscula
- numeros permitidos
- barra baja
- de 4 a 16 caracteres, ambos incluidos

In [87]:
users = ['Dani', 'dani', 'dani9', 'dani-', 'dani_', 'dAni_']
[x for x in users if re.search(r"^[a-z0-9_]{4,16}$", x)]

['dani', 'dani9', 'dani_']

In [88]:
[x for x in users if re.fullmatch(r"[a-z0-9_]{4,16}", x)]

['dani', 'dani9', 'dani_']

### Pin cajeros
Para validar el pin de un cajero, tenemos que comprobar que:
- El pin se compone de 4 o 6 números
- No está permitido caracteres

In [93]:
users = ['12', 'a234', '1234', '123456', '12345', '1234a']
[x for x in users if re.fullmatch(r"\d{4}|\d{6}", x)]

['1234', '123456']