# Expresiones regulares

In [1]:
import re

## Lenguaje

### El caracter `.`

Con el caracter `.` podemos buscar cualquier caracter, cualquier caracter que haya en nuestro string será encontrado

In [2]:
string = "Hola, soy un string"
print(re.findall(".", string))

['H', 'o', 'l', 'a', ',', ' ', 's', 'o', 'y', ' ', 'u', 'n', ' ', 's', 't', 'r', 'i', 'n', 'g']


Si por ejemplo queremos secuencias de dos caracteres buscaríamos con dos `.`s seguidos

In [3]:
string1 = "Hola, soy un string"
string2 = "Hola, soy un string2"
print(re.findall("..", string1))
print(re.findall("..", string2))

['Ho', 'la', ', ', 'so', 'y ', 'un', ' s', 'tr', 'in']
['Ho', 'la', ', ', 'so', 'y ', 'un', ' s', 'tr', 'in', 'g2']


Como podemos ver `string1` tiene un numero impar de caracteres, por lo que la última `g` no la coge, si embargo `string2` tiene un número par de caracteres, por lo que coge todos los caracteres

Vamos a ver esto de otra forma, vamos a cambiar cada secuencia de tres caracteres por un símbolo de `$`

In [4]:
print(string1)
print(re.sub("...", "$  ", string1))

Hola, soy un string
$  $  $  $  $  $  g


He impreso dos espacios después de cada `$` para que se vea el cambio, se puede ver como el último caracter no lo convierte

### Las clases predefinidas y construidas

#### Dígito

Si queremos encontrar los dígitos necesitamos usar `\d`

In [5]:
string = "Hola, soy un string con 123 digitos"
print(re.findall("\d", string))

['1', '2', '3']


Al igual que antes, si por ejemplo queremos dos dígitos, ponemos `\d` dos veces

In [7]:
print(re.findall("\d\d", string))

['12']


#### Letra

Si queremos encontrar letras necesitamos usar `\w`. Se entiende por `word` todas las letras de la `a` a la `z`, de la `A` a la `Z`, los números de `0` al `9` y el `_`

In [11]:
string = "Hola, soy un_string con, 123 digitos"
print(re.findall("\w", string))

['H', 'o', 'l', 'a', 's', 'o', 'y', 'u', 'n', '_', 's', 't', 'r', 'i', 'n', 'g', 'c', 'o', 'n', '1', '2', '3', 'd', 'i', 'g', 'i', 't', 'o', 's']


Como vemos coge todo menos los espacios y la coma

#### Espacios

Si queremos encontrar espacios necesitamos `\s`

In [12]:
string = "Hola, soy un_string con, 123 digitos"
print(re.sub("\s", "*", string))

Hola,*soy*un_string*con,*123*digitos


Las expresiones regulares considera los saltos de línea como espacios

In [13]:
string = """Hola, soy un string 
con un salto de línea"""
print(re.sub("\s", "*", string))

Hola,*soy*un*string**con*un*salto*de*línea


#### Rangos

Si queremos buscar un rango usamos `[]`, por ejemplo, si queremos los números del 4 al 8 usamos

In [17]:
string = "1234567890"
print(re.findall("[4-8]", string))

['4', '5', '6', '7', '8']


Podemos ampliar el rango de búsqueda

In [18]:
string = "1234567890"
print(re.findall("[2-57-9]", string))

['2', '3', '4', '5', '7', '8', '9']


Si además queremos encontrar un caracter en concreto ponemos el carcacter seguido de `\`

In [19]:
string = "1234567890."
print(re.findall("[2-57-9\.]", string))

['2', '3', '4', '5', '7', '8', '9', '.']


### Los delimitadores `+`, `*`, `?`

#### Star `*`

Con el delimitador `*` se indica que quieres que te busque ninguno o todos, no uno a uno como antes

In [22]:
string = "Hola, soy un string con 12 123 digitos"
print(re.findall("\d", string))
print(re.findall("\d*", string))

['1', '2', '1', '2', '3']
['', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '12', '', '123', '', '', '', '', '', '', '', '', '']


Como se puede ver, al poner el `*` ha encontrado todas las posiciones en las que hay cero caracteres o todos los caracteres

#### Plus `+`

Con el delimitador `+` se indica que quieres que te busque uno o más

In [24]:
string = "Hola, soy un string con 1 12 123 digitos"
print(re.findall("\d+", string))

['1', '12', '123']


#### Optional `?`

Con el delimitador `?` se indica que quieres que te busque cero o uno

In [27]:
string = "Hola, soy un string con 1 12 123 digitos"
print(re.sub("\d?", "-", string))

-H-o-l-a-,- -s-o-y- -u-n- -s-t-r-i-n-g- -c-o-n- -- --- ---- -d-i-g-i-t-o-s-


### Contadores

Cuando queremos encontrar algo que aparezca x veces usamos los contadores mediante las llaves `{}`. Por ejemplo, si queremos encontrar una secuencia en la que al menos haya dos dígitos

In [29]:
string = "Hola, soy un string con 1 12 123 1234 1234digitos"
print(re.findall("\d{2}", string))

['12', '12', '12', '34', '12', '34']


Como se puede ver ha encontrado las secuencias `12` y `34`

Los contadores aceptan una cota superior e inferior `{inf, sup}`

In [31]:
string = "Hola, soy un string con 1 12 123 1234 1234digitos"
print(re.findall("\d{2,5}", string))

['12', '123', '1234', '1234']


Si no se define la cota superior, significa que se quiere como mínimo la cantidad de elementos que se ha indicado, pero sin límite superior

In [32]:
string = "Hola, soy un string con 1 12 123 1234 12345464168415641646451563416 digitos"
print(re.findall("\d{2,}", string))

['12', '123', '1234', '12345464168415641646451563416']


Si queremos usar la notación de cota superior e inferior, pero queremos un número fijo, se tiene que poner dicho número en las dos cotas

In [33]:
string = "Hola, soy un string con 1 12 123 1234 12345464168415641646451563416 digitos"
print(re.findall("\d{2,3}", string))

['12', '123', '123', '123', '454', '641', '684', '156', '416', '464', '515', '634', '16']


### Clases

Se pueden crear clases mediante corchetes `[]`. En realidad vimos que este servía para los rangos, pero, una vez que se define lo que se quiere que haya dentro, se puede considerar como una clase y operar con el

Por ejemplo, supongamos que tenemos un número de teléfono, que puede darse de las siguientes maneras
 * 666-66-66-66
 * 666-666-666
 * 666 666 666
 * 666 66 66 66
 * 666666666

Hay muchas maneras de dar un número, así que vamos a ver cómo crear una clase para definir el delimitador

Primero vamos a decir que busque todas las secuencias de números en las que haya como mínimo dos números

In [39]:
string1 = "666-66-66-66"
string2 = "666-666-666"
string3 = "666 66 66 66"
string4 = "666 666 666"
string5 = "666666666"
print(f"string1: {string1} -->", re.findall("\d{2,}", string1))
print(f"string2: {string2} -->", re.findall("\d{2,}", string2))
print(f"string3: {string3} -->", re.findall("\d{2,}", string3))
print(f"string4: {string4} -->", re.findall("\d{2,}", string4))
print(f"string5: {string5} -->", re.findall("\d{2,}", string5))

string1: 666-66-66-66 --> ['666', '66', '66', '66']
string2: 666-666-666 --> ['666', '666', '666']
string3: 666 66 66 66 --> ['666', '66', '66', '66']
string4: 666 666 666 --> ['666', '666', '666']
string5: 666666666 --> ['666666666']


Ahora definimos que encuentre el separador como un `-` o un espacio

In [41]:
string1 = "666-66-66-66"
string2 = "666-666-666"
string3 = "666 66 66 66"
string4 = "666 666 666"
string5 = "666666666"
print(f"string1: {string1} -->", re.findall("[\-\s]", string1))
print(f"string2: {string2} -->", re.findall("[\-\s]", string2))
print(f"string3: {string3} -->", re.findall("[\-\s]", string3))
print(f"string4: {string4} -->", re.findall("[\-\s]", string4))
print(f"string5: {string5} -->", re.findall("[\-\s]", string5))

string1: 666-66-66-66 --> ['-', '-', '-']
string2: 666-666-666 --> ['-', '-']
string3: 666 66 66 66 --> [' ', ' ', ' ']
string4: 666 666 666 --> [' ', ' ']
string5: 666666666 --> []


Como se ve en el último string no ha encontrado, por lo que añadimos un `?` para que encuentre cuando haya cero o uno

In [42]:
string1 = "666-66-66-66"
string2 = "666-666-666"
string3 = "666 66 66 66"
string4 = "666 666 666"
string5 = "666666666"
print(f"string1: {string1} -->", re.findall("[\-\s]?", string1))
print(f"string2: {string2} -->", re.findall("[\-\s]?", string2))
print(f"string3: {string3} -->", re.findall("[\-\s]?", string3))
print(f"string4: {string4} -->", re.findall("[\-\s]?", string4))
print(f"string5: {string5} -->", re.findall("[\-\s]?", string5))

string1: 666-66-66-66 --> ['', '', '', '-', '', '', '-', '', '', '-', '', '', '']
string2: 666-666-666 --> ['', '', '', '-', '', '', '', '-', '', '', '', '']
string3: 666 66 66 66 --> ['', '', '', ' ', '', '', ' ', '', '', ' ', '', '', '']
string4: 666 666 666 --> ['', '', '', ' ', '', '', '', ' ', '', '', '', '']
string5: 666666666 --> ['', '', '', '', '', '', '', '', '', '']
