## Regular expressions (expresiones regulares) o regex

```python
import re
```

Una **`expresión regular`** es una cadena de caracteres que es utilizada para describir o encontrar patrones dentro de otros strings, en base al uso de delimitadores y ciertas reglas de sintaxis.

|Función                     | Descripción                                                                |
|----------------------------|----------------------------------------------------------------------------|
|**`re.search(re, string)`** | Encuentra la primera ocurrencia de un **`re`** en un string.               |
|**`re.findall(re, string)`**| Encuentra todas las ocurrencias de un **`re`** en un string.               |
|**`re.compile()`**          | Convierte un patron de **`regex`** de **`string`** a un objeto **`regex`**.|
|**`re.split(re, string)`**  | Similar a **`.split()`** de python.                                        |
|**`re.sub(re, string)`**    | Similar a **`.replace()`** de python.                                      |



|regex       | Descripción|
|------------|------------|
|**`\`**     | Marca de caractér especial.                                             |
|**`.`**     | Cualquier caracter menos salto de linea.                                |
|**`\d`**    | Un dígito (0-9).                                                        |
|**`\D`**    | Alfabético (No dígito (0-9)).                                           |
|**`\w`**    | Cualquier caracter alfanumerico (a-z, A-Z, 0-9, \_).                    |
|**`\W`**    | Cualquier caracter no alfanumerico.                                     |
|**`\s`**    | Caracter de tipo espacio (espacio, tabulador, salto de linea).          |
|**`\S`**    | Caracter diferente de tipo espacio (espacio, tabulador, salto de linea).|
|**`\b`**    | Principio o final de palabras.                                          |
|**`\B`**    | Opuesto al principio o final de palabras.                               |
|**`^`**     | Comienzo de una linea.                                                  |
|**`$`**     | Final de una linea.                                                     |
|**`[]`**    | Conjunto de caracteres opcionales.                                      |
|**`[^ ]`**  | Excluye caracteres opcionales.                                          |
|**`\|`**    | O inclusivo.                                                            |
|**`( )`**   | Agrupar caracteres.                                                     |
|**`*`**     | 0 o mas.                                                                |
|**`+`**     | 1 o mas.                                                                |
|**`?`**     | 0 o 1.                                                                  |
|**`{3}`**   | Numero exacto.                                                          |
|**`{3, 4}`**| Rango de numeros (Minimo, Maximo).                                      |

In [1]:
import re

In [2]:
# Para buscar (similar a find de listas)

re.search(r"todos", "Buen día a todos")

# Retorna un objeto "re" con los indices donde esta la coincidencia

<re.Match object; span=(11, 16), match='todos'>

In [5]:
# Para buscar (similar a find)

re.search(r"todos", "Buen día a todos").span() 

# Con span(0) retorna los indices donde esta la coincidencia en una tupla

(11, 16)

In [6]:
# Realiza una busqueda de todas las ocurrencias

re.findall(r"todos", "Buen día a todos. Como todos los días hoy será un gran día")

# Retorna una lista con los elementos que encontró

['todos', 'todos']

In [7]:
# Similar a re.findall

pattern  = re.compile("todos")

pattern.finditer("Buen día a todos. Como todos los días hoy será un gran día")

# .finditer() retorna un iterador (similar a un generador)

<callable_iterator at 0x29679dc59a0>

In [9]:
pattern  = re.compile("todos")
iterador = pattern.finditer("Buen día a todos. Como todos los días hoy será un gran día. Todos los dias sale el sol, todos")

for i in iterador:
    print(f"{i}\n{i.span(0)}\n{i.group(0)}")
    print("*"*30)

<re.Match object; span=(11, 16), match='todos'>
(11, 16)
todos
******************************
<re.Match object; span=(23, 28), match='todos'>
(23, 28)
todos
******************************
<re.Match object; span=(88, 93), match='todos'>
(88, 93)
todos
******************************


In [10]:
# Similar a .split()
re.split(r" ", "Buen día a todos. Como todos los días hoy será un gran día.")

['Buen',
 'día',
 'a',
 'todos.',
 'Como',
 'todos',
 'los',
 'días',
 'hoy',
 'será',
 'un',
 'gran',
 'día.']

In [11]:
# Similar a replace
re.sub(r"todos", "tod@s", "Buen día a todos. Como todos los días hoy será un gran día.")

'Buen día a tod@s. Como tod@s los días hoy será un gran día.'

#### Usando metacaracteres

In [12]:
# Encuentra las vocales a

re.findall(r"a", "Buen día a todos. Como todos los días hoy será un gran día")

['a', 'a', 'a', 'a', 'a']

In [13]:
pattern  = re.compile("a")
iterador = pattern.finditer("Buen día a todos. Como todos los días hoy será un gran día. Todos los dias sale el sol, todos")

for i in iterador:
    print(f"{i}\n{i.span(0)}\n{i.group(0)}")
    print("*"*30)

<re.Match object; span=(7, 8), match='a'>
(7, 8)
a
******************************
<re.Match object; span=(9, 10), match='a'>
(9, 10)
a
******************************
<re.Match object; span=(35, 36), match='a'>
(35, 36)
a
******************************
<re.Match object; span=(52, 53), match='a'>
(52, 53)
a
******************************
<re.Match object; span=(57, 58), match='a'>
(57, 58)
a
******************************
<re.Match object; span=(72, 73), match='a'>
(72, 73)
a
******************************
<re.Match object; span=(76, 77), match='a'>
(76, 77)
a
******************************


In [None]:
# Encuentra las vocales a y e

re.findall(r"[ae]", "Buen día a todos. Como todos los días hoy será un gran día")

['e', 'a', 'a', 'a', 'e', 'a', 'a']

In [None]:
# Encuentra todas las vocales

re.findall(r"[aeiou]", "Buen día a todos. Como todos los días hoy será un gran día")

In [15]:
# El punto indica cualquier elemento

re.findall(r"tod.s", "todos, todas, todes, tod@s")

['todos', 'todas', 'todes', 'tod@s']

In [16]:
# Encuentra todas las mayusculas a través de un rango

re.findall(r"[A-Z]", "Buen día a todos. Como todos los días hoy será un gran día")

['B', 'C']

In [17]:
# Encuentra todas las minusculas a través de un rango

re.findall(r"[a-z]", "Buen día a todos. Como todos los días hoy será un gran día")

['u',
 'e',
 'n',
 'd',
 'a',
 'a',
 't',
 'o',
 'd',
 'o',
 's',
 'o',
 'm',
 'o',
 't',
 'o',
 'd',
 'o',
 's',
 'l',
 'o',
 's',
 'd',
 'a',
 's',
 'h',
 'o',
 'y',
 's',
 'e',
 'r',
 'u',
 'n',
 'g',
 'r',
 'a',
 'n',
 'd',
 'a']

**Las expresiones regulares se pueden concatenar para formar nuevas expresiones regulares; si A y B son expresiones regulares, AB también es una expresión regular. En general, si una cadena p coincide con A y otra cadena q coincide con B , la cadena "pq" coincidirá con AB**

In [18]:
# Encuentra todas las mayusculas a través de un rango seguido de una minuscula

re.findall(r"[A-Z][a-z]", "Buen día a todos. Como todos los días hoy será un gran día")

['Bu', 'Co']

In [None]:
# Encuentra todas las mayusculas a través de un rango seguido de 3 minusculas

re.findall(r"[A-Z][a-z][a-z][a-z]", "Buen día a todos. Como todos los días hoy será un gran día")

In [19]:
# Encuentra números

re.findall(r"[0-9]", "El 31 de diciembre es noche vieja")

['3', '1']

In [20]:
# Encuentra números

re.findall(r"[\d]", "El 31 de diciembre es noche vieja")

['3', '1']

In [21]:
# Que NO coincida con un número

re.findall(r"[^0-9]", "El 31 de diciembre es noche vieja")

['E',
 'l',
 ' ',
 ' ',
 'd',
 'e',
 ' ',
 'd',
 'i',
 'c',
 'i',
 'e',
 'm',
 'b',
 'r',
 'e',
 ' ',
 'e',
 's',
 ' ',
 'n',
 'o',
 'c',
 'h',
 'e',
 ' ',
 'v',
 'i',
 'e',
 'j',
 'a']

In [22]:
# Similar a [^0-9]

re.findall(r"[\D]", "El 31 de diciembre es noche vieja")

['E',
 'l',
 ' ',
 ' ',
 'd',
 'e',
 ' ',
 'd',
 'i',
 'c',
 'i',
 'e',
 'm',
 'b',
 'r',
 'e',
 ' ',
 'e',
 's',
 ' ',
 'n',
 'o',
 'c',
 'h',
 'e',
 ' ',
 'v',
 'i',
 'e',
 'j',
 'a']

In [23]:
# Encuentra un número con 2 dígitos

re.findall(r"[0-9][0-9]", "El 31 de diciembre es noche vieja")

['31']

In [24]:
# Encuentra un número con 2 dígitos

re.findall(r"[\d][\d]", "El 31 de diciembre es noche vieja")

['31']

In [25]:
# Encuentra todos los elementos que no sean números, letras ni espacios

re.findall(r"[^a-zA-Z0-9\s]", "De #Vacaciones con @MiAmigo en la #Playa")

['#', '@', '#']

In [26]:
re.split(r"[^a-zA-Z0-9\s]", "De #Vacaciones con @MiAmigo en la #Playa")

['De ', 'Vacaciones con ', 'MiAmigo en la ', 'Playa']

In [28]:
# Encuentra todos los hashtag y arrobas

re.findall(r"[^\w\s]", "!De #Vacaciones con @MiAmigo en la #Playa!")

['!', '#', '@', '#', '!']

In [29]:
# Encuentra todos los hashtag y arrobas

re.findall(r"[^a-zA-Z0-9\s](\w+)", "De #Vacaciones con @MiAmigo en la #Playa")

['Vacaciones', 'MiAmigo', 'Playa']

In [30]:
# Encuentra todos los hashtag
re.findall(r"#(\w+)", "De #Vacaciones con @MiAmigo en la #Playa")

['Vacaciones', 'Playa']

In [31]:
# Encuentra todos los arrobas
re.findall(r"@(\w+)", "De #Vacaciones con @MiAmigo en la #Playa")

['MiAmigo']

In [32]:
pattern = r"[a-zA-Z0-9]+\.?\_?[a-zA-Z0-9]+@[a-zA-Z0-9]+\.[a-zA-Z][a-zA-Z]+"

re.findall(pattern, "hola@como.es, 12123asdsa.asdas@sd.com, _asdas@asd.1212, jelous_mary@msn.com")

['hola@como.es', '12123asdsa.asdas@sd.com', 'jelous_mary@msn.com']

### Ejercicios:
- Crea las **`regex`** para encontrar lo siguiente y describe que trabajo realizan los **`metacaracteres`**:
1. Un número telefonico de España
2. Un hashtag que comience con un número en lugar de una letra
3. Un hashtag que comience con un número o letra
4. Un número impar de dos dígitos
5. Palabras que comiencen con "_"
6. Palabras que comiencen con "\\"
7. Palabras que tengan la siguiente estructura: "<....>" (menor que al inicio y mayor que la final).
8. Palabras que contengan un número al final
9. Un correo electronico de gmail.com
10. Cualquier correo electronico que termine en .com