## Regular expressions (expresiones regulares) o regex

```python
import re
```

Una **`expresión regular`** es una cadena de caracteres que es utilizada para describir o encontrar patrones dentro de otros strings, en base al uso de delimitadores y ciertas reglas de sintaxis.

|Función                     | Descripción                                                                |
|----------------------------|----------------------------------------------------------------------------|
|**`re.search(re, string)`** | Encuentra la primera ocurrencia de un **`re`** en un string.               |
|**`re.findall(re, string)`**| Encuentra todas las ocurrencias de un **`re`** en un string.               |
|**`re.compile()`**          | Convierte un patron de **`regex`** de **`string`** a un objeto **`regex`**.|
|**`re.split(re, string)`**  | Similar a **`.split()`** de python.                                        |
|**`re.sub(re, string)`**    | Similar a **`.replace()`** de python.                                      |



|regex       | Descripción|
|------------|------------|
|**`\`**     | Marca de caractér especial.                                             |
|**`.`**     | Cualquier caracter menos salto de linea.                                |
|**`\d`**    | Un dígito (0-9).                                                        |
|**`\D`**    | Alfabético (No dígito (0-9)).                                           |
|**`\w`**    | Cualquier caracter alfanumerico (a-z, A-Z, 0-9, \_).                    |
|**`\W`**    | Cualquier caracter no alfanumerico.                                     |
|**`\s`**    | Caracter de tipo espacio (espacio, tabulador, salto de linea).          |
|**`\S`**    | Caracter diferente de tipo espacio (espacio, tabulador, salto de linea).|
|**`\b`**    | Principio o final de palabras.                                          |
|**`\B`**    | Opuesto al principio o final de palabras.                               |
|**`^`**     | Comienzo de una linea.                                                  |
|**`$`**     | Final de una linea.                                                     |
|**`[]`**    | Conjunto de caracteres opcionales.                                      |
|**`[^ ]`**  | Excluye caracteres opcionales.                                          |
|**`\|`**    | O inclusivo.                                                            |
|**`( )`**   | Agrupar caracteres.                                                     |
|**`*`**     | 0 o mas.                                                                |
|**`+`**     | 1 o mas.                                                                |
|**`?`**     | 0 o 1.                                                                  |
|**`{3}`**   | Numero exacto.                                                          |
|**`{3, 4}`**| Rango de numeros (Minimo, Maximo).                                      |

In [None]:
import re

In [None]:
# Para buscar (similar a find de listas)

re.search(r"todos", "Buen día a todos")

# Retorna un objeto "re" con los indices donde esta la coincidencia

In [None]:
# Para buscar (similar a find)

re.search(r"todos", "Buen día a todos").span(0) 

# Con span(0) retorna los indices donde esta la coincidencia en una tupla

In [None]:
# Realiza una busqueda de todas las ocurrencias

re.findall(r"todos", "Buen día a todos. Como todos los días hoy será un gran día")

# Retorna una lista con los elementos que encontró

In [None]:
# Similar a re.findall

pattern  = re.compile("todos")

pattern.finditer("Buen día a todos. Como todos los días hoy será un gran día")

# .finditer() retorna un iterador (similar a un generador)

In [None]:
pattern  = re.compile("todos")
iterador = pattern.finditer("Buen día a todos. Como todos los días hoy será un gran día")

for i in iterador:
    print(f"{i}\n{i.span(0)}\n{i.group(0)}")
    print("*"*30)

In [None]:
# Similar a .split()
re.split(r" ", "Buen día a todos. Como todos los días hoy será un gran día.")

In [None]:
# Similar a replace
re.sub(r"todos", "tod@s", "Buen día a todos. Como todos los días hoy será un gran día.")

#### Usando metacaracteres

In [None]:
# Encuentra las vocales a

re.findall(r"a", "Buen día a todos. Como todos los días hoy será un gran día")

In [None]:
# Encuentra las vocales a y e

re.findall(r"[ae]", "Buen día a todos. Como todos los días hoy será un gran día")

In [None]:
# Encuentra todas las vocales

re.findall(r"[aeiou]", "Buen día a todos. Como todos los días hoy será un gran día")

In [None]:
# El punto indica cualquier elemento

re.findall(r"tod.s", "todos, todas, todes, tod@s")

In [None]:
# Encuentra todas las mayusculas a través de un rango

re.findall(r"[A-Z]", "Buen día a todos. Como todos los días hoy será un gran día")

In [None]:
# Encuentra todas las minusculas a través de un rango

re.findall(r"[a-z]", "Buen día a todos. Como todos los días hoy será un gran día")

**Las expresiones regulares se pueden concatenar para formar nuevas expresiones regulares; si A y B son expresiones regulares, AB también es una expresión regular. En general, si una cadena p coincide con A y otra cadena q coincide con B , la cadena "pq" coincidirá con AB**

In [None]:
# Encuentra todas las mayusculas a través de un rango seguido de una minuscula

re.findall(r"[A-Z][a-z]", "Buen día a todos. Como todos los días hoy será un gran día")

In [None]:
# Encuentra todas las mayusculas a través de un rango seguido de 3 minusculas

re.findall(r"[A-Z][a-z][a-z][a-z]", "Buen día a todos. Como todos los días hoy será un gran día")

In [None]:
# Encuentra números

re.findall(r"[0-9]", "El 31 de diciembre es noche vieja")

In [None]:
# Encuentra números

re.findall(r"[\d]", "El 31 de diciembre es noche vieja")

In [None]:
# Que NO coincida con un número

re.findall(r"[^0-9]", "El 31 de diciembre es noche vieja")

In [None]:
# Similar a [^0-9]

re.findall(r"[\D]", "El 31 de diciembre es noche vieja")

In [None]:
# Encuentra un número con 2 dígitos

re.findall(r"[0-9][0-9]", "El 31 de diciembre es noche vieja")

In [None]:
# Encuentra un número con 2 dígitos

re.findall(r"[\d][\d]", "El 31 de diciembre es noche vieja")

In [None]:
# Encuentra todos los elementos que no sean números, letras ni espacios

re.findall(r"[^a-zA-Z0-9\s]", "De #Vacaciones con @MiAmigo en la #Playa")

In [None]:
# Encuentra todos los hashtag y arrobas

re.findall(r"[^\w\s]", "De #Vacaciones con @MiAmigo en la #Playa")

In [None]:
# Encuentra todos los hashtag y arrobas

re.findall(r"[^a-zA-Z0-9\s](\w+)", "De #Vacaciones con @MiAmigo en la #Playa")

In [None]:
# Encuentra todos los hashtag
re.findall(r"#(\w+)", "De #Vacaciones con @MiAmigo en la #Playa")

In [None]:
# Encuentra todos los arrobas
re.findall(r"@(\w+)", "De #Vacaciones con @MiAmigo en la #Playa")

### Ejercicios:
- Crea las **`regex`** para encontrar lo siguiente y describe que trabajo realizan los **`metacaracteres`**:
1. Un número telefonico de España
2. Un hashtag que comience con un número en lugar de una letra
3. Un hashtag que comience con un número o letra
4. Un número impar de dos dígitos
5. Palabras que comiencen con "_"
6. Palabras que comiencen con "\\"
7. Palabras que tengan la siguiente estructura: "<....>" (menor que al inicio y mayor que la final).
8. Palabras que contengan un número al final
9. Un correo electronico de gmail.com
10. Cualquier correo electronico que termine en .com