# Regular expressions (expresiones regulares) o regex

```python
import re
```

Una **`expresión regular`** es una cadena de caracteres que es utilizada para describir o encontrar patrones dentro de otros strings, en base al uso de delimitadores y ciertas reglas de sintaxis.

|Función                     | Descripción                                                                |
|----------------------------|----------------------------------------------------------------------------|
|**`re.search(re, string)`** | Encuentra la primera ocurrencia de un **`re`** en un string.               |
|**`re.findall(re, string)`**| Encuentra todas las ocurrencias de un **`re`** en un string.               |
|**`re.compile()`**          | Convierte un patron de **`regex`** de **`string`** a un objeto **`regex`**.|
|**`re.split(re, string)`**  | Similar a **`.split()`** de python.                                        |
|**`re.sub(re, string)`**    | Similar a **`.replace()`** de python.                                      |



|regex       | Descripción|
|------------|------------|
|**`\`**     | Marca de caractér especial.                                             |
|**`.`**     | Cualquier caracter menos salto de linea.                                |
|**`\d`**    | Un dígito (0-9).                                                        |
|**`\D`**    | Alfabético (No dígito (0-9)).                                           |
|**`\w`**    | Cualquier caracter alfanumerico (a-z, A-Z, 0-9, \_).                    |
|**`\W`**    | Cualquier caracter no alfanumerico.                                     |
|**`\s`**    | Caracter de tipo espacio (espacio, tabulador, salto de linea).          |
|**`\S`**    | Caracter diferente de tipo espacio (espacio, tabulador, salto de linea).|
|**`\b`**    | Principio o final de palabras.                                          |
|**`\B`**    | Opuesto al principio o final de palabras.                               |
|**`^`**     | Comienzo de una linea.                                                  |
|**`$`**     | Final de una linea.                                                     |
|**`[]`**    | Conjunto de caracteres opcionales.                                      |
|**`[^ ]`**  | Excluye caracteres opcionales.                                          |
|**`\|`**    | O inclusivo.                                                            |
|**`( )`**   | Agrupar caracteres.                                                     |
|**`*`**     | 0 o mas.                                                                |
|**`+`**     | 1 o mas.                                                                |
|**`?`**     | 0 o 1.                                                                  |
|**`{3}`**   | Numero exacto.                                                          |
|**`{3, 4}`**| Rango de numeros (Minimo, Maximo).                                      |

In [2]:
import re

In [2]:
# Para buscar (similar a find de listas)

re.search(r"todos", "Buen día a todos")

# Retorna un objeto "re" con los indices donde esta la coincidencia

<re.Match object; span=(11, 16), match='todos'>

In [3]:
# Para buscar (similar a find)

re.search(r"todos", "Buen día a todos").span(0) 

# Con span(0) retorna los indices donde esta la coincidencia en una tupla

(11, 16)

In [4]:
# Realiza una busqueda de todas las ocurrencias

re.findall(r"todos", "Buen día a todos. Como todos los días hoy será un gran día")

# Retorna una lista con los elementos que encontró

['todos', 'todos']

In [5]:
# Similar a re.findall

pattern  = re.compile("todos")

pattern.finditer("Buen día a todos. Como todos los días hoy será un gran día")

# .finditer() retorna un iterador (similar a un generador)

<callable_iterator at 0x1db94aeafd0>

In [6]:
pattern  = re.compile("todos")
iterador = pattern.finditer("Buen día a todos. Como todos los días hoy será un gran día")

for i in iterador:
    print(f"{i}\n{i.span(0)}\n{i.group(0)}")
    print("*"*30)

<re.Match object; span=(11, 16), match='todos'>
(11, 16)
todos
******************************
<re.Match object; span=(23, 28), match='todos'>
(23, 28)
todos
******************************


In [7]:
# Similar a .split()
re.split(r" ", "Buen día a todos. Como todos los días hoy será un gran día.")

['Buen',
 'día',
 'a',
 'todos.',
 'Como',
 'todos',
 'los',
 'días',
 'hoy',
 'será',
 'un',
 'gran',
 'día.']

In [8]:
# Similar a replace
re.sub(r"todos", "tod@s", "Buen día a todos. Como todos los días hoy será un gran día.")

'Buen día a tod@s. Como tod@s los días hoy será un gran día.'

#### Usando metacaracteres

In [9]:
# Encuentra las vocales a

re.findall(r"a", "Buen día a todos. Como todos los días hoy será un gran día")

['a', 'a', 'a', 'a', 'a']

In [10]:
# Encuentra las vocales a y e

re.findall(r"[ae]", "Buen día a todos. Como todos los días hoy será un gran día")

['e', 'a', 'a', 'a', 'e', 'a', 'a']

In [11]:
# Encuentra todas las vocales

re.findall(r"[aeiou]", "Buen día a todos. Como todos los días hoy será un gran día")

['u',
 'e',
 'a',
 'a',
 'o',
 'o',
 'o',
 'o',
 'o',
 'o',
 'o',
 'a',
 'o',
 'e',
 'u',
 'a',
 'a']

In [12]:
# El punto indica cualquier elemento

re.findall(r"tod.s", "todos, todas, todes, tod@s")

['todos', 'todas', 'todes', 'tod@s']

In [13]:
# Encuentra todas las mayusculas a través de un rango

re.findall(r"[A-Z]", "Buen día a todos. Como todos los días hoy será un gran día")

['B', 'C']

In [15]:
#Encuentra todas las minusculas a través de un rango

re.findall(r"[a-z]", "Buen día a todos. Como todos los días hoy será un gran día")

['u',
 'e',
 'n',
 'd',
 'a',
 'a',
 't',
 'o',
 'd',
 'o',
 's',
 'o',
 'm',
 'o',
 't',
 'o',
 'd',
 'o',
 's',
 'l',
 'o',
 's',
 'd',
 'a',
 's',
 'h',
 'o',
 'y',
 's',
 'e',
 'r',
 'u',
 'n',
 'g',
 'r',
 'a',
 'n',
 'd',
 'a']

**Las expresiones regulares se pueden concatenar para formar nuevas expresiones regulares; si A y B son expresiones regulares, AB también es una expresión regular. En general, si una cadena p coincide con A y otra cadena q coincide con B , la cadena "pq" coincidirá con AB**

In [18]:
# Encuentra todas las mayusculas a través de un rango seguido de una minuscula

re.findall(r"[A-Z][a-z]", "Buen día a todos. Como todos los días hoy será un gran día")

['Bu', 'Co']

In [19]:
# Encuentra todas las mayusculas a través de un rango seguido de 3 minusculas

re.findall(r"[A-Z][a-z][a-z][a-z]", "Buen día a todos. Como todos los días hoy será un gran día")

['Buen', 'Como']

In [21]:
# Encuentra números

re.findall(r"[0-9]", "El 31 de diciembre es noche vieja")

['3', '1']

In [18]:
# Encuentra números

re.findall(r"[\d]", "El 31 de diciembre es noche vieja")

['3', '1']

In [22]:
# Que NO coincida con un número

re.findall(r"[^0-9]", "El 31 de diciembre es noche vieja")

['E',
 'l',
 ' ',
 ' ',
 'd',
 'e',
 ' ',
 'd',
 'i',
 'c',
 'i',
 'e',
 'm',
 'b',
 'r',
 'e',
 ' ',
 'e',
 's',
 ' ',
 'n',
 'o',
 'c',
 'h',
 'e',
 ' ',
 'v',
 'i',
 'e',
 'j',
 'a']

In [23]:
# Similar a [^0-9]

re.findall(r"[\D]", "El 31 de diciembre es noche vieja")

['E',
 'l',
 ' ',
 ' ',
 'd',
 'e',
 ' ',
 'd',
 'i',
 'c',
 'i',
 'e',
 'm',
 'b',
 'r',
 'e',
 ' ',
 'e',
 's',
 ' ',
 'n',
 'o',
 'c',
 'h',
 'e',
 ' ',
 'v',
 'i',
 'e',
 'j',
 'a']

In [77]:
# Encuentra un número con 2 dígitos

re.findall(r"[0-9][0-9]", "El 31 de diciembre es noche vieja")

['31']

In [76]:
# Encuentra un número con 2 dígitos

re.findall(r"[\d][\d]", "El 31 de diciembre es noche vieja")

['31']

In [26]:
# Encuentra todos los elementos que no sean números, letras ni espacios

re.findall(r"[^a-zA-Z0-9\s]", "De #Vacaciones con @MiAmigo en la #Playa")

['#', '@', '#']

In [27]:
# Encuentra todos los hashtag

re.findall(r"[^\w\s]", "De #Vacaciones con @MiAmigo en la #Playa")

['#', '@', '#']

In [25]:
# Encuentra todos los hashtag y arrobas

re.findall(r"[^a-zA-Z0-9\s](\w+)", "De #Vacaciones con @MiAmigo en la #Playa")

['Vacaciones', 'MiAmigo', 'Playa']

In [28]:
# Encuentra todos los hashtag
re.findall(r"#(\w+)", "De #Vacaciones con @MiAmigo en la #Playa")

['Vacaciones', 'Playa']

In [29]:
# Encuentra todos los arrobas
re.findall(r"@(\w+)", "De #Vacaciones con @MiAmigo en la #Playa")

['MiAmigo']

### Ejercicios:
- Crea las **`regex`** para encontrar lo siguiente y describe que trabajo realizan los **`metacaracteres`**:
1. Un número telefonico de España
2. Un hashtag que comience con un número en lugar de una letra
3. Un hashtag que comience con un número o letra
4. Un número impar de dos dígitos
5. Palabras que comiencen con "_"
6. Palabras que comiencen con "\\"
7. Palabras que tengan la siguiente estructura: "<....>" (menor que al inicio y mayor que la final).
8. Palabras que contengan un número al final
9. Un correo electronico de gmail.com
10. Cualquier correo electronico que termine en .com

In [61]:
# 1 Un número telefonico de España
re.findall(r"\+34[\s]\d{3}(?:[\s]\d{2}){3}", "+34 000 00 00 00")

['+34 000 00 00 00']

In [62]:
from random import randint

numeros = " ".join([f"+34 {randint(600, 699)} {randint(10, 99)} {randint(10, 99)} {randint(10, 99)}" for i in range(100)])

re.findall(r"\+34[\s]\d{3}(?:[\s]\d{2}){3}", numeros)

['+34 614 14 91 12',
 '+34 670 12 81 88',
 '+34 664 18 23 63',
 '+34 617 87 94 46',
 '+34 685 55 74 62',
 '+34 645 47 95 54',
 '+34 650 86 85 49',
 '+34 644 15 45 17',
 '+34 630 59 26 87',
 '+34 684 93 36 78',
 '+34 695 32 80 41',
 '+34 600 92 54 96',
 '+34 668 49 88 89',
 '+34 664 35 35 16',
 '+34 658 13 74 62',
 '+34 628 30 51 69',
 '+34 633 93 87 38',
 '+34 655 33 45 44',
 '+34 663 83 45 97',
 '+34 698 99 18 20',
 '+34 614 76 73 81',
 '+34 650 75 33 48',
 '+34 634 83 33 81',
 '+34 624 20 52 75',
 '+34 695 88 90 34',
 '+34 657 45 64 53',
 '+34 637 72 62 63',
 '+34 632 15 77 27',
 '+34 647 42 38 10',
 '+34 641 62 20 19',
 '+34 601 28 85 17',
 '+34 634 26 16 47',
 '+34 636 97 10 30',
 '+34 662 30 28 91',
 '+34 640 88 24 79',
 '+34 695 69 83 62',
 '+34 622 34 72 87',
 '+34 671 17 48 10',
 '+34 609 34 83 50',
 '+34 644 90 96 75',
 '+34 673 66 47 38',
 '+34 610 44 40 35',
 '+34 668 81 58 96',
 '+34 665 66 77 62',
 '+34 667 60 75 86',
 '+34 655 11 65 26',
 '+34 604 61 69 91',
 '+34 699 21 

In [63]:
# 2 Un hashtag que comience con un número en lugar de una letra
re.findall(r"#\d\w*", "#2Marzo #1Marzo #Marzo #2")

['#2Marzo', '#1Marzo', '#2']

In [64]:
# 3 Un hashtag que comience con un número o letra
re.findall(r"#(\w+)" , "#1Hola #Hola1 #.Hola")

['1Hola', 'Hola1']

In [92]:
# 4 Un número impar de dos dígitos
re.findall(r"\d[13579]", "54 12 1 15 14 16 22 23")

['15', '23']

In [66]:
# 5 Palabras que comiencen con "_"
re.findall(r"_(\w+)", "_Hola _Adios No")

['Hola', 'Adios']

In [93]:
# 6 Palabras que comiencen con "\"
re.findall(r"\\(\w+)", "\Hola \Adios No")

['Hola', 'Adios']

In [82]:
# 7 Palabras que tengan la siguiente estructura: "<....>" (menor que al inicio y mayor que la final).
re.findall(r"<(\w+)>", "<Hola> <Adios> <No")


['Hola', 'Adios']

In [83]:
# 8 Palabras que contengan un número al final
re.findall(r"(\w+)\d", "Hola1 Adios2 No")

['Hola', 'Adios']

In [109]:
# 9 Un correo electronico de gmail.com
re.findall(r"\w+.gmail.com", "albertojorio@gmail.com hola@gmail.com no@hotmail.com")


['albertojorio@gmail.com', 'hola@gmail.com']

In [1]:
# 10 Cualquier correo electronico que termine en .com
re.findall(r"\w+@\w+\.\w+.com", "albertojorio@hotmail.com hola@yahoo.com no@hotmail.es")


NameError: name 're' is not defined