
<div style="text-align: center;">
  <img src="https://github.com/Hack-io-Data/Imagenes/blob/main/01-LogosHackio/logo_celeste@4x.png?raw=true" alt="esquema" />
</div>

<h1>Table of Contents<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#¿Qué-es-Regex?" data-toc-modified-id="¿Qué-es-Regex?-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>¿Qué es Regex?</a></span><ul class="toc-item"><li><span><a href="#Operadores-comunes" data-toc-modified-id="Operadores-comunes-1.1"><span class="toc-item-num">1.1&nbsp;&nbsp;</span>Operadores comunes</a></span></li><li><span><a href="#Sintaxis-básica-de-regex" data-toc-modified-id="Sintaxis-básica-de-regex-1.2"><span class="toc-item-num">1.2&nbsp;&nbsp;</span>Sintaxis básica de regex</a></span></li></ul></li><li><span><a href="#Regex-en-Python" data-toc-modified-id="Regex-en-Python-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Regex en Python</a></span><ul class="toc-item"><li><span><a href="#re.findall()" data-toc-modified-id="re.findall()-2.1"><span class="toc-item-num">2.1&nbsp;&nbsp;</span><code>re.findall()</code></a></span></li><li><span><a href="#re.sub()" data-toc-modified-id="re.sub()-2.2"><span class="toc-item-num">2.2&nbsp;&nbsp;</span><code>re.sub()</code></a></span></li><li><span><a href="#re.split()" data-toc-modified-id="re.split()-2.3"><span class="toc-item-num">2.3&nbsp;&nbsp;</span><code>re.split()</code></a></span></li><li><span><a href="#re.match()" data-toc-modified-id="re.match()-2.4"><span class="toc-item-num">2.4&nbsp;&nbsp;</span><code>re.match()</code></a></span></li><li><span><a href="#re.search()" data-toc-modified-id="re.search()-2.5"><span class="toc-item-num">2.5&nbsp;&nbsp;</span><code>re.search()</code></a></span></li></ul>


# ¿Qué es Regex? 

Las expresiones regulares (regex de manera abreviada) son secuencias de caracteres que crean un patrón de búsqueda, el cual utilizamos para encontrar y manipular texto de manera eficiente. Estas herramientas son extremadamente útiles para buscar, validar y modificar cadenas de caracteres siguiendo patrones específicos.

Mediante regex, tenemos la capacidad de especificar patrones complejos que coinciden con cadenas de texto específicas. Podemos buscar desde patrones simples, como una palabra concreta, hasta patrones más elaborados, como direcciones de correo electrónico, números de teléfono o formatos de fecha.

Las expresiones regulares nos brindan un método potente, flexible y eficaz para procesar texto. Gracias a su extensa notación de coincidencia de patrones, podemos analizar rápidamente grandes cantidades de texto para:

- Identificar patrones específicos de caracteres.

- Verificar que el texto cumple con un patrón predefinido, como una dirección de correo electrónico.

- Extraer, modificar, reemplazar o eliminar subcadenas de texto.

 
Cuando trabajamos con regex, hay dos preguntas clave que nos pueden ayudar a crear nuestros patrones de búsqueda y modificación:

- ¿Qué características comparten los fragmentos de texto que queremos encontrar o modificar?
- ¿Qué fragmentos de texto queremos excluir?

Una ventaja notable de las regex es su universalidad; funcionan de la misma manera en cualquier lenguaje de programación, ya sea Python, Java u otro.


## Operadores comunes

Estamos conociendo un "lenguaje" nuevo, por lo que antes de empezar a trabajar, vamos a ver algunos de los operadores más comunes. Esos operadores se van a situar a continuación del caracter sobre el que queremos operar:

- `+` : coincide con el carácter precedente una o más veces.

Por ejemplo, `xy+z` coincide con "**xyz**", "**xyyz**", "**xyyyz**" pero no con "**xz**". Es decir, la `y` puede estar 1, 2, o más veces, pero tiene que estar al menos una vez.

- `*` : coincide con el carácter precedente cero o más veces

Por ejemplo, `xy*z` coincide con "**xyz**", "**xyyz**", "**xyyyz**" y "**xz**". Es decir, nuestro *string* puede tener 1, 2, 3, o más `y`, pero también puede no tener ninguna que es la principal diferencia entre el `+` y el `*`  que en este último indicamos que pueda aparecer o no ese carácter.

- `?` : indica cero o solo una ocurrencia del elemento precedente.

Por ejemplo, `behaviou?r` coincide con "**behavior**" y "**behaviour**". A diferencia del `*`, cuando ponemos una `?`, el carácter que estamos buscando solo podrá aparecer una vez o ninguna.

- `.` : coincide con cualquier carácter individual.

Por ejemplo, `t.s` coincide con "**tas**", "**tbs**", "**tcs**", etc. Es decir, con el `.` hacemos referencia a "cualquier cosa".

Si queremos hacer coincidir varios caracteres antes de la letra "s", sólo tendríamos que utilizar el asterisco `*` como hemos hecho en el segundo ejemplo: t.*s y esto coincidiría con "tabcdes".

- `^` : coincide con la posición inicial de cualquier string

Por ejemplo, `^d` coincide con "**data**", "**dragon**", "**delfin**", etc. Es decir, buscaremos todos los strings que empiecen con "d".

- `$` : coincide con la posición final de cualquier string

Por ejemplo, `n$` coincide con "**dragón**", "**ocean**", "**carmín**", etc. Todos los *strings* que terminen con "n".


## Sintaxis básica de regex

- `\w`: buscaremos cualquier caracter de tipo alfabético.

- `\d`: buscaremos cualquier caracter de tipo númerico.

- `\s`: buscaremos los espacios en nuestro *string*.

- `\n`: buscaremos los saltos de línea en nuestro *string*.

- `\W`: buscaremos cualquier caracter que no sea una letra.

- `\D`: buscaremos cualquier caracter que no sea un dígito. 

- `\S`: buscaremos cualquier elemento que no sea un espacio en nuestro *string* 

- `()` : nos permite aislar sólo una parte de nuestro patrón de búsqueda que queremos devolver, es decir, captura un grupo.

- `[]` : incluye todos los caracteres que queremos que coincidan y además incluye rangos como estos: a-z y 0-9.

    Por ejemplo si queremos encontrar todos los caracteres en minúscula de una cadena usaremos: [a-z]

    Para los caracteres en mayúscula usaremos: [A-Z]

     Y para encontrar todos los números usaremos: [0-9]

    Esta sintáxis nos permite el uso de los operadores que ya habíamos visto, por ejemplo si usamos el operador `^`,[^al] coincide con todas las cadenas que **NO** empiezan por `al`

- `|` : funciona como el operador `or` que conocemos de Python.

    Por ejemplo `los|las` comprueba si el *string* contiene "**los**" o "**las**"

- `\` : señala una secuencia o un caracter especial, es decir, todas las secuencias y caracteres  que hemos visto  en el apartado de operadores y los citados en este apartado. Este operador nos permite escapar caracteres especiales.

    Por ejemplo si queremos buscar `.` en nuestro *string*, los `.` son elementos especiales, para "escaparlo" y poder buscarlos usaremos `\.` 

- `{}`: nos permite buscar exactamente el número especificado de ocurrencias

    - {n}: Exactamente n veces

    - {n,}: Al menos n veces

    - {n,m}: Entre n y m veces

    Por ejemplo `to{2}` coincide con **todo** pero no con **todavía**, ya que estamos buscando en nuestros *strings*  algo que tenga "to" seguido de SOLO dos caracteres más. 


Recordar que tenéis una cheatsheet con un resumen de todos estos operadores:

[CREAR CHEATSHEET]

# Regex en Python

En Python tenemos cinco funciones principales que nos permiten trabajar con  cadenas de texto,*strings*, y Regex. Las funciones son las siguientes: 


- `findall` : devuelve una lista con todas las coincidencias dentro del *string* con nuestra expresión regular.

- `sub` : reemplaza una o varias coincidencias con un *string* concreto.

- `split` : devuelve una lista en la que el *string* ha sido dividido en cada coincidencia. Es el método `split` que aprendimos en los *strings* de python pero incluyendo regex.  

- `match` : busca el patrón definido en expresión regular y devuelve la primera ocurrencia dentro del *string*.

- `search` : devuelve un objeto Match si hay una coincidencia en cualquier parte de la cadena.


### "Escapar" caracteres especiales en Python:

Cómo habíamos visto en los operadores si queremos usar alguno de los caracteres especiales reservados para los operadores dentro de nuestro patrón teníamos que usar `\`. Para hacerlo desde Python tenemos que cambiar un poco la sintáxis. Tenemos dos maneras:
- Usando `\\` en vez de `\`.
- Usando `r"\"` en vez de `\`.




In [142]:
# lo primero que hacermos es importar la librería re, ya que la necesitaremos para trabajar con regex en python
import re

## `re.findall()`

El método `re.findall()` lo utilizaremos para buscar todas las ocurrencias de un patrón específico dentro de una cadena de texto (*string*). Este método nos devolverá una **lista** con las coincidencias. Su sintaxis es:

```python
re.findall(patron_regex, string)
```

Si analizamos el ejemplo que tenemos en el esquema:

- **patron_regex**: sería el patrón de regex que queremos buscar en el texto, en este caso `[a-z]+`

- **string**: el *string* sobre el que queremos buscar el patrón, en este caso `buenos días`

```mermaid
graph LR;
    A["re.findall('[a-z]+', 'buenos días')"] --> B["re.findall"]
    A --> C["[a-z]+"]
    A --> D["buenos días"]
    B["re.findall"] -.-> E["Encuentra todas las coincidencias de un patrón en un texto"]
    C["[a-z]+"] -.-> F["Patrón de búsqueda en expresión regular"]
    D["buenos días"] -.-> G["Texto sobre el cual buscar"]
    
H["resultado: ['buenos', 'días']"] -.-> I["Devuelve una lista con cada elemento encontrado por el patrón"]
```



Vamos a ver un ejemplo sencillo antes de meternos con más patrones más complejos. En este primer ejemplo, vamos a querer extraer únicamente la información sobre los números de los documentos de identidad que tenemos en el *string*. Por lo tanto, tendremos que buscar en nuestro *string* únicamente los números. 

In [143]:
# definimos un string

cadena_texto = "Hola, mi DNI es 56783210J y el de mi acompañante es 12457892M"  
            
# definimos el patrón. Recordemos que para los dígitos tenemos la sintaxis "\d" que nos va a capturar todos los números. 
# Le pondremos un "+" por que queremos que sean muchos números. 
patron_num = r"\d+"

# utilizamos el método re.findall para sacar los números de nuestro string
num_cadena = re.findall(patron_num, cadena_texto)

# veamos ahora que es numeros, donde esperaríamos encontrarnos una lista solo de números
print(f"Los números capturados en el patrón son:{num_cadena}")

Los números capturados en el patrón son:['56783210', '12457892']


Veamos otro ejemplo ahora donde tendremos un string donde querremos extraer el tiempo de inicio y de fin de un evento. 

In [144]:
# Definimos una cadena de caracteres
texto = "La hora de inicio del evento es 14:30:45 y la hora de finalización es 18:45:30."

# Definimos un patrón regex para buscar horas, minutos y segundos en formato HH:MM:SS
patron_horas = r"\d{2}:\d{2}:\d{2}"

# Buscar todas las coincidencias de horas, minutos y segundos en el texto
coincidencias = re.findall(patron_horas, texto)

# Imprimir las coincidencias encontradas
print(f"Las horas encontradas son: {coincidencias}")


Las horas encontradas son: ['14:30:45', '18:45:30']


En este patrón realizamos los siguientes pasos:

- busca una secuencia de dos dígitos (\d{2})

- seguida de dos puntos (:)

- seguida de otra secuencia de dos dígitos (\d{2})

- seguida de dos puntos (:)

- y finalmente, otra secuencia de dos dígitos (\d{2})

En resumen, buscamos el patrón "dd:dd:dd", que representa un formato de hora HH:MM:SS.

Vamos a ver más ejemplos. Al principio de este jupyter explicamos operadores como `?`, `+` o `*` cuyas diferencias son sutiles. Vamos a recordarlos: 

- `?` (cero o una vez):

    - El elemento precedente puede aparecer cero veces o una vez en el texto.
    
    - Coincide con cero o una repetición del elemento anterior.
    
    Por ejemplo, `behaviou?r` coincide con "**behavior**" y "**behaviour**". A diferencia del `*`, cuando ponemos una `?`, el carácter que estamos buscando solo podrá aparecer una vez o ninguna.

- `+` (una o más veces):

    - Significa que el elemento precedente debe aparecer al menos una vez en el texto.

    - Coincide con una o más repeticiones del elemento anterior.
    
    Por ejemplo, el patrón `ba+n` coincidiría con "**ban**", "**baan**", "**baaan**", pero no con "**bn**", ya que la "a" debe aparecer al menos una vez.



- `*` (cero o más veces):

    - Significa que el elemento precedente puede aparecer cero o más veces en el texto.

    - Coincide con cero o más repeticiones del elemento anterior.
    
    Por ejemplo, el patrón `ho*t` coincidiría con "**ht**", "**hot**", "**hoot**", "**hooot**", ya que la "o" puede repetirse cero o más veces.


Vemos un caso práctico para ver mejor las diferencias: 

In [145]:
# definimos un nuevo string
cancion_massiel = """
Yo canto a la mañana
Que ve mi juventud
Y al sol que día a día
Nos trae nueva inquietud
Todo en la vida es como una canción
Te cantan cuando naces
Y también en el adiós
la lala laa
laaa lala l
lalala laaaaa
"""
# si buscamos sin ninguno operadores los caracteres "la", buscaremos literalmente la palabra "la"
solo_la = re.findall("la", cancion_massiel)
print(f"El resultado de la primera búsqueda es: {solo_la}")
print(f"La longitud de elementos encontrados es: {len(solo_la)}")

El resultado de la primera búsqueda es: ['la', 'la', 'la', 'la', 'la', 'la', 'la', 'la', 'la', 'la', 'la', 'la', 'la']
La longitud de elementos encontrados es: 13


In [146]:
# El operador "?" busca 0 o 1 coincidencia con el caracter previo. 
# En nuestro caso, vamos a buscar todos aquellos caracteres que tengan una "l" SEGUIDO O NO de UNA SOLA "a"

la_2 = re.findall('la?', cancion_massiel)

# Esto nos esta devolviendo aquellas partes de nuestro *string* donde tenemos una "l" sola o una "l" seguida de UNA ÚNICA "a". 
# Es decir, solo está considerando aquellas partes del *string* donde tengamos una "l" seguida de una "a" 
# sin tomar la parte más allá de la primera "a".
 
print(f"El resultado de la segunda búsqueda es: {la_2}")
print(f"La longitud de elementos encontrados es: {len(la_2)}")

El resultado de la segunda búsqueda es: ['la', 'l', 'l', 'la', 'l', 'la', 'la', 'la', 'la', 'la', 'la', 'la', 'l', 'la', 'la', 'la', 'la']
La longitud de elementos encontrados es: 17


In [147]:
# El operador "+",  que a diferencia del operador "?",
# encontraba todo lo que tenga una "l" SEGUIDO de UNA o MAS "a". 
# A diferencia del "?", con el "+" la "a" TIENE QUE ESTAR
la_3 = re.findall('la+', cancion_massiel)

# Si nos fijamos en la lista que tenemos como resultado vemos que, 
# en este caso ya no tenemos la "l" sola, ya que con el `+` la "a" tiene que estar si o si. 
# Pero además nos ha añadido el "laaa", ya que con el operador `+` especificamos que aparezca una o más veces. 
print(f"El resultado de la tercera búsqueda es: {la_3}")
print(f"La longitud de elementos encontrados es: {len(la_3)}")

El resultado de la tercera búsqueda es: ['la', 'la', 'la', 'la', 'la', 'laa', 'laaa', 'la', 'la', 'la', 'la', 'la', 'laaaaa']
La longitud de elementos encontrados es: 13


In [148]:
# El operador "*"  buscará todo aquello que tenga una "l" SEGUIDO o NO de UNA o MAS "a". 
# A diferencia del "?", aquí nos capturará si hay más de una "a" 
# mientras que el "?" solo nos machea una. 
la_4 = re.findall('la*', cancion_massiel )

print(f"El resultado de la cuarta búsqueda es: {la_4}")
print(f"La longitud de elementos encontrados es: {len(la_4)}")

El resultado de la cuarta búsqueda es: ['la', 'l', 'l', 'la', 'l', 'la', 'la', 'la', 'laa', 'laaa', 'la', 'la', 'l', 'la', 'la', 'la', 'laaaaa']
La longitud de elementos encontrados es: 17


El siguiente operador que vamos a usar son las llaves `{}`, las cuáles permiten indicar el número de veces que vamos a buscar un caracter concreto. 

Hay que tener en cuenta que este operador solo aplicará sobre el caracter previo al operador: 

```python

# imaginamos que tenemos el siguiente patrón: 

patron_num = "9876{4}"

# el {4} solo afecta sobre el 6 ya que es el caracter previo. Por lo tanto, con este patrón estaríamos buscando cualquier elemento en nuestro string que tenga los números 987 seguidos de 4 seises. 
``` 

In [149]:
# si queremos que busque exactamente 3 "a"

patron_a1= re.findall('a{3}' , cancion_massiel)

# Si nos fijamos en el resultado ya no tenemos la "l" sola, 
# ya que el operador {} lo que hace es buscar unicamente el número de letras que indicamos, en este caso 2. 
print(f"El resultado de la primera búsqueda de 'a' es: {patron_a1}")
print(f"La longitud de elementos encontrados es: {len(patron_a1)}")

El resultado de la primera búsqueda de 'a' es: ['aaa', 'aaa']
La longitud de elementos encontrados es: 2


In [150]:
# si queremos buscar al menos tres "a" en nuestro string usaremos {3,}. Esto nos devolverá la parte del string que tenga 3 o más "a"
patron_a2 = re.findall('a{3,}' , cancion_massiel)

# ahora lo que nos devuelve nuestro patrón es una lista con los elementos que coinciden con tres o más "a"
print(f"El resultado de la segunda búsqueda de 'a' es: {patron_a2}")
print(f"La longitud de elementos encontrados es: {len(patron_a2)}")

El resultado de la segunda búsqueda de 'a' es: ['aaa', 'aaaaa']
La longitud de elementos encontrados es: 2


In [151]:
# Usamos {2,4} si queremos buscar mínimo 2  y máximo 5 "a" 
patron_a3 = re.findall('a{2,4}', cancion_massiel)

# ahora lo que estamos viendo es todas las coincidencias que tengan entre 2 y 4 "a"
print(f"El resultado de la tercera búsqueda de 'a' es: {patron_a3}")
print(f"La longitud de elementos encontrados es: {len(patron_a3)}")


El resultado de la tercera búsqueda de 'a' es: ['aa', 'aaa', 'aaaa']
La longitud de elementos encontrados es: 3


El operador `|` en regex es el 'or' que vimos en las sentencias booleanas de Python. Ahora vamos a tener una nueva canción  y queremos saber cuántas veces aparece la palabra amor en nuestro *string* y que nos da igual si la "a" esta en mayúscula o minúscula, en este caso deberíamos buscar: 

> amor **o** Amor

En este caso  usaremos el operador `|`

In [152]:
# vamos a definir un string sobre el que trabajaremos en los siguientes ejemplos:

cancion_camela ="""Dime que sientes lo mismo que yo ,
Dime que me quieres , dímelo.


Cuando Zarpa el amor
Navega a Ciegas , es quien lleva el Timón
Y cuando sube la Marea al corazón
Sabe que el Viento sopla a su favor.


No podemos hacer nada
Por cambiar el rumbo que marcó
Para los dos.
Cuando zarpa el Amor"""

patron_amor1 = re.findall('amor|Amor',cancion_camela)

print(f"A|amor aparece {len(patron_amor1)} veces en la cancion: {patron_amor1}")

A|amor aparece 2 veces en la cancion: ['amor', 'Amor']


**Vamos ahora con los operadores `^` y `$`**. Recordemos que: 

- El operador `^` lo utilizamos para buscar en el incio del *string*, es decir, **EL PRIMER CARACTER DE TODO EL *STRING***. 

- El operador `$` lo utilizamos para buscar en el final del *string*, es decir, **EL ÚLTIMO CARACTER DE TODO EL *STRING***. 

In [153]:
# definimos un nuevo string
bienvenida = "Welcome Hack(io)s, poco a poco nos convertiremos en expertos en Python"

In [154]:
# con este patrón lo que estamos buscando es el string que empieza por "bienve". 
inicio_py = re.findall(r"^Py", bienvenida)

print(f"El resultado de buscar que empiece por 'py' es: {inicio_py}")

# con este string estamos buscando es el string que empieza por "Wel" 
# y que luego tenga más letras, por eso añadimos "\w+"
inicio_wel = re.findall(r"^Wel\w+", bienvenida)
print(f"El resultado de buscar que empiece por 'Wel' es: {inicio_wel}")

El resultado de buscar que empiece por 'py' es: []
El resultado de buscar que empiece por 'Wel' es: ['Welcome']


**Si no paramos a pensar un segundo, dentro de nuestra bienvenida tenemos una palabra que empieza por Py**, entonces ¿por qué la primera búsqueda nos devuelve una lista vacía? El operador `^` solo afecta al INICIO (o al FINAL en el caso del `$`) del *string*, no a al inicio de las palabras contenidas dentro del *string*

Para trabajar con las palabra de manera independiente tendríamos que tenerlas guardadas como elementos de una lista. Vamos a ver un ejemplo:

Si tenemos una lista con los nombres de diferentes clases pero solo me intersan aquellas que sean de data, añadiremos estas clases a una nueva lista.

- Cómo  queremos  evaluandar clase a clase de nuestra lista, lo primero que tendremos que hacer es un `for loop`. 

- Además queremos ver si cada una de estas clases empieza con "Data", usaremos el operador `^`. 


In [155]:
clases = ["Data Fundamentos", "Data SQL", "Marketing Digital", "Marketing y Redes Sociales", "Data MongoDB", "Data Regex"]

# creamos una lista vacía donde iremos añadiendo las direcciones que tengan "Calle"
clases_data = []

for clase in clases: 
    # hacemos un findall para ver si cada una de las clases empieza con "Data"

    clase_data = re.findall("^Data", clase) # esto nos devolverá una lista vacía en caso de que la clase no comience por "Data", pero será una lista con contenido cuando la clase empiece con "Data"

    # Si analizamos las longitudes del resultado del findall anterior, solo queremos añadir la clase si el findall nos devuelve algo, y por lo tanto la longitud de la lista clase será distinto de 0. 
    if len(clase_data) != 0:
        clases_data.append(clase)


# si ahora vemos el contenido de la lista direcciones_calle, solo tendremos las direcciones que empiecen por "Calle", pero no aquellas que no empiecen con "Calle" o que lo tengan en mitad del string. 
print(f"El resutlado es: {clases_data}")

El resutlado es: ['Data Fundamentos', 'Data SQL', 'Data MongoDB', 'Data Regex']


## `re.sub()`

Este método se utiliza para reemplazar las ocurrencias de una expresión regular en una cadena o *string* por un nuevo valor indicado.

La sintaxis básica de `re.sub()` es:

```python
re.sub(patron, reemplazo, cadena)
```

Si nos fijamos en el siguiente esquema:

- **patron**: es patrón de regex que queremos buscar en el texto, en este caso `z`.

- **reemplazo**: el *string* por el que vamos a reemplazar el patrón anterior, en este caso `y`.

- **cadena**: es el *string* sobre el que querremos reemplazar el patrón que estamos buscando, en este caso `zzyy`. 

```mermaid
graph LR;
    A["re.sub('z', 'y', 'zzyy')"] --> B["re.sub"]
    A --> C["z"]
    A --> D["y"]
    A --> E["zzyy"]
    B["re.sub"] -.-> F["Reemplaza todas las coincidencias de un patrón en un texto"]
    C["z"] -.-> G["Patrón que queremos reemplazar"]
    D["y"] -.-> H["String por el que queremos reemplazar el patrón"]
    E["zzyy"] --> I["String original"]
J["resultado: 'yyyy'"] --> K["Ha reemplazado las 'z' por 'y'"]
```

Vamos a ver algunos ejemplos. Empecemos con uno sencillo: 

In [156]:
# Tenemos un string, queremos reemplazar todas las "e" por "1"
texto = "Disney+ es mejor que Netflix!"

# llamamos al método  "re.sub"
# primero pasamos lo que queremos buscar
# después indicamos el remplazo
# y por último pasamos el string sobre el que queremos hacer el reemplazo

texto_1 = re.sub("e", "1", texto)

# si ahora vemos nuestro nuevo string, no deberíamos tener "e" y debería haber "9"
print(f"El resultado es: {texto_1}")

El resultado es: Disn1y+ 1s m1jor qu1 N1tflix!


El método `re.sub()`, puede recibir un parámetro extra,un número, que indica en cuántas de las coincidencias queremos hacer el cambio. Vamos a repetir el ejemplo anterior pero solo vamos a cambiar las 3 primeras "e":

In [157]:
# Solo tenemos que cambiar el ejemplo anterior añadiendo un 3 al final. 
texto_1_3 = re.sub("e", "1", texto, 3)

# si nos fijamos, ahora se nos han cambiado solo 2 "e", mientras que la última se ha mantenido
print(f"El resultado es:{texto_1_3}")

El resultado es:Disn1y+ 1s m1jor que Netflix!


Vamos a un ejemplo más complejo. Vamos a reemplazar "Disney+" por HBO . El problema es que el operador `+` es un caracter especial y como tal tendremos que "escaparlo" con el operador `\`. Veamos como hacerlo:  

In [158]:
# definimos el patron
patron = r"Disney\+"
# lo siguiente que hacemos es utilizar el método re.sub para hacer el reemplazo
texto_hbo= re.sub(patron, "HBO", texto)

print(f"El resultado es: {texto_hbo}")

El resultado es: HBO es mejor que Netflix!


Veamos ahora otro ejemplo con el *string* que contenia la canción de Camela. En la canción hay algunas comas que tienen un espacio delante, un error, vamos a quitar estos espacios:

In [159]:
# Recordamos la variable:
print(f"La cancion sin editar es:\n\n{cancion_camela}\n\n")
# Definimos el  patrón. Para buscar los espacios tenemos que usar \s
# Vamos a buscar un caracter que tenga un espacio seguido de una ","
patron_comas = r"\s,"

# Remplazamos las comas que tenían un espacio previo por comas sin espacio previo. 
cancion_espacios = re.sub(patron_comas, ",", cancion_camela)
print(f"La canción quitando los espacios es:\n\n{cancion_espacios}")

La cancion sin editar es:

Dime que sientes lo mismo que yo ,
Dime que me quieres , dímelo.


Cuando Zarpa el amor
Navega a Ciegas , es quien lleva el Timón
Y cuando sube la Marea al corazón
Sabe que el Viento sopla a su favor.


No podemos hacer nada
Por cambiar el rumbo que marcó
Para los dos.
Cuando zarpa el Amor


La canción quitando los espacios es:

Dime que sientes lo mismo que yo,
Dime que me quieres, dímelo.


Cuando Zarpa el amor
Navega a Ciegas, es quien lleva el Timón
Y cuando sube la Marea al corazón
Sabe que el Viento sopla a su favor.


No podemos hacer nada
Por cambiar el rumbo que marcó
Para los dos.
Cuando zarpa el Amor


Usando este método podemos seguir limpiando la canción. Vamos a eliminar las mayúsculas que están mal usadas en la canción, es decir todas las que no vengan detrás de un punto o después de un salto de línea.

In [160]:
# definamos nuestro patrón de regex
patron_mayus = r"[^\.\n][A-Z]"

Analicemos el patrón para entender que queremos buscar:

- La primera parte del patrón es `[^\.\n]`. Con esto hacemos referencia a todo aquello que **NO** tenga un `.` ni un salto de línea `\n`. El operador `^` indica "que el *string* empiece por", al ponerlo entre corchetes indica "todo lo que **NO** contenga". 

- La siguiente parte del patrón indica que  queremos remplazar las mayúsulas por lo tanto usaremos la estructura `[A-Z]` para indicar cualquier letra que esté en mayúscula entre la "A" y la "Z". 

Antes de hacer el remplazo vamos a ver sobre que letras queremos hacer este remplazo. Usaremos el método `findall`

In [161]:
# lo primero que hacemos es sacar las mayúsculas que no e 
busqueda_mayus = re.findall(patron_mayus, cancion_espacios)

print(f"Las letras que están en mayúsuculas son:{busqueda_mayus}")

print("\n--------------------------\n")
# recordamos la canción
print(f"Las canción es:\n\n{cancion_espacios}")

Las letras que están en mayúsuculas son:[' Z', ' C', ' T', ' M', ' V', ' A']

--------------------------

Las canción es:

Dime que sientes lo mismo que yo,
Dime que me quieres, dímelo.


Cuando Zarpa el amor
Navega a Ciegas, es quien lleva el Timón
Y cuando sube la Marea al corazón
Sabe que el Viento sopla a su favor.


No podemos hacer nada
Por cambiar el rumbo que marcó
Para los dos.
Cuando zarpa el Amor


In [162]:
# Una vez que tenemos la lista de mayúsculas usamos un bucle for para itear por ella
for letra in busqueda_mayus:
   # Usamos el método re.sub() y el método .lower() de string para convertir las letras en minúsculas.
   cancion_espacios = re.sub(letra,letra.lower(),cancion_espacios) 
   
# vemos como es nuestra canción ahora y vemos que ya no tenemos letras minúsculas!!

print(f"La cancion despues de este último cambio es:\n\n{cancion_espacios}")

La cancion despues de este último cambio es:

Dime que sientes lo mismo que yo,
Dime que me quieres, dímelo.


Cuando zarpa el amor
Navega a ciegas, es quien lleva el timón
Y cuando sube la marea al corazón
Sabe que el viento sopla a su favor.


No podemos hacer nada
Por cambiar el rumbo que marcó
Para los dos.
Cuando zarpa el amor


## `re.split()` 

El método `re.split()` nos permite dividir una cadena en partes más pequeñas utilizando un patrón de expresión regular como separador y nos devuelve una lista.

Es similar al método `split()` de *strings*, combinado con regex, lo que nos permite tener más opciones para dividir. 

La sintaxis básica de `re.split` es: 

```python
re.split(patron, string)

```

Si nos fijamos en el siguiente esquema:

- **patron**: Es el patrón de regex que vamos a utilizar para dividir el *string*, en este caso `z`. 

- **string**: Es la cadena de texto que se va a dividir, en este caso  `yyzyyzyyyzy`. 


```mermaid
graph LR;
    A["re.split('z', 'yyzyyzyyyzy')"] --> B["re.split"]
    A --> C["z"]
    A --> D["yyzyyzyyyzy"]
    B["re.split"] -.-> F["Divide un texto en todas las coincidencias de un patrón"]
    C["z"] -.-> G["Patrón por el que queremos dividir"]
    D["yyzyyzyyyzy"] -.-> H["String original"]
I["resultado: ['yy', 'yy', 'yyy', 'y']"] -.-> J["Nos divide el string por el caracter indicado y nos devuelve una lista"]
```



Empecemos con algunos ejemplos. Primero vamos a dividir nuestro *string* por un número que este compuesto por tres dígitos, en concreto tres doses. Definimos nuestro patrón de regex y luego llamamos al método `re.split()`  y le pasamos el *string* sobre el que queremos aplicar la acción. 

In [163]:
# Definimos nuestra variable
cardinales_ordinales = "Primero11Segundo222Tercero3333Cuarto"

# Definimos el patrón por el que queremos dividir, en este caso por los tres doses
patron_dividir = r"2{3}"

# aplicamos el método split
primera_division  = re.split(patron_dividir, cardinales_ordinales)
print(f"Al dividir nuestro string el resultado es:{primera_division}")

Al dividir nuestro string el resultado es:['Primero11Segundo', 'Tercero3333Cuarto']


El resultado al utilizar `re.split()` es  nuestro *string* dividido en aquellos puntos donde existe coincidencia con el patrón que le pasamos. Como nuestro patrón era "2{3}", el resultado es una lista con dos elementos. Si nos fijamos, es importante ver que el patrón por el que hacemos el *split*  no forma parte de la lista del resultado.

Ahora vamos a dividir por todos los elementos que sean dígitos.


In [164]:
# Definimos el patrón por el que queremos dividir
patron_digitos = r"\d+"

# aplicamos el método re.split()
segunda_division = re.split(patron_digitos, cardinales_ordinales)

print(f"Al dividir nuestro string el resultado es:{segunda_division}")

Al dividir nuestro string el resultado es:['Primero', 'Segundo', 'Tercero', 'Cuarto']



El resultado despúes de esta segunda división es una lista con los números ordinales.
Vamos con otro ejemplo usando este método. Vamos a eliminar una serie de caracteres dentro de nuestro *string*:

In [165]:
# Definimos nuestra variable
saludo_dividir = "buenos/días?por;la!mañana"

# Definimos nuestro patrón de búsqueda
patron_simbolos = r"[/?;!]"

tercera_division = re.split(patron_simbolos, saludo_dividir)
print(f"Al dividir nuestro string el resultado es:{tercera_division}")


Al dividir nuestro string el resultado es:['buenos', 'días', 'por', 'la', 'mañana']


Después de eliminar todos los símbolos que no aportaban vamos a convertir la lista resultante de nuevo en un único *string* usando el método `join()`:

In [166]:
" ".join(tercera_division)

'buenos días por la mañana'

Ahora vamos a volver a usar la variable con la canción de Camela, y vamos a dividir la canción por los saltos de línea, es decir por "n\n" ya que cada linea ya tiene un salto de línea, "\n" por lo que necesitamos uno extra, "\n\n". Después de hacer la división tendremos una lista con tres elementosPongamos ahora un ejemplo con nuestra canción.

In [167]:
# recordamos la canción
print(f"Las canción es:\n\n{cancion_espacios}\n")

# Definimos nuestro patrón de búsqueda
patron_saltolinea = "\n\n"


# Aplicamos el método re.split()
cuarta_division = re.split(patron_saltolinea, cancion_espacios)
print(f"Al dividir nuestro string el resultado es:{cuarta_division}")

# Comprobamos la longitud de nuestra division
print(f"Comprobamos la longitud de nuestra división: {len(cuarta_division)}")

Las canción es:

Dime que sientes lo mismo que yo,
Dime que me quieres, dímelo.


Cuando zarpa el amor
Navega a ciegas, es quien lleva el timón
Y cuando sube la marea al corazón
Sabe que el viento sopla a su favor.


No podemos hacer nada
Por cambiar el rumbo que marcó
Para los dos.
Cuando zarpa el amor

Al dividir nuestro string el resultado es:['Dime que sientes lo mismo que yo,\nDime que me quieres, dímelo.', '\nCuando zarpa el amor\nNavega a ciegas, es quien lleva el timón\nY cuando sube la marea al corazón\nSabe que el viento sopla a su favor.', '\nNo podemos hacer nada\nPor cambiar el rumbo que marcó\nPara los dos.\nCuando zarpa el amor']
Comprobamos la longitud de nuestra división: 3


## `re.match()` 

Este método nos permite buscar un patrón de expresión regular al principio de una cadena. **Este método va a devolver un objeto de tipo `re.Match`**. 


La sintaxis básica es: 

```python
re.match(patron, string)
```

Si nos fijamos en el siguiente esquema:

- **patron**: es el patrónn de regex que utilizaremos para hacer la búsqueda, en este caso una letra mayúscula `[A-Z]`. 

- **string**: es la cadena de texto en la cual se realizará la búsqueda, en este caso `Welcome`.

```mermaid
graph LR;
    A["re.match('[A-Z]', 'Welcome')"] --> B["re.match"]
    A --> C["[A-Z]"]
    A --> D["Welcome"]
    B["re.match"] -.-> F["Busca en un string un patrón al principio de ese string"]
    C["[A-Z]"] -.-> G["Patrón que queremos buscar"]
    D["Welcome"] -.-> H["String original"]
    I["resultado:re.Match object; span=(0, 1), match=W"]
    I -.-> K["Nos devuelve un objeto 'match' con múltiple información"]
```

Cuando este método tenemos que tener en cuenta lo siguiente:

- Solo devuelve la primera coincidencia.

- En caso de que el *string* donde buscamos es un *string* multilínea, solo buscará en la primera línea. 


Vamos a ver algunos ejemplos. Vamos a buscar "Python" en nuestros patrones:


In [168]:
# Definimos dos variables de tipo string:

texto_1 ='''Python + Regex, las posibilidades son la pera!
            Yo creo que con python van a pasar cosas muy locas'''

texto_2 ='''Diablos! Python es lo mejor que me ha pasado en la vida
         python parace bastante rápido...
         Creo que, por lo que sea, me va a ser muy útil
         ''' 
# Definimos el patrón de búsqueda
patron_python = r"[p|P]\w+"

Vamos a analizar el patron:

- La primera parte, `[p|P]`, buscamos cualquier palabra que tenga la "p" o "P" usando el operador `|`.

- En la segunda parte, `\w+`, buscamos "p" o "P" seguida de cualquier letra. 

In [169]:
# apliquemos el patrón sobre el primer string
busqueda_match1 = re.match(patron_python, texto_1)
print(f"Al usar el método match en el primer texto el resultado es:{busqueda_match1}")

# ahora apliquemos el patrón sobre el segundo string
busqueda_match2 = re.match(patron_python, texto_2)
print(f"Al usar el método match en el primer texto el resultado es:{busqueda_match2}")

Al usar el método match en el primer texto el resultado es:<re.Match object; span=(0, 6), match='Python'>
Al usar el método match en el primer texto el resultado es:None


Vemos que en la primera busqueda nos devuelve un objeto tipo `re.Match`, que analizaremos más adelante, pero la segunda búsqueda nos devuelve `None` a pesar que dentro de nuestro segundo *string* sí teníamos la palabra "python"... Esto se debe a una de las propiedades importantes de este método, sólo nos devuelve la **primera coincidencia**.

Ahora vamos a ver que nos ha devuelto la primera búsqueda y cómo podríamos acceder a la información para que sea legible para nosotros. Dentro del objeto que nos devuelve la búsqueda con `re.Match` podemos usar varios métodos:

- Método `span()`: hace referencia a las posiciones donde hizo el "match" En nuestro caso, el match lo hizo en los elementos que están en la posición 0 hasta la 6. 
- Método `group()`: nos permite acceder al valor al que hace referencia el "match", es decir, al elemento resultado de la coincidencia.

In [170]:
# El resultado era:
print(f"Al usar el método match en el primer texto el resultado es:{busqueda_match1}\n")

# Usamos el método span:
print(f"Usamos el método span en nuestro objeto resultado: {busqueda_match1.span()}")

# Usamos el método group:
print(f"Usamos el método group en nuestro objeto resultado: {busqueda_match1.group()}")

Al usar el método match en el primer texto el resultado es:<re.Match object; span=(0, 6), match='Python'>

Usamos el método span en nuestro objeto resultado: (0, 6)
Usamos el método group en nuestro objeto resultado: Python


Ahora vamos a ver un ejemplo en nuestra canción:

In [171]:
# recordamos la canción
print(f"Las canción es:\n\n{cancion_espacios}\n")

# definimos dos patrones de búsqueda
patron_amor = r"amor"
patron_dime = r"Dime"

# aplicamos el método re.match dos veces una por patrón
busqueda_amor = re.match(patron_amor, cancion_espacios)
busqueda_dime = re.match(patron_dime, cancion_espacios)
print(f"El resultado del método re.match con el patrón amor es:{busqueda_amor}")
print(f"El resultado del método re.match con el patrón dime es:{busqueda_dime}")

Las canción es:

Dime que sientes lo mismo que yo,
Dime que me quieres, dímelo.


Cuando zarpa el amor
Navega a ciegas, es quien lleva el timón
Y cuando sube la marea al corazón
Sabe que el viento sopla a su favor.


No podemos hacer nada
Por cambiar el rumbo que marcó
Para los dos.
Cuando zarpa el amor

El resultado del método re.match con el patrón amor es:None
El resultado del método re.match con el patrón dime es:<re.Match object; span=(0, 4), match='Dime'>


La primera búsqueda no nos devuelve nada porque la palabra "amor" no se encuentra al principio de ninguna línea. Sin embargo la segunda búsqueda nos devuelve un objeto, ya encontró la palabra "Dime" al principio de alguna de las líneas de nuestra canción

## `re.search()`

Este método es muy  similar al `re.match` y lo utilizamos para buscar un patrón de regex en toda la cadena. Al igual que el método `re.match()`, devuelve un objeto Match, pero busca si hay una coincidencia en cualquier parte de la cadena no solo al principio.

Su sintaxis básica es: 

```python
re.search(patron, string)
```

Basándonos en la imagen que tenemos a continuación: 


- **patron**: es el patrón de expresión regular que se utilizará para hacer la búsqueda, en este caso `[A-Z]`. 

- **string**: es la cadena de texto en la cual se realizará la búsqueda, en este caso `Welcome`

```mermaid
graph LR;
    A["re.search('[A-Z]', 'Welcome')"] --> B["re.match"]
    A --> C["[A-Z]"]
    A --> D["Welcome"]
    B["re.search"] -.-> F["Busca si hay alguna coincidencia con el patrón en cualquier parte del string"]
    C["[A-Z]"] -.-> G["Patrón que queremos buscar"]
    D["Welcome"] -.-> H["String original"]
    
I["resultado:re.Match object; span=(0, 1), match=W"]
I -.-> K["Nos devuelve un objeto 'match' con múltiple información"]

```


Cuando este método tenemos que tener en cuenta lo siguiente:

- Como en el `re.match()`, `re.search()` solo nos devolverá **la primera coincidencia**.

- Al contrario que el `re.match()`, `re.search()` realizará la búsqueda en **TODO** el *string*.

In [172]:
# Vamos a utilizar los mismos ejemplos que en el apartado anterior:
# Recordamos nuestras variables:
print(f"El primer texto que teníamos era: {texto_1}\n")

print(f"El segundo texto que teníamos era: {texto_2}\n")

print(f"El patron de búsqueda era: {patron_python}")
 


# apliquemos el patrón sobre el primer string
busqueda_search1 = re.search(patron_python, texto_1)
print(f"Al usar el método match en el primer texto el resultado es:{busqueda_search1}")

# ahora apliquemos el patrón sobre el segundo string
busqueda_search2 = re.search(patron_python, texto_2)
print(f"Al usar el método match en el primer texto el resultado es:{busqueda_search2}")


El primer texto que teníamos era: Python + Regex, las posibilidades son la pera!
            Yo creo que con python van a pasar cosas muy locas

El segundo texto que teníamos era: Diablos! Python es lo mejor que me ha pasado en la vida
         python parace bastante rápido...
         Creo que, por lo que sea, me va a ser muy útil
         

El patron de búsqueda era: [p|P]\w+
Al usar el método match en el primer texto el resultado es:<re.Match object; span=(0, 6), match='Python'>
Al usar el método match en el primer texto el resultado es:<re.Match object; span=(9, 15), match='Python'>


Ahora con el método `re.search()`, sí generamos un objeto `Match` en ambas búsquedas no como cuando usábamos el método `re.match().` Esta es la diferencia entre estos dos métodos, `re.match()` solo busca en la primera línea `re.search()` lo hará sobre todo el *string*.  

#### **CUADRO RESUMEN DE MÉTODOS DE REGEX CON PYTHON:**


|  método |donde nos busca   |qué nos devuelve  |
|---|---|---|
|**findall()**  |en todo el *string* | una lista con todas las coincidencias en nuestro *string* |
|**search()**      |   en todo el *string*| un objeto con la primera coincidencia en nuestro *string*| 
|**match()**  | en la primera línea del *string*   | un objeto con la primera coincidencia en nuestro *string*  |
|**split()**|en todo el *string*|una lista con los elementos separados por el patrón que especificaramos|
|**sub()**|en todo el *string*| un *string* con el elemento que coincide| 

---

## Links útiles  🤓

**1- Documentación**

   - [La documentación](https://docs.python.org/3/howto/regex.html)

**2- Cheatsheets**

   - [Tutorial de Regex - Un cheatsheet rápido con ejemplos](https://medium.com/factory-mind/regex-tutorial-a-simple-cheatsheet-by-examples-649dc1c3f285)
   - [Cheatsheet de expresiones regulares](https://cheatography.com/davechild/cheat-sheets/regular-expressions/)

**3- Para practicar y comprobar patrones**

- Regex One, [para practicar](https://regex101.com/)

- Regex101, [para comprobar patrones](https://regex101.com/)

**4- Más enlaces**

   - [Regex de Python para científicos de datos](https://www.dataquest.io/blog/regular-expressions-data-scientists/)
   - [Construir, probar y depurar regex](https://regex101.com/)

---
# Ejercicios expresiones regulares

Online hay unas páginas interactivas con muchos ejercicios para ir practicando los regex, ya que con explicarlo sólo no te valdrá. 

Te invitamos que mireis la página de [regexone](https://regexone.com/). Mañana en la sesión después del kahoot resolveremos los ejercicios que os encontraréis en esta página. 

---