# ¿Qué es Regex? 

Es una abreviatura de `expresión regular`,  `regex` es una cadena de texto que permite crear patrones que ayudan a emparejar, localizar y gestionar textos (*strings*) en Pyhton.

Las expresiones regulares proporcionan un método potente, flexible y eficaz para procesar texto. La extensa notación de coincidencia de patrones de las expresiones regulares nos permite analizar rápidamente grandes cantidades de texto para:

- Encontrar patrones de caracteres específicos.

- Validar el texto para asegurarse de que coincide con un patrón predefinido (como una dirección de correo electrónico).

- Extraer, editar, sustituir o eliminar subcadenas de texto.

 
A la hora de trabajar con Regex hay dos preguntas que nos podríamos hacer que nos pueden ayudar: 

- ¿qué tienen en común los fragmentos de texto que buscamos?
- ¿qué fragmentos de texto *no* me interesan?

Una cosa interesante de regex es que universal para cualquier tipo de lenguaje de programación, es decir, será igual para Python, que para Java por ejemplo. 


## Operadores comunes

Estamos empezando con un "lenguaje" nuevo, por lo que antes de ponernos manos a la obra veremos algunos de los operadores más comunes. Por supuesto, existen muchos más, pero con estos que os compartimos ya podremos solucionar muchos problemas 💪🏽. 

- `+`  : coincide con el carácter precedente una o más veces.

    Por ejemplo `ab+c` coincide con "**abc**", "**abbc**", "**abbbc**" pero no con "**ac**". Es decir, la `b`(ya que el + lo tenemos después de la b), puede estar 1,2,n veces. Pero tiene que estar! 

- `*` : coincide con el carácter precedente cero o más veces u opcional

    Por ejemplo, `ab*c` coincide con "**abc**", "**abbc**", "**abbbc**" y "**ac**". Es decir, nuestro *string* puede tener 1, 2, 3, n `b`, pero también puede no tener ninguna. La diferencia con el `+` es que con el `*` indicamos que pueda aparecer o no ese caracter. 

- `?` : indica cero o una ocurrencia del elemento precedente.

    Por ejemplo, `colou?r` coincide con "*colour*" y "*color*". A diferencia con el `*`, cuando ponemos una `?`, el caracter que estamos buscando *solo* podrá aparecer UNA vez o ninguna. 

- `.` : coincide con cualquier carácter individual.

    Por ejemplo, `a.c` coincide con "**abc**", "**adc**", "**aec**", etc. Es decir, con el `.` indicamos "cualquier cosa". 

    📌 Si quisiéramos que coincidieran varios caracteres antes de la letra "c", sólo tendríamos que utilizar el asterisco * de arriba así: a.*c y esto coincidiría con "abdefghc".

- `^` : coincide con la posición inicial de cualquier *string*

    Por ejemplo,` ^b` coincide con **bat**, *ball*, *basketball*, etc. Es decir, buscaremos todos los *strings* que empiecen con "b". 

- `$` : coincide con la posición final de cualquier *string*

    Por ejemplo, `$o` coincide con **sombrero**, **gato**, etc. Todos los *strings* que terminen con "o". 

## Sintaxis básica de regex

- `\w`: buscaremos cualquier caracter de tipo alfabético.

- `\d`: buscaremos cualquier caracter de tipo númerico.

- `\s`: buscaremos los espacios en nuestro *string*.

- `\n`: buscaremos los saltos de línea en nuestro *string*.

- `\W`: buscaremos cualquier caracter que no sea una letra.

- `\D`: buscaremos cualquier caracter que no sea un dígito. 

- `\S`: buscaremos cualquier elemento que no sea un espacio en nuestro *string* 

- `()` : aísla sólo una parte de nuestro patrón de búsqueda que queremos devolver, es decir, captura un grupo.

- `[]` : incluye todos los caracteres que queremos que coincidan e incluso incluye rangos como este: a-z y 0-9.

    Por ejemplo encontrar todos los caracteres en minúscula de una cadena [a-z]

    ⚠️ Aquí se refiere simplemente a todos las letras en minúscula desde la "a" hasta la "z".

    Para los caracteres en mayúscula [A-Z]

    Para los números [0-9]

    🚨 Nota [^ch] coincide con todas las cadenas que **NO** empiezan por ch

- `|` : es como el operador `or` que conocemos de Python.

    Por ejemplo `hola|hi` comprueba si el *string* contiene "**hola**" o "**hi**"

- `\` : señala una secuencia especial ( escapar caracteres especiales). Estos caracteres especiales son todos los que vimos al inicio de la lección en el apartado de operadores y los citados en este apartado. 

    Por ejemplo si queremos buscar `.` en nuestro *string*, los `.` son elementos especiales, para "escaparlo" y poder buscarlos usaremos `\.` 

- `{}`: Exactamente el número especificado de ocurrencias

    - {n}: Exactamente n veces

    - {n,}: Al menos n veces

    - {n,m}: Entre n y m veces

    Por ejemplo `to{2}` coincide con **todo** pero no con **todavía**, ya que estamos buscando en nuestros *strings*  algo que tenga "to" seguido de SOLO dos caracteres más. 


Os dejamos por aquí una cheatsheet de Regex por si os ayuda! 

![regex](https://github.com/Adalab/data_imagenes/blob/main/Modulo-1/python/cheatsheet_regex.png?raw=true)

## Links útiles  🤓

**1- Documentación**

   - [La documentación](https://docs.python.org/3/howto/regex.html)

**2- Cheatsheets**

   - [Tutorial de Regex - Un cheatsheet rápido con ejemplos](https://medium.com/factory-mind/regex-tutorial-a-simple-cheatsheet-by-examples-649dc1c3f285)
   - [Cheatsheet de expresiones regulares](https://cheatography.com/davechild/cheat-sheets/regular-expressions/)

**3- Para practicar y comprobar patrones**

- Regex One, [para practicar](https://regex101.com/)

- Regex101, [para comprobar patrones](https://regex101.com/)

**4- Más enlaces**

   - [Regex de Python para científicos de datos](https://www.dataquest.io/blog/regular-expressions-data-scientists/)
   - [Construir, probar y depurar regex](https://regex101.com/)

# Regex en Python

En Python nos vamos a encontrar 5 funciones principales que nos van a permitir trabajar con *strings*  y Regex. Estas son: 


- `findall` : devuelve una lista con todas las coincidencias.

- `sub` : reemplaza una o varias coincidencias con un *string* especificado.

- `split` : devuelve una lista en la que el *string* ha sido dividido en cada coincidencia. Como el `split` que aprendimos en los *strings* pero incluyendo regex.  

- `match` : busca el patrón de expresión regular y devuelve la primera ocurrencia.

- `search` : devuelve un objeto Match si hay una coincidencia en cualquier parte de la cadena.



In [2]:
# lo primero que hacermos es importar la librería re, ya que la necesitaremos para trabajar con regex en python

import re

## `re.findall()`

Devuelve una lista con todas las coincidencias.

![findall](https://github.com/Adalab/data_imagenes/blob/main/Modulo-1/python/re-findall().png?raw=true)

Empecemos con un ejemplo algo más sencillo para luego meternos en el fango, con más patrones. En este primer ejemplo, vamos a querer extraer únicamente la información sobre los números de teléfono que tenemos en el *string*. Por lo tanto, tendremos que buscar en nuestro *string* únicamente los elementos numéricos. 

In [3]:
# definimos un string

string = """Hola, mi número es 123456789 y 
            el de mi amigo es 987654321"""  

In [4]:
# definimos el patrón. Recordemos que para los dígitos tenemos la sintaxis "\d" que nos va a capturar todos los números. Le pondremos un "+" por que queremos que sean muchos números. 

patron1 = "\d+"

In [5]:
# utilizamos el método re.findall para sacar los números de nuestro string
numeros = re.findall("\d+", string)

In [6]:
# veamos ahora que es numeros, donde esperaríamos encontrarnos una lista solo de números

numeros

['123456789', '987654321']

Y voilà!!! ya hemos conseguido sacar solo los números!!! 

Veamos otro ejemplo ahora, dado el *string* llamado "frase", queremos extraer únicamente aquellas palabras que empiezan con "p" y terminan con "g"

In [7]:
frase = "Laura esta aprendiendo Python, para eso usa el pairprogramming"

In [8]:
# definimos nuestro patrón

patron2 = "p\w+g"

Expliquemos el patrón:

- Queremos encontrar cualquier palabra que tenga una "p", por lo que lo primero que tendrá nuestro patrón es una "p"

- Lo que haya entre la "p" y la "g" deberán ser letras, pero nos da igual que letra sea, por lo que usaremos `\w` para indicar que queremos letras y un `+` para especificar que sea una o más. 

- Por útlimo una "g" ya que queremos que termine con "g"

In [9]:
# usamos el método re.findall
palabra_pg = re.findall(patron2, frase)
palabra_pg

['pairprogramming']

Sigamos con más ejemplos. Recordáis que al inicio de este jupyter hablamos de operadores como `?`, `+` o `*` y que las diferencias podían ser un poco sutiles. Vemos un caso práctico para ver mejor las diferencias: 

In [10]:
# definimos un nuevo string
lala = "la lala la lalala l laaa lo"


In [11]:
# si buscamos sin ninguno de estos operadores los caracteres "la", buscaremos literalmente las palabras "la"
la1 = re.findall('la', lala)
la1

['la', 'la', 'la', 'la', 'la', 'la', 'la', 'la']

Si nos fijamos, nos devuelve unicamente *strings* "la", sin nada más! 

In [12]:
# también teníamos el operador "?", el cual buscaba 0 o 1 coincidencia con el caracter previo. En nuestro caso, vamos a buscar todos aquellos caracteres que tengan una "l" SEGUIDO O NO de UNA SOLA "a"
la2 = re.findall('la?', lala)
la2

['la', 'la', 'la', 'la', 'la', 'la', 'la', 'l', 'la', 'l']

Esto nos esta devolviendo aquellas partes de nuestro *string* donde tenemos una "l" sola o una "l" seguida de UNA ÚNICA "a". Es decir, no está considerando aquellas partes del *string* donde tengamos una "l" seguida de más de una "a". 

In [13]:
# además teníamos el operador "+",  que a diferencia de la "?", nos macheaba todo lo que tenga una "l" SEGUIDO de UNA o MAS "a". Es decir, a diferencia del "?", con el "+" la "a" TIENE QUE ESTAR
la3 = re.findall('la+', lala)
la3

['la', 'la', 'la', 'la', 'la', 'la', 'la', 'laaa']

Si nos fijamos en lo que nos devuelve vemos que, en este caso ya no tenemos la "l" sola, ya que con el `+` la "a" tiene que estar si o si. Pero además nos ha añadido el "laaa", ya que con el operador `+` especificamos que aparezca una o más veces. 

In [14]:
# por último tenemos el operador "*", el cuál buscará todo aquello que tenga una "l" SEGUIDO o NO de UNA o MAS "a". A diferencia del "?", aquí nos capturará si hay más de una "a" mientras que el "?" solo nos machea una. 
la4 = re.findall('la*', lala)
la4

['la', 'la', 'la', 'la', 'la', 'la', 'la', 'l', 'laaa', 'l']

Sigamos con más operadores, recordamos las llaves `{}`, los cuáles nos permitian especificar el número de veces que queremos buscar un caracter especificado. 

📌 **NOTA** Este operador solo aplicará sobre el caracter previo al que está, veamos un ejemplo: 

```python

# imaginamos que tenemos el siguiente patrón: 

patron1 = "1234{3}"

# el {3} solo está afectando sobre el 4, es decir, el caracter previo. Por lo tanto, con este patrón estaríamos buscando cualquier elemento en nuestro string que tenga 123 seguido de 3 cuatros. 
``` 

In [15]:
# si queremos que nos busque exactamente 2 "a"
re.findall('a{2}' , 'aaaaabbbbb')

['aa', 'aa']

Fijaos que nuestro *string*  tiene 5 "a" consecutivas. Lo que va a hacer este patrón de regex es buscar dentro de esas 5 "a", cuántas veces aparece combinaciones de "aa", en nuestro caso dos veces. 

In [16]:
# si queremos buscar al menos tres "a" en nuestro string usaremos {3,}. Esto nos devolverá la parte del string que tenga 3 o más "a"
re.findall('a{3,}' , 'aaaaabbbbb')


['aaaaa']

En este caso, nos va a buscar dentro de nuestro *string*, puede encontrar **al menos** 3 "a". En nuestro caso, nos captura las 5 "a". 

In [17]:
# si quisieramos buscar mínimo 2  y máximo 4 "a", usaremos {2,4}
re.findall('a{2,4}', 'aaaaabbbbb')


['aaaa']

Por último, este último patrón nos va a devolver aquellas coincidencias de "a" que tengan entre 2 y 4. Como solo tenemos 5 "a", solo nos devolverá un resultado. Pero... que pasaría si tuvieramos 10 "a". Veámoslo:

In [18]:
re.findall('a{2,4}', 'aaaaaaaaaabbbbb')

['aaaa', 'aaaa', 'aa']

Como vemos, nos ha sacado dos *strings* de 4 "a" y uno de 2 "a", es decir, esta "completando" hasta cubrir todas las "a" que hay en nuestro *string*. 

Alternativamente, el operador `|` en regex es el 'or' como vimos en las sentencias booleanas. Imaginemos que tenemos la siguiente canción 👇🏽 y queremos saber cuántas veces aparece la palabra barquito en nuestro *string* y que nos da igual si la "b" esta en mayúscula o minúscula, en este caso deberíamos buscar: 

> barquito o Barquito

Es en este caso donde podremos usar el operador `|`

In [19]:
# vamos a definir un string sobre el que trabajaremos en los siguientes ejemplos:

cancion ="""Había una Vez un Barquito Chiquitito,   
había una vez un barquito chiquitito,
que no sabia, que no sabía , que no sabía navegar.

Pasaron un, dos, tres,
cuatro , cinco, seis semanas,
pasaron 1, 2 , 3,
4, 5 , 6 semanas,
y aquel barquito y aquel barquito
y aquel barquito navegó."""

In [20]:
barquitos3 = re.findall('barquito|Barquito',cancion)

print(barquitos3)

['Barquito', 'barquito', 'barquito', 'barquito', 'barquito']


**Veamos ahora unos operadores que pueden resultar confusos cuando los aprendemos, los operadores `^` y `$`**. Recordemos que: 

- El operador `^` nos sirve para buscar en el incio del *string*, es decir, EL PRIMER CARACTER DE TODO EL *STRING*. 

- El operador `$` nos sirve para buscar en el final del *string*, es decir, EL ÚLTIMO CARACTER DE TODO EL *STRING*. 

In [21]:
# definamos un nuevo string

saludo = "Hola Adalabers, regex puede ser un poco dificil, pero lo podemos superar!!! Es cuestión de práctica"

In [22]:
# con este patrón lo que estamos buscando es el string que empieza por "re". 
re.findall("^re", saludo)

[]

In [23]:
# con este string estamos buscando es el string que empieza por "Ho" y que luego tenga más letras, por eso ponemos "\w+"
re.findall("^Ho\w+", saludo)

['Hola']

**Pero... ¿Porqué aunque tengamos una palabra dentro de nuestro saludo  que empieza por *re* no nos devuelve nada?** ⚠️⚠️ Y es que este operador al igual que el `$` solo afecta al INICIO (o al FINAL en el caso del `$`) del *string*, no a al inicio de las palabras contenidas dentro del *string* ⚠️⚠️

Imaginemos que tenemos una lista de direcciones, sin embargo, de esta lista solo me interesan las que empiezan por calle, estas direcciones las añadiremos a una nueva lista. 

- Cómo lo que queremos hacer es ir evaluando dirección a dirección de nuestra lista, lo primero que tendremos que hacer es un `for loop`. 

- Además queremos ver si cada una de estas direcciones empieza con "Calle", usaremos el operador `^`. 

Veamos todo esto con código: 

In [24]:
direcciones = ["Calle de la Paz", "Avenida de la Libertad", "Calle de la Esperanza", "Plaza de las Virtudes", "Calle Gloria", "Avenida de la Gran Calle"]

In [25]:
# creamos una lista vacía donde iremos añadiendo las direcciones que tengan "Calle"
direcciones_calle = []

for direccion in direcciones: 
    # hacemos un findall para ver si cada una de las direcciones empieza con "Calle"

    calle = re.findall("^Calle", direccion) # esto nos devolverá una lista vacía en caso de que la dirección no comience por "Calle", pero será una lista con contenido cuando la dirección empiece con "Calle"

    # jugando con las longitudes del resultado del findall anterior, solo querremos apendear la dirección si el findall nos devuelve algo, y por lo tanto la longitud de la lista calle será distinto de 0. 
    if len(calle) != 0:
        direcciones_calle.append(direccion)


# si ahora vemos el contenido de la lista direcciones_calle, solo tendremos las direcciones que empiecen por "Calle", pero no aquellas que no empiecen con "Calle" o que lo tengan en mitad del string. 
direcciones_calle

['Calle de la Paz', 'Calle de la Esperanza', 'Calle Gloria']

## `re.sub()`

Remplaza una o varias coincidencias con un *string* especificado. 

![sub](https://github.com/Adalab/data_imagenes/blob/main/Modulo-1/python/re-sub.png?raw=true)

Empecemos con un ejemplo sencillo, para luego pasar a usar el *string* "cancion" que definimos al inicio de este apartado. 

In [26]:
# Dado el siguiente string, vamos a querer reemplazar todas las "e" por "9"
txt = "C++ es el mejor lenguaje. C++ mola!"

In [27]:
# llamamos a la funcion "re.sub"
# lo primero que le pasamos es lo que queremos buscar, en este caso es sencillo, ya que queremos las "e"
# después especificamos por que lo queremos reemplazar, en este caso por "9"
# y por ultimo le pasamos el string sobre el que queremos hacer el reemplazo

txt_9 = re.sub("e", "9", txt)

In [28]:
# si ahora vemos nuestro nuevo string, no deberíamos tener "e" y debería haber "9"
txt_9

'C++ 9s 9l m9jor l9nguaj9. C++ mola!'

Este método, puede recibir un parámetro extra, que será un número, con el cual indicaremos en cuántas de las coincidencias querremos hacer el cambio. En este ejemplo, teníamos tres "e", pero imaginemos que solo nos interesa hacerlo en dos. Lo haremos de la siguiente forma: 

In [29]:
# lo único que cambia con el ejemplo anterior es que le añadimos un 2 al final. 
text_9_2 = re.sub("e", "9", txt, 2)

In [30]:
# si nos fijamos, ahora se nos han cambiado solo 2 "e", mientras que la última se ha mantenido
text_9_2

'C++ 9s 9l mejor lenguaje. C++ mola!'

Pongamos un ejemplo algo más complejo. Imaginemos ahora que queremos reemplazar "C++" por Python. Si recordamos del inicio de la lección, el operador `+` es un caracter especial y como tal tendremos que "escaparlo" con el operador `\`. Veamos como hacerlo:  

In [31]:
# recordemos como era nuestro strinf
txt

'C++ es el mejor lenguaje. C++ mola!'

In [32]:
# ahora vamos a definir nuestro patrón, que nos sirva para reemplazar C++ por Pyhton. 

patron = "C\+\+"

Con este patrón lo que estamos buscando es: 

- Algo que en nuestro *string* que tenga una "C"

- Seguido de dos "+". Como los "+", son caracteres especiales tendremos que poner `\` delante de cada uno. 

In [33]:
# lo siguiente que hacemos es utilizar el método re.sub para hacer el reemplazo
txt_python= re.sub(patron, "Python", txt)

In [34]:
# veamos como nos quedo nuestro string ahora

txt_python

'Python es el mejor lenguaje. Python mola!'

Perfecto!! Ya hemos hecho nuestros primero reemplazos. Veamos ahora otro ejemplo con el *string*  de la canción que definimos al inicio. 

In [35]:
# recordemos como era nuestra canción

print(cancion)

Había una Vez un Barquito Chiquitito,   
había una vez un barquito chiquitito,
que no sabia, que no sabía , que no sabía navegar.

Pasaron un, dos, tres,
cuatro , cinco, seis semanas,
pasaron 1, 2 , 3,
4, 5 , 6 semanas,
y aquel barquito y aquel barquito
y aquel barquito navegó.


Si nos fijamos, en nuestra canción hay algunas comas que tienen un espacio delante, esto no nos gusta mucho y queremos quitar esos espacios. Pongamonos manos a la obra!! 

In [36]:
# lo primero que hacemos es definir nuestro patrón. Recordemos que (si no nos acordamos no pasa nada, nos vamos a la cheatsheet que os pusimos al inicio de la lección) que para buscar los espacios tendremos que usar \s
# lo que vamos a querer buscar es algo que tenga un espacio seguido de una ","

patron2 = "\s,"

In [37]:
# lo que estamos haciendo aquí es reemplazas las comas que tenían un espacio previo por comas sin espacio previo. 
cancion_espacios = re.sub(patron2, ",", cancion)
print(cancion_espacios)

Había una Vez un Barquito Chiquitito,   
había una vez un barquito chiquitito,
que no sabia, que no sabía, que no sabía navegar.

Pasaron un, dos, tres,
cuatro, cinco, seis semanas,
pasaron 1, 2, 3,
4, 5, 6 semanas,
y aquel barquito y aquel barquito
y aquel barquito navegó.


Y voilà! Ya no tenemos esos espacios tan molestos en nuestro *string*. Sigamos limpiando un poco más nuestro *string*. De nuevo, si nos fijamos, tenemos palabras que están en mayúsulas en mitad de nuestra canción, y eso no puede ser!! Reemplacemos esas letras! 

In [39]:
patron3 = "[^\.\n][A-Z]"

¿Cómo está definido este patrón? Por que este parece algo más complejo. Primero tenemos que pensar que es lo que queremos buscar: 

- Queremos buscar todas las letras mayúsculas

- Que **no** vayan después de un `.` ni un salto de línea `\n` 


Desgranémoslo para entenderlo mejor

- La primera parte de nuestro patrón es `[^\.\n]`. Bien, con esto estamos indicando que nos seleccione todo aquello que **NO** tenga un `.` ni un salto de línea `\n`. Recordemos que aunque el operador `^` indica "que nuestro *string* empiece por", si lo ponemos entre corchetes indicara "todo lo que **NO** contenga". 

- Por otro lado solo queremos remplazar las mayúsulas por lo tanto usaremos la estructura `[A-Z]` para indicar cualquier letra que esté en mayúscula entre la "A" y la "Z". 


Y ahora nos puede surgir la duda de por que lo reemplazamos, ya que tenemos un "V", una "B" y una "C". Para solucionar esto con el `findall` buscaremos todas las letras que coinciden, luego iteraremos por ella y haremos el reemplazo. 

In [40]:
# lo primero que hacemos es sacar las mayúsculas que no estén después de un punto que haya en nuestra canción. 
mayus = re.findall(patron3,cancion_espacios)
mayus

[' V', ' B', ' C']

In [41]:
# recordamos la canción
print(cancion_espacios)

Había una Vez un Barquito Chiquitito,   
había una vez un barquito chiquitito,
que no sabia, que no sabía, que no sabía navegar.

Pasaron un, dos, tres,
cuatro, cinco, seis semanas,
pasaron 1, 2, 3,
4, 5, 6 semanas,
y aquel barquito y aquel barquito
y aquel barquito navegó.


In [42]:
# una vez que tenemos la lista de mayúsculas  iteramos por ella
for letra in mayus:
   # y aplicamos el método re.sub. Donde usaremos el método .lower() de string para convertir cada una de las letras por las que estamos iterando en minúscula
   cancion_espacios = re.sub(letra,letra.lower(),cancion_espacios) 

In [43]:
# vemos como es nuestra canción ahora y vemos que ya no tenemos letras minúsculas!!

print(cancion_espacios)

Había una vez un barquito chiquitito,   
había una vez un barquito chiquitito,
que no sabia, que no sabía, que no sabía navegar.

Pasaron un, dos, tres,
cuatro, cinco, seis semanas,
pasaron 1, 2, 3,
4, 5, 6 semanas,
y aquel barquito y aquel barquito
y aquel barquito navegó.


## `re.split()` 

Devuelve una lista en la que el *string* ha sido dividido en cada coincidencia. Como el `split` que aprendimos en los *strings* pero incluyendo regex.  


![split](https://github.com/Adalab/data_imagenes/blob/main/Modulo-1/python/re-split().png?raw=true)

De nuevo empecemos con ejemplos algo más sencillos, para luego ir complicandolo un poco más. 

In [44]:
# definimos un string
s_nums = 'uno1dos22tres333cuatro'

En este caso, vamos a querer dividir nuestro *string* por el número 22. De nuevo, tendremos que definir nuestro patrón de regex y luego llamar al método `re.split()` pasándole el *string* sobre el que querremos aplicar la acción. 

In [45]:
# en nuestro caso, como queremos dividirlo por el número "22", nuestro patrón será literal por lo que lo queremos dividir
patron4 = "22"

In [46]:
# aplicamos el método split
primera_division  = re.split(patron4, s_nums)
primera_division

['uno1dos', 'tres333cuatro']

¿Qué es lo que ha pasado en la celda anterior? Lo que ha hecho el `re.split()` es dividir nuestro *string* en aquellos puntos que coincidan con el patrón que le pasamos. En este caso, nuestro patrón era "22", lo que ha dado como resultado una lista con dos elementos, donde se ha cortado el *string* original por el sitio que nosotras especificamos en el método. Fijaos que el patrón por el que hacemos el *split* ya no forma parte de nuestra lista!

Imaginemos ahora que ya no queremos dividir solo por el "22", también lo querremos hacer por los elementos que sean dígitos. Veamos como hacerlo: 

In [47]:
# definimos el patrón para que nos corte por cualquier elemento que sea un número, que pueda aparecer 1 o muchas veces. 
patron5 = "\d+"

In [48]:
segunda_division = re.split(patron5, s_nums)
segunda_division

['uno', 'dos', 'tres', 'cuatro']

Si nos fijamos ahora, hemos dividido nuestro *string* por todos los elementos numéricos de nuestro *string* y el resultado es una lista que con los números en formato letra. Veamos un último ejemplo sencillo con `re.split()`. Imaginemos ahora que tenemos un *string*  en el cual nos vamos a encontrar distintos tipos de delimitadores, como por ejemplo "+", "-" o "#" y queremos dividir por estos delimitadores. 

In [49]:
marcas = 'uno-dos+tres#cuatro'

In [50]:
# como siempre lo primero que hacemos es definir nuestro patrón. Os acordáis de los operadores "[]", esencialmente es una abreviatura de un "|", ya que nos va a permitir 
# capturar todos los elementos que indiquemos entre los corchetes. Estos elementos que indiquemos, podrán estar o no. 
# Recordad cuando lo hacíamos para capturar todas las mayúsuclas. 
patron6 = '[-+#]'


In [51]:
multiple = re.split(patron6, marcas)
multiple

['uno', 'dos', 'tres', 'cuatro']

Ahora hemos conseguido eliminar todos los signos de puntuación o separadores que tenemos en nuestro string. Si quisieramos volver a unirlo como un *string*  recordad que teníamos el método `.join()` que nos permitía convertir una lista de *strings* a un *string* único. 

In [52]:
" ".join(multiple)

'uno dos tres cuatro'

Pongamos ahora un ejemplo con nuestra canción. En este caso, vamos a querer separar cada una de las estrofas de nuestra canción. Si printemos la cancion, como lo tenemos en la celda siguiente, nos podemos fijar que las estrofas están separadas por "\n\n". 

In [53]:
# recordamos como era la canción
cancion

'Había una Vez un Barquito Chiquitito,   \nhabía una vez un barquito chiquitito,\nque no sabia, que no sabía , que no sabía navegar.\n\nPasaron un, dos, tres,\ncuatro , cinco, seis semanas,\npasaron 1, 2 , 3,\n4, 5 , 6 semanas,\ny aquel barquito y aquel barquito\ny aquel barquito navegó.'

In [54]:
# definimos el patrón. En este caso, las estrofas están separadas por saltos de línea, por lo tanto, tendremos que hacer un split por estos saltos. Recordemos que el patrón para los saltos de línea es "\n"
# pero fijaros, que cada línea ya tiene de por si un salto de línea, pero cuando cambiamos de párrafo tiene dos saltos de línea, por lo tanto nuestro patron son los dis saltos de línea

patron7 = "\n\n"

In [55]:
estrofas = re.split(patron7, cancion)
estrofas

['Había una Vez un Barquito Chiquitito,   \nhabía una vez un barquito chiquitito,\nque no sabia, que no sabía , que no sabía navegar.',
 'Pasaron un, dos, tres,\ncuatro , cinco, seis semanas,\npasaron 1, 2 , 3,\n4, 5 , 6 semanas,\ny aquel barquito y aquel barquito\ny aquel barquito navegó.']

In [56]:
# nuestro primera estrofa
estrofas[0]

'Había una Vez un Barquito Chiquitito,   \nhabía una vez un barquito chiquitito,\nque no sabia, que no sabía , que no sabía navegar.'

In [57]:
# nuestra segunda estrofa
estrofas[1]

'Pasaron un, dos, tres,\ncuatro , cinco, seis semanas,\npasaron 1, 2 , 3,\n4, 5 , 6 semanas,\ny aquel barquito y aquel barquito\ny aquel barquito navegó.'

## `re.match()` 

Busca el patrón y devuelve la primera ocurrencia.

![match](https://github.com/Adalab/data_imagenes/blob/main/Modulo-1/python/re-match.png?raw=true)


⚠️⚠️ **COSAS IMPORTANTES A TENER EN CUENTA CUANDO USAMOS ESTE MÉTODO** ⚠️⚠️

- Solo nos va a devolver la primera coincidencia

- En caso de que tengamos un *string* multilínea, solo nos buscará en la primera línea. 


Veamoslo con un ejemplo: 

In [58]:
# supongamos que tenemos los siguientes strings


string1 ='''Regex! En Adalab estamos aprendiendo regex !!!
         Regex es muy útil para buscar patrones en nuestros strings.
          Además es muy rápido.'''

string2 ='''Esto es de locos !!!
         regex es muy útil para buscar patrones en nuesrtos strings.
          Ademas es muy rápido.'''


In [60]:
# imaginamemos que queremos buscar la palabra "regex" o "Regex" dentro de nuestro string. Lo primero que tendremos que hacer es definir nuestro patrón. 

patron8 = "[r|R]\w+"

Entendamos el patrón que hemos escrito: 

- Empezamos con `[r|R]`, con esto estamos buscando cualquier palabra que tenga la "r" o (`|`) "R"

- Después tenemos `\w+`, lo cual indica que queremos buscar cualquier "r" o "R" seguida de cualquier letra. 

In [61]:
# apliquemos el patrón sobre el primer string
pat1 = re.match(patron8, string1)
pat1

<_sre.SRE_Match object; span=(0, 5), match='Regex'>

Genial! Nos ha devuelto cosas!!! Pero puede que nos las entendaís muy bien, no os preocupeis, ahora veremos en detenimiento que significa cada una de estas cosas. Pero antes de seguir, veamos que pasa si le aplicamos este mismo patrón al `string2` 

In [62]:
# apliquemos el patrón sobre el segundo string
pat2 = re.match(patron8, string2)
pat2

Vaya... no nos ha devuelto nada, a pesar de que en nuestro *string* teníamos la palabra "regex"! Esto es porque este método **SOLO nos va a buscar la coincidencia en la primera línea**!!! Por lo tanto, si en esa línea no tenemos una coincidencia no nos devolverá nada! Lo mismo pasa en el primer *string*, donde a pesar de que en la primera línea tenemos dos veces la palabra "regex" solo nos devuelve una, y es que recordemos, este método a parte de buscar únicamente en la primera línea, **SOLO nos va a devolver la PRIMERA COINCIDENCIA**. 

Una vez entendido que pasa con las búsquedas de patrones con este método, entendamos ese objeto que nos devuelve, para saber como acceder a la información que ha coincidido:

In [64]:
# recordamos el resultado
pat1

<_sre.SRE_Match object; span=(0, 5), match='Regex'>

In [73]:
# el span hace referencía a las posiciones donde hizo el "match", para acceder a esos valores usaremos el método .span(). 
# En nuestro caso, el match lo hizo en los elementos que están en la posición 0 hasta la 5
pat1.span()

(0, 5)

In [66]:
# el match hace referencia al elemento resultado de la coincidencia. Para acceder a ese valor usaremos el método .group()
pat1.group()

'Regex'

Hagamos un ejemplo con nuestra canción, en este caso, vamos a querer buscar "barquito"

In [67]:
# como siempre, lo primero que hacemos es recordad como era nuestro string
print(cancion)

Había una Vez un Barquito Chiquitito,   
había una vez un barquito chiquitito,
que no sabia, que no sabía , que no sabía navegar.

Pasaron un, dos, tres,
cuatro , cinco, seis semanas,
pasaron 1, 2 , 3,
4, 5 , 6 semanas,
y aquel barquito y aquel barquito
y aquel barquito navegó.


In [68]:
# como literal queremos buscar la palabra barquito, nuestro patrón será la palabra
patron9 = "barquito"

In [69]:
re.match(patron9, cancion)

No nos devuelve nada! Y es que esto es normal, ya que la palabra "barquito" aparece por primera vez en la segunda línea y recordemos que el `.match()` solo busca en la primera línea.

## `re.search()`

Devuelve un objeto Match si hay una coincidencia en cualquier parte de la cadena.

![search](https://github.com/Adalab/data_imagenes/blob/main/Modulo-1/python/re-search.png?raw=true)

⚠️⚠️ **COSAS IMPORTANTES DE ESTE MÉTODO** ⚠️⚠️

- Como en el `re.match()`, solo nos devolverá la primera coincidencia.

- Al contrario que el `re.match()` nos hará la búsqueda en **TODO** el *string*.

In [70]:
# sigamos usando los string definidos en el método re.match()

print(string1)
print("----------------")
print(string2)

Regex! En Adalab estamos aprendiendo regex !!!
         Regex es muy útil para buscar patrones en nuestros strings.
          Además es muy rápido.
----------------
Esto es de locos !!!
         regex es muy útil para buscar patrones en nuesrtos strings.
          Ademas es muy rápido.


In [71]:
# vamos a querer seguir búscando la palabra regex, por lo que reutilizaremos el patrón que definimos previamente. Recordemoslo

patron8

'[r|R]\\w+'

In [72]:
# apliquemos el patrón sobre el primer string
pat_search_1 = re.search(patron8, string1)
pat_search_1

<_sre.SRE_Match object; span=(0, 5), match='Regex'>

In [73]:
# apliquemos el patrón sobre el primer string
pat_search_2 = re.search(patron8, string2)
pat_search_2

<_sre.SRE_Match object; span=(30, 35), match='regex'>

Vaya... no se si os acordais de cuando usamos el método `re.match()`, pero en aquel caso, no obtuvimos resultado de búsqueda en el segundo *string* y en este caso si!!! Y esta es la diferencia entre estos dos métodos, mientras que `re.match()` solo busca en la primera línea `re.search()` lo hará sobre todo el *string*.  

Hasta aquí la lección de hoy, hemos aprendido muchas cosas y pueden resultar algo abstractas, pero no os preocupeis, regex es algo que se va a aprendiendo poco a poco y se basa mucho en la práctica. Os dejamos por aquí un resumen de los métodos que hemos visto: 


|  método |donde nos busca   |qué nos devuelve  |
|---|---|---|
|**findall()**  |en todo el *string* | una lista con todas las coincidencias en nuestro *string* |
|**search()**      |   en todo el *string*| un objeto con la primera coincidencia en nuestro *string*| 
|**match()**  | en la primera línea del *string*   | un objeto con la primera coincidencia en nuestro *string*  |
|**split()**|en todo el *string*|una lista con los elementos separados por el patrón que especificaramos|
|**sub()**|en todo el *string*| un *string* con el elemento que coincide| 

---
## Ejercicios expresiones regulares

Online hay unas páginas interactivas con muchos ejercicios para ir practicando los regex, ya que con explicarlo sólo no te valdrá. 

Te invitamos que mireis la página de [regexone](https://regexone.com/). Mañana en la sesión después del kahoot resolveremos los ejercicios que os encontraréis en esta página. 

---

---