# Expresiones regulares (regex)

Una de las tareas más utilizadas en la programación es la búsqueda de subcadenas o patrones dentro de otras cadenas de texto.

Las **expresiones regulares** son un potente lenguaje de descripción de texto, son patrones de búsqueda definidos con una sintaxis formal.

No existe un lenguaje moderno que no permita usarlas. Las reglas con las que se forman son bastante simples. Pero aprender a combinarlas correctamente **requiere de práctica**.

[regex 101](https://regex101.com/)

[regexr](https://regexr.com/)

<br>

Supongamos el siguiente escenario:

Quiero determinar si dentro de una cadena puedo encontrar el numero 123.
    

In [None]:
string = 'hola123chau'

Pero que pasa si ahora lo que queremos saber es si nuestro string contiene una secuencia de 3 numeros, sin importar cuales sean.. Aqui es donde se vuelven utiles las **expresiones regulares**

# Regex en Python

### El modulo `re`

Las regex en Python residen en la funcionalidad del modulo `re` , el cual es una libreria que contiene funciones y metodos muy utiles para el uso de expresiones regulares.

Para trabajar con el debemos importarlo:

    import re

In [None]:
import re

En esta primera parte del notebook nos vamos a centrar en explicar aspectos de la sintaxis de las regex, y para ello nos vamos a basar en dos funciones del modulo re:

1. **re.search(patron,string)** : va a escanear el string buscando la primer ocurrencia del patron especificado. Si hay concordancia, nos devuelve un objeto `match`, sino devuelve `None`
<br>
2. **re.findall(*patron,string*)** : va a escanear el string buscando todas las ocurrencias del patron especificado. Nos devuelve una lista con todas las ocurrencias (lista vacia si no se encuentra el patron)

In [None]:
# volvamos al caso de antes

In [None]:
string = "hola123chau"

In [None]:
# pero esto no es mas poderoso de lo que ya veniamos viendo

### METACARACTERES

El verdadero poder de las regex es cuando usamos **metacaracteres** en el patron, estos son caracteres que tienen un significado especial dentro de las regex e incrementan enormemente la capacidad de busqueda.

Veamos un ejemplo, el metacaracter `[]` indica la creacion de una **clase de caracteres** (conjunto de caracteres) de los cuales si el string posee alguno de ellos, va a haber un match.

Es importante remarcar, que este conjunto de caracteres creado, **funciona como si fuese un solo caracter** pero que puede valer cualquier valor del conjunto.

Y si ahora queremos que sea mas de un caracter ?

In [None]:
# veamos otro ejemplo



In [None]:
string2 = "Hola3a la95"
re.search('[a-z][0-9][abc456]',string2)

In [None]:
re.findall('[a-z][0-9][abc456]',string2)

### Tabla de metacaracteres

A continuacion una tabla **resumida** de los metacaracteres de las expresiones regulares 

<table >
<tr>
    <th style="width:20%"> Metacarater</th>
    <th>Descripcion</th> 
</tr>

<tr>
    <td>.</td> 
    <td>Coincide con cualquier caracter, excepto el salto de linea</td>
</tr>

<tr>
    <td>*</td> 
    <td>Coincide con el elemento anterior cero o más veces.</td>
</tr>
    
<tr>
    <td>+</td> 
    <td>Coincide con el elemento anterior una o más veces.</td>
</tr>
  
<tr>
    <td>[ ]</td> 
    <td>Especifica una clase de caracteres</td>
</tr>  
    
<tr>
    <td>^</td> 
    <td>Coincidencia del patron al principio de la cadena. <br>
    Complementa el uso de la clase de caracteres</td>
</tr>
    
<tr>
    <td>$</td> 
    <td>Coincidencia del patron al final de la cadena</td>
</tr>
    
    
<tr>
    <td>?</td> 
    <td>Coincide con el elemento anterior cero o una vez.
    <br>Especifica una coincidencia no ambiciosa.</td>
</tr>
    
<tr>
    <td>( )</td> 
    <td>Crea un grupo</td>
</tr>
    
<tr>
    <td>\</td> 
    <td>Anula el significado de un metacaracter
    <br>Induce a otros metacaracteres</td>
</tr>

<tr>
    <td>\s</td> 
    <td>Coincide con cualquier carácter que sea un espacio en blanco.</td>
</tr>
    
<tr>
    <td>\S</td> 
    <td>Coincide con cualquier carácter que NO sea un espacio en blanco.</td>
</tr>
    
<tr>
    <td>\w</td> 
    <td>Coincide con cualquier carácter alfanumerico.</td>
</tr>
    
<tr>
    <td>\W</td> 
    <td>Coincide con cualquier carácter NO alfanumerico.</td>
</tr>
    
 </table>


Vamos a analizar algunos de ellos

-----

**Pero antes hagamos un parentesis**

El uso de `r' '` en Python (aconsejable al 100%)

**Recuerden**

**El uso de `r''` es propio de Python**, no corresponde a las expresiones regulares, por lo que si estan programando en otro lenguaje no deben utilizarlo.

-----

### [ ]

In [None]:
# sigamos con los ejemplos anteriores, como vemos al crear una clase de caracteres, buscamos la coincidencia de un solo 
# caracter

string = ''

re.search(r'[0-9]',string)

In [None]:
re.findall(r'[0-9]',string)

In [None]:
# pero que pasa si queremos que coincida con 3 caracteres numericos
# como vimos recien tenemos que utilizar el siguiente patron



**Pero que sucede si nosotros queremos que el patron nos coincida con un numero entero, no importa de cuantas cifras sea, pero queremos todo el numero.**

##  + 
## * 

Match para repeticiones

In [None]:
string = ''



In [None]:
string = ''

re.search(r'[0-9]+',string)

In [None]:
re.findall(r'[0-9]+',string)

In [None]:
# la diferencia entre + y *

string = 'el numero'



## .

Match con cualquier caracter menos el de nueva linea

In [None]:
# veamos como podemor ir combinando metacaracteres para ir armando nuestro patron

In [None]:
# queremos obtener el numero encerrado en el caracter inmediato anteriot y el caracter inmediato posterior

string = "hola345chau"


In [None]:
# que pasa si hacemos lo siguiente?
string = "hola345chau"


In [None]:
# y esto?

string = "hola345chau"
patron = r""
re.search(patron,string)

****

Hagamos una pausa, creamos una funcion para ir mostrando los resultados de los metodos `.search()` y `.findall()`

In [None]:
def mostrar(patron,string):
    print('Usando re.search() : ', re.search(patron,string))
    print('Usando re.findall() : ', re.findall(patron,string))

In [None]:
string = "hola345chau"
patron = r".[0-9].+"
mostrar(patron,string)

***

## ^
Veamos sus dos usos

In [None]:
# podemos usarlos para una coincidencia al inicio del string

string = ''
patron = 
mostrar(patron,string)

In [None]:
string = ''
patron = 
mostrar(patron,string)

In [None]:
# podemos usarlos en conjunto con una clase de caracteres para indicar NO inclusion

string = ''
patron = 
mostrar(patron,string)


In [None]:
string = 'clase a, clase b, clase c'
patron = 
mostrar(patron,string)

In [None]:
# veamos el siguiente string, solo quiero contar cuantas veces encontramos las palabras java o Java

string = 'Cuando decimos Java nos referimos a un lenguaje de programacion, javascript y java son cosas distintas'
patron = 
mostrar(patron,string)

In [None]:
patron = 
mostrar(patron,string)

## \

Como metacaracter de escape

In [None]:
# queremos hacer match con el punto en el medio del string

string = ''
patron = 
mostrar(patron,string)

In [None]:
string = ''
patron = 
mostrar(patron,string)

In [None]:
# encontrando la suma

string = ""
patron = 
mostrar(patron,string)

In [None]:
string = ""
patron = 
mostrar(patron,string)

In [None]:
string = ""
patron = 
mostrar(patron,string)

In [None]:
# que pasa si tenemos la cuenta muy separada?

string = ""
mostrar(patron,string)

In [None]:
# ahora volvemos a este ejercicio, vamos a introducir otro metacaracter

In [None]:
string = "123+15 es 27"
patron = r"[0-9]+\s*\+\s*[0-9]+"
mostrar(patron,string)

## \s

Espacios ( ,\n,\t)

In [None]:
string = ""
patron = 
mostrar(patron,string)

In [None]:
string = ""
patron = 
mostrar(patron,string)

In [None]:
# supongamos que queremos extraer dos palabras consecutivas que comiencen con mayuscula, pero no sabemos cuantos espacios
# de separacion hay entre ellas

string = ''
patron = 
mostrar(patron,string)

In [None]:
string = ''
patron =
mostrar(patron,string)

In [None]:
print(string)

In [None]:
# volvemos al ejercicio de las sumas separadas

In [None]:
string = ""
patron = 
mostrar(patron,string)

In [None]:
# y si no tenemos ningun espacio?

string = ""
patron = 
mostrar(patron,string)

In [None]:
# y si tenemos operaciones distintas a la suma?
string = ""
patron = 
mostrar(patron,string)

## \w

Incluye todos aquellos caracteres que forme parte de una palabra [a-zA-Z0-9_]

In [None]:
string = ""
patron = 
mostrar(patron,string)

In [None]:
string = ""
patron = 
mostrar(patron,string)

In [None]:
# supongamos que queremos agarrar todas las palabras que esten entre comillas simple en este string

string = " Las palabras 'entre' las 'comillas' 'simples' son lo que 'necesitamos'"
patron = 
mostrar(patron,string)

In [None]:
mostrar(r'\w+\s\w+', 'que   me   traera este   patron ?')

In [None]:
mostrar(r'\w+\s+\w+', 'que   me   traera este   patron ?')

## ?

**Coincidencia Ambiciosa**

A menos que se indique lo contrario la libreria re nos va a dar la version mas larga de la coincidencia frente al patron especificado.

Veamos a que nos referimos con esto

In [None]:
string = ""
patron = 
mostrar(patron,string)

Los metacaracteres `+` y `*` van a llegar con la coincidencia lo mas lejos que puedan dentro del string, son ambiciosos... Pero podemos solucionarlo con un simple caracter, el **`?`**

In [None]:
string = ""
patron = 
mostrar(patron,string)

## ( )

##### Extraccion

Estos metacaracteres **crean grupos**, es decir, crean subcadenas dentro de la cadena matcheada.

Utilizando la funcion `findall()`, podemos definir el patron para hacer el matcheo y ademas determinar que porcion del match queremos extraer utilizando lo metacarateres `( )`


In [None]:
# supongamos que queremos extraer todos los datos de un individuo x

string = ( ' peso individuo x: 76 kg, peso individuo y: 90 kg, altura individuo x: 1.76 m, altura individuo y: 1.70 m,'
          'edad individuo x: 26 años, edad individuo y: 34 años , sexo individuo x: masculino,'
          ' sexo individuo y: femenino' )

In [None]:
patron = 
re.findall(patron,string)

In [None]:
patron = 
re.findall(patron,string)

In [None]:
# no mostrar esto a la clase
# que sucede con la funcion search

# ver lo de los grupos

## \b

### boundaries

Los boundaries (limites) son aquellas posiciones entre \w y \W, o al inicio o final del string si es que el string empieza o termina con un caracter de palabra (\w)

Veamos cuando son de utilidad:

In [None]:
# obtener solo las ocurrencias de la palabra 'java' por si sola
# ir viendolo en paralelo en regex101

string = "java obtener las palabras que digan java javascript superjava java"
patron = 
mostrar(patron,string)

In [None]:
string = "java obtener las palabras que digan java javascript superjava java"
patron = 
mostrar(patron,string)

In [None]:
string = "java obtener las palabras que digan java javascript superjava java"
patron = 
mostrar(patron,string)

In [None]:
string = "java obtener las palabras que digan java javascript superjava java"
patron = 
mostrar(patron,string)

In [None]:
string = "java obtener las palabras que digan java javascript superjava java"
patron = 
mostrar(patron,string)

In [None]:
print('java\b')

In [None]:
print(r'java\b')

****

## Funciones del modulo re

### re.search()

Veamos un poquito mas del objeto que nos devuelve esta funcion

In [None]:
string = ""
patron = 
ma = 

In [None]:
# es un objeto considerado verdadero, por lo que lo podemos usar con condicionales



In [None]:
# ademas es un objeto que como todos en Python, tiene sus atributos y metodos


In [None]:
# supongamos que ahora queremos obtener el nombre de la persona y el mail completo en distintos grupos

# recordemos que el uso de () en el patron, crean grupos, podemos hacer uso de ello para este ejercicio

In [None]:
string = "el mail es juancito@gmail.com"
patron = 
ma = re.search(patron,string)

### Flags

La mayoria de las funciones del modulo re tienen como argumento `flags = 0`.

Las flags (banderas) modifican la expresion regular, permitiendonos refinar aun mas las condiciones de matcheo.

La mas comun es **IGNORECASE** (`re.I` o `re.IGNORECASE`)

In [None]:
# veamos el siguiente ejemplo, queremos marchear con todas las ocurrencias de la palabra Python,
# no importa como este escrita

string = 'python en minusculas, PYTHON es con mayusculas, pero tambien puede ser pyTHon, PYthon o pythoN'

### re.split()

Divide un string en substrings usando la expresion regular (patron) como delimitador.

In [None]:
# queremos separar el string por los numeros que encontremos
string = 'hay 40cuarenta ovejas 12doce liebres y 50cincuenta vacas'
patron = 

re.split(patron,string)

### re.sub()

Escanea el string en busca de coincidencias y reemplaza los substrings coincidentes con el string de reemplazo, y devuelve el string con los valores reemplazados.

Es importante remarcar que el strig devuelto es un string nuevo. El string original se mantiene sin cambios.

In [None]:
re.sub()

In [None]:
# supongamos que queremos reemplazar todos los numeros de cualquier cifra por ###

string = 'el codigo 1234 es de verificacion, 343445 y 55 son para operaciones'
patron = 
remp = 

re.sub(patron,remp,string)

In [None]:
# supongamos que queremos reemplazar todos los nombres propios con la palabra 'nombre'

string = ''
patron = 
remp = 

re.sub(patron,remp,string)

## MANOS A LA OBRA

1- Matchear todas las palabras de la lista con una expresion regular (podemos usar la funcion filter)


In [None]:
lista_palabras = ['email', 'Email', 'e Mail', 'e mail', 'E-mail',
                'e-mail', 'eMail', 'E-Mail', 'EMAIL', 'emails', 'Emails',
                'E-Mails']



2- Obtener todos los mails del siguiente texto


In [None]:

texto = """dowdy@yahoo.ca el mail de cierta persona es: phyruxus@att.net el mail de cierta persona es: tlinden@msn.com el mail de cierta persona es: jhardin@me.com el mail de cierta persona es: lushe@comcast.net el mail de cierta persona es: netsfr@hotmail.com el mail de cierta persona es: wildixon@att.net el mail de cierta persona es: scottzed@optonline.net el mail de cierta persona es: cantu@msn.com el mail
de cierta persona es: rhavyn@gmail.com el mail de cierta persona es: redingtn@hotmail.com el mail de cierta persona 
es: houle@icloud.com el mail de cierta persona es: bflong@hotmail.com el mail de cierta persona es: kenja@hotmail.com 
el mail de cierta persona es: openldap@gmail.com el mail de cierta persona es: bryanw@me.com el mail de cierta persona 
es: tromey@comcast.net el mail de cierta persona es: esasaki@gmail.com el mail de cierta persona es: fhirsch@att.net 
el mail de cierta persona es: hermanab@sbcglobal.net el mail de cierta persona es: rupak@msn.com el mail de cierta 
persona es: gravyface@yahoo.com el mail de cierta persona es: yfreund@mac.com el mail de cierta persona 
es: ryanshaw@gmail.com el mail de cierta persona es: chaikin@yahoo.ca
"""


3- Dentro del siguiente archivo se encuentra un chat de wpp donde hay muuchos enlaces a articulos de distintas categorias (mayormente tecnologicas) que se fueron recopilando con el pasar de los dias.

Leer el archivo y obtener todos los enlaces disponibles (https://) en una lista

Luego recorrer esa lista y Obtener todos los enlaces que hagan referencia a Python



In [None]:
# nos interesan los articulos de python



In [None]:
# les comparto el archivo con todos estos url, hay mucho material, investiguenlo usando regex, sets y lo que quieran hacer,
# ya tenemos los conocimientos necesarios para hacer freestyle

## Conclusion

Hay mucho, muuuucho mas por ver de expresiones regulares, pueden chequear las siguientes paginas para tutoriales mas completos y en detalle:

[Documentacion oficial](https://docs.python.org/3/library/re.html)

[Mas metacaracteres](https://docs.microsoft.com/es-es/dotnet/standard/base-types/regular-expression-language-quick-reference)

[Tutorial completo parte 1](https://realpython.com/regex-python/)

[Tutorial completo parte 2](https://realpython.com/regex-python-part-2/)

[Excelente para practicar - regex 101](https://regex101.com/)

[Excelente para practicar - regexr](https://regexr.com/)

[Juego con regex](https://regexcrossword.com/)

<br>

Como vimos, el uso de regex nos da un poder de extraccion de subcadenas impresionante, pero ...
<br>

Antes de utilizarlas hay que estar seguros de lo que hacemos, de ahí aquella famosa frase de Jamie Zawinski, programador y hacker:

**`Hay gente que, cuando se enfrenta a un problema, piensa "Ya sé, usaré expresiones regulares". Ahora tienen dos problemas.`**