# Expresiones regulares de Python 

## Introducción a NLP

Actualización a febrero de 2024

Las expresiones regulares son un lenguaje potente para hacer coincidir patrones de texto.

Aquí ofrecemos una introducción básica a las expresiones regulares, suficiente para nuestros ejercicios.

Mostramos cómo funcionan las expresiones regulares en Python. 

El módulo “re” de Python proporciona compatibilidad con expresiones regulares.


In [1]:
# Dependencies
import pandas as pd
pd.set_option('display.max_columns', 200)
import re

#
import warnings
warnings.filterwarnings('ignore')

In [2]:
#!pip install pip
#!pip install re

In [3]:
# Opciones de visualizació de cifras:
pd.options.display.float_format = '{:,.2f}'.format #'${:,.2f}'

## En Python, una búsqueda de expresiones regulares suele escribirse de la siguiente manera:

match = re.search( pat, str )

El método re.search() toma un patrón de expresión regular y una cadena de texto, y busca ese patrón dentro de la cadena. 

Si la búsqueda es exitosa, search() devuelve un objeto de coincidencia o None en caso contrario. 

Por lo tanto, la búsqueda suele ir inmediatamente seguida de una sentencia if para probar si la búsqueda se realizó correctamente (más información https://docs.python.org/3/library/re.html).

Acá un ejemplo que busca el patrón "word:" seguido de una palabra de 3 letras (los detalles se muestran a continuación):

In [4]:
#
Texto = 'an example word:cat!!'

match = re.search(r'word', Texto )

#match 
match.group()

'word'

In [5]:
#
Texto = 'an example word:cat!!'

match = re.search(r'word:\w\w\w', Texto )

match.group()

'word:cat'

In [6]:
#
Texto = 'an example word:cat!!'

match = re.search(r'word:\w\w\w', Texto )

# If-statement after search() tests if it succeeded
if match:
    print( 'found', match.group() ) ## 'found word:cat'
else:
    print('did not find')

found word:cat


In [7]:
# Ejercicio...



In [8]:
# Ejercicio...



### Patrones básicos

El poder de las expresiones regulares es que pueden especificar patrones, no solo caracteres fijos. Estos son los patrones más básicos que coinciden con caracteres individuales:

. (un punto): coincide con cualquier carácter único, excepto la línea nueva '\n'

\w -- (w minúscula) coincide con un carácter "palabra": una letra o un dígito o debajo de una barra [a-zA-Z0-9_ ].

Ten en cuenta que, aunque "word" es el nombre mnemotécnico de esta palabra, solo coincide con el carácter de una sola palabra, no con una palabra completa. 

\W -- (W mayúscula) coincide con cualquier carácter que no sea una palabra.

\b: límite entre una palabra y una que no lo es

\s -- (s minúscula) coincide con un solo carácter de espacio en blanco: espacio, línea nueva, retorno, tabulación, forma [ \n\r\t\f]. 

\S -- (S mayúscula) coincide con cualquier carácter que no sea un espacio en blanco.

\t, \n, \r -- tabulación, nueva línea, volver

\d -- dígito decimal [0-9] 

^ = inicio, $ = fin -- coincide con el principio o el final de la cadena

\ -- inhiben la "especialidad" de un carácter. Por ejemplo, usa \. para que coincida con un punto o \\ para que coincida con una barra. Si no estás seguro de si un carácter tiene un significado especial, como '@', puedes intentar colocar una barra delantera, \@. Si no es una secuencia de escape válida, como \c, tu programa Python se detendrá con un error.

In [9]:
## Search for pattern 'iii' in string 'piiig'.
## All of the pattern must match, but it may appear anywhere.
## On success, match.group() is matched text.

match = re.search(r'iii', 'piiig') # found, match.group() == "iii"

match.group()

'iii'

In [10]:
#

match = re.search(r'igs', 'piiig') # not found, match == None

match.group()

AttributeError: 'NoneType' object has no attribute 'group'

In [11]:
## . = any char but \n

match = re.search(r'..g', 'piiiig') # found, match.group() == "iig"

match.group()

'iig'

In [12]:
## \d = digit char, \w = word char

match = re.search(r'\d\d\d', 'p123g') # found, match.group() == "123"

match.group()

'123'

In [13]:
## \d = digit char, \w = word char

match = re.search(r'\w\w\w', '@@abcd!!') # found, match.group() == "abc"

match.group()

'abc'

#### Repetición

Todo se vuelve más interesante cuando utilizas + y * para especificar la repetición en el patrón.

$+$ -- 1 o más apariciones del patrón a la izquierda, por ejemplo, "i+" = una o más i

$*$ -- 0 o más apariciones del patrón a la izquierda

? -- coinciden con 0 o 1 casos del patrón a la izquierda.

##### Más a la izquierda y más grande

Primero, la búsqueda encuentra la coincidencia que se encuentra más a la izquierda para el patrón y, en segundo lugar, intenta usar la mayor cantidad de cadenas posible; es decir, los signos + y * van lo más lejos posible (se dice que los signos + y * son "codiciosos").

#### Ejemplos de repetición

In [14]:
## i+ = one or more i's, as many as possible.

match = re.search(r'pi+', 'piiiig') # found, match.group() == "piii"

match.group()

'piiii'

In [15]:
# Finds the first/leftmost solution, and within it drives the +
## as far as possible (aka 'leftmost and largest').
## In this example, note that it does not get to the second set of i's.

match = re.search(r'i+', 'piigiiii') # found, match.group() == "ii"

match.group()

'ii'

In [16]:
## \s* = zero or more whitespace chars
## Here look for 3 digits, possibly separated by whitespace.

match = re.search(r'\d\s*\d\s*\d', 'xx1 2   3xx') # found, match.group() == "1 2   3"

match.group()

'1 2   3'

In [17]:
#

match = re.search(r'\d\s*\d\s*\d', 'xx12  3xx') # found, match.group() == "12  3"

match.group()

'12  3'

In [18]:
#

match = re.search(r'\d\s*\d\s*\d', 'xx123xx') # found, match.group() == "123"

match.group()

'123'

#### Ejemplo de correos electrónicos

Supongamos que quieres encontrar la dirección de correo electrónico dentro de la cadena "purple alice-b@google.com monkey dishwasher". 

Usaremos esto como un ejemplo en ejecución para demostrar más funciones de expresiones regulares. 


En este intento, se usa el patrón r'\w+@\w+':

In [19]:
#

Texto = 'purple alice-b@google.com monkey dishwasher'

match = re.search( r'\w+@\w+', Texto )

#if match:
#    print(match.group())  ## 'b@google'

match.group()

'b@google'

En este caso, la búsqueda no obtiene la dirección de correo electrónico completa porque la “\w” no coincide con el “-” o el “.” de la dirección. 

Solucionaremos este problema con las funciones de expresiones regulares que aparecen a continuación.

#### Corchetes

Se pueden usar corchetes para indicar un conjunto de caracteres, por lo que [abc] coincide con “a”, “b” o “c”. Los códigos \w, \s, etc. también funcionan entre corchetes, con la excepción de que el punto (.) solo se refiere a un punto literal. 

Para el problema de los correos electrónicos, los corchetes son una forma fácil de agregar “.” y “-” al conjunto de caracteres que pueden aparecer alrededor de la @ con el patrón r'[\w.-]+@[\w.-]+' para obtener toda la dirección de correo electrónico:

In [20]:
#

Texto = 'purple alice-b@google.com monkey dishwasher'

match = re.search( r'[\w.-]+@[\w.-]+', Texto )

#if match:
#    print(match.group())  ## 'alice-b@google.com'
    
match.group()

'alice-b@google.com'

#### Más funciones entre corchetes

También puedes usar un guion para indicar un rango, de modo que [a-z] coincida con todas las letras minúsculas. 

Para usar un guion sin indicar un rango, coloca el guion en último lugar; p.ej., [abc-]. 

Un sombrero arriba (^) al comienzo de un conjunto de corchetes (^) lo invierte, de modo que [^ab] significa cualquier carácter excepto “a” o “b”.

In [21]:
# Ejercicio...



In [22]:
# Ejercicio...



#### Extracción de grupos

La función "group()" de una expresión regular te permite seleccionar partes del texto coincidente. 

Supongamos que, para el problema de los correos electrónicos, queremos extraer el nombre de usuario y el host por separado. 

Para hacerlo, agrega paréntesis ( ) alrededor del nombre de usuario y host en el patrón, de esta manera: r'([\w.-]+)@([\w.-]+)'. En este caso, los paréntesis no cambian con qué coincidirá el patrón, sino que establecen "grupos" lógicos dentro del texto de coincidencia. 

En una búsqueda correcta, match.group(1) es el texto de coincidencia correspondiente al primer paréntesis izquierdo y match.group(2) es el texto correspondiente al segundo paréntesis izquierdo. 

El match.group() sin formato sigue siendo el texto completo de coincidencia, como es habitual.

In [23]:
#

Texto = 'purple alice-b@google.com monkey dishwasher'

match = re.search(r'([\w.-]+)@([\w.-]+)', Texto)

if match:
    print(match.group())   ## 'alice-b@google.com' (the whole match)
    print(match.group(1))  ## 'alice-b' (the username, group 1)
    print(match.group(2))  ## 'google.com' (the host, group 2)

alice-b@google.com
alice-b
google.com


Un flujo de trabajo común con expresiones regulares es escribir un patrón para lo que estás buscando y agregar grupos de paréntesis para extraer las partes que deseas.

#### findall -- encontrartodo

findall() es probablemente la función más poderosa del módulo re. 

Arriba usamos re.search() para encontrar la primera coincidencia de un patrón. 

findall() encuentra *todas* las coincidencias y las muestra como una lista de cadenas, donde cada cadena representa una coincidencia.

In [24]:
## Suppose we have a text with many email addresses

Texto = 'purple alice@google.com, blah monkey bob@abc.com blah dishwasher'

## Here re.findall() returns a list of all the found email strings

emails = re.findall(r'[\w\.-]+@[\w\.-]+', Texto) ## ['alice@google.com', 'bob@abc.com']

#for email in emails:
#    # do something with each found email string
#    print(email)

emails

['alice@google.com', 'bob@abc.com']

#### findall con Files

Para los archivos, es posible que tu plan sea escribir un bucle para iterar sobre las líneas del archivo y, luego, podrías llamar a findall() en cada línea. 

En su lugar, deja que findall() haga la iteración por ti, ¡mucho mejor! 

Simplemente ingresa todo el texto del archivo en findall() y deja que devuelva una lista de todas las coincidencias en un solo paso (recuerda que f.read() devuelve todo el texto de un archivo en una sola cadena):

In [32]:
# Open file

f = open('VEP_20230105_1.txt', encoding = 'utf-8')

# Feed the file text into findall(); it returns a list of all the found strings

strings = re.findall(r'VERSIÓN', f.read())

strings

['VERSIÓN',
 'VERSIÓN',
 'VERSIÓN',
 'VERSIÓN',
 'VERSIÓN',
 'VERSIÓN',
 'VERSIÓN',
 'VERSIÓN',
 'VERSIÓN',
 'VERSIÓN']

In [33]:
len(strings)

10

#### findall y Grupos

El mecanismo de grupo de paréntesis ( ) se puede combinar con findall(). 

Si el patrón incluye 2 o más grupos de paréntesis, entonces en lugar de devolver una lista de cadenas, findall() devuelve una lista de *tuplas*. 

Cada tupla representa una coincidencia del patrón y, dentro de la tupla, están los datos group(1), group(2). 


Por lo tanto, si se agregan 2 grupos de paréntesis al patrón de correo electrónico, findall() devuelve una lista de tuplas, cada una de las cuales contiene el nombre de usuario y el host, p.ej., ("alice", "google.com").

In [39]:
#

Texto = 'purple alice@google.com, blah monkey bob@abc.com blah dishwasher benjov@ciencias.unam.mx '

tuples = re.findall(r'([\w\.-]+)@([\w\.-]+)', Texto)

for tuple in tuples:
    print(tuple[0])  ## username
    print(tuple[1])  ## host

#tuples  ## [('alice', 'google.com'), ('bob', 'abc.com')]
#tuples[0][1]

alice
google.com
bob
abc.com
benjov
ciencias.unam.mx


Una vez que tengas la lista de tuplas, puedes realizar un bucle sobre ella para hacer algunos cálculos por cada tupla. 

Si el patrón no incluye paréntesis, entonces findall() devuelve una lista de cadenas encontradas, como en los ejemplos anteriores. 

Si el patrón incluye un solo conjunto de paréntesis, findall() devuelve una lista de cadenas correspondientes a ese único grupo. 

(Función opcional clara: a veces hay grupos de paréntesis ( ) en el patrón, pero no es recomendable extraerlos. En ese caso, escribe los paréntesis con un ?: al comienzo, p.ej., (?: ) y ese paréntesis izquierdo no contará como un resultado grupal.