## Expresiones regulares de Python

Las expresiones regulares son un lenguaje poderoso para hacer coincidir patrones de texto. Esta notebook brinda una introducción básica a las expresiones regulares en sí mismas, suficiente para nuestros ejercicios de Python y muestra cómo funcionan las expresiones regulares en Python. El módulo Python "re" proporciona soporte para expresiones regulares.
En Python, una búsqueda de expresión regular generalmente se escribe como:

   coincidencia = re.buscar(pat, str)
  
El método re.search() toma un patrón de expresión regular y una cadena y busca ese patrón dentro de la cadena. Si la búsqueda tiene éxito, search() devuelve un objeto de coincidencia o Ninguno de lo contrario. Por lo tanto, la búsqueda suele ir inmediatamente seguida de una declaración if para probar si la búsqueda tuvo éxito, como se muestra en el siguiente ejemplo que busca el patrón 'palabra:' seguido de una palabra de 3 letras (detalles a continuación):

In [None]:
import re

In [None]:
def test(match):
    if match:                      
        print('found', match.group()) ## 'found word:cat'
    else:
        print('did not find')
        
str = 'an example word:cat!!'
test(re.search(r'word:\w\w\w', str))

found word:cat


El código match = re.search(pat, str) almacena el resultado de la búsqueda en una variable llamada "match". Luego, la declaración if prueba la coincidencia; si es verdadero, la búsqueda tuvo éxito y match.group() es el texto coincidente (por ejemplo, 'word:cat'). De lo contrario, si la coincidencia es falsa (Ninguna para ser más específicos), entonces la búsqueda no tuvo éxito y no hay texto coincidente.

La 'r' al comienzo de la cadena de patrón designa una cadena "en bruto" de python que pasa a través de barras invertidas sin cambios, lo cual es muy útil para las expresiones regulares (¡Java necesita esta función con urgencia!). Le recomiendo que siempre escriba cadenas de patrones con la 'r' solo como un hábito.

## Patrones básicos

El poder de las expresiones regulares es que pueden especificar patrones, no solo caracteres fijos. Estos son los patrones más básicos que coinciden con caracteres individuales:

In [None]:
a, X, 9, < -- ordinary characters just match themselves exactly. The meta-characters which do not match themselves because they have special meanings are: . ^ $ * + ? { [ ] \ | ( ) (details below)

. (a period) -- matches any single character except newline '\n'

\w -- (lowercase w) matches a "word" character: a letter or digit or underbar [a-zA-Z0-9_]. Note that although "word" is the mnemonic for this, it only matches a single word char, not a whole word. \W (upper case W) matches any non-word character.

\b -- boundary between word and non-word

\s -- (lowercase s) matches a single whitespace character -- space, newline, return, tab, form [ \n\r\t\f]. \S (upper case S) matches any non-whitespace character.

\t, \n, \r -- tab, newline, return

\d -- decimal digit [0-9] (some older regex utilities do not support but \d, but they all support \w and \s)
^ = start, $ = end -- match the start or end of the string

\ -- inhibit the "specialness" of a character. So, for example, use \. to match a period or \\ to match a slash. If you are unsure if a character has special meaning, such as '@', you can put a slash in front of it, \@, to make sure it is treated just as a character.



```
# Tiene formato de código
```

## Ejemplos básicos

Las reglas básicas de la búsqueda de expresiones regulares para un patrón dentro de una cadena son:

La búsqueda continúa a través de la cadena de principio a fin, deteniéndose en la primera coincidencia encontrada
Todo el patrón debe coincidir, pero no toda la cadena
Si match = re.search(pat, str) tiene éxito, match no es None y, en particular, match.group() es el texto coincidente

In [None]:
## Search for pattern 'iii' in string 'piiig'.
## All of the pattern must match, but it may appear anywhere.
## On success, match.group() is matched text.
match = re.search(r'iii', 'piiig')
test(match)

found iii


In [None]:
match = re.search(r'igs', 'piiig')
test(match)

did not find


In [None]:
## . = any char but \n
match = re.search(r'..g', 'piiig')
test(match)

found iig


In [None]:
## \d = digit char, \w = word char
mystring = "p123g"
match = re.search(r'\d\d\d', mystring)
test(match)

found 123


In [None]:
match = re.search(r'\w\w\w', '@@abcd!!')
test(match)

found abc


## Repetición

Las cosas se vuelven más interesantes cuando usas + y * para especificar la repetición en el patrón

* \+ - 1 o más ocurrencias del patrón a su izquierda, p. 'i+' = una o más i
* \* - 0 o más ocurrencias del patrón a su izquierda
* ? - haga coincidir 0 o 1 ocurrencias del patrón a su izquierda

## Más a la izquierda y más grande

Primero, la búsqueda encuentra la coincidencia más a la izquierda para el patrón, y segundo, trata de usar la mayor cantidad posible de la cadena, es decir, + y * van lo más lejos posible (se dice que + y * son "codiciosos").

In [None]:
## i+ = one or more i's, as many as possible.
match = re.search(r'pi+', 'piiig')# =>  found, match.group() == "piii"
test(match)

found piii


In [None]:
## Finds the first/leftmost solution, and within it drives the +
## as far as possible (aka 'leftmost and largest').
## In this example, note that it does not get to the second set of i's.
match = re.search(r'i+', 'piigiiii')# =>  found, match.group() == "ii"
test(match)

found ii


In [None]:
## \s* = zero or more whitespace chars
## Here look for 3 digits, possibly separated by whitespace.
match = re.search(r'\d\s*\d\s*\d', 'xx1 2   3xx')
test(match)

found 1 2   3


In [None]:
match = re.search(r'\d\s*\d\s*\d', 'xx12  3xx')
test(match)

found 12  3


In [None]:
match = re.search(r'\d\s*\d\s*\d', 'xx123xx')
test(match)

found 123


In [None]:
## ^ = matches the start of string, so this fails:
match = re.search(r'^b\w+', 'foobar')
test(match)

did not find


In [None]:
## but without the ^ it succeeds:
match = re.search(r'b\w+', 'foobarwewe')
test(match)

found barwewe


## Ejemplo de correos electrónicos

Suponga que desea encontrar la dirección de correo electrónico dentro de la cadena 'xyz alice-b@google.com monkey dishwasher'. Usaremos esto como un ejemplo de ejecución para demostrar más funciones de expresiones regulares. Aquí hay un intento usando el patrón r'\w+@\w+':

In [None]:
str = 'purple alice-b@google.com monkey dishwasher'
match = re.search(r'\w+@\w+', str)
test(match)

found b@google


La búsqueda no obtiene la dirección de correo electrónico completa en este caso porque \w no coincide con '-' o '.' en la dirección Arreglaremos esto usando las funciones de expresiones regulares a continuación.

## Corchetes

Los corchetes se pueden usar para indicar un conjunto de caracteres, por lo que [abc] coincide con 'a' o 'b' o 'c'. Los códigos \w, \s, etc. también funcionan entre corchetes con la única excepción de que el punto (.) solo significa un punto literal. Para el problema de los correos electrónicos, los corchetes son una manera fácil de agregar '.' y '-' al conjunto de caracteres que pueden aparecer alrededor de @ con el patrón r'[\w.-]+@[\w.-]+' para obtener la dirección de correo electrónico completa:

In [None]:
match = re.search(r'[\w.-]+@[\w.-]+', str)
test(match)

found alice-b@google.com


## Extracción de grupo

La característica de "grupo" de una expresión regular le permite seleccionar partes del texto coincidente. Supongamos que para el problema de los correos electrónicos queremos extraer el nombre de usuario y el host por separado. Para hacer esto, agregue paréntesis ( ) alrededor del nombre de usuario y host en el patrón, así: r'([\w.-]+)@([\w.-]+)'. En este caso, los paréntesis no cambian lo que coincidirá con el patrón, sino que establecen "grupos" lógicos dentro del texto de coincidencia. En una búsqueda exitosa, match.group(1) es el texto de coincidencia correspondiente al primer paréntesis izquierdo y match.group(2) es el texto correspondiente al segundo paréntesis izquierdo. El simple match.group() sigue siendo el texto completo de la coincidencia como de costumbre.

In [None]:
str = 'purple alice-b@google.com monkey dishwasher'
match = re.search('([\w.-]+)@([\w.-]+)', str)
if match:
    print(match.group())   ## 'alice-b@google.com' (the whole match)
    print(match.group(1))  ## 'alice-b' (the username, group 1)
    print(match.group(2))  ## 'google.com' (the host, group 2)

alice-b@google.com
alice-b
google.com


## findall

findall() es probablemente la función más poderosa del módulo re. Arriba usamos re.search() para encontrar la primera coincidencia para un patrón. findall() encuentra *todas* las coincidencias y las devuelve como una lista de cadenas, donde cada cadena representa una coincidencia.

In [None]:
## Suppose we have a text with many email addresses
str = 'purple alice@google.com, blah monkey bob@abc.com blah dishwasher'

## Here re.findall() returns a list of all the found email strings
emails = re.findall(r'[\w\.-]+@[\w\.-]+', str)
for email in emails:
    print(email)

alice@google.com
bob@abc.com


In [None]:
!pwd
!echo "karl@gmail.com gus@rr.com rtewrwerw ppp@xyz.com" > poem.txt

/content


In [None]:
# Open file
f = open('poem.txt', 'r')
# Feed the file text into findall(); it returns a list of all the found strings
strings = re.findall(r'[\w\.-]+@[\w\.-]+', f.read())
strings

['karl@gmail.com', 'gus@rr.com', 'ppp@xyz.com']

## findall y grupos

El mecanismo de grupo de paréntesis ( ) se puede combinar con findall(). Si el patrón incluye 2 o más grupos de paréntesis, en lugar de devolver una lista de cadenas, findall() devuelve una lista de *tuplas*. Cada tupla representa una coincidencia del patrón, y dentro de la tupla está el grupo (1), grupo (2) .. datos. Entonces, si se agregan 2 grupos de paréntesis al patrón de correo electrónico, findall() devuelve una lista de tuplas, cada una de las cuales contiene el nombre de usuario y el host, por ejemplo. ('alicia', 'google.com').texto en cursiva

In [None]:
str = 'purple alice@google.com, blah monkey bob@abc.com blah dishwasher'
tuples = re.findall(r'([\w\.-]+)@([\w\.-]+)', str)
print(tuples)

[('alice', 'google.com'), ('bob', 'abc.com')]


In [None]:
for tuple in tuples:
    print(tuple[0])  ## username
    print(tuple[1])  ## host

alice
google.com
bob
abc.com


## Sustitución

La función re.sub(pat, replace, str) busca todas las instancias de patrón en la cadena dada y las reemplaza. La cadena de reemplazo puede incluir '\1', '\2' que se refieren al texto del grupo (1), grupo (2), etc. del texto coincidente original.

Aquí hay un ejemplo que busca todas las direcciones de correo electrónico y las cambia para mantener el usuario (\ 1) pero tiene yo-yo-dyne.com como host.

In [None]:
str = 'purple alice@google.com, blah monkey bob@abc.com blah dishwasher'
re.sub(r'([\w\.-]+)@([\w\.-]+)', r'\1@yo-yo-dyne.com', str)

'purple alice@yo-yo-dyne.com, blah monkey bob@yo-yo-dyne.com blah dishwasher'

Tomado de https://developers.google.com/edu/python