**Expresiones Regulares con Python**

Las expresiones regulares, a menudo abreviadas como regex, son una secuencia de caracteres utilizada para comprobar si un patrón existe o no en un texto (cadena) determinado. Si alguna vez ha utilizado motores de búsqueda, herramientas de búsqueda y sustitución de procesadores de texto y editores de texto, ya habrá visto cómo se utilizan las expresiones regulares. Se utilizan en el lado del servidor para validar el formato de las direcciones de correo electrónico o las contraseñas durante el registro, para analizar archivos de datos de texto con el fin de encontrar, sustituir o eliminar determinadas cadenas, etc. Ayudan a manipular datos textuales, lo que a menudo es un requisito previo para los proyectos de ciencia de datos que implican minería de texto.

**Expresiones regulares en Python**

En Python, las expresiones regulares están soportadas por el módulo `re`. Eso significa que si quieres empezar a usarlas en tus scripts de Python, tienes que importar este módulo con la ayuda de `import`:

In [3]:
import re

**Patrones básicos: Caracteres ordinarios**

Puedes abordar fácilmente muchos patrones básicos en Python utilizando caracteres ordinarios.  
Los caracteres ordinarios son las expresiones regulares más simples. Coinciden exactamente consigo mismos y no tienen un significado especial en su sintaxis de expresión regular.

Algunos ejemplos son 'A', 'a', 'X', '5'.

Los caracteres ordinarios se pueden utilizar para realizar coincidencias exactas simples:

In [4]:
pattern = r"Cookie"
sequence = "Cookie"

if re.match(pattern, sequence):
    print("Match!")
else: 
    print("Not a match!")

Match!


La mayoría de los alfabetos y caracteres coincidirán por sí mismos, como ha visto en el ejemplo.

La función `match()` devuelve un objeto match si el texto coincide con el patrón. En caso contrario, devuelve `None`. El módulo `re` también contiene otras funciones que se verán más adelante.

Por ahora, centrémonos en los caracteres ordinarios.

¿Notó la r al comienzo del patrón Cookie?
Esto se llama un literal de cadena sin procesar. Cambia cómo se interpreta el literal de cadena. Tales literales se almacenan tal y como aparecen.

Por ejemplo, \ es sólo una barra invertida cuando va precedida de una r en lugar de ser interpretada como una secuencia de escape. Verá lo que esto significa con caracteres especiales. Algunas veces, la sintaxis involucra caracteres con barra invertida, y para prevenir que estos caracteres sean interpretados como secuencias de escape, se usa el prefijo r.

**Caracteres comodín (Wild Card Characters): Caracteres especiales**

Los caracteres especiales son caracteres que no coinciden entre sí tal y como se ven, pero que tienen un significado especial cuando se utilizan en una expresión regular. Para facilitar la comprensión, se puede pensar en ellos como metacaracteres reservados que denotan otra cosa y no lo que parecen.

Veamos algunos ejemplos para ver los caracteres especiales en acción...

Pero antes, los ejemplos que siguen utilizan dos funciones: search() y group().
Con la función de búsqueda search(), se recorre la cadena/secuencia dada, buscando el primer lugar donde la expresión regular produce una coincidencia.
La función de grupo group() devuelve la cadena coincidente con la re. Verá estas dos funciones con más detalle más adelante.

Volvamos a los caracteres especiales.  


`.` - Un punto (period). Coincide con cualquier carácter excepto el carácter de nueva línea.

In [5]:
re.search(r'Co.k.e', 'Cookie').group()

'Cookie'

`^` Signo de intercalación. Coincide con el inicio de la cadena.

Resulta útil si desea asegurarse de que un documento o una frase comienza con determinados caracteres.

In [6]:
re.search(r'^Eat', "Eat cake!").group()

## However, the code below will not give the same result. Try it for yourself:
# re.search(r'^eat', "Let's eat cake!").group()

'Eat'

Sin embargo, el código siguiente no dará el mismo resultado

In [7]:
re.search(r'^eat', "Let's eat cake!").group()

AttributeError: 'NoneType' object has no attribute 'group'

`$` Coincide con el final de la cadena.  

Resulta útil si desea asegurarse de que un documento o una frase termina con determinados caracteres.s.

In [8]:
re.search(r'cake$', "Cake! Let's eat cake").group()

## The next search will return the NONE value, try it:
# re.search(r'cake$', "Let's get some cake on our way home!").group()

'cake'

La siguiente búsqueda devolverá el valor NONE.

In [9]:
re.search(r'cake$', "Let's get some cake on our way home!").group()

AttributeError: 'NoneType' object has no attribute 'group'

`[abc]` - Coincide con a o b o c.  

`[a-zA-Z0-9]` - Coincide con cualquier letra de (a a z) o (A a Z) o (0 a 9).

In [11]:
re.search(r'[0-6]', 'Number: 5').group()

'5'

In [None]:
re.search(r'Number: [^5]', 'Number: 0').group()


In [13]:
## Esto no coincidirá y por lo tanto se devolverá un valor NINGUNO


In [12]:
re.search(r'Number: [^5]', 'Number: 5').group()

AttributeError: 'NoneType' object has no attribute 'group'

`\` - Barra diagonal inversa. ¡¡el metacarácter más diverso!!

Si el carácter que sigue a la barra invertida es un carácter de escape reconocido, entonces se toma el significado especial del término (Escenario 1)  

Si el carácter que sigue a la barra invertida no es un carácter de escape reconocido, entonces la barra invertida se trata como cualquier otro carácter y se pasa a través de él (Escenario 2).  

Se puede utilizar \ delante de todos los metacaracteres para eliminar su significado especial (Escenario 3).  


In [15]:
## (Escenario 1) Esto trata '\s' como un carácter de escape, '\s' define un espacio
re.search(r'Not a\sregular character', 'Not a regular character').group()

'Not a regular character'

In [16]:
## (Escenario 2) '\' se trata como un carácter ordinario, porque '\r' no es un carácter de escape reconocido.
re.search(r'Just a \regular character', 'Just a \regular character').group()

'Just a \regular character'

In [17]:
## (Escenario 3) '\s' se escapa utilizando un `\` extra por lo que se interpreta como una cadena literal '\s'.
re.search(r'Just a \\sregular character', 'Just a \sregular character').group()

'Just a \\sregular character'

Existe un conjunto predefinido de secuencias especiales que empiezan por '\' y que también son muy útiles a la hora de realizar búsquedas y coincidencias. Veamos algunas de ellas de cerca...

`\w` - 'w' minúscula. Coincide con cualquier letra, dígito o guión bajo.  

`\W` - "W" mayúscula. Coincide con cualquier carácter que no forme parte de \w (w minúscula).

In [19]:
print("Lowercase w:", re.search(r'Co\wk\we', 'Cookie').group())

## Coincide con cualquier carácter excepto una letra, un dígito o un guión bajo.
print("Uppercase W:", re.search(r'C\Wke', 'C@ke').group())

## La W mayúscula no coincide con una sola letra o  dígito
print("Uppercase W won't match, and return:", re.search(r'Co\Wk\We', 'Cookie'))

Lowercase w: Cookie
Uppercase W: C@ke
Uppercase W won't match, and return: None


`\s` - 's' minúscula. Coincide con un único carácter de espacio en blanco como: espacio, nueva línea, tabulador, retorno.

`\S` - 'S' Mayúscula. Coincide con cualquier carácter que no forme parte de \s (s minúscula)..

In [20]:
print("Lowercase s:", re.search(r'Eat\scake', 'Eat cake').group())
print("Uppercase S:", re.search(r'cook\Se', "Let's eat cookie").group())

Lowercase s: Eat cake
Uppercase S: cookie


`\d` - d minuscula. Coincide con un dígito decimal entre 0-9. 

`\D` - D Mayúscula. Coincide con cualquier carácter que no sea un dígito decimal.

In [21]:
# Ejemplo para \d
print("How many cookies do you want? ", re.search(r'\d+', '100 cookies').group())

How many cookies do you want?  100


El símbolo `+` utilizado después de la `\d` en el ejemplo anterior se utiliza para la repetición. 

`\t` - T minúscula. Coincide con el tabulador.  

`\n` - N minúscula. Coincide con la nueva línea.  

`\r` - R minúscula. Coincide con retorno.  

`\A` - A mayúscula. Coincide sólo con el inicio de la cadena. También funciona en varias líneas.  

`\Z` - Z mayúscula. Coincide sólo con el final de la cadena.  

CONSEJO: `^` y `\A` son efectivamente lo mismo, y también lo son `$` y `\Z`. Excepto cuando se trata del modo MULTILINEAL.   


`\b` - B minúscula. Coincide sólo con el principio o el final de la palabra.

In [23]:
# Ejemplo para \t
print("\\t (TAB) example: ", re.search(r'Eat\tcake', 'Eat	cake').group())

# Ejemplo para \b
print("\\b match gives: ",re.search(r'\b[A-E]ookie', 'Cookie').group())

\t (TAB) example:  Eat	cake
\b match gives:  Cookie


**Repeticiones**

Resulta bastante tedioso si lo que se busca es encontrar patrones largos en una secuencia. Afortunadamente, el módulo re gestiona las repeticiones mediante los siguientes caracteres especiales:  

`+` :  Comprueba si el carácter precedente aparece una o más veces a partir de esa posición.

In [24]:
re.search(r'Co+kie', 'Cooookie').group()

'Cooookie'

`*`: Comprueba si el carácter precedente aparece cero o más veces a partir de esa posición.

In [25]:
# Busca cualquier aparición de 'a' u 'o' o ambas en la secuencia dada
re.search(r'Ca*o*kie', 'Cookie').group()

'Cookie'

`?`: Comprueba si el carácter precedente aparece exactamente cero o una vez a partir de esa posición.

In [26]:
# Busca exactamente cero o una ocurrencia de 'a' u 'o' o ambos en la secuencia dada
re.search(r'Colou?r', 'Color').group()

'Color'

¿Pero qué pasa si quieres comprobar un número exacto de repeticiones de secuencia?  


Por ejemplo, comprobar la validez de un número de teléfono en una aplicación. El módulo `re` maneja esto muy elegantemente también usando las siguientes expresiones regulares:  


`{x}` - Se repite exactamente x número de veces.  

`{x,}` - Repetir al menos x veces o más.  

`{x, y}` - Repetir al menos x veces pero no más de y veces.

In [27]:
re.search(r'\d{9,10}', '0987654321').group()

'0987654321'

Se dice que los calificadores `+` y `*` son codiciosos (greedy). Esto se verá más adelante.

**Grouping in Regular Expressions**

La función `group()` de la expresión regular permite seleccionar partes del texto coincidente. Las partes de un patrón de expresión regular delimitadas por paréntesis () se denominan grupos. El paréntesis no cambia lo que coincide con la expresión, sino que forma grupos dentro de la secuencia coincidente. Usted ha estado utilizando la función `group()` a lo largo de los ejemplos anteriores. La función simple `match.group()` sin ningún argumento sigue siendo todo el texto coincidente como siempre.

Vamos a entender este concepto con un ejemplo sencillo. Imagina que estás validando direcciones de correo electrónico y quieres comprobar el nombre de usuario y el host. Aquí es cuando querría crear grupos separados dentro de su texto coincidente.

In [32]:
statement = 'Please contact us at: support@company.com'
match = re.search(r'([\w\.-]+)@([\w\.-]+)', statement)

if statement:
  print("Dirección Email :", match.group()) # Todo el texto coincidente
  print("Nombre de usuario:", match.group(1)) # El nombre de usuario (grupo 1)
  print("Host:", match.group(2)) # El 'Host'(group 2)

Dirección Email : support@company.com
Nombre de usuario: support
Host: company.com


Otra forma de hacer lo mismo es utilizando en su lugar corchetes `<>`. Esto le permitirá crear grupos con nombre. Los grupos con nombre harán que tu código sea más legible. La sintaxis para crear grupos con nombre es: `(?P<name>...)`. Sustituye la parte del name por el nombre que quieras darle a tu grupo. Los `...` representan el resto de la sintaxis de correspondencia. Veamos esto en acción usando el mismo ejemplo de antes...

In [33]:
statement = 'Please contact us at: support@company.com'
match = re.search(r'(?P<email>(?P<username>[\w\.-]+)@(?P<host>[\w\.-]+))', statement)
if statement:
  print("Email address:", match.group('email'))
  print("Username:", match.group('username'))
  print("Host:", match.group('host'))

Email address: support@company.com
Username: support
Host: company.com


**Emparejamiento codicioso (Greedy Matching) frente a no codicioso (Non-Greedy Matching)**

Cuando un carácter especial coincide con la mayor parte posible de la secuencia de búsqueda (cadena), se dice que es una "Coincidencia codiciosa". Es el comportamiento normal de una expresión regular, pero a veces no se desea este comportamiento:

In [34]:
pattern = "cookie"
sequence = "Cake and cookie"

heading  = r'<h1>TITLE</h1>'
re.match(r'<.*>', heading).group()

'<h1>TITLE</h1>'

El patrón `<.*>` coincide con toda la cadena, hasta la segunda aparición de  `>`.  


Sin embargo, si sólo quería que coincidiera con la primera etiqueta `<h1>`, podría haber utilizado el calificador codicioso `*?` que coincide con la menor cantidad de texto posible.

La adición de `?` después del calificador hace que la coincidencia se realice de forma mínima; es decir, se coincidirá con el menor número posible de caracteres. Si ejecuta `<.*>`, sólo obtendrá una coincidencia con `<h1>`.

In [35]:
heading  = r'<h1>TITLE</h1>'
re.match(r'<.*?>', heading).group()

'<h1>'

**Tabla resumen**

La siguiente tabla resume todo lo que ha visto hasta ahora en este notebook.  


Este notebook no discute todas las secuencias especiales provistas en Python. Consulta la referencia de la  [Biblioteca Estándar](https://docs.python.org/3/library/re.html#re-syntax) para una lista completa.

| Character(s)   | What it does     |
| :------------- |:---------- |
| . | A period. Matches any single character except the newline character.   |
| ^ | A caret. Matches a pattern at the start of the string.  |
| \A | Uppercase A. Matches only at the start of the string. |
| $  | Dollar sign. Matches the end of the string.  |
| \Z | Uppercase Z. Matches only at the end of the string. |
| [ ]  | Matches the set of characters you specify within it.  |
| \  | ∙ If the character following the backslash is a recognized escape character, then the special meaning of the term is taken. <br> ∙ Else the backslash (\) is treated like any other character and passed through. <br> ∙ It can be used in front of all the metacharacters to remove their special meaning. |
| \w | Lowercase w. Matches any single letter, digit, or underscore. |
| \W | Uppercase W. Matches any character not part of `\w` (lowercase w). |
| \s | Lowercase s. Matches a single whitespace character like: space, newline, tab, return. |
| \S | Uppercase S. Matches any character not part of `\s` (lowercase s). |
| \d | Lowercase d. Matches decimal digit 0-9. |
| \D | Uppercase D. Matches any character that is not a decimal digit. |
| \t | Lowercase t. Matches tab.|
| \n | Lowercase n. Matches newline.|
| \r | Lowercase r. Matches return. |
| \b | Lowercase b. Matches only the beginning or end of the word. |
| + | Checks if the preceding character appears one or more times. |
| * | Checks if the preceding character appears zero or more times. |
| ? | ∙ Checks if the preceding character appears exactly zero or one time. <br> ∙ Specifies a non-greedy version of +, * |
| { } | Checks for an explicit number of times. |
| ( ) | Creates a group when performing matches. |
| < > | Creates a named group when performing matches. |n performing matches. |


**Funciones proporcionadas por el módulo "re"** 

`compile(pattern, flags=0)`

Las expresiones regulares son manejadas como cadenas por Python. Sin embargo, con `compile()`, puede computar un patrón de expresión regular en un objeto de expresión regular. Cuando necesite utilizar una expresión varias veces en un mismo programa, utilizar `compile()` para guardar el objeto de expresión regular resultante para su reutilización es más eficiente que guardarlo como una cadena. Esto se debe a que se almacenan en caché las versiones compiladas de los patrones más recientes pasados a `compile()` y las funciones de coincidencia a nivel de módulo.

In [37]:
pattern = re.compile(r"cookie")
sequence = "Cake and cookie"
pattern.search(sequence).group()

'cookie'

In [38]:
# Esto es equivalente a:
re.search(pattern, sequence).group()

'cookie'

`search(pattern, string, flags=0)`

Con esta función, se recorre la cadena/secuencia dada, buscando la primera posición en la que la expresión regular produce una coincidencia. Devuelve un objeto coincidente si lo encuentra, o devuelve None si ninguna posición de la cadena coincide con el patrón. Tenga en cuenta que None es diferente de encontrar una coincidencia de longitud cero en algún punto de la cadena.

In [39]:
pattern = "cookie"
sequence = "Cake and cookie"

re.search(pattern, sequence)

<re.Match object; span=(9, 15), match='cookie'>

`match(pattern, string, flags=0)`

Devuelve el objeto coincidente correspondiente si cero o más caracteres al principio de la cadena coinciden con el patrón. En caso contrario, devuelve None, si la cadena no coincide con el patrón dado.

In [40]:
pattern = "C"
sequence1 = "IceCream"
sequence2 = "Cake"

# No match since "C" is not at the start of "IceCream"
print("Sequence 1: ", re.match(pattern, sequence1))
print("Sequence 2: ", re.match(pattern,sequence2).group())

Sequence 1:  None
Sequence 2:  C


`search() versus match()`

La función `match()` busca una coincidencia sólo al principio de la cadena (por defecto), mientras que la función `search()` busca una coincidencia en cualquier parte de la cadena.

`findall(pattern, string, flags=0)`

Busca todas las coincidencias posibles en la secuencia completa y las devuelve como una lista de cadenas. Cada cadena devuelta representa una coincidencia.

In [41]:
statement = "Please contact us at: support@company.com, xyz@company.com"

#'addresses' es una lista que almacena todas las posibles coincidencias
addresses = re.findall(r'[\w\.-]+@[\w\.-]+', statement)
for address in addresses:
    print(address)

support@company.com
xyz@company.com


`finditer(string, [position, end_position])`

Similar a `findall()` - encuentra todas las coincidencias posibles en toda la secuencia, pero devuelve objetos de coincidencia regex como un iterador.

`finditer()` puede ser una excelente opción cuando desee que se le devuelva más información sobre su búsqueda. El objeto de coincidencia regex devuelto contiene no sólo la secuencia que coincidió, sino también sus posiciones en el texto original.

In [42]:
statement = "Please contact us at: support@company.com, xyz@company.com"

#'addresses' is a list that stores all the possible match
addresses = re.finditer(r'[\w\.-]+@[\w\.-]+', statement)
for address in addresses:
    print(address)

<re.Match object; span=(22, 41), match='support@company.com'>
<re.Match object; span=(43, 58), match='xyz@company.com'>


`sub(pattern, repl, string, count=0, flags=0)`  

`subn(pattern, repl, string, count=0)`

`sub()` es la función de sustitución. Devuelve la cadena obtenida reemplazando o sustituyendo las apariciones no solapadas (non-overlapping) más a la izquierda del patrón en la cadena por la sustitución `repl`. Si no se encuentra el patrón, la cadena se devuelve 'unchanged' .

La función `subn()` es similar a `sub()`. Sin embargo, devuelve una tupla que contiene el nuevo valor de cadena y el número de sustituciones que se realizaron en la sentencia.

In [44]:
statement = "Please contact us at: xyz@company.com"
new_email_address = re.sub(r'([\w\.-]+)@([\w\.-]+)', r'support@datacamp.com', statement)
print(new_email_address)

Please contact us at: support@datacamp.com


`split(string, [maxsplit = 0])`

Divide las cadenas donde coincide el patrón y devuelve una lista. Si el argumento opcional `maxsplit` es distinto de cero, se realiza el número máximo 'maxsplit' de divisiones.

In [45]:
statement = "Please contact us at: xyz@company.com, support@company.com"
pattern = re.compile(r'[:,]')

address = pattern.split(statement)
print(address)

['Please contact us at', ' xyz@company.com', ' support@company.com']


`start()` - Devuelve el índice inicial de la coincidencia..  

`end()` - Devuelve el índice donde termina la coincidencia.  

`span()` - Devuelve una tupla que contiene las posiciones (start, end) de la coincidencia.  


In [46]:
pattern = re.compile('COOKIE', re.IGNORECASE)
match = pattern.search("I am not a cookie monster")

print("Start index:", match.start())
print("End index:", match.end())
print("Tuple:", match.span())

Start index: 11
End index: 17
Tuple: (11, 17)


**Banderas de compilación**

El comportamiento de una expresión puede modificarse especificando un valor de bandera (flag value). Puedes añadir flags como argumento extra a las diferentes funciones que has visto en este notebook. Algunas de las más útiles son:

`IGNORECASE (I)` - Permite coincidencias sin distinción entre mayúsculas y minúsculas.  

`DOTALL (S)` - Permite que . coincida con cualquier carácter, incluida la nueva línea.  

`MULTILINE (M)` - Permite que el anclaje de inicio de cadena `(^)` y de fin de cadena ($) coincida también con nuevas líneas.  

`VERBOSE (X)` - Permite escribir espacios en blanco y comentarios dentro de una expresión regular para hacerla más legible.

In [50]:
statement = "Please contact us at: support@company.com, xyz@COMPANY.com"

# El uso de la bandera VERBOSE ayuda a comprender expresiones regulares complejas
pattern = re.compile(r"""
[\w\.-]+ #First part
@ #Matches @ sign within email addresses
company.com #Domain
""", re.X | re.I)

addresses = re.findall(pattern, statement)                       
for address in addresses:
    print("Address: ", address)

Address:  support@company.com
Address:  xyz@COMPANY.com


También puede combinar varias banderas utilizando bitwise OR |.

**Ejercicio**

Trabajarás con la primera parte de un libro electrónico gratuito titulado "The idiot", escrito por Fiódor Dostoyevski desde el Proyecto Gutenberg. La novela trata sobre el príncipe (Knyaz) Lev Nikoláievich Myshkin, un hombre ingenuo cuyo carácter bueno, amable y sencillo hace creer erróneamente a muchos que carece de inteligencia y perspicacia. El título es una referencia irónica a este joven.

Deberás escribir algunas expresiones regulares para analizar el texto y completar algunos ejercicios.

In [52]:
import re
import requests
the_idiot_url = 'https://www.gutenberg.org/files/2638/2638-0.txt'

def get_book(url):
    # Envía una petición http para obtener el texto del proyecto Gutenberg
    raw = requests.get(url).text
    # Descarta los metadatos del principio del libro
    start = re.search(r"\*\*\* START OF THE PROJECT GUTENBERG EBOOK THE IDIOT.* \*\*\*",raw ).end()
    # Descarta el texto que inicia en la Parte 2 del libro
    stop = re.search(r"II", raw).start()
    # Mantiene el texto relevante
    text = raw[start:stop]
    return text

def preprocess(sentence):
    return re.sub('[^A-Za-z0-9.]+' , ' ', sentence).lower()

book = get_book(the_idiot_url)
processed_book = preprocess(book)

In [53]:
# Descomenta el código siguiente para ver processed_book

# print(processed_book)

 the idiot by fyodor dostoyevsky translated by eva martin contents part i part 


- Encuentre el número de palabras "the" en el corpus. Sugerencia: Utilice la función `len()`.

In [54]:
len(re.findall(r'the', processed_book))

1

- Intente convertir cada caso aislado de "i" en "I" en el corpus. Asegúrese de no cambiar la "i" que aparece dentro de una palabra:

In [55]:
processed_book = re.sub(r'\si\s', " I ", processed_book)
#print(processed_book)

- Encuentre el número de veces que alguien fue citado ("") en el corpus.

In [56]:
len(re.findall(r'\”', book))  

0