# **Usando Expresiones Regulares para buscar texto**
Esta lección cubre expresiones regulares, o **regex**, una potente herramienta para buscar y analizar texto. Las Expresiones Regulares son más difíciles que la mayoría de los conceptos que hemos cubierto hasta ahora, pero pueden ser invaluables para el procesamiento del lenguaje.

### ¿Por qué son útiles las Expresiones Regulares (Regex)?
Supongamos que está tratando de comprobar si una cadena de texto coincide con una posible edad. Sabemos que la cadena debe ser sólo dígitos numéricos y no más de 3 caracteres de largo, así que podríamos escribir la siguiente declaración `if`:

In [None]:
age_string = "64"

if len(age_string) <= 3 and age_string.isnumeric():
    print("The string is an age")

Sin embargo, ¿qué pasa si estamos tratando de hacer coincidir una cadena que contiene un nombre *y* una edad, en el formato `"Hannah, 42"`. Con las herramientas que tenemos para analizar texto, no hay forma obvia de hacerlo. 

Con las Regex, esto es fácil. Podemos escribir la siguiente **cadena de patrones regex** que describe el patrón que buscamos comparar.

In [None]:
import re

name_age_pattern = r"^[A-Za-z]+, [0-9]{1,3}$"

if re.search(name_age_pattern, "Hannah, 42"):
    print("'Hannah, 42' matches")
    
if re.search(name_age_pattern, "Hannah"):
    print("'Hannah' matches")
    
if re.search(name_age_pattern, "42"):
    print("'42' matches")

Por medio del `re.search(patrón, cadena)` se devuelve la primera coincidencia para el patrón en la cadena, o `ninguno` si no hay coincidencia.

### Componentes de una Expresión Regular de ejemplo
Desglosemos el patrón `^[A-Za-z]+, [0-9]{1,3}$`. 

Primero, `^` coincide con el inicio de la cadena.

A continuación, el conjunto corchetado `[A-Za-z]` indica cualquier letra en el alfabeto, sea mayúscula o minúscula. Añadir `+` permite que el patrón coincida con una o más letras.

In [None]:
letter_pattern = r"^[A-Za-z]+$"

print(re.search(letter_pattern, "Hello")) # Matches
print(re.search(letter_pattern, "12344")) # Doesn't match
print(re.search(letter_pattern, "Hello1234")) # Doesn't match

A continuación, el patrón `, ` coincide con una coma literal y espacio. En regex, la escritura de caracteres no especiales coincide con la cadena exacta.

In [None]:
exact_pattern = r"^Hello$"

print(re.search(exact_pattern, "Hello")) # Matches
print(re.search(exact_pattern, "Hi")) # Doesn't match
print(re.search(exact_pattern, "Hello1234")) # Doesn't match

El apartado `[0-9]` indica que coincida con cualquier carácter de dígito, y `{1,3}` indica que debe contar con entre 1 y 3 dígitos.  

In [None]:
digit_pattern = r"^[0-9]{1,3}$"

print(re.search(digit_pattern, "72")) # Matches
print(re.search(digit_pattern, "1")) # Matches
print(re.search(digit_pattern, "882")) # Matches
print(re.search(digit_pattern, "1002")) # Doesn't match, too many digits
print(re.search(digit_pattern, "a12")) # Doesn't match, includes non-digit

Finalmente, el carácter `$` indica el final de la cadena.

## **Usando Expresuiones Regulares (Regex) para buscar**
Si queremos hacer coincidir una cadena de texto entera con un patrón, ponemos `^` y `$` en el principio y el final del patrón. Sin embargo, si queremos coincidir con un patrón *en cualquier lugar de la cadena*, podemos omitir este carácter. Por ejemplo, podemos encontrar el primer fragmento de letras en la cadena de texto usando la siguiente expresión regular.

In [None]:
letters_pattern = r"[A-Za-z]+"

print(re.search(letters_pattern, "The quick brown fox jumped over the lazy dog"))

Si queremos encontrar *todas* las coincidencias para una Expresión Regular en una cadena de texto, podemos usar `re.findall`.

In [None]:
print(re.findall(letters_pattern, "The quick brown fox jumped over the lazy dog"))

Podemos ver cómo esto sería útil para separar las palabras en un archivo de texto sin procesar. 

## **Caracteres especiales de las Expresiones Regulares (Regex)**
Regex tiene un número de caracteres especiales útiles para facilitar la coincidencia de patrones. Consulta la lista completa [here](https://www.w3schools.com/python/python_regex.asp).

Has visto el `+`, que indica coincidencia de una o más instancias de un símbolo. También podemos usar `*`, que indica cero o más instancias de coincidencia, y `?``, que indica cero o una instancia de coincidencia.

In [None]:
plus_pattern     = r"^A+$"
star_pattern     = r"^A*$"
optional_pattern = r"^A?$"

for string in ["", "A", "AA"]:
    if re.search(plus_pattern, string) != None:
        print(f"'{string}' matches {plus_pattern}")
    if re.search(star_pattern, string) != None:
        print(f"'{string}' matches {star_pattern}")
    if re.search(optional_pattern, string) != None:
        print(f"'{string}' matches {optional_pattern}")
    print('\n')

#### **Ejercicio 1**
Crea una Expresión Regular que busque la coincidencia de uno o más caracteres `A` seguidos por uno o cero caracteres `B`.

<details>
  <summary>Show answer</summary>
      <pre style="background-color: honeydew; padding: 10px; border-radius: 5px;"><code style="background: none;">ab_pattern = "^A+B?$" </code></pre>
</details>

In [None]:
# TODO: Replace the following with your own regex
ab_pattern = "" 

print(re.search(ab_pattern, "AAB") != None, "Should be true")
print(re.search(ab_pattern, "AA") != None, "Should be true")
print(re.search(ab_pattern, "AABBB") != None, "Should be false")
print(re.search(ab_pattern, "BB") != None, "Should be false")

### Secuencias especiales
También podemos usar las siguientes secuencias especiales como atajos para patrones comunes.
- `\d` coincide con un carácter dígito (número)
- `\s` coincide con un carácter de espacio en blanco (espacio, nueva línea, tabulado, etc.)
- `\w` coincide con un carácter de palabra (letra, dígito, o guión bajo)

In [None]:
word_pattern = r"\w+"
number_pattern = r"\d+"
whitespace_pattern = r"\s+"

print(re.findall(word_pattern, "The 22 quick brown foxes jumped over the 304 lazy dogs"))
print(re.findall(number_pattern, "The 22 quick brown foxes jumped over the 304 lazy dogs"))
print(re.findall(whitespace_pattern, "The 22 quick brown foxes jumped over the 304 lazy dogs"))

Si queremos coincidir con un carácter que es un carácter especial, podemos usar la barra inversa `\` para **escapar** del carácter especial (quitar su función de carácter especial).

In [None]:
title_pattern = r"\w+\." # Matches some word characters followed by a period

print(re.findall(title_pattern, "Mr. Smith and Mrs. Smith went to Dr. Hartman for help"))

#### **Ejercicio 2**
Crea una Regex que coincida con palabras enteras de 1-3 letras de largo. Las palabras deben estar rodeadas de espacios a ambos lados.

<details>
  <summary>Show answer</summary>
      <pre style="background-color: honeydew; padding: 10px; border-radius: 5px;"><code style="background: none;">short_word_pattern = r"\s\w{1,3}\s" </code></pre>
</details>

In [None]:
# TODO: Replace the following with your own regex
short_word_pattern = r"" 

print(re.findall(short_word_pattern, " I am going to the mall with my family "))

### Conjuntos**
Hemos visto unos cuantos conjuntos de expresiones regulares, que te permiten buscar coincidencias de varios caracteres diferentes.
- `[A-Z]` coincide con todas las letras mayúsculas
- `[a-z]` coincide con todas las minúsculas
- `[0-9]` coincide con todos los dígitos (también puedes usar `\d`)
- `[xyz]` coincide con `x`, `y`, o `z`
- `[^xyz]` coincide con cualquier cosa *excepto* `x`, `y`, o `z`

#### **Ejercicio 3**
Crea una Expresión Regular que coincida con cualquier cadena de caracteres, rodeada de espacios, que **no** contengan dígitos.

<details>
  <summary>Show answer</summary>
      <pre style="background-color: honeydew; padding: 10px; border-radius: 5px;"><code style="background: none;">short_word_pattern = r"\s\w{1,3}\s" </code></pre>
</details>

In [None]:
# TODO: Replace the following with your own regex
no_numbers_pattern = r"" 

print(re.findall(no_numbers_pattern, " hello hell0 123 coo1 easy 3ASY "))

#### **Ejercicio 4**
Utilice una Expresión Regular para extraer todos los nombres en el siguiente texto, donde los nombres comienzan con una letra mayúscula y sólo contienen letras.

<details>
  <summary>Show answer</summary>
      <pre style="background-color: honeydew; padding: 10px; border-radius: 5px;"><code style="background: none;">name_regex = r"[A-Z][a-z]+"
print(re.findall(name_regex, text))</code></pre>
</details>

In [None]:
text = "Sarah told Ally and Michael that Henry was coming to her party with Chris"

# TODO: Extract all of the names using a regex and findall


## **Conclusión**
En esta lección aprendimos a usar Expresiones Regulares para analizar texto.
- Usando metacaracteres como `+` y `*` para coincidir con un número particular de caracteres
- Usando secuencias especiales como `\d` y `\w` para coincidir con los tipos comunes de símbolos
- Usando conjuntos como `[A-Z]` para que coincidan con uno de varios caracteres posibles

Las expresiones regulares son una herramienta increíblemente útil para el procesamiento del lenguaje, aunque su sintaxis puede ser intimidante. La mejor forma de sentirse cómodo usando Expresiones Regulares es creándolas y probándolas tú mismo. Puede utilizar herramientas como [regex101](https://regex101.com) para probar expresiones regulares con actualizaciones en vivo.

A continuación, echaremos un vistazo a la utilización de herramientas de aprendizaje automático en Python.

[Next Lesson](<./10. Machine Learning.ipynb>)