Uno de los problemas más comunes con que nos solemos encontrar al desarrollar cualquier programa informático, es el de procesamiento de texto. Esta tarea puede resultar bastante trivial para el cerebro humano, ya que nosotros podemos detectar con facilidad que es un número y que una letra, o cuales son palabras que cumplen con un determinado patrón y cuales no; pero estas mismas tareas no son tan fáciles para una computadora. Es por esto, que el procesamiento de texto siempre ha sido uno de los temas más relevantes en las ciencias de la computación. Luego de varias décadas de investigación se logró desarrollar un poderoso y versátil lenguaje que cualquier computadora puede utilizar para reconocer patrones de texto; este lenguale es lo que hoy en día se conoce con el nombre de expresiones regulares; las operaciones de validación, búsqueda, extracción y sustitución de texto ahora son tareas mucho más sencillas para las computadoras gracias a las expresiones regulares.

## ¿Qué son las Expresiones Regulares?

Las expresiones regulares, a menudo llamada también regex, son unas secuencias de caracteres que forma un patrón de búsqueda, las cuales son formalizadas por medio de una sintaxis específica. Los patrones se interpretan como un conjunto de instrucciones, que luego se ejecutan sobre un texto de entrada para producir un subconjunto o una versión modificada del texto original. Las expresiones regulares pueden incluir patrones de coincidencia literal, de repetición, de composición, de ramificación, y otras sofisticadas reglas de reconocimiento de texto . Las expresiones regulares deberían formar parte del arsenal de cualquier buen programador ya que un gran número de problemas de procesamiento de texto pueden ser fácilmente resueltos con ellas.

In [2]:
import re

In [3]:
pat = r"(Jaime)"
m = re.findall(pat, "Jaime Rodriguez irá con Jaime Perez al cine.")
m

['Jaime', 'Jaime']

Esta es una expresión regular que busca un patrón de correo electrónico:

`/[\w._%+-]+@[\w.-]+\.[a-zA-Z]{2,4}/`

Pero, no te preocupes ... no tienes que entenderlo ahora. La buena noticia es que una expresión regular compleja es simplemente la combinación de varias expresiones regulares muy simples. "¡Divide y vencerás!"

| abc… | Letters |
|-|-|
| 123… | Digits |
| \d | Any Digit |
| \D | Any Non-digit character |
| . | Any Character |
| \. | Period |
| [abc] | Only a, b, or c |
| [^abc] | Not a, b, nor c |
| [a-z] | Characters a to z |
| [0-9] | Numbers 0 to 9 |
| \w | Any Alphanumeric character |
| \W | Any Non-alphanumeric character |
| {m} | m Repetitions |
| {m,n} | m to n Repetitions |
| * | Zero or more repetitions |
| + | One or more repetitions |
| ? | Optional character |
| \s | Any Whitespace |
| \S | Any Non-whitespace character |
| ^…$ | Starts and ends |
| (…) | Capture Group |
| (a(bc)) | Capture Sub-group |
| (.*) | Capture all |
| (abc\|def) | Matches abc or def |

## Raw strings

Los *raw strings* de Python son strings usuales a los que les antecede una r. Por ejemplo ``r"SciData"`` es un raw string. Su caraterística principal es que no consideran el símbolo `\` como un escape.

In [4]:
saludo = "Hola\nMundo.\tYa casi terminamos"
print(saludo)

Hola
Mundo.	Ya casi terminamos


In [5]:
r_saludo = r"Hola\nMundo.\tYa casi terminamos"
print(r_saludo)

Hola\nMundo.\tYa casi terminamos


## Findall: Encontrar todos los patrones en un string y que devuelva todas las coincidencias.

In [8]:
pat = r"Python"
txt = "Programamos en Python con los módulos pytorch y numpy."

n = re.findall(pat, txt)
print(n)

['Python']


In [10]:
pat = r"[Pp]y"
re.findall(pat, txt)

['Py', 'py', 'py']

In [11]:
mensaje = "Mi número es 610-742-8645"
pat = r"[0-9]"
re.findall(pat, mensaje)


['6', '1', '0', '7', '4', '2', '8', '6', '4', '5']

In [None]:
pat = r"\d" #\d es equivalente a buscar numeros del 0-9

In [None]:
pat = r"\D" #encuentra todos los caracteres dentro del string

In [None]:
pat = r"\d(3,4)" #buscar grupos entre 3 y 4 digitos

In [None]:
pat = r"\d+" #se repiten una o mas veces

In [13]:
txt2 = "Mis numeros son 618-742-845 y 663852642"

In [17]:
pat = r"\d+"
m = re.findall(pat, txt2)
m[0]

'618'

In [22]:
txt = "casa, caja, cama"
pat1 = r"ca[sjm]a"
pat2 = r"ca.a"
re.findall(pat1, txt)
re.findall(pat2,txt)

['casa', 'caja', 'cama']

## Group: to get the matched string

In [44]:
txt2 = "Mis números son 610-742-845 y 663852642"
pat4 = r"(\d{3})-?(\d{3})-?(\d{3})"
m = re.findall(pat4, txt2)
m[0]
m[0][0]

'610'

In [14]:
txt = "casa, caja, cama"
result3 = re.findall("ca[sjm]a", txt)
print(result3)

['casa', 'caja', 'cama']


## ? Character: a lo más una coincidencia

In [26]:
expr = re.compile(r'Pyt(ho)?n')

In [27]:
match = expr.search("Python! a great language.")
match.group()

'Python'

## * Character: cero o más coincidencias

## + Character: al menos una coincidencia

## {} : n coincidencias

## {m,n} entre m y n coincidencias (máximo de coincidencias)

## Match the exact number of characters

In [35]:
string = 'The date is 22/10/2019'
lst = re.findall('[0-9]{1,2}\/[0-9]{1,2}\/[0-9]{4}', string)
print(lst)

['22/10/2019']


## ^ start and end $

In [37]:
regex = re.compile(r'[^aeiouAEIOU]')
string = "The language is PythOn"
regex.findall(string)

['T', 'h', ' ', 'l', 'n', 'g', 'g', ' ', 's', ' ', 'P', 'y', 't', 'h', 'n']

## Escaping Special Characters

In [51]:
str = 'Sentences have dots.How do we escape them?\n'
lst = re.findall('\D+\.', str)
print(lst)

['Sentences have dots.']


[Tutorial](https://regexone.com/lesson/introduction_abcs)

[Problems](https://regexone.com/problem/matching_decimal_numbers)

## Reference:

https://docs.python.org/3/library/re.html