<img src="logo.png">

Uno de los problemas más comunes con que nos solemos encontrar al desarrollar cualquier programa informático, es el de procesamiento de texto. Esta tarea puede resultar bastante trivial para el cerebro humano, ya que nosotros podemos detectar con facilidad que es un número y que una letra, o cuales son palabras que cumplen con un determinado patrón y cuales no; pero estas mismas tareas no son tan fáciles para una computadora. Es por esto, que el procesamiento de texto siempre ha sido uno de los temas más relevantes en las ciencias de la computación. Luego de varias décadas de investigación se logró desarrollar un poderoso y versátil lenguaje que cualquier computadora puede utilizar para reconocer patrones de texto; este lenguale es lo que hoy en día se conoce con el nombre de expresiones regulares; las operaciones de validación, búsqueda, extracción y sustitución de texto ahora son tareas mucho más sencillas para las computadoras gracias a las expresiones regulares.

## ¿Qué son las Expresiones Regulares?

Las expresiones regulares, a menudo llamada también regex, son unas secuencias de caracteres que forma un patrón de búsqueda, las cuales son formalizadas por medio de una sintaxis específica. Los patrones se interpretan como un conjunto de instrucciones, que luego se ejecutan sobre un texto de entrada para producir un subconjunto o una versión modificada del texto original. Las expresiones regulares pueden incluir patrones de coincidencia literal, de repetición, de composición, de ramificación, y otras sofisticadas reglas de reconocimiento de texto . Las expresiones regulares deberían formar parte del arsenal de cualquier buen programador ya que un gran número de problemas de procesamiento de texto pueden ser fácilmente resueltos con ellas.

<img src="reg_exp.png" width="500">

In [None]:
import re

### Raw strings

Los *raw strings* de Python son strings usuales a los que les antecede una r. Por ejemplo ``r"SciData"`` es un raw string. Su caraterística principal es que no consideran el símbolo `\` como un escape.

In [None]:
saludo = "Hola\nMundo.\tYa casi terminamos"
print(saludo)

In [None]:
r_saludo = r"Hola\nMundo.\tYa casi terminamos"
print(r_saludo)

## Match: buscar coincidencias en un string conforme a un patrón

In [None]:
txt = "Expresiones regulares en Python"

In [None]:
coincidencia = re.search('Python', txt)# r is for raw strings
print(coincidencia)

In [None]:
if coincidencia:
    print(f"Hubo coincidencia en la frase '{txt}' con la palabra {coincidencia.group()}")
else:
    print("No hubo coincidencia")

In [None]:
coincidencia.span()

## Compile: crear un objeto de tipo regex

In [None]:
mensaje = "Mi número es 610-742-8645"
mi_regex = re.compile(r'\d\d\d-\d\d\d-\d\d\d\d')
res = mi_regex.search(mensaje)
print(res.group())

## Findall: Encontrar todos los patrones en un string y que devuelva todas las coincidencias.


In [None]:
txt = "Expresiones regulares en Python"
resultado = re.findall('e', txt)
print(resultado)

In [None]:
result2 = re.findall('en', txt)
print(result2)

In [None]:
result3 = re.findall('[seo]', txt)
print(result3)

In [None]:
message1 = "Mis números son 610-742-8645 y 563-852-9642"
regex1 = re.compile(r'\d\d\d-\d\d\d-\d\d\d\d')
res1 = regex1.findall(message1)
print(res1)

## Group: to get the matched string

In [None]:
regex2 = re.compile(r'(\d\d\d)-(\d\d\d-\d\d\d\d)')
match1 = regex2.search(mensaje)
print(match1)

In [None]:
match1.group()

In [None]:
match1.group(1)

In [None]:
match1.group(2)

## Escaping Special Characters

In [None]:
str = 'Sentences have dots.\nHow do we escape them?\n'
lst = re.findall('.', str)
print(lst)

In [None]:
lst1 = re.findall('\.', str)
print(lst1)

## Pipe Character (|): match one of many possible group

In [None]:
exp = re.compile(r'Py(thon|mysql|charm)')

In [None]:
res = exp.search("Python es un gran lenguaje de progrmación")
res.group()

In [None]:
res = exp.search("Pymysql es una herramienta para conectar Python con SQL")
res.group()

In [None]:
res = exp.search("Con Pycharm se pueden lograr grandes desarrollos")
res.group()

## ? Character: a lo más una coincidencia

In [None]:
expr = re.compile(r'Pyt(ho)?n')

In [None]:
match = expr.search("Python! a great language.")
match.group()

In [None]:
match = expr.search("Pytn! a great language.")
match.group()

In [None]:
match = expr.search("Pythohon a great language")
print(match)

## * Character: cero o más coincidencias

In [None]:
expr = re.compile(r"Pyt(ho)*n")
match = expr.search("Welcome to the world of Pythohon")
match.group()

## + Character: al menos una coincidencia

In [None]:
expr = re.compile(r'Pyth(o)+n')
match = expr.search("Welcome to the world of Python")
match.group()

## {} : n coincidencias

In [None]:
regex = re.compile(r'(Ho){3}')
match = regex.search("Santa dice HoHoHo")
match.group()

## {m,n} entre m y n coincidencias (máximo de coincidencias)

In [None]:
digit = re.compile(r'(\d){3,8}\d')
match = digit.search("123456789")
match.group()

## Match shortest possible string (add ? symbol) (mínimo de coincidencias)

In [None]:
digit = re.compile(r'(\d){4,8}?')
match = digit.search('123456789')
match.group()

## Match the exact number of characters

In [None]:
string = 'The date is 22/10/2019'
lst = re.findall('[0-9]{1,2}\/[0-9]{1,2}\/[0-9]{4}', string)
print(lst)

## Our own regular expression: Two vowel in a string

In [None]:
regex = re.compile(r'[aeiouAEIOU]{2}')
string = "Welcome to the world of Ai"
regex.findall(string)

## Negative Character Class: ^

In [None]:
regex = re.compile(r'[^aeiouAEIOU]')
string = "The language is PythOn"
regex.findall(string)

## Case Insensitive

In [None]:
string = "The COSMOS is Infinite"
regex = re.compile(r'[aeiou]',re.I)
regex.findall(string)

## Character Classes: \w, \d, \s

In [None]:
# \d: Any numeric digit[0–9]
# \w : sequence of word-like characters [a-zA-Z0–9_] that are not space
# \s: whitespace characters(space,newline,tab)

address = "568 Los Jardines 1145 Altos Dpto.501"
match = re.compile(r'\d+\s\w+\s\w+')
match.findall(address)

## Reference:

https://docs.python.org/3/library/re.html