<a href="https://colab.research.google.com/github/blancavazquez/PLN/blob/main/notebooks/2_Regex.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 1.2 Expresiones regulares (regex)

El objetivo de esta libreta es estudiar los componentes de una expresión regular: metacaracteres y literales


* Una **Regex**, o expresión regular, es una secuencia de caracteres que forma un patrón de búsqueda.
* **import re**: es un módulo de Python para trabajar con regex
* **findall**: Devuelve una lista de todas las coincidencias de patrones que ocurren en una cadena determinada.

## Metacaracteres

Los metacaracteres son **caracteres** los cuales son interpretados de manera especial por los motores de expresiones regulares. A continuación, se muestra una lista de metacaracteres:

[] . ^ $ * + ? {} () \ |

In [None]:
import re #Módulo para trabajar con expresiones regulares en Python

In [None]:
"""
Signo de . (punto): 	Se utiliza para buscar cualquier carácter individual.
"""
texto = "Hola mundo"
x = re.findall(".o", texto)
print(x)
if x:
  print("El patrón se encuentra en el texto")
else:
  print("Patrón no encontrado")

['Ho', 'do']
El patrón se encuentra en el texto


In [None]:
"""
Signo de * (asterisco): 	Se utiliza para coincidir con cero o más ocurrencias del patrón.
"""
texto = "man maaan mn"
x = re.findall("ma*n", texto)
print(x)
if x:
  print("El patrón se encuentra en el texto")
else:
  print("Patrón no encontrado")

['man', 'maaan', 'mn']
El patrón se encuentra en el texto


In [None]:
"""
Signo de + (más): 	Se utiliza para coincidir con una o más ocurrencias del patrón.
"""
texto = "man maaan mn"
x = re.findall("ma+n", texto)
print(x)
if x:
  print("El patrón se encuentra en el texto")
else:
  print("Patrón no encontrado")

['man', 'maaan']
El patrón se encuentra en el texto


In [None]:
"""
Signo de ? (interrogación)): 	Se utiliza para coincidir con cero o una ocurrencia del patrón.
"""
texto = "man maaan mn"
x = re.findall("ma?n", texto)
print(x)
if x:
  print("El patrón se encuentra en el texto")
else:
  print("Patrón no encontrado")

['man', 'mn']
El patrón se encuentra en el texto


In [None]:
"""
Signo de ^ (acento circunflejo): 	Se utiliza para comprobar si una cadena comienza con un determinado carácter.
"""
texto = "Alba come manzanas" #"La tierra es verde"
x = re.findall("^A", texto)
print(x)
if x:
  print("El patrón se encuentra en el texto")
else:
  print("Patrón no encontrado")

['A']
El patrón se encuentra en el texto


In [None]:
"""
Signo de $: 	Limita la búsqueda al final de una línea.
"""
texto = "tres tristes tigres \nPepe pica papas"
x = re.findall("s$", texto)
print(x)
if x:
  print("El patrón se encuentra en el texto")
else:
  print("Patrón no encontrado")

['s']
El patrón se encuentra en el texto


In [None]:
"""
Signo de \ (diagonal invertida): 	Se utiliza para escapar varios caracteres, incluidos todos los metacaracteres.
"""
texto = "abcde a$a"

x = re.findall("\$a", texto) #busca si una cadena contiene $ seguido de un a
                              #$ no es interpretado como una regex.
print(x)
if x:
  print("El patrón se encuentra en el texto")
else:
  print("Patrón no encontrado")

['$a']
El patrón se encuentra en el texto


In [None]:
"""
Signo de | (tubería): 	Se utiliza para alternancia.
"""
texto = "Los meses de mayo y junio hace mucho calor en Mérida"

x = re.findall("mayo|Oaxaca", texto)
print(x)
if x:
  print("El patrón se encuentra en el texto")
else:
  print("Patrón no encontrado")

['mayo']
El patrón se encuentra en el texto


In [None]:
"""
Signo de {} (llaves): 	Se utiliza para buscar coincidencia entre m y n veces.
"""
texto = "abc abc daat aabc daaaat"

x = re.findall("a{2,3}", texto)
print(x)
if x:
  print("El patrón se encuentra en el texto")
else:
  print("Patrón no encontrado")

['aa', 'aa', 'aaa']
El patrón se encuentra en el texto


In [None]:
"""
Signo de {} (llaves) continúa: 	Se utiliza para buscar coincidencia entre m y n veces.
"""
texto = "ab123csde 12 and 345673 1 and 2"

x = re.findall("[0-9]{2,4}", texto)
print(x)
if x:
  print("El patrón se encuentra en el texto")
else:
  print("Patrón no encontrado")

['123', '12', '3456', '73']
El patrón se encuentra en el texto


In [None]:
"""
Signo de [] (corchetes): 	Especifican un conjunto de caracteres que se desean hacer coincidir.
"""
texto = "HeyJude abcdeca abcisa"

x = re.findall("[abc]", texto) #si la cadena que intenta hacer coincidir contiene cualquiera de las letras a, b o c.
print(x)
if x:
  print("El patrón se encuentra en el texto")
else:
  print("Patrón no encontrado")

['a', 'b', 'c', 'c', 'a', 'a', 'b', 'c', 'a']
El patrón se encuentra en el texto


In [None]:
"""
Signo de [] (corchetes) continúa: 	Especifican un conjunto de caracteres que se desean hacer coincidir.
"""
texto = "HeyJude abcdeca abcisa"

x = re.findall("[^abc]", texto) #significa cualquier carácter excepto a o b o c.
print(x)
if x:
  print("El patrón se encuentra en el texto")
else:
  print("Patrón no encontrado")

['H', 'e', 'y', 'J', 'u', 'd', 'e', ' ', 'd', 'e', ' ', 'i', 's']
El patrón se encuentra en el texto


In [None]:
"""
Signo de [] (corchetes) continúa: 	Especifican un conjunto de caracteres que se desean hacer coincidir.
"""
texto = "HeyJude abcdeca abcisa 2025"

x = re.findall("[^0-9]", texto) #significa cualquier carácter que no sea un dígito.
print(x)
if x:
  print("El patrón se encuentra en el texto")
else:
  print("Patrón no encontrado")

['H', 'e', 'y', 'J', 'u', 'd', 'e', ' ', 'a', 'b', 'c', 'd', 'e', 'c', 'a', ' ', 'a', 'b', 'c', 'i', 's', 'a', ' ']
El patrón se encuentra en el texto


In [None]:
"""
Signo de () (paréntesis): 	Se usan para agrupar subpatrones.
"""
texto = "ab xz abxz axz cabxz"

x = re.findall("(a|b|c)xz", texto) #cualquier cadena que coincida con a, b o c seguida de xz..
print(x)
if x:
  print("El patrón se encuentra en el texto")
else:
  print("Patrón no encontrado")

['b', 'a', 'b']
El patrón se encuentra en el texto


# Secuencias especiales

Las secuencias especiales facilitan la escritura de patrones comunes

In [None]:
"""
\A: Coincide si los caracteres especificados están al comienzo de una cadena.
"""
texto = "the sun \nIn the sun"
numeros = re.findall(r"\Athe", texto)
print(numeros)

['the']


In [None]:
"""
\d: Se utiliza para coincidir con cualquier dígito decimal. Equivalente a [0-9]
+: Indica que debe haber una o más ocurrencias del carácter anterior.
"""
texto = "Este es un ejemplo con números 123 y otros 4567 Python 12abc3"
numeros = re.findall(r"\d+", texto)
print(numeros)

['123', '4567', '12', '3']


In [None]:
"""
\D: Opuesto de \d. Coincide con cualquier dígito no decimal. Equivalente a [^0-9]
"""
texto = "1ab3450"
numeros = re.findall(r"\D", texto)
print(numeros)

['a', 'b']


In [None]:
"""
\b: Coincide si los caracteres especificados están al principio o al final de una palabra.
"""
texto = "football afootball thefoo"
numeros = re.findall(r"\bfoo", texto) #foo\b
print(numeros)

['foo']


In [None]:
"""
\B: Opuesto de \b. Coincide si los caracteres especificados no están al principio ni al final de una palabra.
"""
texto = "football afootball thefoo"
numeros = re.findall(r"\Bfoo", texto)
print(numeros)

['foo', 'foo']


In [None]:
"""
\s: Coincide con una cadena que contiene cualquier espacio en blanco.
"""
texto = "Python RegEx" #PythonRegEx
numeros = re.findall(r"\s", texto)
print(numeros)

[' ']


In [None]:
"""
\w: Coincide con cualquier carácter alfanumérico (dígitos y letras).
    Equivalente a [a-zA-Z0-9_].
    El guión bajo _ también se considera un carácter alfanumérico.
"""
texto = "12&:_;c %>!"
numeros = re.findall(r"\w", texto)
print(numeros)

['1', '2', '_', 'c']


In [None]:
"""
\W: Opuesto a \w
    Coincide con cualquier carácter no alfanumérico.
    Equivalente a [^a-zA-Z0-9_].
"""
texto = "12&:_;c %>!"
numeros = re.findall(r"\W", texto)
print(numeros)

['&', ':', ';', ' ', '%', '>', '!']


In [None]:
"""
\Z: Coincide si los caracteres especificados están al final de una cadena..
"""
texto = "Me gusta Python"
numeros = re.findall(r"Python\Z", texto)
print(numeros)

['Python']


# Explorando más el módulo de expresiones regulares

In [None]:
"""
El método re.findall() devuelve una lista de cadenas que contienen todas las coincidencias.
"""
texto = 'hello 12 hi 89. Howdy 34'
patron = '\d+'
resultado = re.findall(patron, texto)
print(resultado)

['12', '89', '34']


In [None]:
"""
El método re.split divide la cadena donde hay una coincidencia y devuelve una lista de cadenas donde se produjeron las divisiones.
"""
texto = 'hello 12 hi 89. Howdy 34'
patron = '\d+'
resultado = re.split(patron, texto)
print(resultado)
#Si no se encuentra el patrón, re.split() devuelve una lista que contiene la cadena original.

['hello ', ' hi ', '. Howdy ', '']


In [None]:
"""
El método re.sub(pattern, replace, string) devuelve una cadena donde las ocurrencias coincidentes se reemplazan con el contenido de la variable de reemplazo.
"""

texto = 'abc 12\n de 23 \n f45 6'
patron = '\s+' # coincide con todos los caracteres de espacio en blanco
reemplazar = '' #cadena vacía
resultado = re.sub(patron, reemplazar, texto)
print(resultado)

abc12de23f456


In [None]:
"""
El método re.search() acepta dos argumentos: un patrón y una cadena.
El método busca la primera ubicación donde el patrón RegEx produce una coincidencia con la cadena.
Si la búsqueda es exitosa, re.search() devuelve un objeto coincidente; si no, devuelve None.
"""

texto = "Python is fun"
x = re.search('\APython', texto) #revisa si Python está al principio
print(x)
if x:
  print("El patrón se encuentra en el texto")
else:
  print("Patrón no encontrado")

<re.Match object; span=(0, 6), match='Python'>
El patrón se encuentra en el texto


# MatchObject

Representa un patrón de coincidencia, que se obtiene cada vez que se ejecuta una operación

In [None]:
"""
El método group() devuelve la parte de la cadena donde hay una coincidencia.
"""
texto = '2102 1111'
patron = '(\d{3}) (\d{2})' #Número de tres dígitos seguido de un espacio seguido de un número de dos dígitos
x = re.search(patron, texto) #La variable de coincidencia contiene un objeto Match.
print(x)
if x:
  print("El patrón se encuentra en el texto")
else:
  print("Patrón no encontrado")

<re.Match object; span=(1, 7), match='102 11'>
El patrón se encuentra en el texto


In [None]:
"""
La función start() devuelve el índice inicial de la subcadena coincidente.
De forma similar, end() devuelve el índice final de la subcadena coincidente.
La función span() devuelve una tupla que contiene el índice inicial y final de la parte coincidente.
"""

In [None]:
print(x.start())
print(x.end())
print(x.span())

1
7
(1, 7)


In [None]:
"""
El atributo re de un objeto devuelve la expresión regular.
De forma similar, el atributo string devuelve la cadena pasada.
"""

print(x.re)
print(x.string)

re.compile('(\\d{3}) (\\d{2})')
2102 1111
