# Regex

<span style="color:red"><center>RegEx </center></span>

 **¿Qué es?**

Una expresión regular es una secuencia de caracteres que forman un patrón de busqueda. Usando el paquete RegEx, podemos buscar dentro de strings o textos estos mismos patrones.

El correcto uso de este paquete es muy importante. Y puede aplicarse para cosas como text mining o pre procesamiento de bases de datos 

**Algunos preliminares**

Es necesario hablar de algunos símbolos que nos ayudarán con este paquete.

 Metacaracteres
 tenemos algunos caracteres con significado especial

 | Caracter    | Uso         |
 | :---        |     ---:   |
 | \.   | Cualquier caracter        |
 | \$   | empieza con        |
 | \*   | ninguna o más ocurrencias        |
 | \+   | Una o más ocurrencias        |
 | \{ \}   | Exactamente el número especificado de caracteres        |
 |  \|  | entre las opciones        |
 |  \( \)  | capturar o agrupar        |

 Secuencias secuenciales

 algunas letras precedidas con un \ causan busquedas distintas
 
 | Caracter      | Uso |
 | :---        |    ---:   |
 | \A      | Busca si los caracteres están al inicio del string      |
 | \b   | Busca si los caracteres están al inicio o al final de una palabra (depende donde se ponga)        |
 | \B   | Busca si los caracteres están en el string EXCEPTO al inicio o al final de una palabra       |
 | \d   | Busca si el string contiene dígitos        |
 | \D   | Busca si el string tiene caracteres que NO SEAN dígitos        |
 | \s   | Busca si el string contiene espacios        |
 | \S   | Busca si el string tiene caracteres que NO SEAN espacios        |
 | \w   | Busca si el string contiene caracteres de palabras(letras, dígitos o '_' )        |
 | \W   | Busca si el string tiene caracteres que NO SEAN de palabras        |
 | \Z   | busca si los caracteeres están el final del string        |

  Conjuntos
 
 todo lo definido dentro de dos corchetes \[ \] define un conjunto de caracteres con el cual se puede hacer busqueda
 
 | Caracter      | Uso |
 | :---        |    ---:   |
 | \[arn\]      | Busca los caracteres  a,r,n      |
 | \[a-n\]   | Busca los caracteres alfabéticos entre a y n        |
 | \[^arn\]   | Busca los caracteres alfabéticos EXCEPTO a,r,n       |
 | \[0123\]   | Busca los caracteres numéricos 0,1,2,3        |
 | \[0-9\]   | Busca los caracteres numéricos entre 0 y 9        |
 | \[0-5\]\[0-9\]   | Busca caracteres numéricos de dos digitos desde 00 y 59        |
 | \[a-zA-Z\]   | Busca caracteres alfabéticos, tanto en minúscula como mayúscula        |
 
 Los metacaracteres dentro de los corchetes cuentan como caracteres regulares, así que se buscarán estos mismos

El Paquete re
Vamos ahora a trabajar con el paquete re y sus distintas funciones




Herramienta Regex: https://regex101.com/

Documentación: https://docs.python.org/3/library/re.html

In [1]:
#  Importamos el paquete
import re

# ### **Función *findall()***
# Esta función nos devolvera una lista con todos las coincidencias encontradas en los textos.
# En primer lugar, veamos ejemplos donde hay coincidencias entre el patrón y nuestra cadena de texto.

Texto1_f="Primera cadena de texto"
x1=re.findall("[a-f]",Texto1_f) #elemento requerido, cadena de texto
print(x1)

if (x1):
  print("Sí, hay coincidencias")
else:
  print("No hay coincidencias")


['e', 'a', 'c', 'a', 'd', 'e', 'a', 'd', 'e', 'e']
Sí, hay coincidencias


In [2]:
# En segundo lugar, veamos ejemplos dónde no hay coincidencias entre el patrón y nuestra cadena de texto.

Texto2_f="Segunda cadena de texto, veamos"
x2=re.findall("té|Segunda|do",Texto2_f)
#print(x2)

if (x2):
  print(x2)
  print("Sí, hay coincidencias")
else:
  print("No hay coincidencias")


# En esta función, se puede poner más de un patrón del que se espera coincidencia en la cadena de texto.



['Segunda']
Sí, hay coincidencias


In [4]:
#busca caracteres alfabeticos
Texto3_f="Tercera cadena de texto, veamos"
x3=re.findall("^Ter|te..|cadena",Texto3_f)
print(x3)




['Ter', 'cadena', 'text']


In [5]:
# ### **Función *search()***

# Esta función busca en la cadena una coincidencia y devuelve un *Match object* si existe.
# 
#  Si hay más de una coincidencia, solo se devolverá la primera coincidencia.

# In[46]:
# "r" al principio de la cadena es una marca que indica una cadena cruda (raw string).
#"\B" es una secuencia de escape que se utiliza en expresiones regulares para coincidir con una posición que no está al principio ni al final de una palabra.
# "e" es el carácter que estás buscando.

Texto1_s="eABC defgh IJK éí ae"
x1 = re.search(r"\Be", Texto1_s)
print(x1)
print("Posicion del primer e que no está al inicio ni fin: ", x1.start()) 



<re.Match object; span=(6, 7), match='e'>
Posicion del primer e que no está al inicio ni fin:  6


In [6]:

Texto2_s="134 ABC45 abc xyz"
x2 = re.search("\D", Texto2_s)
print(x2)
print("Posición de primera cadena que no contiene digítos: ", x2.start()) 




<re.Match object; span=(3, 4), match=' '>
Posición de primera cadena que no contiene digítos:  3


In [7]:
# Igualmente que en los ejemplos de la función Findall(), se puede poner más de un patrón del que se espera coincidencia en la cadena de texto.
# "\d": Esta es una secuencia de escape que se utiliza en expresiones regulares para coincidir con cualquier dígito numérico. En este caso, coincide con los dígitos en la cadena.
# "\s": Esta es una secuencia de escape que se utiliza en expresiones regulares para coincidir con cualquier carácter de espacio en blanco, como espacios o tabulaciones.
Texto3_s="N123 ABC45 abc xyz"
x3 = re.search("\d|\s", Texto3_s)
print("Posición primera en que hay un espacio en blanco o hay digítos: ", x3.start()) 




Posición primera en que hay un espacio en blanco o hay digítos:  1


In [8]:
# ### **Función *split()***

# Esta función busca el caracter y genera un corte de la cadena en las posiciones en donde se encuentra el caracter. 
# Aquí se utiliza re.split(".", Texto1_sp) para dividir la cadena Texto1_sp en fragmentos basados en el punto ('.'). 
# Sin embargo, hay un problema con el patrón utilizado. En una expresión regular, el punto ('.') es un carácter especial que coincide con cualquier carácter. Por lo tanto, en lugar de dividir la cadena en función de los puntos,
# este patrón dividirá la cadena en cada carácter individual, lo que no es la intención.
Texto1_sp="El bueno. El malo. Y el feo"
x1=re.split(".", Texto1_sp)
print(x1)




['', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '']


In [9]:
# Por qué sucede esto? porque . es un metacaracter. Para que se cuente como un caracter normal, se puede usar \[.\] ó \\.

x1=re.split("\.", Texto1_sp)
print(x1)




['El bueno', ' El malo', ' Y el feo']


In [10]:
# el caracter que se busca va a desaparecer durante el corte

x2=re.split('e', Texto1_sp)
print(x2)




['El bu', 'no. El malo. Y ', 'l f', 'o']


In [11]:
# se puede decir el número máximo de separaciones

Texto2_sp='Sólo quiero cortar aquí. El resto no. Por favor no cortes más'
x3=re.split('\.', Texto2_sp, 1)
print(x3)




['Sólo quiero cortar aquí', ' El resto no. Por favor no cortes más']


In [12]:
# ### **Función *sub()***

# Con esta función podemos buscar un caracter en la cadena, y reemplazarlo con otro de nuestra elección
#'[a]' es una expresión regular que representa un conjunto de caracteres que contiene solo la letra "a". 
# El conjunto de corchetes [a] coincide con cualquier instancia de la letra "a" en la cadena.
# 'A' es el valor con el que se reemplazará cada coincidencia de la letra "a" en la cadena.

Texto_1_sub='vamos a 1hacer unos pequeños cambios.'
x1=re.sub('[a]', 'A', Texto_1_sub)
print(x1)




vAmos A 1hAcer unos pequeños cAmbios.


In [13]:
# Podemos usar las secuencias especiales para hacer restricciones a lo que reemplaza

#r'\b[a-z]' es una expresión regular que tiene dos partes importantes:
#    \b es una palabra de límite (word boundary). Indica el límite entre una palabra y un no palabra en la cadena.
#    [a-z] representa cualquier letra minúscula en el alfabeto inglés.
#'V' es el valor con el que se reemplazarán todas las coincidencias encontradas.

x2=re.sub(r'\b[a-z]', 'V', Texto_1_sub)
print(x2)




Vamos V 1hacer Vnos Vequeños Vambios.


In [14]:
# Igual que con split(), podemos reducir el número de veces en las que generamos el reemplazo.
#  r'\bV' es una expresión regular que busca la letra "V" al principio de las palabras.
#      \b es un límite de palabra, indicando que "V" debe estar al principio de una palabra.
#      V es el carácter que se busca al principio de las palabras.
#  'v' es el valor con el que se reemplazarán las coincidencias encontradas.
#  x2 es la cadena en la que se realizará la búsqueda y sustitución.
#  2 es el cuarto argumento de re.sub() que indica el número máximo de sustituciones que se realizarán. En este caso, se limita a 2 sustituciones.

x3=re.sub(r'\bV', 'v', x2,3)
print(x3)




vamos v 1hacer vnos Vequeños Vambios.


In [15]:
#from google.colab import drive
#drive.mount('/content/drive')
#%cd '/content/drive/MyDrive/CursoNLP/sesion1/datasets'
#%ls 

In [None]:
# ### **Flags**

# Python nos permite agregar aún más especificaciones a las anteriores funciones por medio del uso de `flags`

love=open("../data/lovecraft.txt","r",encoding="utf-8")
morador=love.read()
print(morador)




FileNotFoundError: [Errno 2] No such file or directory: 'lovecraft.txt'

In [54]:
# Ejecutando la siguiente búsqueda no se encuentran coincidencias ¿Por qué?
#r'^Night had now approached': Esto es una expresión regular.
#   ^ es un anclaje que indica que la búsqueda debe comenzar desde el principio de la cadena.
#   'Night had now approached' es el texto que se está buscando exactamente al comienzo de la cadena.

print(re.search(r'^Night had now approached',morador))




None


In [55]:
# Usando `flags=re.M`podemos pedirle a Python que haga la búsqueda de coincidencias en modo multilinea

print(re.search(r'^Night had now approached',morador,flags=re.M))




<re.Match object; span=(5891, 5915), match='Night had now approached'>


In [56]:
# También podemos hacer búsquedas sin discriminar entre mayúsculas y minúsculas

print(re.findall(r'pageant',morador))

print(re.findall(r'pageant',morador,flags=re.I+re.M))

['pageant', 'pageant', 'pageant', 'pageant', 'pageant', 'pageant', 'pageant']
['pageant', 'pageant', 'pageant', 'pageant', 'pageant', 'pageant', 'pageant']
