![IT%20Logo.png](attachment:IT%20Logo.png)

<div class="alert alert-block alert-info"><font size="5"><center><b><u>Expresiones Regulares Python</u></b></center></font>
    
$%$       
\begin{align*}Alex\:Kumenius - Business\hspace{2mm}Intelligence\hspace{2mm}Data\hspace{2mm}Scientist\end{align*}

\begin{align*}Date : Febrer\hspace{2mm}2021\end{align*}</div>

# <span style=color:purple>[Regular Expression](https://docs.python.org/3/library/re.html)</span>

Un ``RegEx``, o ``Expresión Regular``, es una *secuencia de caracteres* que forma **``un patrón de búsqueda``**.

``RegEx`` se puede usar para verificar si un ``string`` contiene el patrón de búsqueda especificado.

 ## <span style=color:green><ins>Metacharacters</ins></span>

Los ``metacaracteres`` son caracteres con un significado especial:

- ``[]`` -- Un conjunto de caracteres	"[a-m]"	
- ``\``	Señala una secuencia especial (*también puede usarse para escapar de caracteres especiales*)	"\d"	
- ``.``	Cualquier caracter (*excepto el carácter de nueva línea*)	"Bu...s"	
- ``^``	Empieza con	"^Buenos"	
- ``$``	Termina con "dias$"	
- ``*``	Cero o más occurrencias	"aix*"	
- ``+``	Una o más occurrencias	"aix+"	
- ``{}``	Exactamente el número de ocurrencias especificadas	"al{2}"	
- ``|``	Cualquiera o	"falls|stays"	
- ``()``	Captura y agrupa

 ## <span style=color:green><ins>Secuencias Especiales</ins></span>

Una secuencia especial es una **``\``** contra-barra seguida por uno de los caracteres de la siguiente lista, y cada una tiene un significado especial:

- ``\A``	Returns a match if the specified characters are at the beginning of the string	"\AThe"	
            Devuelve una coincidencia si los caracteres especificados están al principio de la cadena
- ``\b``	Returns a match where the specified characters are at the beginning or at the end of a word	r"\bain"
r"ain\b"	
- ``\B``	Returns a match where the specified characters are present, but NOT at the beginning (or at the end) of a word	r"\Bain"
r"ain\B"	
- ``\d``	Returns a match where the string contains digits (numbers from 0-9)	"\d"	
- ``\D``	Returns a match where the string DOES NOT contain digits	"\D"	
- ``\s``	Returns a match where the string contains a white space character	"\s"	
- ``\S``	Returns a match where the string DOES NOT contain a white space character	"\S"	
- ``\w``	Returns a match where the string contains any word characters (characters from a to Z, digits from 0-9, and the underscore _ character)	"\w"	
- ``\W``	Returns a match where the string DOES NOT contain any word characters	"\W"	
- ``\Z``	Returns a match if the specified characters are at the end of the string	"Spain\Z"

Python tiene un paquete incorporado llamado **``re``**, que se puede usar para trabajar con **``expresiones regulares``**.

Importar el módulo de **``re``**:

In [None]:
import re

Busque la cadena para ver si comienza con ``"La"`` y termina con ``"España"``:

In [None]:
txt = "La lluvia en España"
x = re.search("^La.*España$", txt)
x

Podemos *mejorar* el resultado de salida.

In [None]:
if (x):
  print("SI! Existe una Coincidencia!")
else:
  print("No Existe Coincidencia")

## <span style=color:green><ins>Funciones RegEx</ins></span>

El módulo **``re``** ofrece un conjunto de funciones que nos permiten utilizar un ``string (cadena literal)`` para buscar un **coincidencia**:

- **``findall()``**	Devuelve una lista que contiene todas las coincidencias.


In [None]:
str = "La lluvia en España"
x = re.findall("ia", str)
print(x)

La lista contiene las coincidencias en el ``orden`` en que se encuentran.

Si **no** se encuentran coincidencias, se devuelve una lista vacía **``[]``**.

- **``search()``**	Devuelve un objeto coincidente, si hay una coincidencia en cualquier parte del ``string``.

Si hay *``más``* de una coincidencia, solo se devolverá la **``primera``** aparición de la coincidencia:

In [None]:
# Busca el primer carácter de espacio en blanco en la cadena:

str = "La lluvia en España"
x = re.search("\s", str)

print("El primer caracter de espacio en blanco se encuentra en la posicion:", x.start()) 

- **``split()``**	Devuelve una lista donde el ``string`` se ha dividido en cada coincidencia.

In [None]:
# Dividir el string, en cada carácter de espacio en blanco:

#Split the string at every white-space character:

str = "La lluvia en España"
x = re.split("\s", str)
print(x)

Podemos controlar el número de ocurrencias especificando el parámetro ``maxsplit``:

In [None]:
#Split the string at the first white-space character:

str = "La lluvia en España"
x = re.split("\s", str, 2)
print(x)

- **``sub()``**	Reemplaza una o varias coincidencias con un ``string``.

In [None]:
#Replace all white-space characters with the digit "-":

str = "La lluvia en España"
x = re.sub("\s", "-", str)
print(x)

Podemos controlar el número de reemplazos especificando el parámetro de conteo **``count:``**

In [None]:
#Replace the first two occurrences of a white-space character with the digit 9:

str = "La lluvia en España"
x = re.sub("\s", "9", str, 2)
print(x)

In [None]:
# Encuentra todos los caracteres en minúsculas en orden alfabético entre "a" y "m" :
txt = "La lluvia en España"

x = re.findall("[a-m]", txt)
print(x)

In [None]:
str = "Cuesta 23 Euros"

# Encuentra todos los caracteres de dígitos :

x = re.findall("\d", str)
print(x)


In [None]:
str = "Buenos dias"

# Buscamos una secuencia que comience con "Bu", seguido de dos (cualquier) caracteres y una "s":

x = re.findall("Bu...s", str)
print(x)


In [None]:
str = "Buenos dias"

# Comprobamos si el 'string' empieza con 'Buenos':

x = re.findall("^Buenos", str)
if (x):
  print("SI! Existe una Coincidencia!", x)
else:
  print("No Existe Coincidencia")

In [None]:
str = "Buenos dias"

# Comprobamos si el 'string' termina con 'dias':

x = re.findall("dias$", str)

if (x):
  print("SI! Existe una Coincidencia!", x)
else:
  print("No Existe Coincidencia")


In [None]:
str = "The rain in Spain falls mainly in the plain!"

# Comprobamos si el 'string' contiene "ai" seguido por 0 o más "x" caracteres:

x = re.findall("aix*", str)

print(x)

if (x):
  print("SI! Existe una Coincidencia!")
else:
  print("No Existe Coincidencia")

In [None]:
str = "The rain in Spain falls mainly in the plain!"

# Comprobamos si el 'string' contiene "ai" seguido por 1 o más "x" caracteres:

x = re.findall("aix+", str)

print(x)

if (x):
  print("SI! Existe una Coincidencia!")
else:
  print("No Existe Coincidencia")

In [None]:
tr = "The rain in Spain falls mainly in the plain!"

# Comprobamos si el 'string' contiene "a" seguido exactamente de 2 (dos) "l":

x = re.findall("al{2}", str)

print(x)

if (x):
  print("SI! Existe una Coincidencia!")
else:
  print("No Existe Coincidencia")

In [None]:
str = "The rain in Spain falls mainly in the plain!"

# Comprobamos si el 'string' contiene cualesquiera de los siguientes 'strings', "falls" o "stays":

x = re.findall("falls|stays", str)

print(x)

if (x):
  print("SI! Existe una Coincidencia!")
else:
  print("No Existe Coincidencia")

In [None]:
str = "The rain in Spain"

# Comprobamos si el 'string' empieza con "The":

x = re.findall("\AThe", str)

print(x)

if (x):
  print("SI! Existe una Coincidencia!")
else:
  print("No Existe Coincidencia")

In [None]:
str = "The rain in Spain"

# Comprobamos si "ain" esta presente al principio de una PALABRA:

x = re.findall(r"\bain", str)

print(x)

if (x):
  print("SI! Existe una Coincidencia!")
else:
  print("No Existe Coincidencia")

In [None]:
str = "The rain in Spain"

# Comprobamos si "ain" esta presente al FINAL de una PALABRA:

x = re.findall(r"ain\b", str)

print(x)

if (x):
  print("SI! Existe una Coincidencia!")
else:
  print("No Existe Coincidencia")

In [None]:
str = "The rain in Spain"

# Comprobamos si "ain" esta presente, pero NO al principio de una PALABRA:

x = re.findall(r"\Bain", str)

print(x)

if (x):
  print("SI! Existe una Coincidencia!")
else:
  print("No Existe Coincidencia")

In [None]:
str = "The rain in Spain"

# Comprobamos si "ain" esta presente, pero NO al final de una PALABRA:

x = re.findall(r"ain\B", str)

print(x)

if (x):
  print("SI! Existe una Coincidencia!")
else:
  print("No Existe Coincidencia")

In [None]:
str = "The rain in Spain"

#Comprobamos si el 'string' contiene cualquier digito (numeros 0-9):

x = re.findall("\d", str)

print(x)

if (x):
  print("SI! Existe una Coincidencia!")
else:
  print("No Existe Coincidencia")

In [None]:
str = "The rain in Spain"

# Devuelve una coincidencia a cada caracteres NO-Digitos:

x = re.findall("\D", str)

print(x)

if (x):
  print("SI! Existe una Coincidencia!")
else:
  print("No Existe Coincidencia")

In [None]:
str = "The rain in Spain"

# Devuelve una coincidencia en cada espacio en blanco:

x = re.findall("\s", str)

print(x)

if (x):
  print("SI! Existe una Coincidencia!")
else:
  print("No Existe Coincidencia")

In [None]:
str = "The rain in Spain"

# Devuelve una coincidencia a cada caracter que NO sea un espacio en blanco:

x = re.findall("\S", str)

print(x)

if (x):
  print("SI! Existe una Coincidencia!")
else:
  print("No Existe Coincidencia")

In [None]:
str = "The rain in Spain"

#Return a match at every word character (characters from a to Z, digits from 0-9, and the underscore _ character):

x = re.findall("\w", str)

print(x)

if (x):
  print("SI! Existe una Coincidencia!")
else:
  print("No Existe Coincidencia")

In [None]:
str = "The rain in Spain"

#Return a match at every NON word character (characters NOT between a and Z. Like "!", "?" white-space etc.):

x = re.findall("\W", str)

print(x)

if (x):
  print("SI! Existe una Coincidencia!")
else:
  print("No Existe Coincidencia")

In [None]:
str = "The rain in Spain"

#Check if the string ends with "Spain":

x = re.findall("Spain\Z", str)

print(x)

if (x):
  print("SI! Existe una Coincidencia!")
else:
  print("No Existe Coincidencia")

 ## <span style=color:green><ins>Sets</ins></span>

Un **``Set``** es un ``conjunto de caracteres`` dentro de un par de corchetes **``[]``** con un significado especial:

- **``[arn]``** Devuelve una coincidencia donde uno de los caracteres especificados (``a``, ``r``, o ``n``) está presente

In [None]:
str = "The rain in Spain"

#Check if the string has any a, r, or n characters:

x = re.findall("[arn]", str)

print(x)

if (x):
  print("SI! Existe una Coincidencia!")
else:
  print("No Existe Coincidencia")

- **``[a-n]``**	Devuelve una coincidencia para cualquier carácter en minúscula, alfabéticamente entre **``a``** y **``n``**.

In [None]:
#Check if the string has any characters between a and n:

x = re.findall("[a-n]", str)

print(x)

if (x):
  print("SI! Existe una Coincidencia!")
else:
  print("No Existe Coincidencia")

- **``[^arn]``**	Devuelve una coincidencia para cualquier carácter EXCEPTO ``a``, ``r`` y ``n``.

In [None]:
#Check if the string has other characters than a, r, or n:

x = re.findall("[^arn]", str)

print(x)

if (x):
  print("SI! Existe una Coincidencia!")
else:
  print("No Existe Coincidencia")

- **``[0123]``** Devuelve una coincidencia donde cualquiera de los dígitos especificados (``0``, ``1``, ``2`` o ``3``) están presente. 

In [None]:
#Check if the string has any 0, 1, 2, or 3 digits:

x = re.findall("[0123]", str)

print(x)

if (x):
  print("SI! Existe una Coincidencia!")
else:
  print("No Existe Coincidencia")

- **``[0-9]``**	Devuelve una coincidencia para cualquier dígito entre 0 y 9.

In [None]:
#Check if the string has any digits:

str = "8 times before 11:45 AM"

x = re.findall("[0-9]", str)

print(x)

if (x):
  print("SI! Existe una Coincidencia!")
else:
  print("No Existe Coincidencia")

- **``[0-5][0-9]``** Devuelve una coincidencia para cualquier número de dos dígitos de ``00`` y ``59``.

In [None]:
str = "8 times before 11:45 AM"

#Check if the string has any two-digit numbers, from 00 to 59:

x = re.findall("[0-5][0-9]", str)

print(x)

if (x):
  print("SI! Existe una Coincidencia!")
else:
  print("No Existe Coincidencia")

- **``[a-zA-Z]``** Devuelve una coincidencia para cualquier carácter alfabéticamente entre ``a`` y ``z``, tanto en minúsculas O mayúsculas

In [None]:
str = "8 times before 11:45 AM"

#Check if the string has any characters from a to z lower case, and A to Z upper case:

x = re.findall("[a-zA-Z]", str)

print(x)

if (x):
  print("SI! Existe una Coincidencia!")
else:
  print("No Existe Coincidencia")

- **``[+]``** En conjuntos, ``+``, ``*``,``.``, ``|``, ``()``, ``$``, ``{}`` No tienen ningun significado especial, por lo que **``[+]``** significa: devolver una coincidencia para cualquier carácter **``+``** en la cadena

In [None]:
#Check if the string has any + characters:

x = re.findall("[+]", str)

print(x)

if (x):
  print("SI! Existe una Coincidencia!")
else:
  print("No Existe Coincidencia")

 ## <span style=color:green><ins>Objeto Coincidente (Match Object)</ins></span>

Un **``objeto coincidente``** es un objeto que contiene información sobre la búsqueda y el resultado.

<span style=color:red><ins>Nota:</ins></span> Si no hay coincidencia, se devolverá el valor **``None``** - ``Ninguno``, en lugar del objeto coincidente.

In [None]:
#The search() function returns a Match object:

str = "The rain in Spain"
x = re.search("ai", str)
print(x)

El objeto Match tiene propiedades y métodos utilizados para recuperar información sobre la búsqueda y el resultado:

- **``.span()``** devuelve una tupla que contiene las posiciones inicial y final de la coincidencia.
- **``.string``** devuelve la cadena pasada a la función
- **``.group()``** devuelve la parte de la cadena donde hubo una coincidencia

Imprimiremos la posición (posición inicial y final) de la primera aparición de coincidencia.

La expresión regular busca cualquier palabra que empiece con una **``"S"``** mayúscula:

In [None]:
#Search for an upper case "S" character in the beginning of a word, and print its position:

str = "The rain in Spain"
x = re.search(r"\bS\w+", str)
print(x.span())

In [None]:
x

Imprimimos la cadena de literales pasada en la función:

In [None]:
#The string property returns the search string:

str = "The rain in Spain"
x = re.search(r"\bS\w+", str)
print(x.string)

Imprime la parte de la cadena donde existía una coincidencia.

La expresión regular busca cualquier palabra que comience con una **``"S"``** mayúscula:

In [None]:
#Search for an upper case "S" character in the beginning of a word, and print the word:

str = "The rain in Spain"
x = re.search(r"\bS\w+", str)
print(x.group())

In [None]:
'tea for too'.replace('too', 'two')
'tea for two'

---