# 7. Expresiones Regulares
----------------------------



 Hoy en día el procesamiento de texto  se ha convertido en una tarea cotidiana para la programación, para el cerebro humano tal vez esto parezca una tarea trivial pero para las computadoras es dificil detectar que es un número y que es una letra, por ello para que una máquina sea capaz de realizar una busqueda de subcadenas o patrones dentro de otras cadenas de texto de manera eficiente y rápida se usan las __expresiones regulares__.
 
Las expresiones regulares, también conocidas como __'regex'__ o __'regexp'__, son patrones de búsqueda definidos con una sintaxis formal. Siempre que sigamos sus reglas, podremos realizar búsquedas simples y avanzadas, que utilizadas en conjunto con otras funcionalidades, las vuelven una de las opciones más útiles e importantes de cualquier lenguaje.

Las expresiones regulares en Python pueden ser accedidas usando el módulo __re__, el cual es parte de la biblioteca estándar. Luego de que se haya definido una expresión regular, la función re.match puede ser utilizada para ver si corresponder al principio de una cadena. Si se encuentra una correspondencia, match devuelve un objeto que represente la coincidencia, si no, devuelve __None__.

Ejemplo de una expresión regular
![](https://relopezbriega.github.io/images/regex.png)

## Componentes de las Expresiones Regulares

Las expresiones regulares son un mini lenguaje en sí mismo, por lo que para poder utilizarlas eficientemente primero debemos entender los componentes de su sintaxis; ellos son:

* __Literales__: viene a ser una secuencia de caracteres sin significado especial puede ser un conjunto de palabras.
* __Secuencias de escape__: Las secuencias de escape como en muchos lenguajes de programación como el salto de linea __\n__ el tabulador __\t__ y otros
* __Metacaracteres__: Los metacaracteres son caracteres especiales que son la esencia de las expresiones regulares. 
* __Clases de caracteres__: Se pueden especificar clases de caracteres encerrando una lista de caracteres entre corchetes [], la que que encontrará uno cualquiera de los caracteres de la lista. Si el primer símbolo después del "[" es "^", la clase encuentra cualquier caracter que no está en la lista.

### Metacaracteres

Se conoce como metacaracteres a aquellos que, dependiendo del contexto, tienen un significado especial para las expresiones regulares. Por lo tanto, los debemos escapar colocándoles una contrabarra () delante para buscarlos explícitamente.

#### Metacaracteres - delimitadores
Esta clase de metacaracteres nos permite delimitar dónde queremos buscar los patrones de búsqueda. Ellos son

| Metacaracter        | Descripciónn          |
| ------------- |:-------------:|
|   ^   | inicio de linea |
|   $   | fin de linea |
|   \A  | inicio de texto |
|   \Z   | fin de texto |
|  .   | cualquier caracter en la línea |
|  \b   | encuentra límite de palabra |
|  \B  | encuentra distinto a límite de palabra |

#### Metacaracteres - clases predefinidas

Estas son clases predefinidas que nos facilitan la utilización de las expresiones regulares. Ellos son:

| Metacaracter        | Descripciónn          |
| ------------- |:-------------:|
|   \w  | 	un caracter alfanumérico (incluye "_") |
|   \W   | un caracter no alfanumérico |
|  \d   | un caracter numérico |
|  \D  | un caracter no numérico |
|  \s   | cualquier espacio (lo mismo que [ \t\n\r\f]) |
|  \S  | un no espacio |

#### Metacaracteres - iteradores

Cualquier elemento de una expresion regular puede ser seguido por otro tipo de metacaracteres, los iteradores. Usando estos metacaracteres se puede especificar el número de ocurrencias del caracter previo, de un metacaracter o de una subexpresión. Ellos son:

| Metacaracter        | Descripciónn          |
| ------------- |:-------------:|
|* |	cero o más, similar a {0,}|
|+ |	una o más, similar a {1,}|
|? |	cero o una, similar a {0,1}|
|{n} |	exactamente n veces|
|{n,} |	por lo menos n veces|
|{n,m} |	por lo menos n pero no más de m veces|
|*? |	cero o más, similar a {0,}?|
|+? |	una o más, similar a {1,}?|
|?? |	cero o una, similar a {0,1}?|
|{n}? |	exactamente n veces|
|{n,}? |	por lo menos n veces|
|{n,m}? |	por lo menos n pero no más de m veces|

En estos metacaracteres, los dígitos entre llaves de la forma {n,m}, especifican el mínimo número de ocurrencias en n y el máximo en m.




Ahora si empecemos, vamos a usar  la librería estandar de Python podemos encontrar el módulo re, el cual nos proporciona todas las operaciones necesarias para trabajar con las expresiones regulares.

In [1]:
# importando el modulo de regex de python
import re  

### Ahora vamos a probar buscando cadenas en un string

In [2]:
texto = "Bienvenido al curso de programación con Python"

palabra = "Python"
res = re.search(palabra, texto)

if res:
    print("Se ha encontrado la palabra: " + palabra)
else:
    print("La palabra: "+ palabra + " no se encuentra en el texto") # En caso de no encontrar nos retornara None
    
print(res)

Se ha encontrado la palabra: Python
<_sre.SRE_Match object; span=(40, 46), match='Python'>


Vemos que el resultado es un objeto de tipo __Match__, vamos a explorar algunos de sus métodos:

In [3]:
print( res.start() )  # Posición donde empieza la coincidencia
print( res.end() )    # Posición donde termina la coincidencia
print( res.span() )   # Tupla con posiciones donde empieza y termina la coincidencia
print( res.string )   # Cadena sobre la que se ha realizado la búsqueda

40
46
(40, 46)
Bienvenido al curso de programación con Python


In [4]:
texto = """
Hoy en día programar es una carrera entre los ingenieros
del software intentando construir mayores y mejores programas
a prueba de idiotas, y el Universo tratando de producir mayores
y mejores idiotas. Por ahora, el Universo va ganando. 
Rich Cook
"""

Ahora vamos a buscar usando expresiones regulares pero para ello debemos compilar nuestra expresión regular en un __objeto de patrones__ de python:

In [5]:
# compilando la regex
patron = re.compile(r'\bUniverso\b')  # busca la palabra Universo
type(patron)

_sre.SRE_Pattern

Ahora que ya tenemos el objeto de expresión regular compilado podemos utilizar alguno de los siguientes métodos para buscar coincidencias con nuestro texto.

#### match()

Determina si la regex tiene coincidencias en el comienzo del texto.

In [6]:
# match nos devuelve None porque no hubo coincidencia al comienzo del texto
print(patron.match(texto))

None


In [7]:
# match encuentra una coindencia en el comienzo del texto
t = patron.match('Universo 9 ha sido eliminado')
t

<_sre.SRE_Match object; span=(0, 8), match='Universo'>

#### search()

Escanea todo el texto buscando cualquier ubicación donde haya una coincidencia.

In [8]:
s = patron.search(texto)
s

<_sre.SRE_Match object; span=(146, 154), match='Universo'>

#### findall()

Encuentra todos los subtextos donde haya una coincidencia y nos devuelve estas coincidencias como una lista.

In [9]:
# findall nos devuelve una lista con todas las coincidencias
q = patron.findall(texto)
q

['Universo', 'Universo']

#### finditer()
Es similar al anterior pero en lugar de devolvernos una lista nos devuelve un iterador.

In [10]:
itera = patron.finditer(texto)
itera

<callable_iterator at 0x7f84004125c0>

In [11]:
# iterando por las distintas coincidencias
next(itera)

<_sre.SRE_Match object; span=(146, 154), match='Universo'>

In [12]:
next(itera)

<_sre.SRE_Match object; span=(217, 225), match='Universo'>

## Modificación de texto mediante el uso de expresiones regulares

Python nos permite tambien modificar textos mediante el uso de métodos especiales usando expresiones regulares:

In [13]:
# texto de entrada
poema = """Si te sueño porque te quiero,
si te necesito porque te quiero, 
si te pienso porque te quiero,
si te añoro porque te quiero,
¡Te quiero porque te quiero!.
Y te quiero porque eres tú."""

In [14]:
# patron para dividir donde no encuentre un caracter alfanumerico
patron = re.compile(r'\W+')

### método split()

Divide el texto en una lista, realizando las divisiones del texto en cada lugar donde se cumple con la expresion regular.

In [15]:
# Vemos que al separar no toma en cuenta las comas ni los signos de puntuación
# Ya que hemos especificado que solo tome en cuenta los caracteres alfanumericos
palabras = patron.split(poema)
palabras

['Si',
 'te',
 'sueño',
 'porque',
 'te',
 'quiero',
 'si',
 'te',
 'necesito',
 'porque',
 'te',
 'quiero',
 'si',
 'te',
 'pienso',
 'porque',
 'te',
 'quiero',
 'si',
 'te',
 'añoro',
 'porque',
 'te',
 'quiero',
 'Te',
 'quiero',
 'porque',
 'te',
 'quiero',
 'Y',
 'te',
 'quiero',
 'porque',
 'eres',
 'tú',
 '']

In [16]:
# Utilizando la version no compilada de split.
re.split(r'\n', poema)  # Dividiendo por linea.

['Si te sueño porque te quiero,',
 'si te necesito porque te quiero, ',
 'si te pienso porque te quiero,',
 'si te añoro porque te quiero,',
 '¡Te quiero porque te quiero!.',
 'Y te quiero porque eres tú.']

### Método sub()

Encuentra todos los subtextos donde existe una coincidencia con la expresion regular y luego los reemplaza con un nuevo texto.

In [17]:
# Cambiando "Te quiero" o "te quiero" por "me gustas"
old = re.compile(r'\b(T|t)e quiero\b')
cambio = old.sub("me gustas", poema)
print(cambio)

Si te sueño porque me gustas,
si te necesito porque me gustas, 
si te pienso porque me gustas,
si te añoro porque me gustas,
¡me gustas porque me gustas!.
Y me gustas porque eres tú.


## Ahora veamos el uso de los metacaracteres con iteradores

In [18]:
# Nuestra función nos ayudará a encontrar las palabras que cumplan con nuestro patron

def encuentra_patron(lista, frase):
   
    for item in lista:
        print ('Buscando la frase: %r' %item)
        print (re.findall(item, frase))
        print ('\n')

In [19]:
frase = 'aHaH.. aaaHHH... aHHHaHHH...HaHa...maaaaa...aHHHH'

In [20]:
lista_patrones = [  'aH*',       # a seguido de cero o más H
                              'aH+',       # a seguido por una o más  H
                              'aH?',       # a seguido por cero o un H
                              'aH{3}',     # a seguido por tres H
                              'aH{2,3}',   # a seguido por dos a tres H
                            ]

In [21]:
encuentra_patron(lista_patrones, frase)

Buscando la frase: 'aH*'
['aH', 'aH', 'a', 'a', 'aHHH', 'aHHH', 'aHHH', 'aH', 'a', 'a', 'a', 'a', 'a', 'a', 'aHHHH']


Buscando la frase: 'aH+'
['aH', 'aH', 'aHHH', 'aHHH', 'aHHH', 'aH', 'aHHHH']


Buscando la frase: 'aH?'
['aH', 'aH', 'a', 'a', 'aH', 'aH', 'aH', 'aH', 'a', 'a', 'a', 'a', 'a', 'a', 'aH']


Buscando la frase: 'aH{3}'
['aHHH', 'aHHH', 'aHHH', 'aHHH']


Buscando la frase: 'aH{2,3}'
['aHHH', 'aHHH', 'aHHH', 'aHHH']




In [22]:
frase = 'La vida Puede sEr muy Dificil, Pero siemPre Tienes quE Levantarte y Seguir Adelante'

lista_patrones2 = [ '[a-z]+',       # Secuencia de letras minusculas
                            '[A-Z]+',         # Secuencia de letras mayusculas
                            '[a-zA-Z]+',    # Secuencia de letras minusculas y mayusculas 
                            '[A-Z][a-z]+']  # Palabras con letra mayuscula seguida de una letra minuscula

In [23]:
encuentra_patron(lista_patrones2, frase)

Buscando la frase: '[a-z]+'
['a', 'vida', 'uede', 's', 'r', 'muy', 'ificil', 'ero', 'siem', 're', 'ienes', 'qu', 'evantarte', 'y', 'eguir', 'delante']


Buscando la frase: '[A-Z]+'
['L', 'P', 'E', 'D', 'P', 'P', 'T', 'E', 'L', 'S', 'A']


Buscando la frase: '[a-zA-Z]+'
['La', 'vida', 'Puede', 'sEr', 'muy', 'Dificil', 'Pero', 'siemPre', 'Tienes', 'quE', 'Levantarte', 'y', 'Seguir', 'Adelante']


Buscando la frase: '[A-Z][a-z]+'
['La', 'Puede', 'Er', 'Dificil', 'Pero', 'Pre', 'Tienes', 'Levantarte', 'Seguir', 'Adelante']




## Veamos algunos ejemplos

### 1. Validando que el campo ingresado sea un correo

In [24]:
# compilando la regex
correo = re.compile(r'\b[\w.%+-]+@[\w.-]+\.[a-zA-Z]{2,6}\b')  # busca los correos

In [25]:
while True:
    correo_input = input("Ingrese su correo:")
    if(correo.match(correo_input)):
        print("Bienvenido")
        break
    else:
        print("El correo ingresado es incorrecto")

Ingrese su correo:142qasd@uni.asd1
El correo ingresado es incorrecto
Ingrese su correo:maybeThisWorks@test.se
Bienvenido


### 2. Validando que las URL sean https

In [26]:
# Validando una URL
url = re.compile(r"^(https?:\/\/)?([\da-z\.-]+)\.([a-z\.]{2,6})([\/\w \.-]*)*\/?$")

# vemos que https://github.com/gersongams/CursoPython lo acepta como una url válida.
print(url.search("https://github.com/gersongams/CursoPython"))

<_sre.SRE_Match object; span=(0, 41), match='https://github.com/gersongams/CursoPython'>


In [27]:
# Veamos si funciona con
print(url.search("https://github.com/gersongams/This?is?A?URL"))

None


### 3. Validando una dirección IP

In [28]:
# Validando una dirección IP
patron = ('^(?:(?:25[0-5]|2[0-4][0-9]|'
                '[01]?[0-9][0-9]?)\.){3}'
                '(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)$')

ip = re.compile(patron)

listaIP = ["255.255.255.255",
               "256.0.0.255",
               "192.168.12.51",
               "0.0.0.1",
               "182.156.256.1"
               "1.0.0.0",
               "255.256.1.1"]

In [29]:
for item in listaIP:
    if(ip.match(item)):
        print(item + " Es una ip correcta")
    else:
        print(item + " Es una ip incorrecta")

255.255.255.255 Es una ip correcta
256.0.0.255 Es una ip incorrecta
192.168.12.51 Es una ip correcta
0.0.0.1 Es una ip correcta
182.156.256.11.0.0.0 Es una ip incorrecta
255.256.1.1 Es una ip incorrecta


Este material es una adaptación del blog de: 

https://relopezbriega.github.io/blog/2015/07/19/expresiones-regulares-con-python/

In [30]:
# Esta celda da el estilo al notebook
from IPython.core.display import HTML
css_file = '../styles/StyleCursoPython.css'
HTML(open(css_file, "r").read())