# Expresiones regulares

#### Una expresión regular es una fórmula en un lenguaje especial que se utiliza para especiﬁcar clases particulares de texto que siguen algún patrón.

In [1]:
import re

la función `compile()` de la libreria `re` se utiliza para deﬁnir una expresión regular, en este caso sólo usamos una palabra tal cual.

Al utilizar expresiones regulares, se debe añadir una `r` antes del texto. De esta manera, Python sabe que no debe esperar caracteres especiales, más que de expresiones regulares. 

Esta es una función del módulo re, y le indica a Python que el texto que recibe como parámetro es una expresión regular y debe interpretarse como tal. 

In [38]:
texto = "Yann Lecun es un científico que trabaja en los campos de Aprendizaje Automático y Neurociencia Computacional."
expresion_regular=re.compile(r"Lecun") # Esto crea un objeto del tipo expresión regular
print(expresion_regular)
resultado_busqueda=expresion_regular.search(texto)
resultado_busqueda

re.compile('.')


<re.Match object; span=(0, 1), match='Y'>

In [3]:
resultado_busqueda.span()

(5, 10)

In [4]:
re.search(r'Lecun', texto) #También podemos utilizar la función de la siguiente manera

<re.Match object; span=(5, 10), match='Lecun'>

In [5]:
re.search(r'Lecun', texto).span()

(5, 10)

Para mostrar el resultado, se usa: group(0). Esto quiere decir que queremos el primer grupo del resultado. Es posible hacer agrupaciones dentro de las expresiones regulares.

In [8]:
resultado_busqueda.group(0)

'Lecun'

In [9]:
resultado_busqueda.span(0)

(5, 10)

 Algo a considerar, es que la función `search()` va a regresar únicamente la primer coincidencia que encuentre, para encontrar todas, se utiliza la función `finditer()`


In [12]:
texto2="Yann Lecun es un científico. Yann Lecun trabaja en los campos de Aprendizaje Automático y Neurociencia Computacional."

expresion_regular=re.compile(r"Lecun") 
resultados_busqueda=expresion_regular.finditer(texto2)
print(resultados_busqueda)
for resultado in resultados_busqueda: 
    print(resultado.group(0))
    print(resultado.span())

#Esta función tiene el mismo comportamiento que search() 
#pero regresa todas las coincidencias, para entrar a cada una de ellas, 
#es necesario usar un bucle para recorrer la variable como si fuera una lista

<callable_iterator object at 0x7fbdcaf91b90>
Lecun
(5, 10)
Lecun
(34, 39)


In [13]:
resultados_busqueda #Objeto iterador 

<callable_iterator at 0x7fbdcaf91b90>

También podemos utilizar la función findall para encontrar coincidencias:

In [14]:
re.findall(r"Lecun", texto2)

['Lecun', 'Lecun']

En el siguiente caso buscamos a través de dos cadenas 

In [15]:
re.findall(r"Lecun|Yann", texto2)

['Yann', 'Lecun', 'Yann', 'Lecun']

Para dividir una cadena utilizamos la función split()

In [16]:
re.split(" ", texto)

['Yann',
 'Lecun',
 'es',
 'un',
 'científico',
 'que',
 'trabaja',
 'en',
 'los',
 'campos',
 'de',
 'Aprendizaje',
 'Automático',
 'y',
 'Neurociencia',
 'Computacional.']

La función re.sub() funciona similar a replace()

In [17]:
texto

'Yann Lecun es un científico que trabaja en los campos de Aprendizaje Automático y Neurociencia Computacional.'

In [18]:
re.sub("Yann Lecun", "Yoshua Bengio", texto)

'Yoshua Bengio es un científico que trabaja en los campos de Aprendizaje Automático y Neurociencia Computacional.'

### Utilizamos funciones especiales de re, para generar patrones

Utilizamos el concepto de metacaracter: Símbolos que tienen un significado especial cuando se colocan dentro de una expresión regular

**El asterisco** lo utilizamos para indicar cero o más coincidencias del carácter que viene inmediatamente antes del metacaracter


In [23]:
texto = "Google Gooogle Goooogle"

expresion_regular=re.compile(r"Goo*") 
resultados_busqueda=expresion_regular.finditer(texto)
for resultado in resultados_busqueda:
    print(resultado.group(0))

Goo
Gooo
Goooo


In [21]:
#El asterisco nos devuelve cero o más coincidencias por eso en el ejemplo de Gle nos esta devolviendo la G 

texto = "Google Gooogle Goooogle Gle Goo"

expresion_regular=re.compile(r"Go*") 
resultados_busqueda=expresion_regular.finditer(texto)
for resultado in resultados_busqueda:
    print(resultado.group(0))

Goo
Gooo
Goooo
G
Goo


Un efecto similar al asterisco lo logra el **símbolo de suma ‘+’.**  La diferencia radica en que la suma signiﬁca al menos una coincidencia

In [24]:
texto = "Google Gooogle Goooogle Gle Goo"

expresion_regular=re.compile(r"Go+") 
resultados_busqueda=expresion_regular.finditer(texto)
for resultado in resultados_busqueda:
    print(resultado.group(0))

Goo
Gooo
Goooo
Goo


**El punto** sirve para encontrar un caracter (el que sea) inmediatamente después de la cadena que se utiliza

In [25]:
texto = 'Yann Lecun es un científico que trabaja en los campos de Aprendizaje Automático y Neurociencia Computacional.'

expresion_regular=re.compile(r"í.") 
resultados_busqueda=expresion_regular.search(texto)
print(resultados_busqueda)

<re.Match object; span=(22, 24), match='íf'>


In [26]:
resultados_busqueda.group(0)

'íf'

In [27]:
texto = "amigos, amigas amig@s"
expresion_regular=re.compile(r"amig.s") 
resultados_busqueda=expresion_regular.finditer(texto)
for resultado in resultados_busqueda:
    print(resultado.group(0))

amigos
amigas
amig@s


El signo de interrogación se utiliza para indicar "Como máximo una coincidencia" del carácter que viene inmediatamente antes

In [32]:
texto = "oscuro, obscuro "
expresion_regular=re.compile(r"o(b)?scuro") 
resultados_busqueda=expresion_regular.finditer(texto)
for resultado in resultados_busqueda:
    print(resultado.group(0))

oscuro
obscuro


El siguiente símbolo especial: `$`. Se utiliza para indicar el ﬁnal del texto.


In [34]:
texto= "Fin del comunicado"
expresion_regular=re.compile(r".$") 
resultado_busqueda=expresion_regular.search(texto)
print(resultado_busqueda.group(0))

.


El siguiente simbolo especial es: {n}, indica exactamente "n" coincidencias del carácter anterior

In [40]:
texto = "Google Gooogle Goooogle"


expresion_regular=re.compile("Go{3}gle") 
resultados_busqueda=expresion_regular.finditer(texto)
for resultado in resultados_busqueda:
    print(resultado.group(0))

Gooogle


El siguiente simbolo es: {n,m} indica “entre n y m coincidencias” del carácter anterior

In [41]:
texto = "Google Gooogle Goooogle G5555gle"


expresion_regular=re.compile(r"Go{2,4}gle") 
resultados_busqueda=expresion_regular.finditer(texto)
for resultado in resultados_busqueda:
    print(resultado.group(0))

Google
Gooogle
Goooogle


In [42]:
texto = "Google Gooogle Goooogle G5555gle"


expresion_regular=re.compile(r"G.{2,4}gle") 
resultados_busqueda=expresion_regular.finditer(texto)
for resultado in resultados_busqueda:
    print(resultado.group(0))

Google
Gooogle
Goooogle
G5555gle


In [43]:
texto4 = "Yann Lecun @ylecun es un científico #IA #@ #DataScience #Yann #1 #hola"
expresion_regular=re.compile(r"#[A-z]+")  #Busca una coincidencia con todo el alfabeto 
resultado_busqueda=expresion_regular.search(texto4)
print(resultado_busqueda.group(0))

#IA


In [44]:
expresion_regular=re.compile(r"#[A-z]+")
resultados_busqueda=expresion_regular.finditer(texto4)
for resultado in resultados_busqueda: 
    print(resultado.group(0))

#IA
#DataScience
#Yann
#hola


In [45]:
expresion_regular=re.compile(r"#[A-z0-9]+") #Busca una coincidencia con todo el alfabeto o números
resultados_busqueda=expresion_regular.finditer(texto4)
for resultado in resultados_busqueda: 
    print(resultado.group(0))

#IA
#DataScience
#Yann
#1
#hola


In [46]:
expresion_regular=re.compile(r"#[A-z0-9\D]+") #Busca una coincidencia con todo el alfabeto, números y símbolos
resultados_busqueda=expresion_regular.finditer(texto4)
for resultado in resultados_busqueda: 
    print(resultado.group(0))

#IA #@ #DataScience #Yann #1 #hola


In [47]:
expresion_regular=re.compile(r"#[^0-9]+") #Busca una coincidencia con todos los que no tengan números
resultados_busqueda=expresion_regular.finditer(texto4)
for resultado in resultados_busqueda: 
    print(resultado.group(0))

#IA #@ #DataScience #Yann #
#hola
