# REGEX (Re Regular Expression)

## Introducción a las Expresiones Regulares 
Son patrones que sirver para encontrar una cadena de texto en una texto determinado

In [57]:
import re
import pandas as pd
import numpy as np

In [1]:
Texto='''Juan Diego Gomez 3213213 rojo azul verde juan@mail.com 
Juan Camilo Perez 4341234 azul azul verde camilo@mail.com
Ana Maria Avila 233123123 verde verde verde ana@mail.com'''

In [3]:
re.search('azul',Texto)

<re.Match object; span=(30, 34), match='azul'>

In [5]:
re.search('verde',Texto)

<re.Match object; span=(35, 40), match='verde'>

In [6]:
if re.search('morado',Texto):
    print('Palabra encontrada')
else:
    print('No se encontro la palabra')

No se encontro la palabra


In [7]:
if re.search('azul',Texto):
    print('Palabra encontrada')
else:
    print('No se encontro la palabra')

Palabra encontrada


In [8]:
re.findall('azul',Texto)  ## busca todas las palabras contenidas en el texto

['azul', 'azul', 'azul']

In [9]:
re.findall('Juan', Texto)

['Juan', 'Juan']

In [10]:
re.findall('Juan', Texto, re.I) ## minusculas y mayusculas, conocido como flap o bandera

['Juan', 'juan', 'Juan']

## Limites
Nos permiten identificar las caracteristicas de un texto, en cuanto a limites


\b - Limite de Palabra

\B - No es un limite de palabra

^  - Inicio de una cadena de texto

$ -  Final de una cadena de texto

In [11]:
re.findall('^Juan', Texto)  ## python no reconoce los saltos de linea

['Juan']

In [12]:
re.findall('^Juan', Texto,re.M) ## Busca en cada linea 

['Juan', 'Juan']

In [13]:
re.findall('com$', Texto)

['com']

In [14]:
re.findall('com$', Texto, re.M)

['com', 'com']

In [15]:
re.findall('3',Texto)

['3', '3', '3', '3', '3', '3', '3', '3', '3']

In [16]:
re.findall('\b3',Texto)

[]

In [17]:
re.findall(r'\b3',Texto)

['3']

In [18]:
re.findall(r'3\b',Texto)

['3', '3']

## Coincidencias Basicas

. - Cualquier caracter, excepto nueva línea

\d - Cualquier digitos (0-9)

\D - No es un digito de (0-9)

\w - Caracter de plabra (a-z, A-Z, 0-9, _)

\W - No es un caracter de palabra

\s - Espacios de cualquier tipo(espacio, tab, nueva linea)

\S - No es un espacio, tabulador o nueva línea 

## Cuantificadores

* - 0 o Más
 
+ - 1 o Más

? - 0 o Más

{3}- Número Exacto

{3,4} - Rango de Números (Minimo, Maximo)

In [20]:
Texto2= '''Beto M1235 M
Ana U1246 S 
Jaime M432 S
Maria U324 M'''

In [21]:
re.findall(r'\w',Texto2) ##Busco todas las letras

['B',
 'e',
 't',
 'o',
 'M',
 '1',
 '2',
 '3',
 '5',
 'M',
 'A',
 'n',
 'a',
 'U',
 '1',
 '2',
 '4',
 '6',
 'S',
 'J',
 'a',
 'i',
 'm',
 'e',
 'M',
 '4',
 '3',
 '2',
 'S',
 'M',
 'a',
 'r',
 'i',
 'a',
 'U',
 '3',
 '2',
 '4',
 'M']

In [22]:
re.findall(r'\w+',Texto2) ##Busco todas las palabras pues suma todos caracteres que siguen

['Beto',
 'M1235',
 'M',
 'Ana',
 'U1246',
 'S',
 'Jaime',
 'M432',
 'S',
 'Maria',
 'U324',
 'M']

In [23]:
re.findall(r'M\d+',Texto2) ##Busco todas lo que comienza por M mas un digito

['M1235', 'M432']

In [24]:
re.findall(r'M\d{3}',Texto2)#Busco todas lo que comienza por M mas 3 digitos al final

['M123', 'M432']

In [25]:
re.findall(r'M\d{4}',Texto2)#Busco todas lo que comienza por M mas 4 digitos al final

['M1235']

In [28]:
re.findall(r'\w+@mail.com',Texto)

['juan@mail.com', 'camilo@mail.com', 'ana@mail.com']

## Conjunto de Caracteres

[] - Caracteres dentro de los brackets

[^] - Caracteres que no estan dentro de los brackets

## Grupos 

() - Grupo  Buscan patrones pero por bloques

| - Uno u oto

In [31]:
Texto3='''ruta12: http://pagina.com
ruta15:http://ejemplo.com 
ruta22:http://www.pagina.com
ruta38:https://www.ejemplo.com'''

In [34]:
re.findall(r'ruta[1-3]{2}',Texto3)

['ruta12', 'ruta22']

In [35]:
re.findall(r'ruta[2-9]{2}',Texto3)

['ruta22', 'ruta38']

In [36]:
re.findall(r'ruta[2-9]+',Texto3)

['ruta22', 'ruta38']

In [38]:
re.findall(r'(https://)',Texto3)

['https://']

In [40]:
re.findall(r'(https://|http://)',Texto3)

['http://', 'http://', 'http://', 'https://']

In [41]:
re.findall(r'(https://|http://)(w{3})',Texto3)

[('http://', 'www'), ('https://', 'www')]

In [46]:
paginas=re.findall(r'(https://|http://)?(w{3}.?)?(\w+.com)',Texto3)  ## el signo de pregunta significa que es opcional

In [50]:
paginas=[''.join(pagina) for pagina in paginas]
print(paginas)

['http://pagina.com', 'http://ejemplo.com', 'http://www.pagina.com', 'https://www.ejemplo.com']


In [52]:
paginas=re.findall(r'(https?://)(w{3}.?)?(\w+.com)',Texto3)  ## el signo de pregunta significa que es opcional
print(paginas)

[('http://', '', 'pagina.com'), ('http://', '', 'ejemplo.com'), ('http://', 'www.', 'pagina.com'), ('https://', 'www.', 'ejemplo.com')]


## Importar un archivo de Texto 

In [64]:
doc=open('regex.txt', 'r' )
texto=doc.read()
doc.close()

In [65]:
print(texto)

Un nuevo rostro en el poder sirio

Abu Mohammed Al-Julani, anteriormente asociado con el extremismo yihadista de Al Qaeda, ha evolucionado hacia un lÃ­der con
creciente reconocimiento internacional. Al frente de Hayat Tahrir al Sham (HTS) o EjÃ©rcito para la LiberaciÃ³n del Levante,
 Al-Julani se ha posicionado como el principal lÃ­der del grupo armado de oposiciÃ³n en Siria. Transformando su imagen, ha 
 participado en entrevistas con destacados medios internacionales, consolidÃ¡ndose como una figura central en el movimiento 
 rebelde que desafÃ­a al rÃ©gimen de Bachar el Assad.


In [56]:
re.findall(r'Al-Julani',texto)

['Al-Julani', 'Al-Julani']

In [57]:
re.findall(r'Sham',texto)

['Sham']

In [67]:
re.findall(r'Mohammed',texto,re.I)

['Mohammed']

## Regex y Pandas, Filtrado de datos

In [71]:
dfreg=pd.DataFrame({
    'nombre':['Pepito Gonzalez','Maria Vasquez','Rosa Gomez','Pepito Chavez'],
    'codigo':['co_123','pe_312','mx_546','mx_765'],
    'Abb':[11,34,12,43],
    'Cdd':[12,54,67,32],
   })
dfreg=dfreg.set_index('codigo')
display(dfreg)

Unnamed: 0_level_0,nombre,Abb,Cdd
codigo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
co_123,Pepito Gonzalez,11,12
pe_312,Maria Vasquez,34,54
mx_546,Rosa Gomez,12,67
mx_765,Pepito Chavez,43,32


In [72]:
dfreg.filter(items=['Abb','Cdd']) ## filter comprueba que ese nommbre exista

Unnamed: 0_level_0,Abb,Cdd
codigo,Unnamed: 1_level_1,Unnamed: 2_level_1
co_123,11,12
pe_312,34,54
mx_546,12,67
mx_765,43,32


In [73]:
dfreg.filter(like='pe')

co_123
pe_312
mx_546
mx_765


In [74]:
dfreg.filter(like='12')

co_123
pe_312
mx_546
mx_765


In [75]:
dfreg.filter(like='99') ## no aparece nada

co_123
pe_312
mx_546
mx_765


In [76]:
dfreg.filter(like='99',axis=0)

Unnamed: 0_level_0,nombre,Abb,Cdd
codigo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1


In [77]:
dfreg.filter(like='12',axis=0) ##para filtrar verdaderamente

Unnamed: 0_level_0,nombre,Abb,Cdd
codigo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
co_123,Pepito Gonzalez,11,12
pe_312,Maria Vasquez,34,54


In [78]:
dfreg.filter(regex='co',axis=0)

Unnamed: 0_level_0,nombre,Abb,Cdd
codigo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
co_123,Pepito Gonzalez,11,12


In [79]:
dfreg.filter(regex='\w{2}_[1-3]{3}',axis=0)

  dfreg.filter(regex='\w{2}_[1-3]{3}',axis=0)


Unnamed: 0_level_0,nombre,Abb,Cdd
codigo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
co_123,Pepito Gonzalez,11,12
pe_312,Maria Vasquez,34,54


In [80]:
dfreg.filter(regex='\w{2}_[4-9]{3}',axis=0)

  dfreg.filter(regex='\w{2}_[4-9]{3}',axis=0)


Unnamed: 0_level_0,nombre,Abb,Cdd
codigo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
mx_546,Rosa Gomez,12,67
mx_765,Pepito Chavez,43,32


## Ejemplo: Analizando un archivo de texto 

In [5]:
doc=open('cuentos.txt','r',encoding='utf-8') ## utilizo el enconding para para que me pueda abrir el archivo de texto
cuentos=doc.read()
doc.close()
print(cuentos)


1. El joven pastor y el lobo
cuentos cortos

Datos del Cuento
Titulo: El joven pastor y el lobo
Autor: Gaspar Ospina
Personajes: 2
Año: 1826
País: Francia
Audiencia: Infantil 
Calificación: Bet Seller

En un pueblo muy lejano, había un joven pastor que cuidaba un rebaño de ovejas. Pero este joven tenía una mala costumbre: engañaba a las personas del pueblo gritando:

—¡Es el lobo! ¡Es el lobo!

Las personas venían a ayudarle, solo para descubrir que el joven mentía, una y otra vez.

Un día, ocurrió que el lobo se apareció entre las ovejas, y el joven pastor, desesperado, comenzó a gritar, esta vez en serio:

—¡Es el lobo! ¡Es el lobo! ¡Está matando a las ovejas del rebaño!

Pero nadie le creyó y no recibió ayuda. Y así, el lobo se encontró a sus anchas y todas las ovejas murieron.

Moraleja: Nadie le cree a un mentiroso, aun cuando diga la verdad.

Este clásico de la literatura infantil, tomado de las fábulas de Esopo, enseña a los más pequeños sobre los peligros y consecuencias del v

In [9]:
DatosCuento=re.findall('Datos',cuentos)
display(DatosCuento)

['Datos', 'Datos', 'Datos', 'Datos', 'Datos', 'Datos', 'Datos', 'Datos']

In [15]:
doc2=open('ipServidores.txt', 'r', encoding='utf-8')
ips=doc2.read()
doc2.close()
print(ips)

En este escenario básicamente dividimos la interface fastethernet 0/0 en múltiples sub-interfaces y asignamos cada sub-interface a un VRF específico (Interface fastethernet 0/0.10 en VPN_10 y fastethernet0/0.20 en VPN_20).

Vamos a ver la configuración para explicar paso a paso el propósito de cada comando:

hostname R1
!
ip vrf VPN_10
 rd 10:10 
!
ip vrf VPN_20
 rd 20:20
!
interface FastEthernet0/0.10
 encapsulation dot1Q 10
 ip vrf forwarding VPN_10
 ip address 10.10.0.1 255.255.255.0
!
interface FastEthernet0/0.20
 encapsulation dot1Q 20
 ip vrf forwarding VPN_20
 ip address 10.20.0.1 255.255.255.0
!
ip route vrf VPN_10 192.168.10.0 255.255.255.0 10.10.0.2
ip route vrf VPN_20 192.168.20.0 255.255.255.0 10.20.0.2
!
end


Empezaremos con la creación del VRF:

ip vrf VPN_10 : Estamos creando una tabla de enrutamiento virtual en este router denominada VPN_10

rd 10:10 : Estamos creando un identificador para las rutas en un VRF específico; en futuros eventos veremos que yo al utilizar VR

In [19]:
vrfs=re.findall(r'(ip\svrf\sVPN\w+)', ips)
vrfs

['ip vrf VPN_10',
 'ip vrf VPN_20',
 'ip vrf VPN_10',
 'ip vrf VPN_10',
 'ip vrf VPN_20']

In [37]:
rd=re.findall(r'(rd\s\d+:\d+)',ips)
rd

['rd 10:10', 'rd 20:20', 'rd 10:10', 'rd 10:10', 'rd 20:20']

In [41]:
address=re.findall(r'(\w+\s\w+ress)\s(\d+.\d+.\d+.\d+)',ips)
address

[('ip address', '10.10.0.1'),
 ('ip address', '10.20.0.1'),
 ('ip address', '10.10.0.2'),
 ('ip address', '10.20.0.2'),
 ('ip address', '192.168.10.1'),
 ('ip address', '192.168.20.1')]

In [44]:
ip=re.findall(r'(ip\s\w+\s\w+\d)', ips)
ip

['ip vrf VPN_10',
 'ip vrf VPN_20',
 'ip address 10',
 'ip address 10',
 'ip vrf VPN_10',
 'ip vrf VPN_10',
 'ip vrf VPN_20',
 'ip address 10',
 'ip address 10',
 'ip address 192',
 'ip address 192']

In [47]:
ip=re.findall(r'(ip)\s(\w+\s\w+\d)', ips)
ip

[('ip', 'vrf VPN_10'),
 ('ip', 'vrf VPN_20'),
 ('ip', 'address 10'),
 ('ip', 'address 10'),
 ('ip', 'vrf VPN_10'),
 ('ip', 'vrf VPN_10'),
 ('ip', 'vrf VPN_20'),
 ('ip', 'address 10'),
 ('ip', 'address 10'),
 ('ip', 'address 192'),
 ('ip', 'address 192')]

In [48]:
re.search(re.escape('interface Loopback1'), ips).span()[1] ## me da el span y esto me da las posisiones 

<re.Match object; span=(2127, 2146), match='interface Loopback1'>

In [52]:
posiciones=[re.search(re.escape(vrf), ips).span()[1] for vrf in vrfs]
print(posiciones)

[337, 364, 337, 337, 364]


In [53]:
posiciones=[re.search(re.escape(vrf), ips).span()[0] for vrf in vrfs]
print(posiciones)

[324, 351, 324, 324, 351]


In [54]:
posiciones=[re.search(re.escape(vrf), ips).span()[0] for vrf in vrfs] +[len(ips)]
print(posiciones)

[324, 351, 324, 324, 351, 7912]


In [None]:
patrones=[(r'(ip\svrf\sVPN\w+)','vrf'),
          (r'(ip)\s(\w+\s\w+\d)', 'ip'),
          (r'(\w+\s\w+ress)\s(\d+.\d+.\d+.\d+)', 'address')]

resultado=[]
for k in range(len(posiciones)-1):
    subips=ips[posiciones[k]]:posiciones[k+1]
    for patron in patrones:
        for ip in re.findall(patron[0],subips):
            resultado.append([])

In [55]:
string = 'bat, lat, mat, bet, let, met, bit, lit, mit, bot, lot, mot'

result = re.findall('b[ao]t', string)

print(result)

['bat', 'bot']


In [59]:
a1 = np.random.rand(4)
a2 = np.random.rand(4, 1)

a3 = np.array([[1, 2, 3, 4]])

a4 = np.arange(1, 4, 1)

a5 = np.linspace(1 ,4, 4)

In [60]:
display(a1)

array([0.42487348, 0.80981333, 0.17106261, 0.85145011])

In [61]:
display(a2)

array([[0.5563773 ],
       [0.49434383],
       [0.99096866],
       [0.28681959]])

In [62]:
display(a3)

array([[1, 2, 3, 4]])

In [64]:
display(a4)

array([1, 2, 3])

In [65]:
display(a5)

array([1., 2., 3., 4.])