In [1]:
import re
import pandas as pd

## Introducción a expresiones regulares

Son patrones utilizados para encontrar una determinada combinación de caracteres dentro de una cadena de texto

In [4]:
Texto='''Juan Diego Gomez 3213213 rojo azul verde juan@mail.com
Juan Camilo Perez 4341234 azul azul verde camilo@mail.com
Ana Maria Avila 2331123123 verde verde verde anamail.com'''

In [6]:
if re.search('rojo',Texto):
    print('Palabra encontrada')
else:
    print('Palabra no encontrada')

Palabra encontrada


In [7]:
re.findall('azul',Texto)

['azul', 'azul', 'azul']

In [10]:
re.search('rojo',Texto)

<re.Match object; span=(25, 29), match='rojo'>

In [14]:
re.findall('juan',Texto, re.I) #El "re.I" ignora las minusculas y las mayúsculas, de esa manera encuentra la petición de la palabra requerida, sea minúscula o mayúscula, y el "re.I" se le conoce como flag o bandera.

['Juan', 'juan', 'Juan']

### Límites
- \b - Limite de Palabra
- \B - No es un Limite de Palabra
- ^  - Inicio de una cadena de texto
- $  - Final de una cadena de texto

In [16]:
re.findall('^Juan',Texto,re.M)

['Juan', 'Juan']

In [19]:
re.findall('com$',Texto,re.M)

['com', 'com', 'com']

In [21]:
re.findall(r'\b3',Texto)

['3']

In [22]:
re.findall(r'3\b',Texto)

['3', '3']

In [25]:
re.findall(r'4\B',Texto)

['4', '4']

### Coincidencias Basicas

.  - Cualquier Caracter, excepto nueva linea

\d - Cualquier Digitos (0-9)

\D - No es un Digito(0-9)

\w - Caracter de Palabra(a-z,A-Z,0-9, _)

\W - No es un caracter de Palabra

\s - Espacios de cualquier tipo [espacio, tab, nueva linea]

\S - No es un Espacio, Tab o nueva linea

### Cuantificadores:
*-0 o Más

+-1 o Más

?-0 o Uno
 
{3} - Número Exacto

{1,4} - Rango de Números (Minímo, Máximo)


In [27]:
Texto2='''Beto M1235 M
Ana U1246 S
Jaime M432 S
Maria U324 M'''

In [30]:
re.findall(r'\w+',Texto2)

['Beto',
 'M1235',
 'M',
 'Ana',
 'U1246',
 'S',
 'Jaime',
 'M432',
 'S',
 'Maria',
 'U324',
 'M']

In [31]:
re.findall(r'M\d+',Texto2)

['M1235', 'M432']

In [33]:
re.findall(r'M\d{3}',Texto2)

['M123', 'M432']

In [5]:
re.findall(r'\w+@mail.com',Texto)

['juan@mail.com', 'camilo@mail.com']

In [None]:
re.findall(r'\w+@mail.com',Texto)

### Conjuntos de Caracteres

[] - Caracteres dentro de los brackets

[^] . Caracteres que no estan dentro de los brackets

### Grupos

() - Grupo

| - Uno o otro

In [6]:
Texto3='''ruta12: http://pagina.com
ruta15: https://ejemplo.com
ruta22: http://www.pagina.com
ruta38: https://www.ejemplo.com'''

In [13]:
re.findall(r'ruta[1-4]{2}',Texto3)

['ruta12', 'ruta22']

In [18]:
paginas=re.findall(r'(https://|http://)(w{3}.?)?(\w+.com)',Texto3)
paginas=[''.join(pagina) for pagina in paginas]
print(paginas)

['http://pagina.com', 'https://ejemplo.com', 'http://www.pagina.com', 'https://www.ejemplo.com']


In [20]:
paginas=re.findall(r'(https?://)(w{3}.?)?(\w+.com)',Texto3) #Opcional https?://
paginas=[''.join(pagina) for pagina in paginas]
print(paginas) 

['http://pagina.com', 'https://ejemplo.com', 'http://www.pagina.com', 'https://www.ejemplo.com']


### Importando un archivo de texto

In [21]:
doc=open('datasets/regex.txt','r')
texto=doc.read()
doc.close()

In [22]:
print(texto)

"Muchos aÃ±os despuÃ©s, frente al pelotÃ³n de fusilamiento, el coronel aureliano BuendÃ­a habÃ­a de recordar aquella tarde remota en que su padre lo llevÃ³ a conocer el hielo. Macondo era entonces una aldea de veinte casas de barro y caÃ±abrava construida a la orilla de un rÃ­o de aguas diÃ¡fanas que se precipitaban por un lecho de piedras pulidas, blancas y enormes como huevos prehistÃ³ricos. El mundo era tan reciente, que muchas cosas carecÃ­an de nombre, y para mencionarlas habÃ­a que seÃ±alarlas con el dedo.
(...)
JosÃ© Arcadio BuendÃ­a, que era el hombre mÃ¡s emprendedor que se verÃ­a jamÃ¡s en la aldea, habÃ­a dispuesto de tal modo la posiciÃ³n de las casas, que desde todas podÃ­a llegarse al rÃ­o y abastecerse de agua con igual esfuerzo, y trazÃ³ las calles con tan buen sentido que ninguna casa recibÃ­a mÃ¡s sol que otra a la hora del calor. En pocos aÃ±os, Macondo fue una aldea mÃ¡s ordenada y laboriosa que cualquiera de las conocidas hasta entonces por sus trescientos habitant

In [24]:
re.findall(r'Macondo',texto)

['Macondo', 'Macondo', 'Macondo']

In [25]:
re.findall(r'mujer',texto)

['mujer']

In [27]:
re.findall(r'Aureliano',texto,re.I)

['aureliano', 'Aureliano']

## Regex y Pandas, Filtrado de datos

In [31]:
dfreg=pd.DataFrame({
    'nombre':['Pepito Gonzales','Maria Vasquez','Rosa Gomez','Pepito Chavez'],
    'codigo':['co_123','pe_312','mx_546','mx_765'],
    'Abb':[11,34,12,43],
    'Cdd':[12,54,67,32]
})
dfreg=dfreg.set_index('codigo')
display(dfreg)

Unnamed: 0_level_0,nombre,Abb,Cdd
codigo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
co_123,Pepito Gonzales,11,12
pe_312,Maria Vasquez,34,54
mx_546,Rosa Gomez,12,67
mx_765,Pepito Chavez,43,32


In [32]:
dfreg.filter(items=['Abb','Cdd'])

Unnamed: 0_level_0,Abb,Cdd
codigo,Unnamed: 1_level_1,Unnamed: 2_level_1
co_123,11,12
pe_312,34,54
mx_546,12,67
mx_765,43,32


In [38]:
dfreg.filter(like='pe')

co_123
pe_312
mx_546
mx_765


In [36]:
dfreg.filter(like='12',axis=0) #con axis=0 se filtra por filas para ser más exactos

Unnamed: 0_level_0,nombre,Abb,Cdd
codigo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
co_123,Pepito Gonzales,11,12
pe_312,Maria Vasquez,34,54


In [39]:
dfreg.filter(like='co',axis=0)

Unnamed: 0_level_0,nombre,Abb,Cdd
codigo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
co_123,Pepito Gonzales,11,12


In [44]:
dfreg.filter(regex='\w{2}_[1-3]{3}',axis=0)

Unnamed: 0_level_0,nombre,Abb,Cdd
codigo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
co_123,Pepito Gonzales,11,12
pe_312,Maria Vasquez,34,54


In [46]:
dfreg.filter(regex='\w{2}_[4-9]{3}',axis=0)

Unnamed: 0_level_0,nombre,Abb,Cdd
codigo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
mx_546,Rosa Gomez,12,67
mx_765,Pepito Chavez,43,32


## Ejemplo: Analizando un archivo de texto

En el archivo configuraciones txt se proporcionan un conjunto de datos en texto plano, donde se muestra la información de una determinada configuración de servidores. Extraer la información de los ip vrf, en una tabla(DataFrame)

In [2]:
doc=open('datasets/configuraciones.txt','r')
texto=doc.read()
doc.close()

In [48]:
print(texto)

show running^M
Building configuration...^M
^M
Current configuration : 166931 bytes^M
!^M
! Last configuration change at 17:30:29 Co Thu Jul 19 2012 by esalgado^M
! NVRAM config last updated at 23:41:23 Co Sun Jul 22 2012^M
!^M
version 12.2^M
no service pad^M
service timestamps debug datetime msec localtime^M
service timestamps log datetime msec localtime^M
service password-encryption^M
service compress-config^M
!^M
hostname villavicencio^M

ip vrf AvalBogAVV^M
 rd 100:16003^M
 export map ARCOM-AVAL^M
 route-target export 100:16003^M
 route-target import 100:16003^M
 route-target import 14080:2000^M
 route-target import 14080:27300^M
!^M
ip vrf AvalBogBBOCis^M
 rd 100:16001^M
 export map ARCOM-AVAL^M
 route-target export 100:16001^M
 route-target export 100:830^M
 route-target import 100:16001^M
 route-target import 100:830^M
 route-target import 14080:27300^M
!^M
ip vrf AvalBogBOC^M
 rd 100:16005^M
 export map ARCOM-BOC^M
 route-target export 100:16005^M
 route-target import 100:16005^

In [7]:
vrfs=re.findall(r'(ip\svrf\sAval\w+\^M)',texto)
vrfs

['ip vrf AvalBogAVV^M',
 'ip vrf AvalBogBBOCis^M',
 'ip vrf AvalBogBOC^M',
 'ip vrf AvalBogBPO^M']

In [51]:
re.findall(r'(rd)\s(\d+:\d+)',texto)

[('rd', '100:16003'),
 ('rd', '100:16001'),
 ('rd', '100:16005'),
 ('rd', '100:16004')]

In [52]:
re.findall(r'(\w+\s\w+)\s(\w+-\w+)',texto)

[('M\nservice', 'password-encryption'),
 ('M\nservice', 'compress-config'),
 ('export map', 'ARCOM-AVAL'),
 ('export map', 'ARCOM-AVAL'),
 ('export map', 'ARCOM-BOC'),
 ('export map', 'ARCOM-AVAL')]

In [3]:
re.findall(r'(export)\s(\d+:\d+)',texto)

[('export', '100:16003'),
 ('export', '100:16001'),
 ('export', '100:830'),
 ('export', '100:16005'),
 ('export', '100:16004')]

In [4]:
re.findall(r'(import)\s(\d+:\d+)',texto)

[('import', '100:16003'),
 ('import', '14080:2000'),
 ('import', '14080:27300'),
 ('import', '100:16001'),
 ('import', '100:830'),
 ('import', '14080:27300'),
 ('import', '100:16005'),
 ('import', '14080:300400'),
 ('import', '100:16004'),
 ('import', '14080:27300')]

In [5]:
re.search(re.escape('ip vrf AvalBogAVV^M'),texto)

<re.Match object; span=(445, 464), match='ip vrf AvalBogAVV^M'>

In [9]:
posiciones=[re.search(re.escape(vrf),texto).span()[1] for vrf in vrfs]
print(posiciones)

[464, 667, 895, 1061]


In [11]:
patrones=[(r'(export)\s(\d+:\d+)','route-target export'),
          (r'(import)\s(\d+:\d+)','route-target import'),
          (r'(rd)\s(\d+:\d+)','rd'),
          (r'(\w+\s\w+)\s(\w+-\w+)','export map')]

resultado=[]
for k in range(len(posiciones)-1):
    subtexto=texto[posiciones[k]:posiciones[k+1]]
    for patron in patrones:
        for ip in re.findall(patron[0],subtexto):
            resultado.append([vrfs[k][7:-2],ip[1],patron[1]])
df=pd.DataFrame(resultado,columns=['ipvrf','valor','descripcion'])
display(df)

Unnamed: 0,ipvrf,valor,descripcion
0,AvalBogAVV,100:16003,route-target export
1,AvalBogAVV,100:16003,route-target import
2,AvalBogAVV,14080:2000,route-target import
3,AvalBogAVV,14080:27300,route-target import
4,AvalBogAVV,100:16003,rd
5,AvalBogAVV,ARCOM-AVAL,export map
6,AvalBogBBOCis,100:16001,route-target export
7,AvalBogBBOCis,100:830,route-target export
8,AvalBogBBOCis,100:16001,route-target import
9,AvalBogBBOCis,100:830,route-target import


In [14]:
display(df[(df['ipvrf']=='AvalBogAVV')&(df['descripcion']=='route-target import')])

Unnamed: 0,ipvrf,valor,descripcion
1,AvalBogAVV,100:16003,route-target import
2,AvalBogAVV,14080:2000,route-target import
3,AvalBogAVV,14080:27300,route-target import
