In [1]:
import re
import pandas as pd

## Introducción a expresiones regulares

 Son patrones utilizados para encontrar una determinada combinación de caracteres dentro de una cadena de texto.

In [2]:
Texto='''Juan Diego Gomez 3213213 rojo azul verde juan@mail.com
Juan Camilo Perez 4341234 azul azul verde camilo@mail.com
Ana Maria Avila 233123123 verde verde verde ana@mail.com'''

In [3]:
if re.search('azul',Texto):
    print('Palabra encontrada')
else:
    print('palabra no encontrada')

Palabra encontrada


In [4]:
re.findall('azul',Texto)

['azul', 'azul', 'azul']

In [5]:
re.search('azul',Texto)

<re.Match object; span=(30, 34), match='azul'>

In [6]:
re.findall('juan',Texto,re.I)

['Juan', 'juan', 'Juan']

### Límites

\b      - Limite de Palabra

\B      - No es un Limite de Palabra

^       - Inicio de una cadena de texto

$       - Final de una cadena de texto

In [7]:
re.findall('^Juan',Texto,re.M)

['Juan', 'Juan']

In [8]:
re.findall('com$',Texto,re.M)

['com', 'com', 'com']

In [9]:
re.findall(r'3\B',Texto)

['3', '3', '3', '3', '3', '3', '3']

## Coincidencias Basicas

.       - Cualquier Caracter, excepto nueva linea

\d      - Cualquier Digitos (0-9)

\D      - No es un Digito (0-9)

\w      - Caracter de Palabra (a-z, A-Z, 0-9, _)

\W      - No es un Caracter de Palabra.

\s      - Espacios de cualquier tipo. (espacio, tab, nueva linea)

\S      - No es un Espacio, Tab o nueva linea.

## Cuantificadores:

\*       - 0 o Más

\+       - 1 o Más

?       - 0 o Uno

{2}     - Numero Exacto

{1,4}   - Rango de Numeros (Minimo, Maximo)

In [10]:
Texto2='''Beto M1235 M
Ana U1246 S
Jaime M432 S
Maria U324 M'''

In [11]:
re.findall(r'\w+',Texto2)

['Beto',
 'M1235',
 'M',
 'Ana',
 'U1246',
 'S',
 'Jaime',
 'M432',
 'S',
 'Maria',
 'U324',
 'M']

In [12]:
re.findall(r'M\d{4}',Texto2)

['M1235']

In [13]:
re.findall(r'\w+@mail.com',Texto)

['juan@mail.com', 'camilo@mail.com', 'ana@mail.com']

## Conjuntos de Caracteres

[]      - Caracteres dentro de los brackets

[^ ]    - Caracteres que NO ESTAN dentro de los brackets

## Grupos

( )     - Grupo

|       - Uno u otro

In [14]:
Texto3='''ruta12: http://pagina.com
ruta15: https://ejemplo.com
ruta22: http://www.pagina.com
ruta38: https://www.ejemplo.com'''

In [15]:
re.findall(r'ruta[2-9]+',Texto3)

['ruta22', 'ruta38']

In [16]:
paginas=re.findall(r'(https?://)(w{3}.?)?(\w+.com)',Texto3)
paginas=[''.join(pagina) for pagina in paginas]
print(paginas)

['http://pagina.com', 'https://ejemplo.com', 'http://www.pagina.com', 'https://www.ejemplo.com']


## Importando un archivo de texto

In [17]:
doc=open('regex.txt','r')
texto=doc.read()
doc.close()

In [18]:
print(texto)

"Muchos años después, frente al pelotón de fusilamiento, el coronel aureliano Buendía había de recordar aquella tarde remota en que su padre lo llevó a conocer el hielo. Macondo era entonces una aldea de veinte casas de barro y cañabrava construida a la orilla de un río de aguas diáfanas que se precipitaban por un lecho de piedras pulidas, blancas y enormes como huevos prehistóricos. El mundo era tan reciente, que muchas cosas carecían de nombre, y para mencionarlas había que señalarlas con el dedo.
(...)
José Arcadio Buendía, que era el hombre más emprendedor que se vería jamás en la aldea, había dispuesto de tal modo la posición de las casas, que desde todas podía llegarse al río y abastecerse de agua con igual esfuerzo, y trazó las calles con tan buen sentido que ninguna casa recibía más sol que otra a la hora del calor. En pocos años, Macondo fue una aldea más ordenada y laboriosa que cualquiera de las conocidas hasta entonces por sus trescientos habitantes. Era en verdad una aldea

In [19]:
re.findall(r'Aureliano',texto,re.I)

['aureliano', 'Aureliano']

## Regex y Pandas, Filtrado de datos

In [20]:
dfreg=pd.DataFrame({
    'nombre':['Pepito Gonzales','Maria Vasquez','Rosa Gomez','Pepito Chavez'],
    'codigo':['co_123','pe_312','mx_546','mx_765'],
    'Abb':[11,34,12,43],
    'Cdd':[12,54,67,32]
})
dfreg=dfreg.set_index('codigo')
display(dfreg)

Unnamed: 0_level_0,nombre,Abb,Cdd
codigo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
co_123,Pepito Gonzales,11,12
pe_312,Maria Vasquez,34,54
mx_546,Rosa Gomez,12,67
mx_765,Pepito Chavez,43,32


In [21]:
dfreg.filter(items=['Ab','Cdd'])

Unnamed: 0_level_0,Cdd
codigo,Unnamed: 1_level_1
co_123,12
pe_312,54
mx_546,67
mx_765,32


In [22]:
dfreg.filter(like='12',axis=0)

Unnamed: 0_level_0,nombre,Abb,Cdd
codigo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
co_123,Pepito Gonzales,11,12
pe_312,Maria Vasquez,34,54


In [23]:
dfreg.filter(regex='\w{2}_[4-9]{3}',axis=0)

Unnamed: 0_level_0,nombre,Abb,Cdd
codigo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
mx_546,Rosa Gomez,12,67
mx_765,Pepito Chavez,43,32


## Ejemplo: Analizando un archivo de texto

En el archivo configuraciones.txt se proporcionan un conjunto de datos en texto plano, donde se muestra la información de una determinada configuración de servidores. Extraer la información de los ip vrf, en una tabla (DataFrame)

In [24]:
doc=open('configuraciones.txt','r')
texto=doc.read()
doc.close()
print(texto)

show running^M
Building configuration...^M
^M
Current configuration : 166931 bytes^M
!^M
! Last configuration change at 17:30:29 Co Thu Jul 19 2012 by esalgado^M
! NVRAM config last updated at 23:41:23 Co Sun Jul 22 2012^M
!^M
version 12.2^M
no service pad^M
service timestamps debug datetime msec localtime^M
service timestamps log datetime msec localtime^M
service password-encryption^M
service compress-config^M
!^M
hostname villavicencio^M

ip vrf AvalBogAVV^M
 rd 100:16003^M
 export map ARCOM-AVAL^M
 route-target export 100:16003^M
 route-target import 100:16003^M
 route-target import 14080:2000^M
 route-target import 14080:27300^M
!^M
ip vrf AvalBogBBOCis^M
 rd 100:16001^M
 export map ARCOM-AVAL^M
 route-target export 100:16001^M
 route-target export 100:830^M
 route-target import 100:16001^M
 route-target import 100:830^M
 route-target import 14080:27300^M
!^M
ip vrf AvalBogBOC^M
 rd 100:16005^M
 export map ARCOM-BOC^M
 route-target export 100:16005^M
 route-target import 100:16005^

In [26]:
vrfs=re.findall(r'(ip\svrf\sAval\w+\^M)',texto)
vrfs

['ip vrf AvalBogAVV^M',
 'ip vrf AvalBogBBOCis^M',
 'ip vrf AvalBogBOC^M',
 'ip vrf AvalBogBPO^M']

In [27]:
re.findall(r'(rd)\s(\d+:\d+)',texto)

[('rd', '100:16003'),
 ('rd', '100:16001'),
 ('rd', '100:16005'),
 ('rd', '100:16004')]

In [28]:
re.findall(r'(\w+\s\w+)\s(\w+-\w+)',texto)

[('M\nservice', 'password-encryption'),
 ('M\nservice', 'compress-config'),
 ('export map', 'ARCOM-AVAL'),
 ('export map', 'ARCOM-AVAL'),
 ('export map', 'ARCOM-BOC'),
 ('export map', 'ARCOM-AVAL')]

In [29]:
re.findall(r'(export)\s(\d+:\d+)',texto)

[('export', '100:16003'),
 ('export', '100:16001'),
 ('export', '100:830'),
 ('export', '100:16005'),
 ('export', '100:16004')]

In [30]:
re.findall(r'(import)\s(\d+:\d+)',texto)

[('import', '100:16003'),
 ('import', '14080:2000'),
 ('import', '14080:27300'),
 ('import', '100:16001'),
 ('import', '100:830'),
 ('import', '14080:27300'),
 ('import', '100:16005'),
 ('import', '14080:300400'),
 ('import', '100:16004'),
 ('import', '14080:27300')]

In [33]:
re.search(re.escape('ip vrf AvalBogAVV^M'),texto).span()[1]

464

In [36]:
posiciones=[re.search(re.escape(vrf),texto).span()[1] for vrf in vrfs]+[len(texto)]
print(posiciones)

[464, 667, 895, 1061, 1207]


In [37]:
patrones=[(r'(export)\s(\d+:\d+)','route-target export'),
          (r'(import)\s(\d+:\d+)','route-target import'),
          (r'(rd)\s(\d+:\d+)','rd'),
          (r'(\w+\s\w+)\s(\w+-\w+)','export map')]

resultado=[]
for k in range(len(posiciones)-1):
    subtexto=texto[posiciones[k]:posiciones[k+1]]
    for patron in patrones:
        for ip in re.findall(patron[0],subtexto):
            resultado.append([vrfs[k][7:-2],ip[1],patron[1]])
df=pd.DataFrame(resultado,columns=['ipvrf','valor','descripcion'])
display(df)

Unnamed: 0,ipvrf,valor,descripcion
0,AvalBogAVV,100:16003,route-target export
1,AvalBogAVV,100:16003,route-target import
2,AvalBogAVV,14080:2000,route-target import
3,AvalBogAVV,14080:27300,route-target import
4,AvalBogAVV,100:16003,rd
5,AvalBogAVV,ARCOM-AVAL,export map
6,AvalBogBBOCis,100:16001,route-target export
7,AvalBogBBOCis,100:830,route-target export
8,AvalBogBBOCis,100:16001,route-target import
9,AvalBogBBOCis,100:830,route-target import


In [38]:
display(df[(df['ipvrf']=='AvalBogAVV') & (df['descripcion']=='route-target import')])

Unnamed: 0,ipvrf,valor,descripcion
1,AvalBogAVV,100:16003,route-target import
2,AvalBogAVV,14080:2000,route-target import
3,AvalBogAVV,14080:27300,route-target import
