In [1]:
import re
import pandas as pd

In [2]:
texto = "Mi número de teléfono es 123-456-7890 y mi correo es ejemplo@dominio.com"

In [3]:
re.search('de', texto)


<re.Match object; span=(10, 12), match='de'>

In [4]:
if re.search('de', texto):
    print("Se encontró la palabra 'de' en el texto.")

Se encontró la palabra 'de' en el texto.


In [5]:
if re.search('manubrio', texto): # Busca la palabra 'manubrio' en el texto
    print("Se encontró la palabra 'manubrio' en el texto.")
else:
    print("No se encontró la palabra 'manubrio' en el texto.")

No se encontró la palabra 'manubrio' en el texto.


In [6]:
re.findall('es', texto) # Encuentra todas las ocurrencias de 'es' en el texto

['es', 'es']

## Limites
\b-limite de palabra  
\B-No es un limite de palabra  
^-inicio de una cadena de texto  
$-Final de una cadena de texto  

In [7]:
re.findall('^Mi', texto,re.M) # Busca la palabra 'Mi' al inicio del texto

['Mi']

In [8]:
re.findall('com$', texto,re.M) # Busca la palabra 'com' al final del texto

['com']

In [9]:
re.findall(r'3\b', texto) # Encuentra todas las ocurrencias del dígito '3' en el texto

['3']

## Cuantificadores:
*- 0 o Mas  
+- 1 o mas  
? - 0 o uno  
{3} - numero exacto  
{3,4} - rango de numeros ( Min, max )


In [10]:
Texto2= '''
Ana U123442 S
Pedro U567890 P
Maria U345678 M
'''

In [11]:
re.findall(r'\w+',Texto2) # Encuentra todas las palabras en el texto

['Ana', 'U123442', 'S', 'Pedro', 'U567890', 'P', 'Maria', 'U345678', 'M']

In [12]:
re.findall(r'U\d+',Texto2) # Encuentra todas las ocurrencias de 'U' seguido de dígitos en el texto

['U123442', 'U567890', 'U345678']

## Conjunto de caracteres
[] - caracteres dentro de los brackets  
[^]- caracteres que no estan dentro de los brackets  

## Grupos
() - Grupo  
| - Uno u otro  

In [13]:
Texto3 = ''' ruta12: http://www.ejemplo.com
ruta34: https://secure.ejemplo.com
ruta56: ftp://ftp.ejemplo.com'''

In [14]:
re.findall(r'ruta[1-4]{2}',Texto3) # Encuentra todas las rutas que terminan en números del 1 al 4

['ruta12', 'ruta34']

In [15]:
paginas = re.findall(r'(http|https|ftp)(://)(www\.)?(\w+.com)?',Texto3) # Encuentra todas las URLs en el texto
paginas=[ ''.join(pagina) for pagina in paginas ]
print(paginas)

['http://www.ejemplo.com', 'https://', 'ftp://']


# Importando un archivo de texto

In [16]:
doc = open('archivo.txt','r')
contenido = doc.read()
print(contenido)
doc.close()

Linea1
Linea2
Linea3


In [17]:
re.findall(r'Linea', contenido)

['Linea', 'Linea', 'Linea']

# Regex y pandas, filtrado de datos


In [18]:
dfreg = pd.DataFrame({
    'Nombre': ['Ana', 'Pedro', 'Maria', 'Luis'],
               'Codigo': ['U123442', 'X567890', 'U345678', 'Y987654'],
                'Edad': [28, 34, 29, 40],
                'Abb': [11, 22, 11, 33],
                'Cdd': [12, 54, 67, 23]

})
dfreg = dfreg.set_index('Codigo')
display(dfreg)

Unnamed: 0_level_0,Nombre,Edad,Abb,Cdd
Codigo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
U123442,Ana,28,11,12
X567890,Pedro,34,22,54
U345678,Maria,29,11,67
Y987654,Luis,40,33,23


In [19]:
dfreg.filter(items=['Abb', 'Cdd'])

Unnamed: 0_level_0,Abb,Cdd
Codigo,Unnamed: 1_level_1,Unnamed: 2_level_1
U123442,11,12
X567890,22,54
U345678,11,67
Y987654,33,23


In [20]:
dfreg.filter(like   ='U', axis=0)

Unnamed: 0_level_0,Nombre,Edad,Abb,Cdd
Codigo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
U123442,Ana,28,11,12
U345678,Maria,29,11,67


# Ejemplo: Analizando un archivo de texto

In [26]:
doc = open('configuraciones.txt','r')
contenido = doc.read()
print(contenido)


show running^M
Building configuration...^M
^M
Current configuration : 166931 bytes^M
!^M
! Last configuration change at 17:30:29 Co Thu Jul 19 2012 by esalgado^M
! NVRAM config last updated at 23:41:23 Co Sun Jul 22 2012^M
!^M
version 12.2^M
no service pad^M
service timestamps debug datetime msec localtime^M
service timestamps log datetime msec localtime^M
service password-encryption^M
service compress-config^M
!^M
hostname villavicencio^M

ip vrf AvalBogAVV^M
 rd 100:16003^M
 export map ARCOM-AVAL^M
 route-target export 100:16003^M
 route-target import 100:16003^M
 route-target import 14080:2000^M
 route-target import 14080:27300^M
!^M
ip vrf AvalBogBBOCis^M
 rd 100:16001^M
 export map ARCOM-AVAL^M
 route-target export 100:16001^M
 route-target export 100:830^M
 route-target import 100:16001^M
 route-target import 100:830^M
 route-target import 14080:27300^M
!^M
ip vrf AvalBogBOC^M
 rd 100:16005^M
 export map ARCOM-BOC^M
 route-target export 100:16005^M
 route-target import 100:16005^

In [25]:
vrfs = re.findall(r'ip\svrf\sAval\w+\^M',contenido)
vrfs

['ip vrf AvalBogAVV^M',
 'ip vrf AvalBogBBOCis^M',
 'ip vrf AvalBogBOC^M',
 'ip vrf AvalBogBPO^M']