# <span style="color:green"><center>Diplomado en Inteligencia Artificial y Aprendizaje Profundo</center></span>

# <span style="color:red"><center>Taller de paquete RegEx</center></span>

## <span style="color:blue">Autores</span>

5. Oleg Jarma, ojarmam@unal.edu.co 
6. Laura Lizarazo, ljlizarazore@unal.edu.co 

##   <span style="color:blue">Profesores</span>

1. Alvaro Mauricio Montenegro Díaz, ammontenegrod@unal.edu.co
2. Daniel Mauricio Montenegro Reyes, dextronomo@gmail.com 
3. Campo Elías Pardo Turriago, cepardot@unal.edu.co 

##   <span style="color:blue">Asesora Medios y Marketing digital</span>

4. Maria del Pilar Montenegro, pmontenegro88@gmail.com 

## **¿Qué es?**

Una expresión regular es una secuencia de caracteres que forman un patrón de busqueda. Usando el paquete RegEx, podemos buscar dentro de strings o textos estos mismos patrones.

El correcto uso de este paquete es muy importante. Y puede aplicarse para cosas como text mining o pre procesamiento de bases de datos 

## **Algunos preliminares**


Es necesario hablar de algunos símbolos que nos ayudarán con este paquete.

### Metacaracteres
tenemos algunos caracteres con significado especial

| Caracter    | Uso         |
| :---        |     ---:   |
| \.   | Cualquier caracter        |
| \$   | empieza con        |
| \*   | ninguna o más ocurrencias        |
| \+   | Una o más ocurrencias        |
| \{ \}   | Exactamente el número especificado de caracteres        |
|  \|  | entre las opciones        |
|  \( \)  | capturar o agrupar        |


### Secuencias secuenciales

algunas letras precedidas con un \ causan busquedas distintas

| Caracter      | Uso |
| :---        |    ---:   |
| \A      | Busca si los caracteres están al inicio del string      |
| \b   | Busca si los caracteres están al inicio o al final de una palabra (depende donde se ponga)        |
| \B   | Busca si los caracteres están en el string EXCEPTO al inicio o al final de una palabra       |
| \d   | Busca si el string contiene dígitos        |
| \D   | Busca si el string tiene caracteres que NO SEAN dígitos        |
| \s   | Busca si el string contiene espacios        |
| \S   | Busca si el string tiene caracteres que NO SEAN espacios        |
| \w   | Busca si el string contiene caracteres de palabras(letras, dígitos o '_' )        |
| \W   | Busca si el string tiene caracteres que NO SEAN de palabras        |
| \Z   | busca si los caracteeres están el final del string        |

### Conjuntos

todo lo definido dentro de dos corchetes \[ \] define un conjunto de caracteres con el cual se puede hacer busqueda

| Caracter      | Uso |
| :---        |    ---:   |
| \[arn\]      | Busca los caracteres  a,r,n      |
| \[a-n\]   | Busca los caracteres alfabéticos entre a y n        |
| \[^arn\]   | Busca los caracteres alfabéticos EXCEPTO a,r,n       |
| \[0123\]   | Busca los caracteres numéricos 0,1,2,3        |
| \[0-9\]   | Busca los caracteres numéricos entre 0 y 9        |
| \[0-5\]\[0-9\]   | Busca caracteres numéricos de dos digitos desde 00 y 59        |
| \[a-zA-Z\]   | Busca caracteres alfabéticos, tanto en minúscula como mayúscula        |

Los metacaracteres dentro de los corchetes cuentan como caracteres regulares, así que se buscarán estos mismos

## El Paquete re

Vamos ahora a trabajar con el paquete re y sus distintas funciones

Importamos el paquete

In [1]:
import re

### **Función *findall()***

Esta función nos devolvera una lista con todos las coincidencias encontradas en los textos.

En primer lugar, veamos ejemplos donde hay coincidencias entre el patrón y nuestra cadena de texto.

In [2]:
Texto1_f="Primera cadena de texto"
x1=re.findall("[a-f]",Texto1_f) #elemento requerido, cadena de texto
print(x1)

if (x1):
  print("Sí, hay coincidencias")
else:
  print("No hay coincidencias")

['e', 'a', 'c', 'a', 'd', 'e', 'a', 'd', 'e', 'e']
Sí, hay coincidencias


En segundo lugar, veamos ejemplos dónde no hay coincidencias entre el patrón y nuestra cadena de texto.

In [3]:
Texto2_f="Segunda cadena de texto, veamos"
x2=re.findall("té|segunda|do",Texto2_f)
#print(x2)

if (x2):
  print("Sí, hay coincidencias")
else:
  print("No hay coincidencias")


No hay coincidencias


En esta función, se puede poner más de un patrón del que se espera coincidencia en la cadena de texto.

In [4]:
Texto3_f="Tercera cadena de texto, veamos"
x3=re.findall("o$|^T|te...,",Texto3_f)
print(x3)

['T', 'texto,']


### **Función *search()***

Esta función busca en la cadena una coincidencia y devuelve un *Match object* si existe.

 Si hay más de una coincidencia, solo se devolverá la primera coincidencia.

In [5]:
Texto1_s="eABC defgh IJK éí ae"
x1 = re.search(r"\Be", Texto1_s)
print(x1)
print("Posicion del primer e que no está al inicio ni fin: ", x1.start()) 

<re.Match object; span=(6, 7), match='e'>
Posicion del primer e que no está al inicio ni fin:  6


In [6]:
Texto2_s="123 ABC45 abc xyz"
x2 = re.search("\D", Texto2_s)
print("Posición de primera cadena que no contiene digítos: ", x2.start()) 

Posición de primera cadena que no contiene digítos:  3


Igualmente que en los ejemplos de la función Findall(), se puede poner más de un patrón del que se espera coincidencia en la cadena de texto.

In [7]:
Texto3_s="123 ABC45 abc xyz"
x3 = re.search("\d|\s", Texto3_s)
print("Posición primera en que hay un espacio en blanco o hay digítos: ", x3.start()) 

Posición primera en que hay un espacio en blanco o hay digítos:  0


### **Función *split()***

Esta función busca el caracter y genera un corte de la cadena en las posiciones en donde se encuentra el caracter. 

In [8]:
Texto1_sp="El bueno. El malo. Y el feo"
x1=re.split(".", Texto1_sp)
print(x1)

['', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '']


Por qué sucede esto? porque . es un metacaracter. Para que se cuente como un caracter normal, se puede usar \[.\] ó \\.

In [9]:
x1=re.split("\.", Texto1_sp)
print(x1)

['El bueno', ' El malo', ' Y el feo']


el caracter que se busca va a desaparecer durante el corto

In [12]:
x2=re.split('e', Texto1_sp)
print(x2)

['El bu', 'no. El malo. Y ', 'l f', 'o']


se puede decir el número máximo de separaciones

In [15]:
Texto2_sp='Sólo quiero cortar aquí. El resto no. Por favor no cortes más'
x3=re.split('\.', Texto2_sp, 1)
print(x3)

['Sólo quiero cortar aquí', ' El resto no. Por favor no cortes más']


### **Función *sub()***

Con esta función podemos buscar un caracter en la cadena, y reemplazarlo con otro de nuestra elección

In [17]:
Texto_1_sub='vamos a hacer unos pequeños cambios.'
x1=re.sub('[a]', 'A', Texto_1_sub)
print(x1)

VAmos A hAcer unos pequeños cAmbios.


Podemos usar las secuencias especiales para hacer restricciones a lo que reemplaza

In [34]:
x2=re.sub(r'\b[a-z]', 'V', Texto_1_sub)
print(x2)

Vamos V Vacer Vnos Vequeños Vambios.


Igual que con split(), podemos reducir el número de veces en las que generamos el reemplazo.

In [37]:
x3=re.sub(r'\bV', 'v', x2,1)
print(x3)

vamos V Vacer Vnos Vequeños Vambios.
